BR112016006860B1

BR112016006860B1 - Aparelho e método para criar um único fluxo de dados de informações combinadas para renderização em um dispositivo de computação do cliente

Info

Publication number: BR112016006860B1
Application number: BR112016006860-2A
Authority: BR
Inventors: Michael L. Needham; Kevin L. Baum; Stephen P. Emeott; Anthony J. Braskich; Faisal Ishtiaq; Bhavan Gandhi; Alfonso Martinez Smith; Benedito J. Fonseca Jr.; Renxiang Li; Isselmou Ould Dellahy
Original assignee: Arris Enterprises, Inc.
Priority date: 2013-09-13
Filing date: 2014-09-11
Publication date: 2022-06-28
Also published as: CA2924065A1; US9888279B2; MX2016003315A; CA2924065C; WO2015038749A1; BR112016006860A2; BR112016006860B8; MX349609B; US20150082349A1

Abstract

SEGMENTAÇÃO DE CONTEÚDO DE VÍDEO COM BASE EM CONTEÚDO. Um método recebe conteúdo de vídeo e metadados associados ao conteúdo de vídeo. O método, em seguida, extrai as características de conteúdo de vídeo com base nos metadados. Porções das características de áudio, visuais e textuais são fundidas em características de composição que incluem várias características das características de áudio, visuais e textuais. Um conjunto de segmentos de vídeo do conteúdo de vídeo é identificado com base nas características de composição do conteúdo de vídeo. Além disso, os segmentos podem ser identificadas com base em uma pesquisa de usuário.

Description

Referências cruzadas de pedidos relacionados

[001] A presente invenção reivindica prioridade ao Pedido de Patente Provisório No. US 61/877.292, intitulado "Habilitação de experiências de visualização melhoradas", depositado em 13 de setembro de 2013, o conteúdo do qual é aqui incorporado por referência na sua totalidade para todos os fins.

Fundamentos

[002] Videos podem ser usados para transmitir uma ampla variedade de conteúdo audiovisual. A partir do conteúdo de video de entretenimento, como filmes, programas de televisão, videos de música e afins, para conteúdo informativo ou instrucional, como noticiários, documentários, anúncios de produtos e materiais educativos, conteúdo de video oferece um meio rico e eficaz para a comunicação de informações.

[003] O conteúdo de video está disponivel em formato digital e pode ser gravado ou transmitido em um ou mais formatos eletrônicos. Por exemplo, provedores de serviços de televisão por satélite e a cabo tradicionais transmitem sinais digitais de video ao vivo e pré-gravados para os consumidores sobre meios de comunicação eletrônicos com e sem fio correspondentes em tempo real de acordo com um horário de transmissão. Ou seja, telespectadores de televisão convencional (TV) geralmente consomem conteúdo de TV linearmente; por exemplo, eles geralmente assistem a um programa de TV do inicio ao fim com as interações limitadas, como pausar, retroceder e avanço rápido. Além disso muitos provedores de serviço de televisão a cabo e satélite, e outros serviços baseados na internet, desenvolveram funcionalidade para fornecer conteúdo de video para consumidores que utilizam os chamados sistemas de "video sob demanda" (VOD). Sistemas de VOD permitem que os provedores de serviços forneçam características de video específicos, como programas de televisão, filmes e semelhantes, em resposta às solicitações do usuário para qualquer número de dispositivos clientes para visualização. Esse video ao vivo e conteúdo de VOD é geralmente transmitido como dados de video. Os dados de video podem incluir constituintes dados visuais, dados de áudio, e, em alguns casos, dados textuais (por exemplo, dados de legenda oculta (closed caption,)). Como os usuários experimentam outras tecnologias de video, eles esperam mais funcionalidade e experiências de seus provedores de conteúdo de TV. Mais especificamente, os usuários esperam capacidade de procurar por conteúdo, assistir a conteúdos de uma forma não linear, ou assistir somente o conteúdo que lhes interessa.

[004] Em muitos dos formatos de video, os dados visuais são registrados como uma sequência de quadros que ainda incluem imagens paradas resultantes do arranjo de pixels. Assim, os dados visuais podem incluir um conjunto de quadros em que cada quadro inclui um conjunto especifico de dados de pixel que, quando renderizado por um sistema de computador, resulta no conteúdo visual correspondente (por exemplo, imagens de pessoas, lugares e objetos) do conteúdo de video.

[005] Em alguns cenários, o conteúdo visual pode incluir imagens de texto. Imagens de texto podem incluir imagens de texto em objetos em uma cena (por exemplo, palavras ou caracteres em prédios, placas, ou documentos escritos, etc.) . 0 conteúdo visual pode também incluir texto renderizado sobreposto sobre as imagens de uma cena do conteúdo visual. Por exemplo, algumas estações de televisão podem incorporar texto na tela em conteúdo visual de um noticiário para exibir informações resumidas, legenda oculta ("closed caption"), ou para apresentar histórias ou segmentos individuais. Da mesma forma, programas de entrevista podem usar o texto na tela para identificar as pessoas ou tópicos, enquanto os programas mostrando ou discutindo eventos esportivos podem exibir texto na tela com o funcionamento de estatísticas sobre um ou mais jogos (por exemplo, pontuação, periodo, tempo, etc.). 0 texto que aparece nas imagens de uma cena ou texto que é incorporado ou em sobreposição à imagem da cena é aqui referido como "texto na tela".

[006] Texto na tela é distinguível de texto renderizado a partir de dados textuais (por exemplo, uma cadeia de texto a partir de informações de legenda oculta ("closed caption")) em que o texto na tela não corresponde aos dados subjacentes que incluem especificações ou outras indicações do texto. Em vez disso, o texto na tela só é reconhecível por análise das imagens que resultam de renderizar os dados de pixels correspondentes dos dados visuais.

[007] Os dados de áudio e/ou dados textuais muitas vezes acompanham o conteúdo visual para apresentar uma experiência audiovisual completa. Os dados de áudio normalmente incluem sons, como vozes, ruidos de cena, música e assim por diante. Os dados textuais podem ser renderizados juntos com o conteúdo visual para dar contexto adicional, etiquetas e titulos ao conteúdo visual. Em alguns cenários, os dados textuais podem dar representação textual de fala e outros sons no conteúdo de áudio assim deficientes auditivos podem acessá-lo.

Breve descrição dos desenhos

[008] A Figura 1 A ilustra um diagrama de blocos de um sistema para determinar segmentos de conteúdo de video, de acordo com modalidades da presente divulgação.

[009] A Figura 1B ilustra um diagrama de blocos de outro sistema para determinar segmentos de conteúdo de video, de acordo com modalidades da presente divulgação.

[0010] A Figura 1C ilustra um fluxo de dados para determinar segmentos de conteúdo de video, de acordo com modalidades da presente divulgação.

[0011] A Figura 2A ilustra um exemplo de quadros de conteúdo de video que podem ser usados em várias modalidades da presente divulgação.

[0012] A Figura 2B representa um diagrama esquemático de segmentos com base em áudio, video, e textuais de conteúdo de video, de acordo com modalidades da presente divulgação.

[0013] A Figura 2C representa uma vista esquemática de segmentos correspondentes de conteúdo de video, de acordo com modalidades da presente divulgação.

[0014] A Figura 3 representa uma vista esquemática de um segmento de composição de conteúdo de video, de acordo com modalidades da presente divulgação.

[0015] A Figura 4 ilustra um fluxograma de um método para a geração de segmentos de conteúdo de video, de acordo com modalidades da presente divulgação.

[0016] A Figura 5 ilustra um fluxograma simplificado de um método para processamento de consultas de usuário de acordo com uma modalidade.

[0017] A Figura 6 ilustra um fluxograma simplificado de um método para gerar e classificar segmentos de acordo com uma modalidade.

[0018] As Figuras 7A e 7B mostram um exemplo no qual as características de áudio, visuais e textuais do ativo de video são extraídas pelos vários analisadores e subsequentemente fundidas para identificar os segmentos de video de acordo com uma modalidade.

Descrição detalhada

[0019] Aqui descritas são técnicas para sistemas, métodos e dispositivos para gerar segmentos de conteúdo de video com base nas características de áudio, visuais e textuais para visualização linear ou não linear. Na descrição que segue, para fins de explicação, numerosos exemplos e detalhes específicos são apresentados de modo a fornecer um entendimento exaustivo das modalidades particulares. Modalidades particulares, como definido pelas reivindicações, podem incluir algumas ou todas as características nestes exemplos, isoladamente ou em combinação com outras características descritas a seguir, e podem incluir outras modificações e equivalentes dos conceitos e características aqui descritos.

Visão geral

[0020] A Figura 1A mostra um diagrama esquemático de alto nivel de um sistema 100 para fornecer a funcionalidade associada com a apresentação e o consumo de conteúdo de video. 0 sistema 100 pode analisar metadados para extrair características de áudio, visuais e textuais de conteúdo de vídeo. As características podem ser a informação a partir do conteúdo de vídeo. As características extraídas são então utilizadas para gerar segmentos de vídeo. Os segmentos de vídeo podem ser caracterizados ou classificados de acordo com características específicas detectadas nas características visuais, de áudio e/ou textuais do conteúdo de vídeo. Representações de um ativo de vídeo com seus segmentos de vídeo de característica podem então ser geradas e apresentadas juntamente com controles para reproduzir os segmentos de uma forma linear (por exemplo, do começo ao fim) ou forma não linear (por exemplo, assistir a clipes / segmentos específicos de um programa em uma ordem arbitrária). Em algumas modalidades, os segmentos podem ser aumentados com o conteúdo de vídeo adicional, tais como, os comerciais, conteúdo prolongado (por exemplo, cenas deletadas, removidas, etc.), ou comentário, conteúdo externo relevante para o conteúdo de vídeo (por exemplo, um link de Internet ou conteúdo de uma página de Internet pode ser incorporado no segmento produzido). Além disso, segmentos podem ser criados com base em consultas de usuário. Em outras modalidades, porções do conteúdo de vídeo podem ser combinadas em uma ordem diferente para produzir os segmentos de vídeo (por exemplo, suponha que o conteúdo de vídeo original não tenha conteúdo publicitário PI entre segundos 100 e 400, seguido por um anúncio publicitário Al entre segundos 400 e 430. Um segmento de vídeo com uma duração de 100 segundos pode ser gerado com o anúncio Al entre segundos 0 e 30 seguido pela porção do conteúdo P1 entre segundos 330 e 400. Estas e outras modalidades da presente divulgação são descritas em mais detalhe aqui em referência às figuras.

Visão Geral do Sistema

[0021] O sistema 100, tal como ilustrado na Figura IA, pode incluir componentes e funcionalidades para analisar o conteúdo de video para extrair características de conteúdo visuais, de áudio, e textuais que podem ser usadas para dividir o conteúdo de video em segmentos correspondentes. Como mostrado, o sistema 100 pode incluir um computador servidor 110 e um dispositivo cliente 120 em comunicação eletrônica com cada outro. Por exemplo, computador servidor 110 pode ser um sistema de computador na instalação de terminal frontal de um provedor de serviços de televisão a cabo utilizado para a distribuição de conteúdo de video para vários assinantes. Dispositivo cliente 120 pode incluir qualquer dispositivo de computação ou dispositivo cliente fino (por exemplo, computador de mesa, computador portátil, computador tablet, telefones inteligentes, caixa de configuração de topo, etc.) capaz de receber e decodificar dados e/ou sinais do computador servidor 110. Em tais modalidades, o computador servidor 110 e o dispositivo cliente 120 podem incluir memória (por exemplo, meios legiveis por computador voláteis e não voláteis) e um ou mais processadores de computador para armazenar e executar módulos funcionais (por exemplo, código executável e programas) para implementar as várias funcionalidades aqui descritas.

Análise de Dados de Video

[0022] Em modalidades, dados de video podem ser analisados para gerar correspondentes características visuais, de áudio, e textuais. Como descrito acima, computador servidor 110 pode executar um ou mais módulos para implementar diversas funcionalidades analíticas de acordo com modalidades da presente divulgação. Em uma modalidade, o computador servidor 110 inclui um analisador de dados de video 111 que analisa os dados de video recebidos a partir de uma fonte de video 105. O analisador de dados de video 111 pode incluir um de vários módulos específicos de tipo de conteúdo para a análise de diferentes tipos de dados de conteúdo incluído nos dados de vídeo. Por exemplo, o analisador de dados de vídeo 111 pode incluir um módulo de dados visuais 112, um módulo de dados de áudio 113, e um módulo de dados textuais 114 para identificar, extrair ou realizar análises sobre as características de áudio, visuais e textuais dos dados de video.

[0023] Em uma modalidade, o analisador de dados de vídeo 111 pode transmitir os dados visuais, dados de áudio, e dados textuais diretamente para o dispositivo cliente 120 em tempo real. Em tais modalidades, a fonte de vídeo 105 pode fornecer os dados de vídeo diretamente para o analisador de dados de vídeo 111 em paralelo com a transmissão dos dados de vídeo para o dispositivo cliente 120. Deste modo, o dispositivo cliente 120 pode coordenar os dados de vídeo da fonte de vídeo 105 com os dados visuais, dados de áudio, e dados textuais fornecidos pelo analisador de dados de vídeo 111.

[0024] O computador servidor 110 também pode incluir um servidor de conteúdo 115 que armazena os dados de vídeo e as características para os dados visuais, dados de áudio, e dados textuais em um banco de dados de conteúdo analisado 117. Em tais modalidades, o servidor de conteúdo 115 pode ser usado como um repositório de dados de video para fornecimento sob demanda dos dados de video para um ou mais dispositivos clientes 120. Quando o servidor de conteúdo 115 fornece o dispositivo cliente 120 com os dados de video que também podem fornecer as características visuais, de áudio, e/ou textuais correspondentes.

[0025] Em uma modalidade, o analisador de dados de video 111 e/ou o dispositivo cliente 120 podem receber metadados, tais como dados de guia de programa eletrônico (EPG) a partir de uma fonte de EPG 103. Os dados de EPG podem incluir informações sobre a programação de um determinado canal de televisão/cabo. Por conseguinte, os dados de EPG podem ser usados como uma indicação de contexto para a análise dos dados de video. O uso de tal contexto pode melhorar a eficácia e precisão da análise que gera as características visuais, de áudio e/ou textuais. Por exemplo, dados de video recebidos a partir de uma fonte de video 105 podem incluir um ativo de video particular (por exemplo, um filme, noticiário, evento de esportes, programa de televisão, etc.). A fonte de EPG 103 pode fornecer dados de EPG (por exemplo, tempos de iniciar / parar, duração, sinopse, designações de canal, descrições, categorias, etc.) para este ativo de video particular. Com base nos dados de EPG, o analisador de dados de video 111 pode determinar o contexto dos dados que irá informar a análise do tipo de dados visual, dados de áudio e dados textuais que podem ser incluídos nos dados de vídeo correspondentes. Por exemplo, se os dados de EPG indicam que um programa específico é um noticiário financeiro, então o analisador de dados de vídeo 111 pode determinar que esse noticiário financeiro especifico, ou um tipo correspondente de noticiário financeiro no canal especificado, inclui normalmente logotipos e texto na tela no canto direito inferior da tela bem como rolagem de texto com informações sobre os preços das ações ao longo da borda inferior da tela. Os mesmos dados de EPG podem também indicar ao analisador de dados de video que a face de vários âncoras de noticias também será retratada em quadros dos dados visuais do noticiário. Os dados de EPG também podem indicar que as vozes dos apresentadores podem ser esperadas nos dados de áudio correspondentes. Da mesma forma, dados de EPG para um filme ou video de música podem indicar ao analisador de dados de video 111 que sons ou tipos específicos de faixas musicais podem ser incluídos nos dados de áudio.

[0026] Em várias modalidades, o analisador de dados de video 111, pode detectar extrair, catalogar, e correlacionar várias características visuais, de áudio e/ou textuais de conteúdo de video. Como aqui descrito, dados de video para conteúdo de video podem incluir uma combinação de dados visuais, dados de áudio e/ou dados textuais correspondentes às características visuais, de áudio e/ou textuais do conteúdo de video. Assim, o analisador de dados de video 111 pode incluir funcionalidades para analisar as características visuais, de áudio e/ou textuais individualmente e em conjunto para gerar dados adicionais ou suplementares. Quaisquer dados resultantes da análise dos dados de vídeo podem ser correlacionados com um quadro e/ou região de quadro correspondente no conteúdo visual.

[0027] Em uma modalidade, o módulo visual 112 do analisador de dados de video 111 pode analisar os dados visuais para detectar dados correspondentes para o texto na tela ou objetos. As imagens em urn quadro de conteúdo visual podem incluir um arranjo de pixels. Por conseguinte, em uma modalidade, a análise dos dados visuais pode incluir a realização de uma operação de reconhecimento óptico de caracteres (OCR), ou outra operação de reconhecimento, para reconhecer padrões nos pixels que correspondem a objetos, caracteres, palavras ou frases individuais incluidas nos dados visuais. Os padrões reconhecidos podem incluir, por exemplo, logotipos, sinais de chamada, e outros objetos no conteúdo visual. Os padrões reconhecidos podem então ser associados com os dados textuais ou dados de imagem que descrevem os padrões reconhecidos. 0 texto ou objeto na tela reconhecido pode então ser associado com as regiões correspondentes nos quadros ou sequências de quadros em que aparece. Assim, o texto ou objetos na tela e seus dados textuais correspondentes e dados de objeto podem ser associados com as regiões, quadros, e/ou ativos de video correspondentes em que aparecem.

[0028] Em modalidades, dados de texto correspondentes a texto na tela reconhecido podem incluir código legivel por computador que define caracteres ou palavras especificas (por exemplo, cadeias de texto definidas pelos códigos ASCII ou binários). Os dados textuais podem então ser associados com as regiões, quadros e/ou ativos de video em que o texto na tela foi reconhecido. Em tais modalidades, os dados textuais podem ser fornecidos, juntamente com os dados de video originais ou transcodifiçados para o dispositivo cliente 120, tal como os dados suplementares.

[0029] Em uma modalidade, o módulo de áudio 113 do analisador de dados de video 111 pode analisar os dados de áudio dos dados de video para detectar várias características ou características de áudio. Por exemplo, o módulo de áudio pode reconhecer vozes, músicas, efeitos sonoros, sons, tons e outras características de áudio. Tal análise pode incluir geração de identificadores ou descrições (por exemplo, nomes de músicas, nomes dos atores, adjetivos, etc.) associados às diversas características de áudio. Por exemplo, o módulo de áudio 113 pode detectar uma canção particular e gerar um titulo de canção correspondente. Do mesmo modo, em algumas modalidades, o módulo de áudio pode detectar a presença do som de trovoada nos dados de áudio e associá-lo com indicações de tempestade, chuva, escuridão, sinistro, etc.

[0030] Em uma modalidade, o módulo textual 114 pode detectar palavras chave ou frases a partir de dados textuais incluídos nos dados de EPG ou dados de legendas ocultas associados com os dados de video. As palavras chave detectadas podem então ser associadas aos quadros ou intervalos de quadros com os qual são associadas. Conteúdo textual, que pode compreender texto de legenda oculta, o texto na tela, e semelhantes, é separado a partir de áudio, video e outros conteúdos. Cada elemento discreto de conteúdo de texto é um registro de texto. Um registro de texto compreende pelo menos uma hora de inicio e uma representação do próprio texto, em que a hora de inicio indica o ponto no tempo dentro do conteúdo de video em que o texto ocorre. O registro de texto pode compreender adicionalmente outros campos, como um tempo final, o tempo dentro do conteúdo de vídeo em que o texto não é mais exibido. Além disso, como cada registro de texto é recebido, ele é armazenado em um banco de dados. Depois de ter sido armazenado, a porção de texto não duplicada do registro de texto é identificada, e as palavras significativas são extraídas e armazenadas. A porção não duplicada do texto é palavras ou linhas de texto que não aparecem no registro de texto armazenado anteriormente.

[0031] Em uma modalidade, a partir da porção não duplicada, palavras significativas são identificadas. Palavras significativas, por exemplo, são todas as outras do que palavras que comumente ocorrem em uma linguagem, tais como artigos e conjunções (por exemplo, "um", "uns", "o", "ele"). As palavras significativas identificadas são armazenadas no banco de dados com o registro de texto. Finalmente, ao atingir o fim do visual, áudio e textual (por exemplo, fluxos elementares) do conteúdo de video (por exemplo, a conclusão do programa de video ou clipe de video), um indice de programa textual é criado. Um índice de programa textual, em um exemplo ilustrativo, compreende um conjunto de todas as palavras significativas não duplicadas armazenadas com os registros de texto para um único pedaço de características de áudio, visuais e textuais do conteúdo de vídeo. As palavras significativas recolhidas são armazenadas no banco de dados com um identificador do conteúdo de vídeo (por exemplo, um identificador incluído nos dados de EPG 143).

[0032] Tal como aqui utilizado o termo "dados de saída de detector" descreve dados gerados pelo analisador de dados de vídeo 111, ou seus módulos visuais, de áudio, ou textuais 112, 113 e 114. Tais dados podem incluir, mas não se limitando a, características visuais, de áudio e/ou textuais e as correlações correspondentes para ativos ou quadros de video específicos dentro das características de video. Os dados de saida de detector podem ser associados a várias características de video a partir de múltiplas fontes de video 105 (por exemplo, vários programas de televisão difundidos por vários canais de televisão).

Segmentação de Video

[0033] Como o computador servidor 110, o dispositivo cliente 120 pode incluir módulos implementados como hardware e combinações de código executável para fornecer várias funcionalidades que podem utilizar os dados de saida de detector para caracterizar e/ou dividir os dados de video em segmentos.

[0034] Em uma modalidade, o dispositivo cliente 120 pode incluir um mecanismo de interface de usuário 121. Mecanismo de interface de usuário 121 pode incluir a funcionalidade para receber, decodificar, renderizar, e exibir informações recebidas a partir de várias fontes, tais como a fonte de video 105, EPG 103, e um computador de servidor 110. Em uma modalidade, o mecanismo de interface de usuário 121 pode receber dados de video para conteúdo de video e renderizar os componentes de visuais, de áudio, e textuais do conteúdo de video em um ou mais dispositivos de saida (por exemplo, monitores de computador, alto-falantes, etc.). Um exemplo de dispositivo cliente 120 e mecanismo de interface de usuário é uma caixa de configuração de topo e um dispositivo de usuário, como uma televisão.

[0035] Além disso, o mecanismo de interface de usuário 121 pode receber dados de EPG e renderizá-los juntamente com controles sobrepostos sobre o componente visual do conteúdo de video. Por exemplo, o agente de interface de usuário 121 pode gerar uma interface gráfica de usuário (GUI) que inclui elementos de GUI sobrepostos no conteúdo de video. Em uma modalidade, o motor de interface de usuário 121 pode incluir ou ser ligado a um dispositivo de interface de usuário 123 (por exemplo, um receptor de controle remoto, uma tela tátil, um mouse, uma câmera, etc.) para receber a entrada de usuário de um usuário 107. Em tais modalidades, o dispositivo de interface de usuário 123 pode ser usado para interagir com a GUI subjacente gerada pelo mecanismo de interface de usuário 121 e, assim, controlar/interagir com outros componentes do sistema 100.

[0036] Em algumas modalidades, o mecanismo de interface de usuário 121 pode fornecer acesso à funcionalidade do módulo de serviço de segmento de conteúdo de video 125 implementado no dispositivo cliente 120. Em uma modalidade, o serviço de segmento de conteúdo de video 125 pode receber dados de saida de detector associados com conteúdo de video que especifica uma ou mais características visuais, de áudio e/ou textuais associadas com um ou mais quadros de uma ou mais características de video. Com base nas características visuais, de áudio e/ou textuais associadas aos quadros do ativo de video, o módulo de serviço de segmento de conteúdo de video 125 pode dividir o conteúdo de video do ativo de video em segmentos de sequências de quadros associadas com características visuais, de áudio e/ou textuais específicas. Por exemplo, o inicio de um segmento associado com uma palavra-chave particular pode ser definido como o primeiro quadro em que a palavra-chave aparece nos dados visuais ou textuais e o final do segmento pode ser definido como o último quadro na sequência em que a palavra-chave aparece. Como outro exemplo, as várias porções de um noticiário (por exemplo, noticias locais, noticias nacionais, previsão do tempo, esportes, entretenimento, etc.) podem ser divididas em vários segmentos.

[0037] Em algumas modalidades, o módulo de serviço de segmento de video de conteúdo 125 pode incluir submódulos que incluem a funcionalidade especifica para analisar os dados de saida de detector visuais, de áudio e textuais para gerar definições de segmento para os respectivos dados de video. Por exemplo, o módulo de serviço de segmento de conteúdo de video 125 pode incluir um primeiro módulo de fusão 131, um segundo módulo de fusão 133, e um terceiro módulo de fusão 135; e um ou mais sequenciadores de segmento de video 134 para segmentar dados de video com base nos dados de saida de detector de áudio, visuais, e textuais correspondentes. O módulo de serviço de segmento de conteúdo de video 125 pode incluir qualquer número de módulos de fusão e sequenciadores de segmento de video. Cada módulo de fusão pode se basear em dados de saida de detector de áudio, visuais e textuais para gerar uma saida diferente do que os outros módulos de fusão. Os vários módulos de sequenciador 134 recebem a informação a partir dos módulos de fusão 131, 133, 135 e produzem os segmentos de video finais a serem enviados para a interface de usuário 121. Os segmentos de video finais produzidos pelos módulos de sequenciador contém porções do conteúdo de video que podem ser combinadas em uma ordem diferente para produzir os segmentos de video ou podem incluir porções dos outros ativos de video armazenados no servidor de conteúdo 115 ou até mesmo incluir porções de outros bancos de dados (por exemplo, os segmentos de video podem conter anúncios provenientes de um banco de dados de publicidade). 0 módulo de serviços de segmento de conteúdo de video 125 pode também incluir um módulo de pesquisador de segmento 137 para pesquisa de segmentos com base em uns itens chave associados, tais como características visuais, de áudio e/ou textuais, incluindo palavras/frases, sons, músicas, pessoas, objetos, etc. nos dados de saida de detector associados ou as definições de segmento. Em uma modalidade, o dispositivo cliente 120 pode receber itens chave sob a forma de texto, comandos de voz, reconhecimento ou outros sons (por exemplo, usando um microfone para receber o padrão de som de uma canção particular) . Em outras modalidades, o dispositivo cliente 120 pode receber itens chave sob a forma de imagens capturadas por uma câmera ou outro dispositivo de imagem no dispositivo cliente 120.

[0038] Em uma modalidade, o módulo de serviço de segmento de video de conteúdo 125 pode gerar definições de segmento que incluem informação para identificação de um determinado segmento em um ativo de video particular. Especificamente, a definição de segmento pode incluir um identificador de ativo de video, um identificador de item chave visual, de áudio, ou textual, um identificador de quadro inicial, uma contagem de quadros, e/ou um identificador de quadro final. Em algumas modalidades, o identificador de quadro inicial, identificador de quadro de parada, e a duração de quadro podem incluir ou serem associados com horodatas correspondentes que indicam o tempo dentro de um ativo de video particular em que ocorrem.

[0039] Em uma modalidade, o sistema 100 pode incluir um servidor de conteúdo distribuído 140 com um banco de dados de conteúdo analisado 141 para fornecer armazenamento de dados de saida de detector e/ou definições de segmento. O servidor de conteúdo distribuído 140 pode ser colocalizado com o dispositivo cliente 120 para fornecer acesso imediato aos dados de video previamente analisados, dados de saida de detector, e definições de segmento. Por exemplo, o servidor de conteúdo distribuído 140 pode ser implementado como um componente do dispositivo cliente 120 ou como um computador periférico ou em rede independente na mesma rede de área local que o dispositivo cliente 120.

[0040] A Figura 1B ilustra um exemplo de implementação alternativa do sistema 100 como sistema 101 em que os serviços de segmento de conteúdo de video 125 são implementados como um módulo no computador servidor 110. Em tais modalidades, a funcionalidade de analisador de dados de video 111 e os serviços de segmento de conteúdo de video 125 descritos acima, podem ser implementados em módulos instanciados no computador servidor 110. Os serviços de segmento de conteúdo de video 125 podem também ser implementados em um computador servidor separado (não representado na Figura IA ou 1B, o que pode localizado na rede de área local do computador servidor 110 ou em uma rede separada. Enquanto as Figuras IA e 1B representam os serviços de segmento de conteúdo de video 125 residentes no dispositivo cliente 120 ou o computador servidor 110, respectivamente, a funcionalidade e fluxos de dados relacionados podem ser semelhantes exceto para a transmissão necessária de dados sobre redes de área ampla, redes de área local, e/ou barramentos de dados entre e dentro dos vários sistemas de computadores e dispositivos. Tais fluxos de dados e funcionalidade são descritos abaixo mais detalhadamente em referência à Figura 1C.

[0041] Em outra modalidade, os serviços de segmento de conteúdo de video 125 produzem segmentos que representam destaques de um ativo de video. Por exemplo, quando se analisa um video contendo uma partida de beisebol, os serviços de segmento de conteúdo de video 125 podem ser segmentos de produto contendo apenas os home-runs ou melhores momentos.

Visão geral de fluxo de dados

[0042] Para ilustrar ainda mais vários aspectos e funcionalidades do sistema 100, a Figura 1C ilustra um exemplo particular de fluxo de dados 102 de acordo com modalidades da presente divulgação. Enquanto funções especificas são descritas como sendo realizadas por módulos específicos em sistemas de computador específicos, qualquer das funcionalidades aqui descritas pode ser distribuída entre o computador servidor 110, o dispositivo cliente 120, e um ou mais outro sistema de computador (por exemplo, em um ambiente de computação em nuvem).

[0043] Em uma modalidade, o conteúdo de video chega ao computador servidor 110 que pode ser localizado em uma Estação de Comutação Principal (MSO). Normalmente, esse tipo de conteúdo chega através de alimentações de satélite, diretamente das várias redes de conteúdo que fornecem a MSO com o conteúdo; no entanto, o conteúdo também pode chegar a partir de outras fontes; por exemplo, videos a partir de vídeos de forma curta podem também chegar à MSO. Computador servidor 110 capta tal conteúdo, armazena-o em armazenamento temporário local, realiza uma série de transformações e manipulações no conteúdo de modo a permitir que seja transmitido sobre o seu equipamento de transmissão e ser consumido por vários tipos de dispositivos.

[0044] Como mostrado, o analisador de dados de vídeo 111 pode receber dados de vídeo 151 a partir da fonte de vídeo 105. A fonte de vídeo 105 pode incluir qualquer tipo de fonte ao vivo ou sob demanda de conteúdo de vídeo. Por exemplo, a fonte de vídeo 105 pode ser um provedor de televisão a cabo, um provedor de televisão a satélite, um site, ou algo semelhante. Por conseguinte, os dados de vídeo 151 podem incluir um fluxo de vídeo ao vivo ou um ou mais arquivos armazenados de dados de vídeo. Em qualquer um dos cenários, os dados de vídeo 151 podem incluir vários formatos de dados digitais.

[0045] Os dados de vídeo 151 podem incluir dados digitais correspondentes aos dados visuais, de áudio e/ou textuais do conteúdo de vídeo correspondente. Por exemplo, os dados de vídeo 151 podem incluir dados visuais, dados de áudio, e/ou dados textuais. Em algumas modalidades, os dados de vídeo 151 podem incluir uma ou mais características de vídeo, tais como programas de televisão, filmes, clipes de vídeo, vídeos da internet, e afins.

[0046] Em uma modalidade, o analisador de dados de vídeo 111 pode receber e analisar os dados de vídeo 151 para determinar dados de saída de detector 147. Tal como aqui descrito, os dados de saída de detector 147 podem incluir dados de saida de detector de característica, tais como características de áudio, visuais, e/ou textuais. Cada um dos dados de saída de detector de característica pode ser gerado por um submódulo correspondente do analisador de dados de vídeo 111, tal como o módulo visual 112, o módulo de áudio 113, e o módulo textual 114. Em uma modalidade, o analisador de dados de vídeo 111 pode armazenar os dados de saída de detector 147 no servidor de conteúdo 115. 0 servidor de conteúdo 115 pode associar os dados de saída de detector 147 com um ou mais quadros específicos ou intervalos de quadros dos dados de vídeo 151 no banco de dados de conteúdo analisado 117. Noutras modalidades, os conteúdos do banco de dados de conteúdo analisado 117, tal como os dados de saída de detector 147 e/ou os dados de vídeo 151, podem ser sincronizados com um ou mais servidores de conteúdo distribuídos 140 utilizando dados de sincronização de conteúdo 190 transmitidos através de um ou mais protocolos e meios de comunicação eletrônicos (por exemplo, a Internet, dados sobre cabo, etc.).

[0047] Em uma modalidade, o analisador de dados de vídeo 111 pode receber dados de EPG 143 a partir da fonte de EPG 103. Os dados de EPG 143 podem incluir os metadados sobre as várias características de vídeo nos dados de vídeo 151. Por exemplo, os dados de EPG podem descrever as divisões entre os ativos de vídeo (por exemplo, tempos de iniciar / parar) nos dados de vídeo 151. Os metadados nos dados de EPG 143 podem ser gerados pela fonte de EPG 103 em coordenação com a fonte de vídeo 105. Por exemplo, os dados de EPG 143 podem incluir listagens ou programações publicadas de programas oferecidos por uma ou mais fontes de vídeo 105 (por exemplo, redes de televisão, sites de filmes sob demanda, etc.). Os dados de EPG 143 podem incluir informações sobre os dados de video 151 em geral e/ou descrições das características de video individuais. Tais descrições podem incluir um identificador para um determinado programa de televisão, filme, noticiário, clipe de video, e assim por diante. Por exemplo, o identificador pode incluir um nome de um seriado, o titulo do filme, o nome de programa de entrevista de televisão, etc. Além do identificador, os dados de EPG 143 podem incluir uma indicação de uma classificação ou categoria do tipo de ativo de video. Tais indicações podem incluir designações que indicam o conteúdo que pode ser esperado em um ativo de video particular. Por exemplo, uma designação pode classificar um ativo de video determinado como um noticiário, uma comédia, um evento esportivo, um programa de entrevista, um programa de noticias financeiras, ou algo semelhante.

[0048] O analisador de dados de video 111, ou um dos seus módulos, pode utilizar os dados de EPG 143 na análise dos dados de video 151. Em uma modalidade, o analisador de dados de video 111 pode utilizar os dados de EPG 143 para determinar um contexto dos dados de video 151.

[0049] Por exemplo, o analisador de dados de video 111 pode usar contexto indicado nos dados de EPG 143 para melhorar a precisão da análise dos dados de video 151. Em um exemplo, se os dados de EPG 143 para um ativo de video particular indica que o ativo de video inclui um programa de entrevista desportivo, em seguida, o analisador de dados de video pode fazer referência a um dicionário especializado associado com programas de entrevistas desportivos para melhorar a precisão das operações de reconhecimento de caracteres nos dados visuais dos dados de video 151. 0 dicionário especializado pode incluir vocabulário e nomes específicos para o gênero de show de esportes que o analisador de dados de vídeo 111 pode usar para eliminar pelo menos alguns caracteres ou palavras reconhecidas potencialmente como errados.

[0050] A análise dos dados de vídeo 151 pode incluir reconhecimento de texto na tela ou objetos na tela, e gerar de textuais de saída de detector e/ou dados de imagem correspondentes. Em algumas modalidades, características visuais, de áudio, e/ou textuais de saída de detector podem ser associadas com quadros ou intervalos específicos dentro dos dados de vídeo ou ativo de vídeo 151. Por exemplo, características textuais correspondentes a texto na tela que apresenta um segmento particular dentro de um noticiário podem ser associadas a quadros específicos dentro do programa em que o texto na tela específico aparece. Desta forma, os quadros do noticiário podem ser compilados em segmentos com base em um texto específico na tela (por exemplo, o título, tópico ou nome de um segmento de notícias particular) . Do mesmo modo, em algumas modalidades, o analisador de dados de vídeo 111 também pode detectar a presença de determinadas imagens na tela do conteúdo visual. Por exemplo, o módulo visual 112 pode detectar a presença de um logotipo no canto da tela ou a imagem de uma pessoa ou um objeto em outras regiões particulares da tela. Tais características de imagem de saída de detector podem ser usadas para identificar um programa de televisão ou canal de televisão particular.

[0051] Em algumas modalidades, módulo de áudio 113 e/ou o módulo textual 114 podem analisar os dados de áudio e dados textuais de saida de detector correspondentes (por exemplo, dados de legenda oculta ("closed caption")) para áudio ou texto nestas características dos dados de video 151. As características de áudio ou de texto detectadas nos dados de áudio e dados textuais dos dados de video 151 podem ser associadas com os quadros particulares em que são detectadas. Assim, as características de dados textuais e de áudio podem ser usadas para ainda segmentar os dados de video 151 com base em sons característicos (por exemplo, o som da voz de uma pessoa em particular, uma canção particular, um efeito de som, etc.) ou indicações/marcadores em dados de legenda oculta ("closed caption") que indicam o inicio e o fim de um determinado segmento de um programa. A segmentação de dados de video 151 pode ser utilizada por vários componentes da presente invenção para melhorar a precisão e a eficiência da análise dos dados de video. Por exemplo, informações sobre segmentos nos dados de video 151 podem ajudar o analisador de video 111 aproveitar a redundância das imagens em vários quadros do conteúdo visual para melhorar a precisão do reconhecimento de caracteres de texto em um quadro no qual o texto está movendo ou de outro modo dificil de reconhecer. Se o texto em um quadro é dificil de reconhecer, o analisador de video 111 pode analisar quadros vizinhos no mesmo segmento para obter talvez uma melhor imagem do texto (por exemplo, em melhor foco, maior contraste, etc.).

[0052] Quaisquer dados detectados ou extraídos a partir de dados de video 151 pelo analisador de dados de video 111 podem ser associados com os quadros correspondentes e compilados como dados de saida de detector. Por conseguinte, dentro dos dados de saida de detector, dados visuais, dados de áudio, e dados textuais podem ser associados a um ou mais quadros de vários ativos de video. Por exemplo, a saida de detector 147 pode incluir texto ou imagens correspondentes aos objetos ou texto na tela detectados nos dados visuais ou os dados textuais dos dados de video 151. De modo semelhante, os dados de saida de detector 147 podem incluir sons e/ou vozes associados com objetos ou pessoas nos dados de áudio.

[0053] Os serviços de segmento de conteúdo de video 125 podem receber os dados de saida de detector 147 diretamente a partir do analisador de dados de video 111, o servidor de conteúdo 115, ou servidor de conteúdo distribuído 140. Em algumas modalidades, os serviços de segmento de conteúdo de video 125 podem receber os dados de video 151 a partir da fonte de video 105, enquanto em outros, os serviços de segmento de video 125 podem receber os dados de video 151 a partir do servidor de conteúdo 115 e/ou o servidor de conteúdo distribuído 140. Em tais modalidades, os serviços de segmento de conteúdo de video 125 podem gerar definições de segmento com base nos dados de saida de detector 147, os dados de video 151, e/ou os dados de EPG 143.

[0054] Em algumas modalidades, os serviços de segmento de conteúdo de video 125 podem incluir submódulos especificamente configurados para gerar definições de segmento correspondentes aos segmentos de dados de video 151 caracterizados por características de áudio, visuais, textuais específicas. Por conseguinte, os serviços de segmento de conteúdo de vídeo 125 podem incluir um número de módulos de fusão, tais como um primeiro módulo de fusão 131, um segundo módulo de fusão 133, e um terceiro módulo de fusão 135, e um ou mais sequenciadores de segmento 134. Cada módulo de fusão 131, 133, e 135 processa os dados de saida de detector 147 e funde-os em características de composição. Características de composição representam informações sobre o conteúdo de vídeo, incluindo informações sobre a estrutura cinematográfica do conteúdo de vídeo e informações sobre os objetos, pessoas, cenas e eventos descritos no conteúdo de vídeo. Por exemplo, informação de composição pode representar o local onde a edição do conteúdo de vídeo provavelmente ocorreu, tal como no limite entre disparos ou onde música e efeitos visuais sinalizam o início de uma nova cena. Informações de composição podem também representar quando um ator ou apresentador começa a falar ou cantar ou quando um objeto ou o fundo é introduzido em um contexto semântico de significado para o conteúdo de vídeo. Essa informação é gerada a partir de combinações ou a partir de funções das características presentes nos dados de saída de detector 147. As características de composição também são associadas com um ou mais quadros ou um intervalo de quadros correspondentes ao um ou mais quadros ou intervalo de quadros associados às características a partir dos dados de saída de detector 147 que foram utilizados pelo módulo de fusão para produzir a característica de composição. Os vários módulos de fusão usam as características de composição para classificar os diferentes segmentos do conteúdo de vídeo. Por exemplo, o primeiro módulo de fusão 131 pode gerar informação que classifica quadros particulares de um ativo de vídeo particular como sendo ou não uma parte de um anúncio comercial. Da mesma forma, o segundo módulo de fusão 133 pode gerar informação que classifica quadros particulares de um ativo de video particular como sendo uma parte de um programa de noticias. Por exemplo, o segundo módulo de fusão 133 pode identificar que quadros incluem o segmento de meteorologia de um telejornal.

[0055] Finalmente, o terceiro módulo de fusão 135 pode gerar informações que correlacionam quadros de ativo de video com porções importantes ou interessantes de um evento esportivo. Em tais modalidades, o terceiro módulo de fusão 135 pode relacionar informações do módulo visual 112, módulo de áudio 113, módulo textual 114, e dados de EPG 143 para determinar as porções importantes ou interessantes de um evento esportivo. Assim, o módulo de fusão 135 pode definir segmentos de video em que palavras chave especificas, nomes ou frases aparecem no conteúdo visual ou textual. As características de composição a partir de vários módulos de fusão são, então, utilizadas pelo sequenciador 134 para produzir os vários segmentos de video. Uma definição de segmento pode definir os segmentos e pode ser guardada como dados de segmento 191 que podem então ser enviados para o mecanismo de interface de usuário 121.

[0056] O mecanismo de interface de usuário 121 pode usar os dados de segmento para gerar representações dos segmentos e renderizá-las no dispositivo de UI 123. Em algumas modalidades, representações dos segmentos podem incluir imagens em miniatura a partir dos segmentos ou representações textuais dos segmentos. As representações dos segmentos podem incluir um ou mais elementos de interface de usuário através dos quais um usuário 107 pode inserir a entrada do usuário para selecionar a reprodução de segmentos específicos. Em resposta à entrada de usuário, o dispositivo cliente 120 pode enviar um pedido para a fonte de video 105, o computador servidor 110, o servidor de conteúdo 115, e/ou o servidor de conteúdo distribuído 140 para recuperar e reproduzir os quadros específicos a partir do ativo de video especifico definido pela definição de segmento correspondente à representação selecionada do segmento.

[0057] Reprodução dos segmentos selecionados pode incluir vários estilos de reprodução linear e não linear. Por exemplo, quando um usuário liga dispositivo cliente 120, dispositivo cliente 120 fornece indicação para o usuário que o conteúdo de video está disponível tanto para consumo linear e não linear. Ambas as versões são disponibilizadas porque um único dispositivo cliente 120 pode servir vários televisores e múltiplos usuários, que podem preferir assistir ao conteúdo de forma diferente. O usuário usa dispositivo cliente 120 para selecionar se deseja ver o conteúdo da forma linear tradicional ou assistir ao conteúdo na forma não linear. Se o usuário selecionar ver o conteúdo da forma linear tradicional, o dispositivo cliente 120 apresenta o conteúdo, como foi recebido pelo servidor 110 (por exemplo, na MSO).

[0058] Se o usuário seleciona para ver o conteúdo não linearmente, então dispositivo cliente 120 apresenta uma interface de usuário que exibe os diversos segmentos disponíveis no conteúdo de video. Cada segmento é indicado com texto, uma imagem ou um clipe de áudio/video curto do segmento. Alternativamente, dispositivo cliente 120 apresenta a interface de usuário que exibe os vários segmentos em uma tela dentro do dispositivo de usuário. Usando dispositivo cliente 120, o usuário seleciona o segmento desejado para assistir. Por exemplo, um usuário pode selecionar um grupo de segmentos que são associados com um tema comum (por exemplo, segmentos definidos pelas definições de segmento que são cada associada com as características visuais, de áudio, e/ou textuais particular) para ser reproduzidos um após o outro de um modo linear. Em outras modalidades, o usuário pode selecionar um segmento particular para reproduzir primeiro e depois selecionar outro segmento particular para reproduzir em seguida. A ordem em que os segmentos são reproduzidos é arbitrária e deixada para as preferências do usuário. Dispositivo cliente 120, em seguida, exibe o segmento selecionado a partir do conteúdo de video para o usuário. No final do segmento ou quando o usuário assim o desejar, dispositivo cliente 120 exibe os vários segmentos disponíveis no conteúdo de video novamente. Por conseguinte, definições de segmento de acordo com várias modalidades da presente invenção aumentam grandemente a flexibilidade com que um usuário pode consumir o conteúdo de video a partir de uma ou mais características de video.

[0059] Em algumas modalidades, a segmentação de conteúdo de video pode também facilitar a inserção de conteúdo personalizado secundário ou suplementar ou de outra forma correspondente, antes, durante, ou após a reprodução de um segmento particular. Por exemplo, anúncios comerciais direcionados relevantes para as palavras chave, nomes, objetos, ou outras características de um segmento particular podem ser reproduzidos juntamente com o segmento. Em outro exemplo, faixas de áudio secundárias que incluem comentários relevantes para os segmentos podem ser reproduzidas ao mesmo tempo em que um segmento selecionado. Em tais modalidades, o conteúdo secundário ou suplementar pode ser recuperado a partir da fonte de video 105, o computador servidor 110, o servidor de conteúdo 115, o servidor de conteúdo distribuído 140, ou mesmo um servidor de terceiros. Em outras modalidades, o conteúdo suplementar pode ser recuperado a partir de um site predeterminado ou definido pelo usuário. Em uma modalidade, o conteúdo secundário especifico (por exemplo, um comercial) reproduzido antes, durante, após ou entre os segmentos de video pode depender da ordem de reprodução, do tipo de reprodução (por exemplo, linear versus não linear), e uma ou mais das características do segmento (s) selecionado.

[0060] Em uma modalidade, o usuário 107, por meio do mecanismo de interface de usuário 121 e/ou o dispositivo de UI 123, pode introduzir dados de pesquisa 192 que o pesquisador de segmento 137 pode utilizar para determinar um ou mais segmentos relevantes. Em algumas modalidades, o pesquisador de segmento 137 pode procurar definições de segmento que incluem ou são de outro modo associadas com os dados de pesquisa 192. Por exemplo, os dados de pesquisa 192 podem incluir uma palavra chave, nome de um ator, uma descrição de som, um titulo de música, etc. com os quais o pesquisador de segmento 137 pode determinar uma ou mais definições de segmento alvo. Em tais modalidades, os dados de segmento 191 determinados pelo pesquisador de segmento 137 podem ser enviados de volta ao mecanismo de interface de usuário 121 para exibir representações das definições do segmento alvo.

[0061] As Figuras 2A a 2C ilustram segmentação de conteúdo de video 200 de acordo com dados de saida de detector específicos e a inserção de conteúdo suplementar na reprodução de um segmento selecionado. A Figura 2A ilustra uma representação de conteúdo de video com base em guadro 200 de um ativo de video particular. Tal conteúdo de video com base em quadro 200 pode incluir quadros 210 de conteúdo visual, conteúdo de áudio e conteúdo textual. Assim, para reproduzir o conteúdo de video 200, os quadros 210 podem ser renderizados de acordo com uma sequência ordenada particular.

[0062] Como aqui descrito, os serviços de segmento de conteúdo de video 125 podem segmentar o conteúdo de video 200 de acordo com os dados de saida de detector 147. Como mostrado na Figura 2B, o conteúdo de video 200 pode ser segmentado com base em características visuais, de áudio e/ou textuais. No exemplo simplificado mostrado na Figura 2B, os quadros 210 podem ser divididos em segmentos 220, 230, e 240. Os segmentos 220 são definidos por dados de texto de saida de detector específicos. Os segmentos 230 são definidos por dados de áudio de saida de detector específicos. Os segmentos 240 são definidos por dados visuais de saida de detector específicos. Como mostrado, os segmentos 220, 230, e 240 definidos pelos dados de saida de detector correspondentes podem sobrepor e/ou incluir outro. Por exemplo, o segmento S2 para áudio A (referência 230-1) inclui quadros 210 que são também incluídos nos segmentos 240-1, 240-2, 220-1, 220-2 e. Assim, as definições de segmento para os segmentos incluiriam uma indicação dos quadros sobrepostos 210. Segmentos também podem combinar várias características nas características visuais, de áudio e/ou textuais.

[0063] A Figura 2C ilustra as consequências de sobreposição de definições de segmento quando é feita uma pesquisa, de acordo com várias modalidades da presente divulgação. No exemplo mostrado, uma pesquisa executada pelo pesquisador de segmento 137 para a característica visual "Visual B" resultaria em um segmento correspondente 240-2. Em uma modalidade, isso é referido como uma correspondência completa, pois todos os quadros através 210-5 a 210-7 no segmento 240-2 são associados com a característica visual Visual B. No entanto, tal como ilustrado, alguns ou todos os quadros 210-5 a 210-7 também são incluídos nos segmentos 230-1 e 220-2. Assim, a pesquisa pela característica visual "Visual B" também pode retornar definições de segmento para segmentos 230-1 e 220-2.

[0064] Para ilustrar a adição de conteúdo suplementar, a Figura 3 representa o segmento 240-2 que está associado com a característica visual "Visual B" selecionada por um determinado usuário 107 para reprodução. Em uma modalidade, em resposta à seleção do segmento 240-2, os serviços de segmento de conteúdo de vídeo 125, ou outro componente do dispositivo cliente 120, determinam um ou mais anúncios 310, 320, ou 330, para inserir antes de, durante, ou após a reprodução do segmento 240-2. O exemplo particular mostrado, anúncio 1 (referência 310), pode ser reproduzido antes do segmento 240-2. Anúncio 2 (referência 320) pode ser inserido no segmento 240-2 como um intervalo comercial. Finalmente, anúncio 3 (referência 330) pode ser executado depois do segmento 240-2. Em tais modalidades, a seleção de anúncios 310, 320, e 330, e sua colocação antes, durante, ou depois do segmento 240-2 pode ser com base em um conjunto de critérios associados com a característica visual especifica "Visual B".

[0065] A Figura 4 ilustra um fluxograma de um método 400 para segmentar conteúdo de video e fornecer conteúdo suplementar para visualização melhorada de acordo com várias modalidades da presente divulgação. Método 400 pode começar em caixa 410 em que o módulo de serviços de segmento de conteúdo de video 125 recebe dados de video 151. Os dados de video 151 podem ser recebidos diretamente de uma fonte de video 105, computador servidor 110, ou outro servidor de conteúdo.

[0066] Na caixa 420, o módulo de serviços de segmento de conteúdo de video 125 pode receber dados de saida de detector visuais, de áudio e/ou textuais 147 correspondentes aos dados de video 151. Exemplos de dados de saida de detector visuais, de áudio e/ou textuais 147 incluem uma sequência de um ou mais vetores numéricos correspondentes a uma sequência de uma ou mais características de video, de áudio, e/ou de texto de baixo nivel. Em uma modalidade, os dados de saida de detector 147 podem ser recebidos a partir de um analisador de dados de video 111 em um computador servidor remoto 110 que analisa os dados de video 151.

[0067] Na caixa 430, o módulo de serviços de segmento de conteúdo de video 125 pode, opcionalmente, receber dados de EPG 143 de uma fonte de EPG 103. Na caixa 440, o módulo de serviços de segmento de conteúdo de video 125 pode analisar os dados de saida de detector de áudio, visuais e textuais 147 para determinar características de composição ou categorias de características relevantes para determinado usuário ou contexto. Em algumas modalidades, o módulo de serviços de segmento de conteúdo de vídeo 125 pode também analisar os dados de EPG 143 para a determinação do contexto. Em uma modalidade, determinar características de composição ou categorias de características relevantes para o usuário pode incluir receber um item chave, como um termo de pesquisa ou especificações para um objeto de pesquisa ou som. Assim, a análise dos dados de saída de detector de áudio, textuais e visuais pode incluir a procura para correspondências para o item chave.

[0068] Na caixa 450, os serviços de segmento de conteúdo de vídeo 125 podem gerar segmentos dos dados de vídeo com base na análise dos dados de saída de detector visuais, de áudio e textuais 147 e/ou dados de EPG. Em uma modalidade gerar os segmentos de dados de vídeo pode incluir gerar definições de segmento correspondentes. Qualquer número de segmentos pode ser gerado com base nas características visuais, de áudio, e/ou textuais nos dados de saída 147. Em modalidades relacionadas, o módulo de serviços de segmento de conteúdo de vídeo 125 pode enviar ou fornecer os segmentos de vídeo e/ou as definições de segmento para uma interface de usuário em um ou mais dispositivos clientes 120 apresentado a um usuário 107.

[0069] Na caixa 460, o módulo de serviços de segmento de conteúdo de vídeo 125, ou algum outro componente e um dispositivo cliente 120, pode receber entrada do usuário com a indicação de uma seleção de segmento. Em resposta à seleção de segmento, os serviços de segmento de conteúdo de vídeo 125 podem determinar dados de publicidade, em caixa 470. Como descrito aqui, os dados de publicidade podem incluir a especificação de um clipe de video comercial particular, uma faixa de áudio secundária, e/ou dados textuais que podem ser sobrepostos sobre o conteúdo visual. Em outras modalidades, a caixa 460 pode ocorrer antes da caixa 450; isto é, segmentos de um conteúdo de video podem ser produzidos com base na entrada do usuário.

[0070] Na caixa 480, os serviços de segmento de conteúdo de video 125 podem gerar dados de video-anúncio de composição que incluem os quadros do segmento selecionados e os dados de anúncio. Os dados de video-anúncio de composição também podem incluir informações de especificação, permitindo o mecanismo de interface de usuário relativo 121 renderizar o conteúdo de video com base nos dados de video-anúncio de composição.

[0071] Em um exemplo de caixa 440, o passo de análise e extração de características de áudio, visuais, e textuais do conteúdo de video é realizado por um primeiro dispositivo (um servidor 110 ou dispositivo cliente 120), e a caixa 450 da produção os segmentos são realizados pelo dispositivo cliente 120. No entanto, a caixa 450 pode ser realizada pelo servidor 110 ou outro dispositivo de computação independente a partir de servidor 110 e o dispositivo cliente 120. Nesta modalidade, o analisador de dados de video 111 envia para os serviços de segmento de conteúdo de video 125 um conjunto de características de áudio, visuais e textuais. Com base neste conjunto de características de áudio, visuais, e textuais, serviços de segmento de conteúdo de video 125 funde-as, gerando características de composição, e gera segmentos do conteúdo de video. Em seguida, os serviços de segmento de conteúdo de video 125 transmite a segmentação 191 produzida para o mecanismo de interface de usuário 121, e o método prossegue. Opcionalmente, dispositivo cliente 120 simplesmente emite comandos de "reprodução ilusória" (avanço rápido, retroceder rápido, reprodução, pausa) para o STB para começar a reproduzir o conteúdo de video a partir do ponto que começa o segmento.

[0072] Em outra modalidade alternativa, as características visuais, de áudio, e textuais do conteúdo de vídeo e seu conteúdo alternativo/suplementar são transmitidos para um servidor de terceiros, o qual também armazena o conteúdo no seu armazenamento interno. Posteriormente, o servidor de terceiros analisa o áudio, o vídeo, e o texto contido nas características de áudio, visuais e textuais do conteúdo de vídeo para produzir vários segmentos para o conteúdo de vídeo. Nesta modalidade, o dispositivo cliente 120 troca informações com o servidor de terceiros a fim de recuperar a segmentação para o conteúdo de vídeo. Mecanismo de interface de usuário 121 apresenta uma interface de usuário que permite o usuário selecionar um segmento particular do conteúdo de vídeo. Com base no segmento escolhido, o mecanismo de interface de usuário 121 transmite comandos de "reprodução ilusória" para dispositivo cliente 120, a fim de avançar ou retroceder para o início do segmento escolhido do conteúdo de vídeo.

[0073] Em outra modalidade alternativa, um servidor 110 recebe não só o conteúdo original, mas também conteúdo estendido. Este conteúdo estendido representa cenas deletadas ou versões alternativas associadas ao conteúdo. Este conteúdo estendido pode ser produzido pela mesma entidade que produziu o conteúdo original ou por outra entidade. Nesta modalidade, tanto o conteúdo original e o estendido são analisados a fim de gerar os vários segmentos. Tanto o conteúdo original e o estendido são segmentados. Cada segmento contém uma porção do conteúdo original e pode ou não podem conter uma porção do conteúdo estendido. Quando o segmento contém uma porção do conteúdo estendido, dispositivo cliente 120 pode fornecer tal indicação no mecanismo de interface de usuário 121. Quando o usuário seleciona um segmento, dispositivo cliente 120 pode (1) exibir primeiro segmento original e, em seguida, perguntar ao usuário se ele/ela quer assistir o conteúdo alternativo; (2) exibir tanto o conteúdo original e alternativo; (3) decidir se deseja exibir ou não o conteúdo alternativo com base em informação histórica sobre os hábitos ou preferências do usuário; ou (4) decidir se deseja exibir ou não o conteúdo alternativo com base no nivel de interesse, ou no nivel de reação positiva ou negativa, capturada do usuário.

[0074] Em outra modalidade alternativa, um servidor 10 recebe não só o conteúdo original e/ou estendido, mas também conteúdo complementar a ser exibido no mecanismo de interface de usuário 121. Isto é particularmente relevante quando o mecanismo de interface de usuário 121 contém uma tela; por exemplo, quando o dispositivo de usuário é um computador tablet ou telefone inteligente. Este conteúdo complementar contém videos ou imagens com informações complementares ao conteúdo original/estendido, caso o usuário deseje informações adicionais do que ao presente no conteúdo de video. Este conteúdo complementar pode ser produzido pela mesma entidade que produziu o conteúdo original ou por outra entidade. Nesta modalidade, o conteúdo original, o estendido, e o complementar são analisados a fim de gerar os vários segmentos. 0 conteúdo original, o estendido, e o complementar são segmentados. Cada segmento contém uma porção do conteúdo original e pode ou não conter uma porção do conteúdo complementar. Quando o segmento contém uma porção do conteúdo complementar, o dispositivo cliente 120 transmite tal segmento complementar ao mecanismo de interface de usuário 121, que apresenta para o usuário na sua tela.

[0075] Em outra modalidade, dispositivo cliente 120 pode classificar os segmentos contendo as características visuais, de áudio e textuais do conteúdo de video, determinando a importância de cada um dos segmentos para o usuário. A classificação é realizada pelo módulo de serviços de segmento de conteúdo de video 125 com base nas características visuais, de áudio e textuais do conteúdo de vídeo extraído de cada um dos segmentos. Nesta modalidade, o módulo de serviços de segmento de conteúdo de vídeo 125 está configurado para classificar os segmentos com base em um critério selecionável pelo usuário, ou, alternativamente, em critérios aprendidos com histórico de visualização do usuário. Por exemplo, se as características de áudio, textuais e visuais do conteúdo de vídeo se referem a um conteúdo de beisebol, o usuário pode decidir assistir apenas os segmentos que contêm home-runs ou jogadas com grande emoção. Neste caso, o módulo de serviços de segmento de conteúdo de vídeo 125 iria extrair e fundir características visuais, de áudio e textuais do conteúdo de vídeo que correspondem a grande emoção para gerar a classificação. Posteriormente, dispositivo cliente 120 exibiria as indicações de usuário sobre a localização dos segmentos melhores classificados, ou iria construir um video resumo contendo apenas os segmentos melhor classificados. Um método especificamente desenhado para extrair emoção a partir do conteúdo de beisebol é descrito mais tarde. Outra maneira de produzir a classificação para segmentos é estimar o potencial nivel de atenção de cada segmento. Tal método de classificação é com base em um conhecimento a priori sobre as características estatísticas das características de áudio/video/texto no conteúdo de video que têm alta correlação com altos niveis de atenção. Usando tal conhecimento a priori, é possivel determinar quais segmentos são susceptíveis de gerar niveis mais altos de atenção e atribuir uma alta ordem de classificação para esses segmentos.

Geração de segmentos definidos por usuário e definições de segmento e processamento de consultas

[0076] Em outra modalidade, os segmentos são criados com base na entrada de usuário. Nesta modalidade, além de transmitir o conteúdo de video para o dispositivo cliente 120, o servidor 110 também capta e armazena o conteúdo no servidor de conteúdo 115. À medida que o conteúdo é capturado, é também analisado e várias características de áudio/video/texto são extraídas para cada porção do conteúdo de video. Exemplos de características de áudio/video/texto são descritos acima e abaixo, e podem incluir registros textuais de programa. Esses registros são armazenados no banco de dados de conteúdo analisado 117 como um banco de dados pesquisável e associado com as características visuais, de áudio e textuais do conteúdo de video, onde diferentes caracteristicas são armazenadas por vários pontos de tempo dentro do conteúdo de video. Com base em uma pesquisa do usuário, o que pode ser feito por meio de dispositivo de interface de usuário 123 que comunica com o dispositivo cliente 120 ou com o servidor de conteúdo 115 diretamente através de um canal de comunicação diferente (por exemplo, a Internet), serviços de segmento de conteúdo de video 125 geram uma sequência de segmentos usando uma ou mais das caracteristicas de áudio, visuais e textuais armazenadas do conteúdo de video. Ou, servidor de conteúdo 115 pode gerar os segmentos e, em seguida, transmitir para o dispositivo cliente 120 a informação sobre todos os segmentos na sequência juntamente com um ou mais dos segmentos. Dispositivo cliente 120, em seguida, exibe as informações sobre os segmentos em uma interface gráfica de usuário que permite ao usuário navegar nas informações sobre os segmentos e selecionar um dos segmentos gerados para visualização. Se o segmento selecionado é um dos segmentos transmitidos, juntamente com a sequência de informações de segmentos, em seguida, dispositivo cliente 120 inicia imediatamente renderização do segmento para o usuário. Caso contrário, o dispositivo cliente 120 obtém o segmento selecionado a partir do servidor de conteúdo 115 e mostra o segmento para o usuário.

[0077] A Figura 5 ilustra um fluxograma simplificado 500 de um método para processamento de consultas de usuário de acordo com uma modalidade. Em 502, o mecanismo de interface de usuário recebe uma consulta de usuário. Consultas de usuários podem assumir a forma de uma consulta textual, uma consulta de áudio, uma consulta visual, ou qualquer combinação dessas. Por exemplo, a consulta de usuário pode ser simplesmente palavras ou frases, bem como um consulta de mecanismo de pesquisa. Como outro exemplo, a consulta de usuário pode ser um trecho de áudio, uma gravação, um pedaço de música. Como mais um exemplo, a consulta de usuário pode ser uma imagem, uma sequência de imagens, ou mesmo um pequeno video que contém áudio e video. Como ainda outro exemplo, a consulta de usuário pode conter palavras, frases e um clipe de video.

[0078] Em uma modalidade exemplificativa, o módulo de serviços de segmento de conteúdo de video 125 pode receber uma consulta que inclui uma ou mais palavras. Em algumas modalidades, a entrada de usuário das palavras chave pode ser gerada com base no reconhecimento de um áudio falado que converte enunciados a partir de um usuário em palavras chave de texto. Em outra modalidade, o módulo de serviços de segmento de conteúdo de video 125 pode receber itens chave sob a forma de texto introduzido utilizando dispositivos de entrada de usuário, tais como teclado ou tela tátil associado com o dispositivo cliente 120. Em outra modalidade, as palavras chave podem ser extraidas a partir de conteúdos de video usando reconhecimento óptico de caracteres.

[0079] Em 504, em resposta à consulta, o pesquisador de segmento 137 pode pesquisar dados de saida textual (ou quaisquer características visuais, de áudio e/ou textuais) em bancos de dados de conteúdo analisado 117 e/ou 141 para correspondências para a palavra chave. Por exemplo, os indices de programa textuais que contêm registros de texto e tempos correspondentes para palavras significativas para cada programa de video são pesquisados.

[0080] Em 506, pesquisador de segmento 137 identifica correspondentes programas de video com base no indice de programa textual associado a cada programa de video. Os indices que contêm pelo menos uma ocorrência de cada palavra na consulta de pesquisa são identificados como correspondência. Em um exemplo, a palavra chave pode ser incluída em qualquer um dos dados de legenda oculta de ou os dados de vídeo reconhecidos de caracteres ópticos especificados em diversas definições de segmento.

[0081] Em 508, o pesquisador de segmento 137 pode, então, identificar um conjunto de segmentos de vídeo. Como aqui descrito, os segmentos podem incluir identificadores específicos de características de áudio, visuais e textuais do conteúdo de vídeo e/ou coordenadas de tempo em um ativo de vídeo particular em que a palavra chave pode ser encontrada. Por conseguinte, em um dos seus segmentos, uma palavra chave específica pode ser emparelhada com um ponto de tempo de um determinado ativo de vídeo.

[0082] Por exemplo, para um número N, ativos de vídeo Ci podem ser emparelhados com pontos de tempo correspondentes Tvhi em que um item chave particular é determinado para ocorrer. Por conseguinte, em uma modalidade, os segmentos de correspondência podem ser representados por um conjunto de pares de pontos de item-tempo chave (por exemplo, { (Ci, Tvhi) , (C2, Tvhs) , . . . , (CN, TvhN) }) que representa o ponto no tempo, Tvhi, em que um item chave específico ocorre em ativo de vídeo Ci. Para cada par (Ci, Tvhi) , o módulo de serviços de segmento de conteúdo de vídeo 125 pode construir um segmento que inclui a parte do ativo de vídeo Ci abrangendo a partir de tempo Tvhi-Dbef a tempo Tvhi + Daft, onde Dbef e Daft são valores predeterminados que determinam o comprimento do segmento. 0 segmento gerado pode conter segmentos não contíguos a partir do conteúdo de vídeo original. Antes de gerar a sequência dos segmentos, o módulo de serviços de segmento de conteúdo de vídeo 125 pode fundir segmentos que correspondem ao mesmo ativo de dados Ci e têm pontos de tempo Tvhi próximos uns dos outros.

[0083] Em 510, continuando no exemplo acima, o mecanismo de interface de usuário 121 pode apresentar uma listagem dos programas de vídeo (por exemplo, características de áudio, visuais e textuais do conteúdo de vídeo) correspondendo com os identificadores retornados. Em 512, mecanismo de interface de usuário 121 pode permitir que o usuário selecione um programa de vídeo ou mecanismo de interface de usuário 121 pode automaticamente escolher um programa de vídeo. Após a seleção de um programa de vídeo, em 514, pesquisador de segmento 137 pesquisa os registros de texto para o programa de vídeo escolhido. Em outras modalidades, a listagem de programas de vídeo pode não ser exibida e o seguinte processo é executado para todos os programas de vídeo.

[0084] Na pesquisa, a consulta de pesquisa é comparada com as palavras significativas armazenadas com o registro de texto, e se as palavras significativas contém palavras compostas pela consulta de pesquisa, o registro de texto é identificado como um registro de texto correspondente. Para cada registro de texto correspondente, uma classificação de registro de texto em janelas é computada. A classificação de registro de texto em janelas é calculada pela contagem do número de palavras de consulta de pesquisa que são contidas nas palavras significativas do registro de texto atual e nos N registros de texto subsequentes. Registros de texto subsequentes são registros de texto criados a partir das características de áudio, visuais e textuais do conteúdo de video imediatamente após o registro de texto atual. 0 valor N pode ser calculado a partir da consulta de pesquisa, tal com base no número de palavras na consulta de pesquisa. Em seguida, os segmentos do conteúdo de vídeo são criados usando os registros de texto correspondentes. Blocos contíguos de registros de texto correspondentes podem ser identificados como um segmento. Por exemplo, se os registros de texto A e B são registros de texto correspondentes, mas registro de texto C não é um registro de texto correspondente, em seguida, um segmento é criado a partir de registros de texto A e B. Os segmentos também podem ser criados a partir de segmentos não contíguos. Por exemplo, os segmentos A e C podem conter conceitos semelhantes e são combinados em um segmento.

[0085] Uma pontuação de segmento é atribuída ao segmento, que é calculado como o valor máximo da classificação de registro de texto em janelas do registro de texto dentro do segmento. Finalmente, em 516, mecanismo de interface de usuário 121 apresenta os segmentos do conteúdo de vídeo para o usuário. Segmentos com a maior pontuação de segmento podem ser apresentados primeiro, ou mais proeminentemente (por exemplo, superior). Se todos os programas de vídeo foram analisados, então os segmentos de vários programas de vídeo são classificados e, em seguida, emitidos. Os segmentos gerados podem ser combinados com outros segmentos identificados, tais como segmentos identificados utilizando metadados como descrito abaixo.

[0086] Em algumas modalidades, o módulo de serviços de segmento de conteúdo de video 125 pode ser assistido por um ou mais servidores de conteúdo distribuído (DCS) 140. Cada DCS 140 pode ser associado e/ou colocalizado com um dispositivo cliente 120 ou um grupo de dispositivos clientes. O uso do DCS 140 pode reduzir a carga de consulta no módulo de serviços de segmento de conteúdo de video 125, bem como reduzir o tráfego de video na rede de transmissão. O principal objetivo dos DCSs 140 é armazenar e responder a consultas de usuário por servir segmentos correspondentes do conteúdo de video diretamente a partir de seu armazenamento local 141. DCS 140 constrói o seu armazenamento local 141 por capturar o conteúdo de video chegando ao dispositivo cliente 120 a ele associado. DCS 140 minimiza a carga de consulta e tráfego de video; no entanto, é limitado pela quantidade de armazenamento local. Dada à restrição de armazenamento, DCS 140 deve decidir quais segmentos do conteúdo de video manter e quais descartar. Para alcançar tais decisões, uma modalidade do DCS 140 utiliza um método de gerenciamento de armazenamento de conteúdo que avalia constantemente se deseja armazenar novos componentes visuais, áudio e textuais de entrada do conteúdo de video, e se deseja excluir o conteúdo que foi armazenado anteriormente.

[0087] O DCS 140 pode responder às consultas dos usuários por fornecer segmentos correspondentes de características de video diretamente do seu armazenamento local (por exemplo, dados de video armazenados no banco de dados de conteúdo analisado 141) . 0 DCS 140 pode construir seu armazenamento local por capturar os dados de video que chegam ao dispositivo cliente 120. Com base na limitação fisica da memória no DCS 140, pode ser constrangido em quantos dados de video podem ser armazenados em um determinado momento. Por conseguinte, o DCS 140 pode controlar quais segmentos deste ativo de video manter e quais descartar. Para determinar quais dados de video manter, o DCS 140 pode usar um algoritmo de gerenciamento de armazenamento de conteúdo que pode avaliar a possibilidade de armazenar dados de video novos entrantes, e se deseja excluir os dados de video que foram previamente armazenados. Se o DCS 140 não tem segmentos correspondentes em seu armazenamento local, o DCS 140 pode encaminhar o pedido para o computador servidor principal 110, que encontra os segmentos correspondentes e os envia para DCS 140 para posterior apresentação ao usuário final. Em outra modalidade, o DCS 140 sempre encaminha consultas de usuário para o computador servidor 110, que envia informação ao DCS 140 para auxiliar na produção dos segmentos correspondentes a partir do conteúdo armazenado na sua memória local.

Previsões de interesse de usuário usando valores de prioridade

[0088] Usando o algoritmo de gerenciamento de armazenamento de conteúdo, o DCS 140 pode gerar previsões de interesse de usuário. Para isso, o DCS 140 pode atribuir um valor de prioridade (PV) para cada segmento de um ativo de video particular. Para determinar se e quais dados de video excluir no DCS 140 para tornar memória disponivel para gravar novos dados de video de entrada, o DCS 140 pode comparar o PV dos dados de video de entrada com o menor PV no armazenamento. Se o PV dos dados de video de entrada é mais alto, o um ou mais segmentos com o menor PV são eliminados e os dados de video de entrada são armazenados. Desta forma, o DCS 140 armazena sempre os segmentos com os valores mais elevados de PV.

[0089] Em uma modalidade, o algoritmo de gerenciamento de armazenamento de conteúdo usado pelo DCS 140 usa uma combinação de fatores incluindo, mas não limitado a informação histórica, mecanismos de pesquisa de Internet, e mecanismos de recomendação.

[0090] Em algumas modalidades, o DCS 140 pode utilizar o algoritmo de gerenciamento de armazenamento para armazenar o conteúdo de informação sobre qual e qual tipo de consultas um determinado usuário fez no passado. Por exemplo, se o usuário geralmente faz perguntas sobre um time de futebol particular, em seguida, o DCS 140 pode aumentar o PV de qualquer segmento relacionado com a equipe de futebol particular.

[0091] Em algumas modalidades, o DCS 140 pode acessar mecanismos de pesquisa de internet remotos ou o DCS 140 pode atuar como um servidor proxy para o dispositivo cliente 120 para acessar mecanismos de pesquisa de internet remotos. Assim, sempre que o DCS 140 detecta que o usuário está procurando um conjunto de palavras em qualquer mecanismo de pesquisa, em seguida, pode aumentar o PV de quaisquer segmentos existentes em seu armazenamento e qualquer segmento de entrada relacionado com consultas de Internet do usuário.

[0092] O DCS 140 também pode acessar mecanismos de recomendação para determinar segmentos em que os dados de video que podem ser de interesse para um usuário e aumentar o PV de qualquer segmento existente ou de entrada. Em tais modalidades, o DCS 140 pode acessar um ou mais mecanismos de recomendação para recuperar informações coletadas a partir do dispositivo cliente 120, como informações de conta de email de usuário. Os PVs de segmentos novos e existentes podem ser atualizados com base no interesse demonstrado pelo conteúdo das mensagens de e-mail manipuladas pela conta de e-mail. Por conseguinte, o DCS 140 pode alterar o PV de um segmento de video com base em eventos que ocorrem em mensagens de e-mail (por exemplo, e-mail sobre temas específicos) que indicam características visuais, de áudio e/ou textuais particulares associadas com vários segmentos ainda são ainda importantes para o usuário.

[0093] Os PVs de segmentos existentes e futuros são constantemente atualizados uma vez que o interesse dos usuários muda. Um segmento com um alto PV lentamente diminuiria em valor conforme o tempo passa, a menos que ocorra um acontecimento que indica que este tipo de segmento ainda é importante para o usuário. Ainda nesta modalidade, quando uma consulta de usuário chega, DCS 140 executa os seguintes passos. DCS 140 verifica se o conteúdo armazenado localmente é capaz de fornecer resultados para a consulta; se assim for, o DCS 140 utiliza tais segmentos para resposta da consulta. Se não, DCS 140 encaminha a solicitação para o servidor de conteúdo principal 115, que encaminha para DCS 140 os segmentos relacionados. Alternativamente, antes de verificar, DCS 140 pode encaminhar o pedido para o servidor de conteúdo principal 115, que envia para DCS 140 apenas as informações sobre os segmentos correspondentes (tal informação poderia indicar as caracteristicas de áudio, visuais e textuais do conteúdo de video e qual segmento dentro de tal conteúdo) ; por exemplo, o video real dos segmentos correspondentes não seria enviado ao DCS 140 a menos que o usuário solicite o video. Tal informação poderia ser usada para gerar a resposta à consulta.

[0094] Em algumas modalidades, o dispositivo cliente 120 pode detectar o comportamento do usuário. Por exemplo, o dispositivo cliente 120 pode incluir microfones, acelerômetros, câmeras e outros sensores para observar as reações dos usuários aos segmentos de video. Os serviços de segmento de conteúdo de video 125 ou o DCS 140 pode utilizar esses dados de comportamento de usuário para determinar ou aumentar valores de PV para os segmentos de video específicos e/ou os itens chave relacionados. Em tais modalidades, os serviços de segmento de conteúdo de video 125 e/ou o DCS 140 podem recolher os dados de comportamento de usuário do dispositivo cliente 120. Os dados de comportamento de usuário podem, então, ser utilizados para informar a determinação de PV para novos segmentos de video associados com os elementos essenciais semelhantes. Em tais modalidades, o dispositivo cliente 120 pode detectar caracteristicas de áudio e de video das reações de usuário recolhidas, e os serviços de segmento de conteúdo de video 125 e/ou o DCS 140 podem determinar se o usuário teve uma reação positiva, negativa ou neutra para o segmento. Estes dados de comportamento de usuário podem ser associados com o usuário 107 ou o dispositivo cliente 120 e armazenados no módulo de serviços de segmento de conteúdo de video 125, e/ou servidor de conteúdo distribuído 140. Os dados de comportamento de usuário também podem ser utilizados quando apresentando os segmentos disponíveis de dados de video para o usuário 107. Por exemplo, segmentos que são estimados para gerar reações positivas do usuário 107 seriam apresentados antes de segmentos que geram reações negativas. Além disso, os dados de comportamento de usuário podem ser usados ao classificar segmentos para produzir uns destaques ou versão resumida do ativo de video particular. Em algumas modalidades, os dados de comportamento de usuário podem também ser usados para marcar um segmento para visualização de repetição posterior pelo usuário 107. Por conseguinte, os dados de comportamento de usuário também podem informar recomendações para outros conteúdos de video. Além disso, os dados de comportamento de usuário também podem ser utilizados pelo módulo de serviços de segmento de conteúdo de video 125 para responder a consultas de usuário, e pelo DCS 140 para determinar o PV de segmentos para reter em armazenamento.

[0095] Em uma modalidade, o PV de segmentos pode ser baseado, em parte, no nivel de atenção que é estimado com base em um conhecimento a priori sobre as características estatísticas das características de áudio/ video/texto indicativas de grande atenção, como descrito acima.

[0096] Em outra modalidade, as reações de usuário para segmentos podem ser usadas para selecionar outros segmentos para apresentar ao usuário. Se as reações para um primeiro segmento são consideradas positivas, segmentos adicionais relacionados com o primeiro segmento serão apresentados. Tal funcionalidade permite o módulo de serviços de segmento de conteúdo de video 125 ou DCS 140 selecionar uma sequência customizada de segmentos, resultando em uma trama diferente para um usuário. Por exemplo, considere um ativo de video contendo um show de comédia. 0 módulo de serviços de segmento de conteúdo de video 125 ou DCS 140 pode associar os vários segmentos com cada piada ou moral da história. O módulo de serviços de segmento de conteúdo de video 125 ou DCS 140 pode, então, gerar segmentos associados a cada piada disponível no ativo de video. À medida que o usuário seleciona a piada para assistir, o primeiro segmento associado com a piada selecionada é apresentado ao usuário. Alternativamente, a piada pode ser apresentada como parte de uma apresentação de programa linear regular. À medida que o usuário assiste a piada, suas reações ao segmento são coletadas e usadas pelo sistema para determinar se deve ou não apresentar os segmentos posteriores associados com uma piada similar. Se a reação detectada foi negativa, então o sistema não apresentaria os segmentos subsequentes da piada. Opcionalmente, o módulo de serviços de segmento de conteúdo de video 125 ou DCS 140 pode apresentar automaticamente um segmento associado com a próxima piada. Em tal modalidade, o sistema particiona os segmentos em diferentes tramas disponíveis de forma automática, através da análise dos dados de detector de saida de áudio, video, textuais ou manualmente (por exemplo, com base na entrada a partir do produtor de conteúdo).

[0097] Uma vez que o próximo segmento a ser apresentado pode depender de reação do usuário para um segmento apresentado anteriormente, pode ser necessário transmitir segmentos posteriores a partir de um ativo de video antes de segmentos iniciais de outro ativo de video. Esta transmissão fora-de-ordem pode ser implementada em cenários em que a fonte de video 105 ou o computador servidor 110 usa um método de "empurrar" ou "puxar" de transmissão de dados de video.

[0098] O termo "empurrar" refere-se a técnicas de transmissão em que uma conexão é estabelecida e segmentos dos dados de video são "empurrados" pelo computador servidor 110 através da conexão com o dispositivo cliente 120. Os exemplos de uma transmissão tipo "empurrar" incluem protocolo de transmissão continua em tempo real (RTSP) e protocolo de transporte em tempo real (RTP).

[0099] O termo "puxar" refere-se a métodos de transmissão em que o dispositivo cliente 120 pede e transfere os vários segmentos dos dados de video da fonte de video 105 ou o computador servidor 110 (por exemplo, um servidor HTTP contido no servidor um computador 10). Os segmentos de video baixados são especificados pelo dispositivo cliente 120, e podem ser escolhidos de uma lista de segmentos disponíveis e suas propriedades fornecidas ao usuário 107. Os exemplos de métodos de "empurrar" incluem Transmissão continua Ao Vivo HTTP, Transmissão continua Suave da Microsoft, e MPEG- DASH.

[00100] Quando dispositivos clientes 120 usam Mecanismos de transmissão tipo "empurrar", como Transmissão continua ao Vivo HTTP, os vários segmentos criados podem ser armazenados em um servidor HTTP no módulo de serviços de segmento de conteúdo de video 125, DCS 140, ou o dispositivo cliente 120. Cada segmento pode ser armazenado como um ou mais de um arquivo de "pedaço". Arquivos de pedaço são arquivos que representam uma ou mais porções de um arquivo maior e são usados para reduzir a carga sobre as redes para fornecer fluxo continuo. Arquivos de pedaço para diferentes renderizações do segmento, tal como por diferentes niveis de resolução de video ou qualidade, podem também ser armazenados em arquivos de pedaço separados. Todos os arquivos de pedaço e os arquivos correspondentes que listam e descrevem os vários blocos de dados de video podem ser armazenados no servidor HTTP. Além desses arquivos, novos arquivos de controle são armazenados no servidor HTTP. Esses novos arquivos de controle são chamados de "Arquivos de Controle de Trama Alternativa" (arquivo de ASC) . 0 arquivo de ASC pode ser usado para definir diferentes versões ou tramas de conteúdo alternativo, que, em uma modalidade, podem ser organizadas em um arranjo de "árvore", em que a trama pode seguir um ou outro "ramo" da árvore em pontos chave na narrativa.

[00101] Quando um dispositivo cliente 120 descarrega arquivos de pedaço, ele também pode baixar arquivos de controle e os arquivos de ASC correspondentes. Os arquivos de controle podem indicar uma sequência padrão de apresentação dos vários segmentos de video nos arquivos de pedaço. Além disso, cada arquivo de controle pode ser associado a um arquivo de ASC. O arquivo de ASC pode incluir instruções que o dispositivo cliente 120 pode usar para realizar várias ações quando são detectados indicadores emocionais específicos enquanto quando um segmento de video de arquivo de pedaço particular listado no arquivo de controle é apresentado a um usuário.

[00102] As instruções no arquivo de ASC para a realização das diferentes ações podem ser definidas de uma série de maneiras. Em um exemplo, o arquivo de ASC pode incluir triplas sequenciais ou não sequenciais. Cada tripla pode incluir um identificador de arquivo de pedaço, um código de emoção, e identificador de arquivo de pedaço de "salto para". Tais entradas de tripla podem ser utilizadas pelo dispositivo cliente 120 para determinar se a emoção associada com o código de emoção enquanto o segmento de video incluido no arquivo de bloco associado com o identificador de arquivo de bloco é apresentado, em seguida, o dispositivo cliente 120 pode utilizar o segmento de video incluido no arquivo de pedaço associado com o identificador de arquivo de pedaço de salto para na extremidade do segmento de video atual. Se o arquivo de ASC não contém uma entrada para o segmento de video atual, ou se nenhuma das emoções especificadas foi detectada, em seguida, o dispositivo cliente 120 pode apresentar o segmento de video incluido no próximo arquivo de pedaço indicado no arquivo de controle.

Exemplo de geração de segmento e tipos de classificação

[00103] A geração e classificação dos segmentos de video podem ser baseadas em metadados associados com o conteúdo de video. A Figura 6 ilustra um fluxograma simplificado de um método 600 para gerar e classificar segmentos de acordo com uma modalidade. Em 602, os serviços de segmento de conteúdo de video 125 recebem metadados para conteúdo de video. Tais metadados podem incluir dados, incluindo, mas se limitando a, o conhecimento prévio do conteúdo de video e a sua estrutura (por exemplo, metadados ou dados de EPG), características visuais, de áudio, e/ou textuais de saida de detector, e qualquer combinação dos me smo s.

[00104] Em um exemplo de realização, os extratores visuais, de áudio e textuais 112, 113 e 114 e serviços de segmento de conteúdo de video 125 são configuráveis em que seus parâmetros operacionais internos são ajustáveis de acordo com os metadados. Por exemplo, se um programa de TV está sendo analisado, mais do que apenas selecionar parâmetros para um determinado gênero de programa de TV é fornecido. Extratores visuais, de áudio, e textuais 111 e serviços de segmento de conteúdo de vídeo 125 podem ter parâmetros específicos para cada programa de televisão particular. Por exemplo, extratores visuais, de áudio, e textuais 112, 113, e 114 e serviços de segmento de conteúdo de vídeo 125 podem ter um conjunto de parâmetros específicos para analisar um noticiário de um canal local 7 e conjunto diferente de parâmetros específicos para analisar um noticiário de canal local 9. A característica de composição pode ser definida para um telejornal local particular nos dados de transmissão de vídeo em um determinado canal, tal como definido nos dados de EPG correspondentes. O EPG pode indicar que os dados de vídeo são um telejornal local. Depois de carregar os parâmetros de pesquisa de áudio, de vídeo e de texto específicos para o noticiário local, o módulo de serviços de segmento de conteúdo de vídeo 125 pode analisar as transições entre o telejornal e os intervalos comerciais para determinar os segmentos.

[00105] Em 604, modalidades particulares ajustam parâmetros para extratores visuais, de áudio, e textuais 112, 113 e 114 e serviços de segmento de conteúdo de vídeo 125 com base nos metadados. Por exemplo, modalidades particulares são capazes de usar o EPG e outros dados ou metadados disponíveis para sintonizar os parâmetros de extratores visuais, de áudio e textuais 112, 113 e 114 e serviços de segmento de conteúdo de vídeo 125. A informação de EPG fornece não só o tipo de características de áudio, visuais e textuais do conteúdo de vídeo, mas também a identidade específica das características de áudio, visuais e textuais do conteúdo de vídeo. Muitos tipos de características de áudio, visuais e textuais do conteúdo de vídeo representam uma série de um programa de TV particular. Considere, por exemplo, as características visuais, de áudio e textuais do conteúdo de vídeo correspondente a um noticiário local. Todos os dias o noticiário local gera diferentes características visuais, de áudio e textuais do conteúdo de vídeo uma vez que cada corresponde à notícia do dia particular. No entanto, a série de todas as características visuais, de áudio e textuais do conteúdo de vídeo gerado pelo noticiário local contêm semelhanças significativas. Por exemplo, os âncoras de notícias, âncoras de esportes, o pessoal do tempo, e repórteres de campo são geralmente os mesmos. Extratores visuais, de áudio, e textuais 112, 113 e 114 e serviços de segmento de conteúdo de vídeo 125 aproveitam dessas informações, utilizando métodos bem conhecidos da identificação de locutor. Usando amostras de características de áudio, visuais e textuais anteriores do conteúdo de vídeo gravado a partir de noticiários locais anteriores, modelos de locutores são gerados para os principais locutores do noticiário. Da mesma forma, cada noticiário local contém jingles que marcam as transições de e para os comerciais. Usando amostras de características visuais, de áudio e textuais do conteúdo de vídeo gravado a partir de noticiários locais anteriores, modelos de áudio para os jingles podem ser usados para detectar quando o jingle ocorre. Modelos de locutor e de jingle são então carregados no sistema uma vez que o sistema determina, com base na informação de EPG, que as características de áudio, visuais e textuais do conteúdo de vídeo são uma nova versão do noticiário local.

[00106] Do mesmo modo, a maioria dos noticiários são produzidos em um ambiente de estúdio que permanece o mesmo para pelo menos uma estação inteira. Além disso, efeitos gráficos visuais usados para indicar ao usuário uma mudança de assunto de notícia são geralmente semelhantes ao longo da temporada. Assim, usando amostras de características de áudio, visuais e textuais previamente gravadas do conteúdo de vídeo, é possível determinar quadros que são normalmente utilizados para marcar a transição de uma história para outra. Além disso, é possível determinar as características de cor e as bordas em um estúdio. Além disso, também é possível treinar métodos de reconhecimento de rosto para reconhecer os diferentes âncoras de notícias, âncoras desportivos, pessoal de tempo, e repórteres de campo. Os modelos treinados para estas características visuais podem então ser carregados no sistema, uma vez os serviços de segmento de conteúdo de vídeo 125 determinam, novamente com base na informação de EPG, que as características de áudio, visuais e textuais do conteúdo de vídeo são uma nova versão do noticiário local.

[00107] Além disso, a maior parte dos noticiários contêm também legendas ocultas que são produzidas no estúdio. Estas legendas ocultas contém mais do que apenas o texto que está sendo falado. Também contêm marcadores. Operadores de teleprompters podem usar sequências de caracteres especiais para sinalizar uma mudança no locutor ou até mesmo uma mudança de assunto.

[00108] Depois de sintonizar, em 606, extratores visuais, de áudio, e textuais 112, 113, e 114 determinam características visuais, de áudio e textuais do conteúdo de video usando os metadados. Em uma modalidade, as características de áudio determinadas a partir das características de áudio de saida de detector podem incluir, mas não são limitadas a, modelos treinados para as estatísticas de características de voz a partir de locutores com base nas características visuais, de áudio e textuais do conteúdo de video, periodos de silêncio, variações de energia de áudio, tom de uma voz de locutor ou outros tipos de áudio, espectro de áudio e informações de cepstrum, identificação de música versus sons não musicais, gênero de música, identificação de fala versus classificações de não fala, sons de aplausos ou torcida, sons de risos, sons de sirenes, sons de explosões, e similares.

[00109] Em uma modalidade, as características visuais podem incluir, mas não são limitadas a, marcadores de video ou modelos (por exemplo, características gráficas sobrepostas no conteúdo visual indicando uma transição, ou identificando um segmento de conteúdo), cortes de edição de video ou transições, transições de entrada/saida de vídeo, flashes de luz ou luzes estroboscópicas, detecção de capturas de longe ou de perto, e similares.

[00110] Em uma modalidade, características textuais podem incluir, mas não são limitadas a, texto de legenda oculta, resumos de texto de legenda oculta, marcadores de legenda oculta, texto detectado na tela (por exemplo, gráficos ou imagens contendo texto), texto gerado pela aplicação de reconhecimento de fala para a faixa de áudio de um programa, e semelhantes.

[00111] Serviços de segmento de conteúdo de video 125 podem combinar ou fundir saida de detector para criar caracteristicas de composição. As caracteristicas de composição que podem implicar mais significado e podem incluir mais informações do que qualquer um único ponto de dados de saida de detector. Em várias modalidades, algumas ou todas as caracteristicas acima podem ser, em seguida, combinadas ou fundidas para criar caracteristicas de composição com mais significado e informações do que caracteristicas extraidas individuais. Serviços de segmento de conteúdo de video 125 aproveitam esta informação em uma nova maneira de ajudar o sistema para gerar os vários segmentos para o programa. Assim, em 608, os serviços de segmento de conteúdo de video 125 fundem as caracteristicas das caracteristicas de áudio, visuais, e textuais do conteúdo de video e utiliza as caracteristicas de composição para identificar e caracterizar os segmentos do conteúdo de video. O método de fusão é dependente do tipo de caracteristicas de áudio, visuais e textuais do conteúdo de video, o que é indicado na informação de EPG.

[00112] Um exemplo de um método de fusão é o seguinte. Suponha que a informação de EPG indicou que o conteúdo de video é um telejornal local. Depois de carregar os parâmetros de áudio, video e texto específicos para este noticiário local, o método primeiro procura por todas as transições entre o programa de TV e os intervalos comerciais. Tal análise pode incluir a localização de um primeiro conjunto de pontos no tempo {Tci, Tc2, TC3, . . ., TCN} em que um ou mais quadros pretos são detectados com baixo consumo de energia de áudio. Quadros pretos e silêncio em um conjunto de dados de video podem indicar transições entre comerciais ou transições de ou para o ativo de video (por exemplo, o noticiário). Uma vez que segmentos de ativo de video tendem a ser maiores do que a duração de um único comercial, segmentos de ativo de video podem ser identificados como qualquer segmento entre os pontos de tempo TCÍ e Tc(i+i} tal que TC{Í+I}-TCÍ é maior do que um limiar minimo (por exemplo, 2 minutos). Depois dos segmentos de video serem separados dos intervalos comerciais, os pontos de tempo {Tmi, Tmz, TmM} de marcadores de legenda oculta que indicam o inicio de um segmento podem ser identificados em todos os dados textuais de legenda oculta ("closed caption") de segmentos de video. Os dados de video entre quaisquer dois pontos de tempo consecutivos Tmj e Tm<j+i} podem, assim, representar segmentos para visualização não linear.

[00113] Assim segmentar o programa de TV não é suficiente para melhorar a experiência do usuário da TV. Após os segmentos dentro do programa de TV serem identificados, é necessário definir que tipo de segmento é. Em 610, para melhorar ainda mais a experiência do usuário, depois dos segmentos dentro de um ativo de video serem identificados, o módulo de serviços de segmento de conteúdo de video 125 pode categorizar cada segmento (por exemplo, definir tipos de segmento). Continuando com o exemplo de um noticiário local, cada segmento do noticiário pode ser classificado como um tipo particular de noticia. Por exemplo, o segmento de video pode ser classificado em pelo menos uma classe, como "Noticias Gerais", "Política", "Crime", "Tecnologia", "Saúde", "Esportes", "Tempo", "Entretenimento", "Trânsito", e outras classes.

[00114] Para categorizar os segmentos de video, o módulo de serviços de segmento de conteúdo de video 125 pode analisar o segmento de video, juntamente com os correspondentes dados de EPG, para gerar as classes. O módulo de serviços de segmento de conteúdo de video 125 pode extrair as características de áudio, video e/ou textuais dos dados de saida de detector para determinar a probabilidade que o segmento de video pertença a uma classe particular. Para isso, módulo de serviços de segmento de conteúdo de video 125 pode utilizar conhecimento a priori sobre os segmentos com base nos dados de EPG. Por exemplo, no caso que os dados de video são um telejornal local, módulo de serviços de segmento de conteúdo de video 125 pode extrair estatísticas de áudio dentro do segmento de video, comparar as estatísticas versus padrões de fala conhecidos para pessoas especificas, e determinar que pessoa seja mais provável que esteja falando durante o segmento de video. Em um exemplo, serviços de segmento de conteúdo de video 125 extraem estatísticas de áudio dentro do segmento, compara com os modelos de locutor pré-carregados, e determina qual modelo de locutor fornece a maior probabilidade para as estatísticas de áudio dentro do segmento. Se a mais alta probabilidade de entre todos os locutores é suficientemente elevada, então pode ser utilizada para classificar o segmento. Por exemplo, se o modelo de locutor de maior probabilidade pertence ao esportivo, em seguida, o segmento é rotulado como "Esportes". Se o modelo de locutor de maior probabilidade pertence à âncora de noticias, em seguida, o segmento é rotulado como "Noticias Gerais". Note-se que pode haver mais do que um locutor em um segmento; no entanto, como a probabilidade é calculada, mais provavelmente o modelo de locutor a partir do locutor que fala mais longamente no segmento irá fornecer uma saida de maior probabilidade. Se a maior probabilidade entre todos os locutores não é alta o suficiente, então os serviços de segmento de conteúdo de video 125 usam a classe "Noticias Gerais".

[00115] Em algumas modalidades, o módulo de serviços de segmento de conteúdo de video 125 pode combinar caracteristicas de video ou de texto com as caracteristicas de áudio ao determinar em qual classe um segmento de video particular deve ser categorizado. Certas ilustrações são muitas vezes utilizadas para sinalizar uma transição a partir de uma classe de segmento para outra. Por exemplo, o logotipo de um time de beisebol pode ser usado para sinalizar a transição para um segmento "Esportes", ou uma imagem de uma tempestade pode ser usada para sinalizar a transição para um segmento de "Tempo". Por conseguinte, quando os logotipos ou imagens especificas são encontrados no conteúdo visual de um segmento de video particular, então o módulo de serviços de segmento de conteúdo de video 125 pode usar esse tipo de conteúdo visual para aumentar a especificidade com a qual o segmento de video é classificado. Da mesma forma, se certas palavras chave relacionadas com uma classe particular são encontradas no fluxo de legendas ocultas relacionado ou outros dados textuais, então o módulo de serviços de segmento de conteúdo de video 125 pode usar o texto para aumentar a probabilidade do segmento correspondente.

[00116] Características de áudio, visuais e textuais do conteúdo de video podem ser usadas também para ajudar na segmentação quando, por exemplo, marcadores de legenda oculta não são presentes. Por exemplo, em um noticiário local, quadros gráficos são muitas vezes utilizados para marcar transições entre histórias e transições de e para um intervalo comercial. Tais marcadores gráficos podem ser utilizados para fornecer o conjunto de pontos {Tmi, Tm2, . . . Tmw} que indicam o inicio de um segmento. Como outro exemplo, segmentos podem ser derivados a partir de características de áudio. No exemplo noticiário local, sabe-se que os segmentos geralmente têm o seguinte formato: um dos âncoras de noticias introduz o assunto das noticias dentro do segmento, e um repórter de campo ou comentador fornece mais detalhes sobre o material. Após o fim do segmento, a câmera volta a um dos âncoras de noticias a fim de introduzir o segmento seguinte. Com esta estrutura em mente, é possível extrair as estatísticas de áudio para cada D segundos (por exemplo, D = 3s) de todo o fluxo de áudio e comparar a probabilidade de as estatísticas de áudio extraídas contra cada um dos modelos de locutor dos âncoras. Este processo produz um sinal de saida cuja amplitude varia com o tempo para cada um dos modelos de locutor. Sempre que um dos âncoras começa a falar, como um sinal de saida aumentaria em valor significativamente e ficaria alto até que alguém começa a falar; por exemplo, quando o âncora passa para um repórter de campo. Os vários pontos Tmi que indicam o inicio de um segmento seriam formados por pegar os pontos no tempo em que o sinal de saida cresce acima de um limiar predeterminado.

[00117] Caracteristicas de áudio, visuais e textuais do conteúdo de video também podem ser usadas para conteúdos desportivos de segmento. Conteúdos desportivos contêm frequentemente replays de partes importantes do jogo e esses replays precisam ser indicados para o usuário de tal forma que seja capaz de identificar o que é mostrado como um replay. Em uma modalidade, caracteristicas de video são usadas para segmentar o conteúdo esportivo da seguinte forma: com base nas informações de EPG, máscaras de quadros contendo gráficos de computador usados por uma rede de TV particular para sinalizar o inicio e o fim de replays são carregados no módulo visual 112 do analisador de dados de video 111 para extrair caracteristicas de video para indicações de gráficos de replay. Serviços de segmento de conteúdo de video 125, então, analisam as caracteristicas visuais da saida de detector 147 à procura de indicações de gráficos de replay. Os pontos em que gráficos de replay são encontrados podem ser marcados como as fronteiras de segmento. Em algumas modalidades, caracteristicas visuais, de áudio, e textuais adicionais da saida de detector podem influenciar ainda mais a seleção de fronteiras de segmento.

[00118] Na transmissão de video, os quadros de banner são muitas vezes utilizados para sinalizar o inicio e o fim de um replay. Os quadros de banner são tipicamente sequências curtas de quadros visualmente únicos. Para um programa de TV, os quadros de banner são identificados e suas assinaturas visuais são criadas e armazenadas offline. Para transmissão de TV em tempo real (incluindo tempo não real), as assinaturas dos quadros de banner são comparadas com uma janela de quadros armazenados em buffer do conteúdo de TV ao vivo. Uma vez que quadros de banner para inicio de replay são encontrados, é gerado um sinal indicando o inicio de replay (destaque) e agora a pesquisa começa para os quadros de banner que indicam o fim do replay. Uma vez encontrado, outro sinal que indica o final do replay é gerado.

[00119] Uma vez que o esporte é um dos gêneros mais populares, exemplos de métodos para classificar os segmentos de esportes são descritos. Em uma modalidade, os serviços de segmento de conteúdo de video 125 usam as seguintes características de áudio, visuais e textuais do conteúdo de video para classificar um segmento esportivo como contendo grande emoção: (áudio) variação de fala a partir do discurso normal, (video) mudanças no video de capturas de perto para longe, (video) placas de pontuação, (texto) palavras chave nas legendas ocultas.

[00120] Um exemplo em que estas características visuais, de áudio, e textuais do conteúdo de video podem ser utilizadas para classificar segmentos de beisebol iria funcionar como segue. Como antes, a informação de EPG é usada para configurar o analisador de dados de video 111 e serviços de segmento de conteúdo de video 125. Com base nas informações de EPG, um primeiro modelo de locutor, a partir do narrador do jogo, é carregado no módulo de extrator de áudio 113 para extração de características de áudio. Este modelo de locutor foi criado a partir de amostras de treinamento da fala do narrador, enquanto ele/ela está falando em uma forma não excitada. Uma vez que algumas redes de televisão usam dois ou mais narradores ou comentaristas durante o jogo, em alternativa, um modelo de locutor único é criado a partir de amostras de treinamento contendo todos os narradores e comentaristas durante periodos de baixa emoção em jogos gravados anteriormente. À medida que o fluxo de áudio do segmento é analisado, um segundo modelo de locutor é criado para os últimos D segundos (por exemplo, D = 5s) do segmento. A relação entre as probabilidades dos últimos D segundos no segundo e primeiro modelos de locutor é então calculada. Um valor alto para esta relação fornece indicação para serviços de segmento de conteúdo de video 125 que o segmento contém o narrador falando de uma maneira diferente do que a sua maneira de falar normal, que é indicação de uma cena de grande emoção.

[00121] Um exemplo em que estas características visuais, de áudio, e textuais do conteúdo de video podem ser utilizadas para classificar segmentos de beisebol iria funcionar como segue. Uma vez que jogadas de alta emoção no beisebol envolvem "home-runs", é possivel fornecer informações adicionais para detectar tais jogadas por detecção de alterações na visão da câmera de captura de perto para longe. Em outro exemplo, características de codificação de video de baixo nivel são usadas para estimativa de nivel de atividade de movimento (por exemplo, câmera ou objetos na cena) por um periodo de tempo de interesse (por exemplo, durante replay). O nivel de atividade pode ser utilizado como uma das entradas para a classificação de segmentos de replay, assumindo que quanto maior atividade de movimento, mais excitado o conteúdo de repetição seria. Em uma modalidade, em vez de recolher diretamente os vetores de movimento de bloco de cada quadro, a relação de macrobloco intra codificada para um quadro é utilizada como um indicador da atividade de movimento nesse quadro. Atividade média de movimento pode ser calculada dividindo-se as relações de macrobloco intra codificadas acumuladas pelo número de quadros durante o periodo de tempo, o que indica o nivel de atividade durante o periodo de tempo de interesse.

[00122] As Fiquras 7A e 7B mostram um exemplo no qual as caracteristicas de áudio, visuais e textuais do ativo de video são extraidas pelos vários analisadores e subsequentemente fundidas para identificar os segmentos de video de acordo com uma modalidade. Em 702, os vários fluxos elementares de componente (por exemplo, o fluxo de áudio, de video e de texto) de dados de video 151 são alimentados para os analisadores correspondentes 112, 113, 114 e, juntamente com dados de EPG 143. Em algumas modalidades, tais dados de EPG 143-1 incluem a identificação do canal e do programa do ativo de video, dados de EPG 143-2 incluem a legenda oculta ("closed caption") de palavras chave do canal e programa do ativo de video, e dados de EPG 143-3 incluem os modelos de locutor do canal e o programa do ativo de video.

[00123] Neste exemplo, o canal 1, o programa A e canal 2, programa A pode corresponder a noticiários de diferentes estações locais. A informação de dados de EPG 143 é usada para inicializar os vários analisadores 112, 113, e 114. Em algumas modalidades, os dados de EPG 143 inicializam o analisador visual 112 para extrair o simbolo correspondente a canal 1. Em algumas modalidades, os dados de EPG 143-1 inicializam o analisador visual para procurar o simbolo correspondente ao canal 1 em uma localização particular nos quadros. Em algumas modalidades, os dados de EPG 143-3 inicializam o analisador de áudio 113 para utilizar modelos de locutor correspondentes a um determinado conjunto de locutores com um determinado conjunto de etiquetas. Em algumas modalidades, os dados de EPG 143-2 inicializam o analisador textual 114 para extrair marcadores específicos de legenda oculta utilizados pelo canal e/ou programa identificado. Além disso, em algumas modalidades, os dados de EPG 143 inicializam o analisador textual 114 para extrair um conjunto particular de palavras chave no fluxo de legenda oculta e associar tais palavras chave com um determinado conjunto de etiquetas. Além de extração de características que são inicializadas pelos dados de EPG 143, os analisadores visuais, de áudio e textuais 112, 113 e 114 também extraem características que são aplicáveis a todos os ativos; por exemplo, o analisador visual 112 pode extrair pontos de tempo com quadros pretos, o analisador de áudio 113 pode extrair períodos de silêncio, e o analisador textual 114 pode extrair marcadores de legenda oculta que podem ser normalmente encontrados em anúncios. Essas características extraídas são mostradas em 704.

[00124] Com base nas características extraídas, o um ou mais módulos de fusão 131 combina-as para produzir um único fluxo de informações fundidas (também referidas como características de composição) mostrado em 706. Por exemplo, o módulo de fusão 131 determina uma característica de esporte fundida mostrada em 708, que pode incluir fala a partir do segmento esportivo SPK1-A e marcadores CC para CC-esportes. Além disso, uma característica de previsão de tempo fundida em 710 pode incluir fala de segmento previsão de tempo SPK1- B e marcadores CC para CC-previsão de tempo.

[00125] Em 712, o sequenciador de segmento 134 usa as informações fornecidas pelo módulo de fusão 131 para construir um ou mais segmentos de video. Em algumas modalidades, os segmentos de video produzidos contêm porções de diferentes períodos de tempo do ativo de video. Como mostrado, em 714, um segmento de esportes para o canal 1, programa A foi gerado com base nas caracteristicas desportivas fundidas 708. Além disso, em 716, um segmento de tempo para Canal 1, programa A foi gerado com base em caracteristicas de previsão de tempo fundidas 710. Em neste caso, os segmentos de video podem ter várias informações removidas, tal como silêncio e quadros pretos. Em algumas modalidades, os segmentos de video podem conter anúncios anteriores ou seguintes que são localizados em vários pontos do ativo de video. Em outras modalidades, os segmentos de vídeo podem conter anúncios anteriores ou seguintes que são localizados em qualquer outro ativo de vídeo armazenado no servidor de conteúdo 115 ou no banco de dados separado dos anúncios. Por exemplo, sequenciador de segmento 134 pode substituir anúncios do conteúdo de vídeo original.

Extração de reações de usuário

[00126] A fim de determinar a reação ou resposta emocional de um usuário, o dispositivo cliente 120 pode incluir sensores, tais como sensores de luz, câmeras, acelerômetros, microfones, sensores de temperatura, e outros semelhantes, que recolhem dados sobre o usuário, enquanto o um segmento de vídeo particular está sendo apresentado ao usuário. Em um exemplo, uma câmera incluída em um caixa de configuração de topo pode observar reações de corpo e faciais. Em outro exemplo, um microfone em um computador telefone inteligente ou tablet em comunicação com um dispositivo cliente 120 (por exemplo, uma caixa de configuração de topo) pode detectar sons gue podem indicar reações de usuários especificas que podem indicar respostas positivas, neutras ou negativas.

[00127] Em várias modalidades, o dispositivo cliente 120 pode coletar dados de sensores de seus próprios sensores ou sensores de outros dispositivos para determinar ou classificar a reação dos usuários enquanto assistindo a um segmento de video ou ativo de video particular. Com base nos dados recolhidos do sensor, o analisador de dados de video 111 extrai as características de áudio e video, tais como as descritas na secção anterior, e determina se o usuário teve uma reação positiva, negativa ou neutra para o segmento. Tal determinação é baseada em um método de classificação previamente treinado. Usando de áudio/video proveniente de usuários que têm reações positivas, negativas ou neutras, é possível treinar um classificador que determinaria automaticamente a reação do usuário com base em áudio/video coletado vindo de um usuário.

[00128] Em uma modalidade, mecanismo de interface de usuário 120 teria um canal de comunicação com o dispositivo cliente 120 (por exemplo, um canal de comunicação Wi-Fi) em que transmitir para o dispositivo cliente 120 a emoção/reação detectada em um segmento particular. Em outra modalidade, esta informação pode ser enviada pelo dispositivo para o servidor 110, que, em seguida, transmitiria a informação para o dispositivo cliente 120 através de canais de comunicação existentes.

[00129] Em uma modalidade, para reduzir a quantidade de tempo durante o qual o dispositivo cliente 120 monitora os sensores, o computador servidor 110/dispositivo cliente 120 pode ditar os tipos de detecção e periodos de tempo durante os quais o dispositivo cliente local 120 detecta reação de usuário. Tal informação pode ser transmitida, por exemplo, através de um canal de comunicação de rede sem fio. Com esta informação, o dispositivo cliente 120 pode ligar microfones e câmeras apenas nos tempos indicados pelo computador servidor 110 e/ou outro dispositivo cliente 120. Em outras modalidades, os periodos de tempo durante os quais o dispositivo cliente 120 executa a detecção da reação e os tipos de reação que o dispositivo cliente 120 monitora podem ser determinados manualmente (isto é, com base na entrada pelo produtor de conteúdo), ou automaticamente pelo computador servidor 110/dispositivo cliente 120, uma vez que avalia as características de áudio/video dos dados de video. Por exemplo, considere um ativo de video no gênero comédia. Muitas vezes, tais dados de video contém o riso de um público embutido no fluxo de áudio. Como os dados de video são analisados e o riso é detectado nos dados de video, o periodo de tempo correspondente ao riso é transmitido para o dispositivo cliente 120, que liga o microfone e/ou a câmera apenas no periodo de tempo indicado, e o dispositivo cliente 120 extrairia apenas as características de áudio/video necessárias para detectar a emoção especificada, economizando energia de processamento no dispositivo cliente 120.

[00130] Vários usuários podem estar assistindo ao mesmo segmento do conteúdo de video. Se cada usuário utiliza um mecanismo de interface de usuário separado 121 (por exemplo, cada usuário com um computador tablet em sua volta), então cada mecanismo de interface de usuário 121 detecta e comunica com dispositivo cliente 120 a emoção detectada a partir de seu usuário associado. Como antes, a fim de evitar a interferência entre usuário na detecção de emoções, seriam utilizadas câmeras e microfones direcionais. Em uma modalidade diferente, as câmeras, microfones ou sensores em rede poderiam ser localizados na sala, separados do mecanismo de interface de usuário 121, para detectar emoções/reações dos usuários.

[00131] Modalidades particulares podem ser implementadas em um meio de armazenamento não transitório legivel por computador para uso por ou em conexão com o sistema, aparelho, sistema, ou máquina de execução de instruções. O meio de armazenamento legivel por computador contém instruções para controlar um sistema de computador para executar um método descrito por modalidades particulares. O sistema de computador pode incluir um ou mais dispositivos de computação. As instruções, quando executadas por um ou mais processadores de computador, podem ser operáveis para executar o que está descrito em modalidades particulares.

[00132] Tal como utilizado na presente descrição e em todas as reivindicações que seguem, "um", "uma", e "o" incluem referências plurais a menos que o contexto dite claramente o contrário. Além disso, tal como utilizado na presente descrição e em todas as reivindicações que seguem o significado de "em" inclui "em" e "dentro" a menos que o contexto dite claramente o contrário.

[00133] A descrição acima ilustra diversas modalidades, juntamente com exemplos de como aspectos de modalidades particulares podem ser implementados. Os exemplos e modalidades acima não devem ser considerados as únicas modalidades, e são apresentados para ilustrar a flexibilidade e as vantagens de modalidades particulares, como definido pelas reivindicações seguintes. Com base na descrição anterior e nas reivindicações anexas, outros arranjos, modalidades, e implementações equivalentes podem ser empregues sem se afastar do âmbito do presente documento, como o definido pelas reivindicações.

Claims

1. Método, caracterizado pelo fato de que compreende: em um analisador de dados de video de um primeiro dispositivo de computação, configurar uma extração, com base em metadados associados ao conteúdo de video, de características de conteúdo; em que as características de conteúdo são selecionadas a partir do grupo que consiste em características visuais do conteúdo de video, características de áudio do conteúdo de vídeo e características de texto do conteúdo de vídeo, em que um ou mais extratores de características correspondentes as características de conteúdo são selecionados do grupo que consiste em um extrator de características visuais para características de conteúdo selecionados a partir de características visuais do conteúdo de vídeo, um extrator de características de áudio para características de conteúdo selecionados a partir de características de áudio do conteúdo de vídeo, e um extrator de características de texto para características de conteúdo selecionados a partir de características textuais do conteúdo de vídeo, e em que a configuração da extração compreende configurar o um ou mais extratores de características selecionados para extrair as respectivas características de conteúdo de acordo com um ou mais parâmetros operacionais que são usados internamente pelo respectivo extrator de características e que são ajustáveis pelo analisador de dados de vídeo para alterar um comportamento de extração do extrator de características com base nos metadados; criar um único fluxo de dados de informações fundidas para renderização em um dispositivo de computação de cliente acoplado de forma comunicativa a um ou mais servidores de conteúdo distribuído, em que a criação compreende: fundir, em uma pluralidade de módulos de fusão acoplados de forma comunicativa ao um ou mais servidores de distribuição de conteúdo, porções das características de conteúdo em características de composição que são gerados a partir de funções das várias características das características de conteúdo; identificar, por um ou mais dentre a pluralidade de módulos de fusão, uma pluralidade de segmentos de video compreendendo um ou mais segmentos de video de conteúdo de video com base nas características de composição; e renderizar o fluxo de dados único criado, em uma interface do usuário do dispositivo de computação do cliente, através da renderização de representações dos segmentos de video identificados.

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que alguns da pluralidade de segmentos de video são identificados com base em apenas uma característica de conteúdo.

3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de identificar a pluralidade de segmentos de video que compreende combinar segmentos não contíguos a partir do conteúdo de video para um segmento.

4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que as várias características são baseadas em pelo menos duas do grupo consistindo das características visuais do conteúdo de video, características de áudio do conteúdo de video, e características textuais do conteúdo de video.

5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que: as caracteristicas de composição incluem as múltiplas caracteristicas de pelo menos dois do extrator de característica visual, o extrator de característica de áudio, e o extrator de característica textual.

6. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que: a extração é realizada por uma pluralidade de extratores, e os metadados são usados para configurar um extrator na pluralidade de extratores para extrair uma das caracteristicas visuais, de áudio e textuais com base nos metadados.

7. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que: a identificação é realizada por uma pluralidade de módulos de fusão, e os metadados são usados para configurar um módulo de fusão na pluralidade de módulos de fusão para fundir as várias caracteristicas para as caracteristicas de composição.

8. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que o módulo de fusão determina uma característica de composição com base nos metadados.

9. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende ainda classificar a pluralidade de segmentos de video com base nos metadados.

10. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que os metadados compreendem metadados de programa recebidos de uma fonte de dados de guia de programa eletrônico.

11. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende ainda: exibir a pluralidade de segmentos de video; receber uma seleção de uma das pluralidades de segmentos de video; e exibir a uma das pluralidades de segmentos de video.

12. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que compreende ainda adicionar conteúdo suplementar em associação com o um da pluralidade de segmentos de video com base em uma característica associada com a pluralidade de segmentos de video.

13. Método, de acordo com a reivindicação 12, caracterizado pelo fato de que o conteúdo suplementar baseia- se em um tipo de reação de usuário para o um da pluralidade de segmentos de video.

14. Aparelho, caracterizado pelo fato de que compreende: uma pluralidade de processadores de computador compreendendo um processador analisador de dados de video e um ou mais processadores de serviços de segmento; pelo menos uma memória de armazenamento legivel por computador não transitória, acoplada a cada um da pluralidade de processadores de computador e compreendendo instruções que, quando executadas pelo um ou mais dos processadores do computador, fazem os um ou mais dos processadores de computador serem configurado para: no processador do analisador de dados de video, configurar uma extração, com base nos metadados associados ao conteúdo de video, das características de conteúdo; em que as características de conteúdo são selecionadas do grupo que consiste em características visuais do conteúdo de vídeo, características de áudio do conteúdo de vídeo e características de texto do conteúdo de vídeo, em que um ou mais extratores de características correspondentes as características de conteúdo são selecionados do grupo que consiste em um extrator de características visuais para características de conteúdo selecionados a partir de características visuais do conteúdo de vídeo, um extrator de características de áudio para características de conteúdo selecionados a partir de características de áudio do conteúdo de vídeo, e um extrator de características de texto para características de conteúdo selecionados a partir de características textuais do conteúdo de vídeo, e em que a configuração da extração compreende a configuração dos um ou mais extratores de características selecionados para extrair as respectivas características de conteúdo de acordo com um ou mais parâmetros operacionais que são usados internamente pelo respectivo extrator de características e que são ajustáveis pelo analisador de dados de vídeo para alterar um comportamento de extração do extrator de características com base nos metadados; criar um único fluxo de dados de informações fundidas para renderização em um dispositivo de computação do cliente acoplado de forma comunicativa a um ou mais servidores de conteúdo distribuído, em que a criação compreende: em uma pluralidade de módulos de fusão nos processadores de serviços de segmento, fundir porções das características de conteúdo em caracteristicas de composição que incluem gerar a partir de funções das várias caracteristicas das caracteristicas de conteúdo, em que os processadores de serviços de segmento são acoplados comunicativamente ao um ou mais servidores de conteúdo distribuídos; identificar, por um ou mais dentre a pluralidade de módulos de fusão, uma pluralidade de segmentos de video compreendendo um ou mais segmentos de video do conteúdo de video com base nas caracteristicas de composição; e renderizar o único fluxo de dados criado, em uma interface do usuário do dispositivo de computação do cliente, renderizando representações dos segmentos de video identificados.

15. Método para criar um único fluxo de dados de informações combinadas para renderização em um dispositivo de computação do cliente acoplado comunicativamente a um ou mais servidores de conteúdo distribuídos, o método sendo caracterizado pelo fato de que compreende: receber uma consulta de pesquisa que compreende pelo menos uma palavra; receber um indice de programa textual associado com cada programa de video a partir de uma pluralidade de programas de video armazenados em um servidor de conteúdo; identificar, através de uma ou mais de uma pluralidade de módulos de fusão, programas de video correspondentes a partir da pluralidade de programas de video com base no indice de programa textual associado a cada programa de video e a pelo menos uma palavra; receber uma seleção do usuário de um programa de video correspondente dos programas de video correspondentes para identificar um programa de video selecionado; receber uma pluralidade de registros de texto associados ao programa de video selecionado; pesquisar, por um ou mais dentre a pluralidade de módulos de fusão, os registros de texto do programa de video selecionado para identificar registros de texto correspondentes com base na pelo menos uma palavra; segmentar, através de uma ou mais das pluralidades de módulos de fusão, pelo menos um programa de video correspondente em uma pluralidade de segmentos de video que inclui pelo menos um registro de texto correspondente; e renderizar o fluxo de dados único criado, em uma interface do usuário do dispositivo de computação do cliente, através da renderização de representações dos segmentos de video identificados; em que a pluralidade de módulos de fusão é implementada por um ou mais processadores de serviços de segmento, cada um compreendendo um ou mais processadores de computador, um ou mais processadores de serviços de segmento acoplados comunicativamente ao um ou mais servidores de conteúdo distribuídos.

16. Método, de acordo com a reivindicação 15, caracterizado pelo fato de que compreende ainda: apresentar uma representação de pelo menos um programa de video correspondente para um usuário; e receber uma seleção de usuário que identifica um usuário selecionado do programa de video correspondente.

17. Método, de acordo com a reivindicação 15, caracterizado pelo fato de que compreende ainda: apresentar pelo menos uma parte do pelo menos um segmento correspondente gerado para um usuário.

18. Método, de acordo com a reivindicação 15, caracterizado pelo fato de que compreende ainda: calcular uma classificação de registro de texto em janela a partir da pluralidade de registros de texto associados a um programa de video correspondente; identificar blocos contiguos de registros de texto correspondentes como um segmento; atribuir uma pontuação de segmento ao segmento com base na classificação do registro de texto do segmento; e apresentar pelo menos um segmento a um usuário com base na pontuação do segmento associado a pelo menos um segmento.

19. Método, de acordo com a reivindicação 15, caracterizado pelo fato de que receber o indice de programa textual associado com cada programa de video compreende: criar uma pluralidade de registros de texto para cada programa de video, em que cada registro de texto compreende pelo menos um tempo de inicio e uma representação de texto para o registro de texto; criar o indice de programa textual a partir da pluralidade de registros de texto para cada programa de video; e armazenar o indice de programa textual para cada programa de video com um identificador para o programa de video.

20. Método, de acordo com a reivindicação 15, caracterizado pelo fato de que as pluralidades de segmentos de video são combinadas com segmentos previamente gerados com base na extração de características no programa de video.