BR112017000101B1

BR112017000101B1 - Dispositivos e métodos de transmissão e de recepção.

Info

Publication number: BR112017000101B1
Application number: BR112017000101-2A
Authority: BR
Inventors: Taketoshi Yamane; Yasuaki Yamagishi
Original assignee: Sony Corporation
Priority date: 2014-07-14
Filing date: 2015-07-01
Publication date: 2023-07-25

Abstract

Uma técnica da presente invenção refere-se a um dispositivo de transmissão, a um método de transmissão, a um dispositivo de recepção e a um método de recepção pelos quais é possível melhorar a acessibilidade para pessoas com deficiências visuais. É provido um dispositivo de transmissão que compreende o seguinte: uma unidade de geração de metadados de fala que gera metadados fala que se referem à fala pretendida por um produtor em resposta à informação de exibição; uma unidade de geração de informação eletrônica de programa que gera informação eletrônica de programa que inclui os metadados de fala; e uma unidade de transmissão que transmite a informação eletrônica de programa para um dispositivo de recepção que pode exibir informação de exibição. A técnica da presente invenção pode ser aplicada em um aparelho de transmissão que pode transmitir um sinal de difusão digital, por exemplo.

Description

CAMPO

[001] A presente tecnologia refere-se um dispositivo de transmissão, a um método de transmissão, a um dispositivo de recepção e a um método de recepção e, particularmente, refere-se a um dispositivo de transmissão, a um método de transmissão, a um dispositivo de recepção e a um método de recepção que podem aprimorar a acessibilidade para pessoas com deficiências visuais.

FUNDAMENTOS DA INVENÇÃO

[002] No campo de difusão digital, a acessibilidade para pessoas com deficiências visuais é exigida (por exemplo, veja Documento de Patente 1).

[003] Especialmente, o Ato de Acessibilidade a Comunicações e Vídeo para o Século XXI de 2010 (CVAA), ou o assim denominado Ato de Acessibilidade Americano, foi decretado nos Estados Unidos. A Comissão Federal de Comunicações (FCC) publicou várias regulamentações sobre acessibilidade com base no ato.

LISTA DE CITAÇÃO DOCUMENTO DE PATENTE

[004] Documento de Patente 1: Pedido de Patente Japonês em Aberto 2009-204711

SUMÁRIO DA INVENÇÃO PROBLEMAS A SER RESOLVIDOS PELA INVENÇÃO

[005] A propósito, quando uma interface de usuário (UI), por exemplo, para informação de programa for apresentada para pessoas com deficiências visuais, a informação de texto da informação de programa é lida em voz alta com um motor de Texto para Fala (TTS). Esta é uma típica maneira de aprimorar a acessibilidade.

[006] Entretanto, quando o motor TTS for usado, a informação de texto não é necessariamente lida em voz alta como o produtor da informação de programa pretende. É incerto se pessoas com deficiências visuais podem receber a informação similar à informação que pessoas fisicamente aptas recebem. À luz do exposto, é descrita uma tecnologia com a qual declaração como o produtor pretende é certamente realizada de forma que pessoas com deficiências visuais possam receber a informação similar à informação que pessoas fisicamente aptas recebem.

[007] À luz do exposto, a presente tecnologia habilita a melhoria na acessibilidade para pessoas com deficiências visuais pela certa realização da declaração como o produtor pretende.

SOLUÇÕES PARA OS PROBLEMAS

[008] Um dispositivo de transmissão de acordo com um primeiro aspecto da presente tecnologia inclui: uma unidade de geração de metadados que gera metadados sobre a declaração de texto para fala da informação de exibição, a declaração de texto para fala sendo realizada como um produtor pretende; uma unidade de geração de informação eletrônica de programa que gera informação eletrônica de programa que inclui os metadados; e uma unidade de transmissão que transmite a informação eletrônica de programa para um dispositivo de recepção capaz de exibir a informação de exibição.

[009] Os metadados podem incluir informação sobre a declaração de uma sequência de caracteres cuja pronúncia não é exclusivamente determinada ou uma sequência de caracteres difícil de pronunciar.

[0010] A informação de exibição pode incluir informação ou um ícone de um conteúdo.

[0011] Uma unidade de aquisição de conteúdo que adquire o conteúdo pode ser adicionalmente incluída, e a unidade de transmissão pode transmitir a informação eletrônica de programa juntamente com o conteúdo usando um sinal de difusão digital.

[0012] A informação eletrônica de programa pode se confirmar com Guia Eletrônico de Serviço (ESG) prescrito em Aliança Móvel Aberta - Software Integrado Habilitador de Serviços de Difusão Móvel (OMA- BCAST), os metadados podem ser descritos em um formato de Linguagem de Marcação de Síntese de Fala (SSML), e um fragmento predeterminado incluído no ESG pode incluir informação de endereço que indica um endereço no qual um arquivo dos metadados descritos no formato SSML é adquirido ou conteúdo dos metadados descritos no formato SSML.

[0013] O dispositivo de transmissão pode ser um dispositivo independente, ou pode ser um bloco interno incluído em um dispositivo.

[0014] O método de transmissão de acordo com o primeiro aspecto da presente tecnologia corresponde ao dispositivo de transmissão de acordo com o primeiro aspecto da presente tecnologia.

[0015] No dispositivo de transmissão e no método de transmissão de acordo com o primeiro aspecto da presente tecnologia, os metadados sobre a declaração de texto para fala que o produtor pretende são gerados para informação de exibição, e a informação eletrônica de programa que inclui os metadados é gerada. Então, a informação eletrônica de programa é transmitida para um dispositivo de recepção capaz de exibir a informação de exibição.

[0016] Um dispositivo de recepção de acordo com um segundo aspecto da presente tecnologia inclui: uma unidade de recepção que recebe informação eletrônica de programa, a informação eletrônica de programa sendo transmitida a partir de um dispositivo de transmissão, a informação eletrônica de programa incluindo os metadados sobre a declaração de texto para fala da informação de exibição, a declaração de texto para fala sendo realizada como um produtor pretende; uma unidade de aquisição de metadados que adquire os metadados incluídos na informação eletrônica de programa; e uma unidade de leitura em voz alta de texto para fala que lê a informação de exibição em voz alta com base nos metadados.

[0017] Os metadados podem incluir informação sobre a declaração de uma sequência de caracteres cuja pronúncia não é exclusivamente determinada ou uma sequência de caracteres difícil de pronunciar.

[0018] A informação de exibição pode incluir informação ou um ícone de um conteúdo.

[0019] A unidade de recepção pode receber a informação eletrônica de programa transmitida juntamente com o conteúdo como um sinal de difusão digital.

[0020] A informação eletrônica de programa pode se confirmar com ESG prescrito em OMA-BCAST, os metadados podem ser descritos em um formato SSML, um fragmento predeterminado incluído no ESG pode incluir informação de endereço que indica um endereço no qual um arquivo dos metadados descritos no formato SSML é adquirido ou conteúdo dos metadados descritos no formato SSML, e a unidade de aquisição de metadados pode adquirir o arquivo dos metadados de acordo com a informação de endereço ou adquirir os metadados a partir do fragmento.

[0021] O dispositivo de recepção pode ser um dispositivo independente, ou pode ser um bloco interno incluído em um dispositivo.

[0022] O método de recepção de acordo com o segundo aspecto da presente tecnologia corresponde ao dispositivo de recepção de acordo com o segundo aspecto da presente tecnologia.

[0023] No dispositivo de recepção e no método de recepção de acordo com o segundo aspecto da presente tecnologia, a informação eletrônica de programa, que inclui os metadados sobre a declaração de texto para fala da informação de exibição como o produtor pretende e é transmitida a partir do dispositivo de transmissão, é recebida. Então, os metadados incluídos na informação eletrônica de programa são adquiridos, e a informação de exibição é lida em voz alta com base nos metadados.

EFEITOS DA INVENÇÃO

[0024] De acordo com o primeiro aspecto e o segundo aspecto da presente tecnologia, a acessibilidade para pessoas com deficiências visuais pode ser aprimorada.

[0025] Note que os efeitos da presente tecnologia não são necessariamente limitados ao efeito descrito acima, e pode ser qualquer um dos efeitos aqui descritos.

BREVE DESCRIÇÃO DOS DESENHOS

[0026] A figura 1 é um diagrama de um exemplo no qual informação de programa e um título são lidos em voz alta.

[0027] A figura 2 é um diagrama de um exemplo no qual um ícone é lido em voz alta.

[0028] A figura 3 é um diagrama explicativo de um exemplo no qual informação de texto é lida em voz alta com um motor TTS existente.

[0029] A figura 4 é um diagrama explicativo de um exemplo no qual informação de texto é lida em voz alta com um motor TTS existente.

[0030] A figura 5 é um diagrama explicativo de um exemplo no qual informação de texto é lida em voz alta com um motor TTS no qual a presente tecnologia é aplicada.

[0031] A figura 6 é um diagrama explicativo de um exemplo no qual informação de texto é lida em voz alta com um motor TTS no qual a presente tecnologia é aplicada.

[0032] A figura 7 é um diagrama de uma configuração exemplar de um sistema de difusão no qual a presente tecnologia é aplicada.

[0033] A figura 8 é um diagrama de uma configuração exemplar de um dispositivo de transmissão no qual a presente tecnologia é plicada.

[0034] A figura 9 é um diagrama de uma configuração exemplar de um dispositivo de recepção no qual a presente tecnologia é aplicada.

[0035] A figura 10 é um diagrama de uma configuração exemplar de ESG.

[0036] A figura 11 é um diagrama de uma configuração exemplar de um fragmento de serviço de ESG.

[0037] A figura 12 é um diagrama de uma configuração exemplar de um fragmento de conteúdo de ESG.

[0038] A figura 13 é um diagrama de uma configuração exemplar de ESG estendido.

[0039] A figura 14 é um diagrama de uma outra configuração exemplar de ESG estendido.

[0040] A figura 15 é um diagrama da configuração detalhada de um elemento PhoneticInfoURI.

[0041] A figura 16 é um diagrama da configuração detalhada de um elemento PhoneticInfo.

[0042] A figura 17 é um diagrama de uma descrição exemplar de um elemento sub em um formato SSML.

[0043] A figura 18 é um diagrama de uma descrição exemplar de um elemento fonema em um formato SSML.

[0044] A figura 19 é um diagrama de uma descrição exemplar de um elemento áudio em um formato SSML.

[0045] A figura 20 é um fluxograma explicativo de um método de transmissão.

[0046] A figura 21 é um fluxograma explicativo de um método de recepção.

[0047] A figura 22 é um diagrama de uma configuração exemplar de um computador.

MODO PARA REALIZAR A INVENÇÃO

[0048] As modalidades da presente tecnologia serão descritas a seguir em relação aos desenhos anexos. Note que as modalidades serão descritas na seguinte ordem. 1. Esboço de Metadados de Declaração de Texto para Fala da Presente Tecnologia 2. Configuração do Sistema 3. Arranjo dos Metadados de Declaração de Texto para Fala com Extensão de ESG 4. Descrição Exemplar de Metadados de Declaração de Texto para Fala 5. Fluxo do Método Realizado em Cada Dispositivo 6. Variação Exemplar 7. Configuração do Computador

<1. Esboço dos Metadados de Declaração de Texto para Fala da Presente Tecnologia>

[0049] Entre as regulamentações da Comissão Federal de Comunicações relacionadas ao Ato de Acessibilidade Americano, a regulamentação sobre uma interface de usuário (FCC Report & Order (FCC 13-138) publicado em 31 de outubro de 2013. C.F.R. Title 47 §79.107, 108) exige que as interfaces de usuário em um receptor capaz de exibir um programa de vídeo, tal como um receptor de televisão, sejam acessíveis para pessoas com deficiências visuais.

[0050] Especificamente, quando uma tela do Guia Eletrônico de Serviço (ESG), a saber, uma tela ESG, for exibida da forma ilustrada na figura 1, por exemplo, a informação de programa e um título são lidos em voz alta. Isto pode prover a informação necessária para selecionar uma estação de um programa de difusão para pessoas com deficiências visuais.

[0051] Alternativamente, quando uma tela de menu for exibida da forma ilustrada na figura 2, por exemplo, o conteúdo de um serviço indicado por cada ícone é lido em voz alta. Isto pode prover o conteúdo do serviço para pessoas com deficiências visuais.

[0052] Da forma supradescrita, a informação sobre a interface de usuário exibida no receptor é lida em voz alta. Isto habilita pessoas com deficiências visuais a adquirir a informação sobre a interface de usuário e realizar várias operações do receptor.

[0053] Neste particular, a informação de canal ou a informação de programa para selecionar a estação de um programa de difusão (programa) é provida como a informação ESG a partir de um transmissor, por exemplo, de uma estação de difusão para receptores. A informação ESG inclui principalmente informação de texto ou dados de logotipo. Então, o receptor gera e exibe uma tela ESG para selecionar a estação de um programa de difusão com base na informação ESG.

[0054] Da forma supradescrita, quando uma tela ESG for exibida, a acessibilidade da interface de usuário para pessoas com deficiências visuais é exigida e, por exemplo, um título ou informação de programa são lidos em voz alta. Em um caso como este, a informação de texto do título ou a informação de programa são tipicamente lidas em voz alta com um motor de Texto para Fala (TTS). O motor TTS é um sintetizador de voz (Sintetizador de Texto para Fala) que pode criar artificialmente voz humana a partir da informação de texto.

[0055] Entretanto, o motor TTS não necessariamente lê em voz alta a informação de texto como o produtor da interface de usuário pretende. É incerto que pessoas com deficiências visuais possam receber a informação similar à informação que pessoas fisicamente aptas recebem.

[0056] Especificamente, por exemplo, quando a informação de texto for “AAA”, da forma ilustrada na figura 3, a informação de texto pode ser dita tanto como “triplo A” quanto como “A A A”. A pronúncia não é exclusivamente determinada. Assim, é difícil que o motor TTS determine como ler a informação de texto em voz alta. Em decorrência disto, é provável que a informação de texto não seja lida em voz alta como o produtor pretende.

[0057] Alternativamente, por exemplo, quando a informação de texto for “Caius College”, da forma ilustrada na figura 4, a informação de texto é um nome próprio difícil de pronunciar. Assim, é difícil que o motor TTS determine como ler a informação de texto em voz alta. Em decorrência disto, é provável que a informação de texto não seja lida em voz alta como o produtor pretende.

[0058] Quando a pronúncia da informação de texto não for exclusivamente determinada ou quando a informação de texto for, por exemplo, um nome próprio difícil de pronunciar, como exposto, há possibilidade de que a informação de texto não seja lida em voz alta como o produtor pretende. Assim, há necessidade de uma técnica com a qual declaração como o produtor pretende é certamente realizada e pessoas com deficiências visuais podem receber a informação similar à informação que pessoas fisicamente aptas recebem.

[0059] À luz do exposto, de acordo com a presente tecnologia, a informação sobre a declaração de texto para fala que o produtor pretende (a seguir, referida como “metadados de declaração de texto para fala”) é provida para o motor TTS de forma que o motor TTS possa emitir a voz que o produtor pretende a fim de realizar declaração de texto para fala como o produtor pretende para ler a informação de exibição, por exemplo, da interface de usuário em voz alta. Note que os metadados de declaração de texto para fala podem ser incluídos na informação ESG.

[0060] Especificamente, da forma ilustrada na figura 5, por exemplo, quando a informação de texto for “AAA”, o “triplo A” que indica a pronúncia da informação de texto é provido como os metadados de declaração de texto para fala para o motor TTS. Isto habilita que o motor TTS leia a informação de texto em voz alta como “triplo A” com base nos metadados de declaração de texto para fala.

[0061] Em outras palavras, quando a informação de texto “AAA” for inserida, o motor TTS na figura 3 não determina qual pronúncia “triplo A” ou “A A A” está correta. Por outro lado, os metadados de declaração de texto para fala “triplo A” são inseridos no motor TTS na figura 5, e o motor TTS pode ler o “triplo A” em voz alta de acordo com os metadados de declaração de texto para fala. Assim, a declaração de texto para fala como o produtor pretende é realizada.

[0062] Alternativamente, por exemplo, quando a informação de texto for “Caius College”, a informação de fonema da informação de texto é provida como os metadados de declaração de texto para fala para o motor TTS, da forma ilustrada na figura 6. Isto habilita que o motor TTS leia a informação de texto em voz alta como “keys college” com base nos metadados de declaração de texto para fala.

[0063] Em outras palavras, quando a informação de texto “Caius College” for inserida, o motor TTS na figura 4 não determina como pronunciar a informação de texto em virtude de a informação de texto ser um nome próprio difícil de pronunciar. Por outro lado, a informação de fonema é inserida como os metadados de declaração de texto para fala no motor TTS na figura 6, e o motor TTS pode ler a informação de texto em voz alta como “keys college” de acordo com os metadados de declaração de texto para fala. Assim, a declaração de texto para fala como o produtor pretende é realizada.

[0064] A provisão dos metadados de declaração de texto para fala para o motor TTS da forma supradescrita permite a certa leitura da informação de texto em voz alta como o produtor pretende mesmo quando, por exemplo, a pronúncia da informação de texto não for exclusivamente determinada ou a informação de texto for um nome próprio difícil de pronunciar. Isto habilita que pessoas com deficiências visuais recebam a informação similar à informação que pessoas fisicamente aptas recebem.

<2. Configuração do Sistema> (Configuração Exemplar do Sistema de Difusão)

[0065] A figura 7 é um diagrama de uma configuração exemplar de um sistema de difusão no qual a presente tecnologia é aplicada.

[0066] Um sistema de difusão 1 provê o conteúdo, por exemplo, de um programa de difusão, e pode tornar a informação de exibição, por exemplo, de uma interface de usuário acessível para pessoas com deficiências visuais. O sistema de difusão 1 inclui um dispositivo de transmissão 10 e um dispositivo de recepção 20.

[0067] O dispositivo de transmissão 10 é gerenciado, por exemplo, por uma estação de difusão que provê um serviço de difusão digital terrestre. O dispositivo de transmissão 10 transmite o conteúdo, por exemplo, de um programa de difusão com um sinal de difusão digital. Além do mais, o dispositivo de transmissão 10 gera informação ESG que inclui metadados de declaração de texto para fala e coloca a informação ESG no sinal de difusão digital e transmite o sinal de difusão digital.

[0068] O dispositivo de recepção 20 inclui, por exemplo, um receptor de televisão ou um receptor/decodificador integrado e é instalado, por exemplo, na casa de cada usuário. O dispositivo de recepção 20 recebe o sinal de difusão digital transmitido a partir do dispositivo de transmissão 10, e transmite o vídeo e a voz do conteúdo, por exemplo, de um programa de difusão.

[0069] Além do mais, o dispositivo de recepção 20 inclui um motor TTS para ler a informação de exibição, por exemplo, de uma interface de usuário em voz alta com base nos metadados de declaração de texto para fala incluídos na informação ESG quando a informação de exibição da interface de usuário for exibida.

[0070] Esta configuração faz com que o motor TTS leia a informação de exibição, tal como informação de texto em voz alta, de acordo com os metadados de declaração de texto para fala. Assim, a informação de exibição é lida em voz alta certamente como o produtor pretende mesmo quando, por exemplo, a pronúncia da informação de texto não for exclusivamente determinada ou a informação de texto for um nome próprio difícil de pronunciar.

[0071] Note que o sistema de difusão 1 na figura 7 inclui um dispositivo de transmissão 10. Entretanto, uma pluralidade de dispositivos de transmissão 10 é instalada em uma pluralidade de estações de difusão, respectivamente. Similarmente, o sistema de difusão 1 na figura 7 inclui um dispositivo de recepção 20. Entretanto, uma pluralidade de dispositivos de recepção 20 é instalada em uma pluralidade de casas de usuários, respectivamente. (Configuração Exemplar de Dispositivo de Transmissão)

[0072] A figura 8 é um diagrama de uma configuração exemplar do dispositivo de transmissão da figura 7.

[0073] A figura 8 ilustra que o dispositivo de transmissão 10 inclui uma unidade de aquisição de conteúdo 111, uma unidade de geração de metadados de declaração de texto para fala 112, uma unidade de geração de informação ESG 113, uma unidade de geração de fluxo contínuo 114 e uma unidade de transmissão 115.

[0074] A unidade de aquisição de conteúdo 111 adquire o conteúdo, por exemplo, de um programa de difusão e provê o conteúdo para a unidade de geração de fluxo contínuo 114. Além do mais, a unidade de aquisição de conteúdo 111 pode processar os conteúdos, por exemplo, em um método para codificação do conteúdo ou um método para converter o formato.

[0075] Note que o conteúdo é, por exemplo, adquirido a partir do armazenamento de conteúdos gravados de acordo com o horário de difusão dos conteúdos, ou adquirido a partir de estúdio ou de um local de difusão ao vivo.

[0076] A unidade de geração de metadados de declaração de texto para fala 112 gera metadados de declaração de texto para fala, por exemplo, em resposta às instruções do produtor da interface de usuário, e provê os metadados de declaração de texto para fala para a unidade de geração de informação ESG 113. Note que, por exemplo, a informação que indica a pronúncia da informação de texto quando a pronúncia não for exclusivamente determinada ou a informação de fonema quando a informação de texto for um nome próprio difícil de pronunciar são geradas como os metadados de declaração de texto para fala.

[0077] Neste exemplo, há dois tipos de metadados de declaração de texto para fala armazenados na informação ESG. Um compreende os dados que descrevem a informação de endereço para adquirir os metadados de declaração de texto para fala, e o outro compreende os dados que descrevem o conteúdo dos metadados de declaração de texto para fala. Quando a informação de endereço for descrita nos metadados de declaração de texto para fala, o conteúdo dos metadados de declaração de texto para fala é descrito em um arquivo adquirido de acordo com a informação de endereço (a seguir, referido como um “arquivo de metadados de declaração de texto para fala”).

[0078] Em outras palavras, quando a unidade de geração de metadados de declaração de texto para fala 112 gerar os metadados de declaração de texto para fala que incluem a informação de endereço e prover os metadados de declaração de texto para fala para a unidade de geração de informação ESG 113, a unidade de geração de metadados de declaração de texto para fala 112 gera um arquivo de metadados de declaração de texto para fala a ser adquirido de acordo com a informação de endereço e provê o arquivo de metadados de declaração de texto para fala para a unidade de geração de fluxo contínuo 114. Por outro lado, quando os metadados de declaração de texto para fala incluírem o conteúdo dos metadados de declaração de texto para fala, a unidade de geração de metadados de declaração de texto para fala 112 não precisa para gerar um arquivo de metadados de declaração de texto para fala e, assim, apenas provê os metadados de declaração de texto para fala para a unidade de geração de informação ESG 113.

[0079] A unidade de geração de informação ESG 113 gera informação ESG com informação de canal para selecionar a estação do conteúdo, por exemplo, de um programa de difusão. Além do mais, a unidade de geração de informação ESG 113 armazena (coloca) os metadados de declaração de texto para fala providos a partir da unidade de geração de metadados de declaração de texto para fala 112 na informação ESG. A unidade de geração de informação ESG 113 provê a informação ESG que inclui os metadados de declaração de texto para fala para a unidade de geração de fluxo contínuo 114.

[0080] A unidade de geração de fluxo contínuo 114 gera um fluxo contínuo em conformidade com um padrão predeterminado com base nos dados de conteúdo providos a partir da unidade de aquisição de conteúdo 111 e na informação ESG provida a partir da unidade de geração de informação ESG 113, e provê o fluxo contínuo para a unidade de transmissão 115.

[0081] Alternativamente, quando os metadados de declaração de texto para fala incluídos na informação ESG provida a partir da unidade de geração de informação ESG 113 incluírem a informação de endereço, o arquivo de metadados de declaração de texto para fala é provido para a unidade de geração de fluxo contínuo 114 a partir da unidade de geração de metadados de declaração de texto para fala 112. Neste caso, a unidade de geração de fluxo contínuo 114 gera um fluxo contínuo em conformidade com um padrão predeterminado com base nos dados de conteúdo providos a partir da unidade de aquisição de conteúdo 111, no arquivo de metadados de declaração de texto para fala provido a partir da unidade de geração de metadados de declaração de texto para fala 112 e na informação ESG provida a partir da unidade de geração de informação ESG 113.

[0082] A unidade de transmissão 115 processa o fluxo contínuo provido a partir da unidade de geração de fluxo contínuo 114, por exemplo, em um método de modulação digital, e transmite o fluxo contínuo como um sinal de difusão digital através de uma antena 116.

[0083] Note que nem todos os blocos funcionais no dispositivo de transmissão 10 da figura 8 são necessariamente arranjados em um dispositivo. Pelo menos alguns dos blocos funcionais podem ser arranjados como um dispositivo independente dos outros blocos funcionais. Por exemplo, a unidade de geração de metadados de declaração de texto para fala 112 ou a unidade de geração de informação ESG 113 podem ser providas como uma função de um servidor da Internet. No exemplo, o dispositivo de transmissão 10 adquire e processa os metadados de declaração de texto para fala ou a informação ESG provida a partir do servidor. (Configuração Exemplar do Dispositivo de Recepção)

[0084] A figura 9 é um diagrama de uma configuração exemplar do dispositivo de recepção da figura 7.

[0085] A figura 9 ilustra que o dispositivo de recepção 20 inclui uma unidade de recepção 212, uma unidade de separação de fluxo contínuo 213, uma unidade de reprodução 214, uma unidade de exibição 215, um alto- falante 216, uma unidade de aquisição da informação ESG 217, uma unidade de aquisição de metadados de declaração de texto para fala 218 e um motor TTS 219.

[0086] A unidade de recepção 212 processa o sinal de difusão digital recebido com a antena 211, por exemplo, em um método de decodificação, e provê o fluxo contínuo gerado pelo método para a unidade de separação de fluxo contínuo 213.

[0087] A unidade de separação de fluxo contínuo 213 separa os dados de conteúdo e a informação ESG do fluxo contínuo provido a partir da unidade de recepção 212, e provê os dados de conteúdo para a unidade de reprodução 214, e a informação ESG para a unidade de aquisição da informação ESG 217.

[0088] A unidade de reprodução 214 exibe a figura do conteúdo na unidade de exibição 215 com base nos dados de conteúdo providos a partir da unidade de separação de fluxo contínuo 213, e transmite a voz do conteúdo a partir do alto-falante 216. Isto reproduz o conteúdo, por exemplo, de um programa de difusão.

[0089] A unidade de aquisição da informação ESG 217 adquire a informação ESG provida a partir da unidade de separação de fluxo contínuo 213. Por exemplo, quando o usuário instruir o dispositivo de recepção 20 a exibir uma tela ESG, a unidade de aquisição da informação ESG 217 provê a informação ESG para a unidade de reprodução 214. A unidade de reprodução 214 gera uma tela ESG com base na informação ESG provida a partir da unidade de aquisição da informação ESG 217, e exibe a tela ESG na unidade de exibição 215.

[0090] Além do mais, a unidade de aquisição da informação ESG 217 provê os metadados de declaração de texto para fala incluídos na informação ESG para a unidade de aquisição de metadados de declaração de texto para fala 218. A unidade de aquisição de metadados de declaração de texto para fala 218 adquire os metadados de declaração de texto para fala providos a partir da unidade de aquisição da informação ESG 217.

[0091] Há dois tipos de metadados de declaração de texto para fala, os dados que descrevem a informação de endereço para adquirir os metadados de declaração de texto para fala e os dados que descrevem o conteúdo dos metadados de declaração de texto para fala, neste exemplo, como exposto.

[0092] Em outras palavras, quando os metadados de declaração de texto para fala incluírem a informação de endereço, a unidade de aquisição de metadados de declaração de texto para fala 218 adquire o arquivo de metadados de declaração de texto para fala a partir do fluxo contínuo separado pela unidade de separação de fluxo contínuo 213 com base na informação de endereço incluída, e provê os metadados de declaração de texto para fala que incluem o conteúdo provido a partir do arquivo de metadados de declaração de texto para fala adquirido para o motor TTS 219. Por outro lado, quando os metadados de declaração de texto para fala incluírem o conteúdo, a unidade de aquisição de metadados de declaração de texto para fala 218 provê os metadados de declaração de texto para fala sem nenhum método para o motor TTS 219.

[0093] O motor TTS 219 lê a informação de exibição, por exemplo, de uma interface de usuário em voz alta com base nos metadados de declaração de texto para fala providos a partir da unidade de aquisição de metadados de declaração de texto para fala 218, e transmite a voz a partir do alto-falante 216.

[0094] Por exemplo, uma tela ESG é exibida na unidade de exibição 215, e um título ou informação de programa devem ser lidos em voz alta de forma que a informação de texto seja acessível para pessoas com deficiências visuais. Entretanto, a pronúncia da informação de texto não é exclusivamente determinada. Em um exemplo como este, o motor TTS 219 habilita que a informação de texto seja lida em voz alta como o produtor pretende de acordo com os metadados de declaração de texto para fala. Isto habilita que pessoas com deficiências visuais recebam a informação similar à informação que as pessoas fisicamente aptas recebem.

[0095] Note que a figura 9 ilustra que a unidade de exibição 215 e o alto-falante 216 são internamente providos no dispositivo de recepção 20. Entretanto, a unidade de exibição 215 e o alto-falante 216 podem ser providos como um outro dispositivo externo.

<3. Arranjo dos Metadados de Declaração de Texto para Fala com Extensão de ESG>

[0096] A seguir, a informação ESG na qual metadados de declaração de texto para fala são armazenados será descrita com detalhes. Note que as especificações do Guia Eletrônico de Serviço (ESG) são desenhadas pela Aliança Móvel Aberta (OMA), que é uma organização para desenhar os padrões de telefones celulares. A informação ESG na qual os metadados de declaração de texto para fala são armazenados também está em conformidade com o ESG prescrito no OMA - Software Integrado Habilitador de Serviços de Difusão Móvel (OMA-BCAST). (Configuração do ESG)

[0097] A figura 10 é um diagrama de uma configuração exemplar de ESG. Note que cada uma das linhas que conectam fragmentos na figura 10 mostra a referência cruzada entre os fragmentos conectados.

[0098] A figura 10 ilustra que o ESG inclui fragmentos com diferentes propósitos, e é dividido em quatro grupos de Administrativo, Provisionamento, Núcleo e Acesso de acordo com o propósito do fragmento.

[0099] O Administrativo é um grupo que provê informação básica para receber a informação ESG. O grupo de Administrativo inclui um “ServiceGuideDeliveryDescriptor”. O “ServiceGuideDeliveryDescriptor” provê a informação sobre o canal no qual uma pluralidade de fragmentos de guia de serviço podem ser recebidos, a informação de agendamento sobre o canal e a informação de atualização para o dispositivo de recepção 20. Isto habilita que o dispositivo de recepção 20 receba apenas informação ESG necessária em um tempo apropriado.

[00100] O Provisionamento é um grupo que provê a informação de taxa sobre a recepção do serviço. O grupo de Provisionamento inclui um Item de Aquisição, Dados de Aquisição e um Canal de Aquisição. O Item de Aquisição provê a informação de taxa sobre um serviço ou um grupo de serviços. Os Dados de Aquisição proveem a informação que indica através de qual maneira o usuário pode pagar a taxa. O Canal de Aquisição provê a informação sobre o sistema no qual o usuário pode realmente adquirir um serviço.

[00101] Note que os metadados de declaração de texto para fala ou a informação de endereço que indica o endereço no qual os metadados de declaração de texto para fala são adquiridos podem ser armazenados no fragmento de cada um do Item de Aquisição, dos Dados de Aquisição e do Canal de Aquisição. Um método para armazenar os metadados de declaração de texto para fala no fragmento de cada um do Item de Aquisição, dos Dados de Aquisição e do Canal de Aquisição será descrito a seguir em relação à figura 13.

[00102] O Núcleo é um grupo que provê a informação sobre um serviço. O grupo de Núcleo inclui Serviço, Agenda e Conteúdo. O serviço provê metadados que incluem o conteúdo de um serviço de canal e a informação de controle relacionada ao conteúdo do serviço de canal. A Agenda provê os metadados que incluem a agenda da distribuição do conteúdo, e a informação de controle relacionada à agenda da distribuição do conteúdo. O Conteúdo provê os metadados que incluem o conteúdo do serviço e a informação de controle relacionada ao conteúdo do serviço.

[00103] Note que os metadados de declaração de texto para fala ou a informação de endereço que indica o endereço no qual os metadados de declaração de texto para fala são adquiridos podem ser armazenados em cada fragmento do Serviço e do Conteúdo. A figura 11 ilustra uma configuração exemplar do Fragmento de Serviço. A figura 12 ilustra uma configuração exemplar do Fragmento de Conteúdo. Um método para armazenar os metadados de declaração de texto para fala em cada um do fragmento do Serviço e do Conteúdo será descrito a seguir em relação à figura 13.

[00104] O Acesso é um grupo que provê a informação de acesso ao serviço que indica um método para receber o serviço do grupo de Núcleo e a informação específica sobre a sessão na qual o conteúdo do serviço é transmitido. O Acesso habilita que o dispositivo de recepção 20 acesse um serviço. O grupo de Acesso inclui Acesso e Descrição de Sessão.

[00105] O Acesso no grupo de Acesso provê um método para habilitar que o dispositivo de recepção 20 acesse alguns serviços adicionais com base em um serviço pela provisão de uma pluralidade de métodos para acessar o serviço. A Descrição de Sessão provê a informação de sessão sobre o serviço transmitido no acesso a serviço definido por um Fragmento de Acesso.

[00106] Além dos quatro grupos, o ESG inclui Dados de Previsualização e Dados de Interatividade. Os Dados de Previsualização proveem uma previsualização ou um ícone para um serviço e um conteúdo. Os Dados de Interatividade proveem os metadados sobre a aplicação do serviço e do conteúdo.

[00107] Note que os metadados de declaração de texto para fala ou a informação de endereço que indica o endereço no qual os metadados de declaração de texto para fala são adquiridos podem ser armazenados no Fragmento de Dados de Previsualização. Um método para armazenar os metadados de declaração de texto para fala no Fragmento de Dados de Previsualização será descrito a seguir em relação à figura 14. (Configuração Exemplar de ESG estendido)

[00108] A figura 13 é um diagrama de uma configuração exemplar de ESG estendido a fim de armazenar os metadados de declaração de texto para fala ou a informação de endereço que indica o endereço no qual os metadados de declaração de texto para fala são adquiridos. Note que a figura 13 ilustra que o Fragmento de Serviço, o Fragmento de Conteúdo, o Fragmento do Item de Aquisição, o Fragmento dos Dados de Aquisição e o Canal de Aquisição são estendidos entre os fragmentos incluídos no ESG.

[00109] Em outras palavras, os fragmentos estendidos incluem um elemento Nome e um elemento Descrição. Assim, cada fragmento é estendido de forma que um elemento PhoneticInfoURI ou um elemento PhoneticInfo seja adicionado no elemento Nome e no elemento Descrição. Note que o elemento PhoneticInfoURI ou o elemento PhoneticInfo podem ser adicionados no elemento PrivateExt do fragmento estendido.

[00110] A figura 13 ilustra que o nome de um fragmento de conteúdo é designado no elemento Nome. O elemento Nome inclui o elemento PhoneticInfoURI, o elemento PhoneticInfo e um atributo Tipo como os elementos filhos.

[00111] A informação de endereço para aquisição dos metadados de declaração de texto para fala é designada no elemento PhoneticInfoURI. O atributo Tipo é usado juntamente com o elemento PhoneticInfoURI como um par. A informação de tipo que indica o tipo de metadados de declaração de texto para fala é designada no atributo Tipo.

[00112] Por exemplo, um Identificador de Recurso Uniforme (URI) é designado como a informação de endereço. Alternativamente, por exemplo, quando um arquivo de metadados de declaração de texto para fala for transmitido em uma sessão de Distribuição de Arquivo sobre Transporte Unidirecional (FLUTE), a informação de endereço para aquisição do arquivo de metadados de declaração de texto para fala transmitida na sessão FLUTE é designada. Note que os metadados de declaração de texto para fala podem ser descritos em Linguagem de Marcação de Síntese de Fala (SSML), que é uma linguagem de marcação de síntese de voz.

[00113] O conteúdo dos metadados de declaração de texto para fala é descrito no elemento PhoneticInfo. Por exemplo, o conteúdo dos metadados de declaração de texto para fala é descrito em SSML. O atributo Tipo é usado juntamente com o elemento PhoneticInfo como um par. A informação de tipo que indica o tipo de metadados de declaração de texto para fala é designado no atributo Tipo.

[00114] Note que, quando “1 .. N” for designado como o número de ocorrência (Cardinalidade) na figura 13, o elemento ou o atributo é designado uma vez ou mais. Quando “0 .. N” for designado como o número de ocorrência (Cardinalidade), é arbitrariamente determinado se o elemento ou o atributo é designado uma vez ou mais. Alternativamente, quando “0 .. 1” for designado como o número de ocorrência (Cardinalidade), é arbitrariamente determinado se o elemento ou atributo é designado.

[00115] Desta maneira, o elemento PhoneticInfoURI, o elemento PhoneticInfo e o atributo Tipo, que são os elementos filhos do elemento Nome, são elementos ou atributo opcionais. Assim, não apenas cada um do elemento PhoneticInfoURI ou do elemento PhoneticInfo é colocado, mas, também, tanto o elemento PhoneticInfoURI quanto o elemento PhoneticInfo podem ser colocados.

[00116] Além do mais, o elemento Descrição na figura 13 inclui um elemento PhoneticInfoURI, um elemento PhoneticInfo e um atributo Tipo como os elementos filhos. Em outras palavras, os elementos filhos do elemento Descrição são similares aos elementos filhos do elemento Nome.

[00117] Especificamente, a informação de endereço para aquisição dos metadados de declaração de texto para fala é designada no elemento PhoneticInfoURI. O atributo Tipo é usado juntamente com o elemento PhoneticInfoURI como um par. A informação de tipo que indica o tipo de metadados de declaração de texto para fala é designada no atributo Tipo. Além do mais, o conteúdo dos metadados de declaração de texto para fala é descrito no elemento PhoneticInfo. O atributo Tipo é usado juntamente com o elemento PhoneticInfo como um par. A informação de tipo que indica o tipo de metadados de declaração de texto para fala é designada no atributo Tipo.

[00118] Note que, quanto ao elemento PhoneticInfoURI e ao elemento PhoneticInfo, que são os elementos filhos do elemento Descrição, cada um do elemento PhoneticInfoURI e do elemento PhoneticInfo pode ser colocadas, ou tanto o elemento PhoneticInfoURI quanto o elemento PhoneticInfo podem ser colocados.

[00119] A figura 14 é um diagrama de uma outra configuração de ESG estendido a fim de armazenar os metadados de declaração de texto para fala ou a informação de endereço que indica o endereço no qual os metadados de declaração de texto para fala são adquiridos. Note que a figura 14 ilustra que o Fragmento de Dados de Previsualização é estendido entre os fragmentos incluídos no ESG.

[00120] Em outras palavras, o Fragmento de Dados de Previsualização inclui um elemento de Figura e, assim, o Fragmento de Dados de Previsualização é estendido de forma que um elemento PhoneticInfoURI ou um elemento PhoneticInfo sejam adicionados no atributo relativePreference do elemento Figura. Note que o elemento PhoneticInfoURI ou o elemento PhoneticInfo podem ser adicionados no elemento PrivateExt do Fragmento de Dados de Previsualização.

[00121] A figura 14 ilustra que uma previsualização ou um ícone para um serviço e um conteúdo é definido no elemento Figura. A figura elemento inclui um elemento PhoneticInfoURI, um elemento PhoneticInfo e um atributo Tipo como os elementos filhos. Em outras palavras, os elementos filhos do elemento Figura são similares aos elementos filhos do elemento Nome e aos elementos filhos do elemento Descrição descrito acimas.

[00122] Especificamente, a informação de endereço para aquisição dos metadados de declaração de texto para fala é designada no elemento PhoneticInfoURI. O atributo Tipo é usado juntamente com o elemento PhoneticInfoURI como um par. A informação de tipo que indica o tipo de metadados de declaração de texto para fala é designada no atributo Tipo. Além do mais, o conteúdo dos metadados de declaração de texto para fala é descrito no elemento PhoneticInfo. O atributo Tipo é usado juntamente com o elemento PhoneticInfo como um par. A informação de tipo que indica o tipo dos metadados de declaração de texto para fala é designada no atributo Tipo.

[00123] Note que, quanto ao elemento PhoneticInfoURI e ao elemento PhoneticInfo, que são os elementos filhos do elemento Figura, cada um do elemento PhoneticInfoURI ou do elemento PhoneticInfo pode ser colocado, ou tanto o elemento PhoneticInfoURI quanto o elemento PhoneticInfo podem ser colocados. (Configuração Exemplar do Elemento PhoneticInfoURI)

[00124] A figura 15 é um diagrama da configuração detalhada de um elemento PhoneticInfoURI em ESG estendido.

[00125] O elemento PhoneticInfoURI da figura 15 é descrito como o elemento filho do elemento Nome ou do elemento Descrição, por exemplo, de um Fragmento de Serviço, ou como o elemento filho do elemento figura de um Fragmento de Dados de Previsualização. A informação de endereço para aquisição dos metadados de declaração de texto para fala é designada no elemento PhoneticInfoURI.

[00126] Além do mais, um URI de identificação do formato de codificação dos metadados de declaração de texto para fala é designado como o atributo Tipo do elemento PhoneticInfoURI.

[00127] Por exemplo, um arquivo de metadados de declaração de texto para fala é transmitido na sessão FLUTE e, assim, a informação de endereço para aquisição do arquivo de metadados de declaração de texto para fala transmitida na sessão FLUTE é designada no elemento PhoneticInfoURI. (Configuração Exemplar do Elemento PhoneticInfo)

[00128] A figura 16 é um diagrama da configuração detalhada do elemento PhoneticInfo em ESG estendido.

[00129] A figura 16 ilustra que o elemento PhoneticInfo é descrito como o elemento filho do elemento Nome ou do elemento Descrição, por exemplo, de um Fragmento de Serviço, ou como o elemento filho do elemento figura de um Fragmento de Dados de Previsualização. O conteúdo dos metadados de declaração de texto para fala é descrito no elemento PhoneticInfo.

[00130] Além do mais, um URI de identificação do formato de codificação dos metadados de declaração de texto para fala é designado como o atributo Tipo do elemento PhoneticInfo.

[00131] Por exemplo, o conteúdo dos metadados de declaração de texto para fala é descrito em SSML, que é uma linguagem de Marcação de Síntese de Fala, e armazenado como a informação de texto entre o rótulo de início e o rótulo de fim do elemento PhoneticInfo.

[00132] Note que pelo menos um do elemento PhoneticInfoURI e do elemento PhoneticInfo é descrito no fragmento estendido no ESG. Adicionalmente, os metadados de declaração de texto para fala são designados pelo elemento PhoneticInfoURI ou pelo elemento PhoneticInfo e, assim, algumas vezes referidos como um “objeto PhoneticInfo”. <4. Descrição Exemplar dos Metadados de Declaração de Texto para Fala>

[00133] Da forma supradescrita, os metadados de declaração de texto para fala podem ser descritos, por exemplo, em SSML, que é uma linguagem de Marcação de Síntese de Fala. A SSML é recomendada pelo Consórcio da Rede Mundial de Computadores (W3C) com o objetivo de habilitar o uso de uma função de síntese de fala de qualidade mais alta. Usar SSML permite o próximo e apropriado controle dos elementos necessários para síntese de fala, tais como pronúncia, volume e ritmo. A seguir, descrição exemplar de um documento no formato SSML será feita em relação às figuras 17 a 19. (Elemento Sub)

[00134] A figura 17 é um diagrama de descrição exemplar de um elemento sub no formato SSML.

[00135] O elemento sub é usado para substituir informação de texto com uma outra informação de texto. A informação de texto para declaração de texto para fala é designada em um atributo alias. Por exemplo, na figura 17, a informação de texto “W3C” é substituída com a informação de texto “Consórcio da Rede Mundial de Computadores” para declaração de texto para fala e lida em voz alta.

[00136] Usar o elemento sub permite a designação da informação que indica a pronúncia de informação de texto, por exemplo, quando a pronúncia da informação de texto não for exclusivamente determinada.

(Elemento Fonema)

[00137] A figura 18 é um diagrama de descrição exemplar de um elemento fonema no formato SSML.

[00138] O elemento fonema é usado para dar a pronúncia transcrita por fonemas/alfabeto fonético à informação de texto descrita. Um atributo alfabeto e um atributo ph podem ser designados no elemento fonema. Os caracteres fonéticos de fonemas/alfabeto fonético são designados no atributo alfabeto. A sequência de caracteres de fonemas/fonemas/alfabeto fonético é designada no atributo ph. Por exemplo, na figura 18, a pronúncia da informação de texto “La vita e bella” é designada no atributo ph. Note que o “ipa” designado no atributo alfabeto indica que os caracteres fonéticos correspondem aos símbolos de leitura do Alfabeto Fonético Internacional (IPA).

[00139] Usar o elemento fonema permite a designação, por exemplo, da informação de fonema da informação de texto, por exemplo, quando a informação de texto for um nome próprio difícil de pronunciar.

(Elemento Áudio)

[00140] A figura 19 é um diagrama de descrição exemplar de um elemento áudio no formato SSML.

[00141] O elemento áudio é usado para transmitir a fala embutida ou a fala sintetizada de um arquivo de áudio. Um atributo src pode ser designado no elemento áudio. O Identificador de Recurso Uniforme (URI) do arquivo de áudio é designado no atributo src. Por exemplo, na figura 19, a informação de texto “A partir de qual cidade você quer voar?” é lida em voz alta pela reprodução do arquivo de áudio “prompt.au” designado no atributo src.

[00142] Usar o elemento áudio permite a reprodução, por exemplo, de um arquivo de áudio gravado e, assim, permite a provisão da informação de fala como o produtor da interface de usuário pretende para pessoas com deficiências visuais.

[00143] Note que o elemento sub, o elemento fonema e o elemento áudio descrito acimas são exemplos de descrição dos metadados de declaração de texto para fala no formato SSML. Um outro elemento ou atributo no formato SSML podem ser usados para a descrição. Alternativamente, os metadados de declaração de texto para fala podem ser descritos, por exemplo, em uma outra linguagem de marcação diferente do formato SSML.

<5. Fluxo do Método Realizado em Cada Dispositivo>

[00144] A seguir, os métodos realizados no dispositivo de transmissão 10 e no dispositivo de recepção 20 incluídos no sistema de difusão 1 da figura 7 serão descritos.

(Método de Transmissão)

[00145] Primeiro, o fluxo de um método de transmissão que o dispositivo de transmissão 10 da figura 7 realiza será descrito em relação ao fluxograma da figura 20.

[00146] Na etapa S111, a unidade de aquisição de conteúdo 111 adquire o conteúdo, por exemplo, de um programa de difusão e provê o conteúdo para a unidade de geração de fluxo contínuo 114.

[00147] Na etapa S112, a unidade de geração de metadados de declaração de texto para fala 112 gera metadados de declaração de texto para fala, por exemplo, em resposta às instruções do produtor da interface de usuário, e provê os metadados de declaração de texto para fala para a unidade de geração de informação ESG 113.

[00148] Note que, quando a unidade de geração de metadados de declaração de texto para fala 112 gerar metadados de declaração de texto para fala que incluem informação de endereço e prover os metadados de declaração de texto para fala para a unidade de geração de informação ESG 113, a unidade de geração de metadados de declaração de texto para fala 112 gera um arquivo de metadados de declaração de texto para fala a ser adquirido de acordo com a informação de endereço, e provê o arquivo de metadados de declaração de texto para fala para a unidade de geração de fluxo contínuo 114.

[00149] Na etapa S113, a unidade de geração de informação ESG 113 gera informação ESG com base nos metadados de declaração de texto para fala providos a partir da unidade de geração de metadados de declaração de texto para fala 112, e provê a informação ESG para a unidade de geração de fluxo contínuo 114.

[00150] Na etapa S114, a unidade de geração de fluxo contínuo 114 gera um fluxo contínuo em conformidade com um padrão predeterminado com base nos dados de conteúdo providos a partir da unidade de aquisição de conteúdo 111 e na informação ESG provida a partir da unidade de geração de informação ESG 113, e provê o fluxo contínuo para a unidade de transmissão 115.

[00151] Note que, quando os metadados de declaração de texto para fala incluídos na informação ESG provida a partir da unidade de geração de informação ESG 113 incluírem a informação de endereço, a unidade de geração de fluxo contínuo 114 gera um fluxo contínuo em conformidade com um padrão predeterminado com base no arquivo de metadados de declaração de texto para fala provido a partir da unidade de geração de metadados de declaração de texto para fala 112, além dos dados de conteúdo e da informação ESG, e provê o fluxo contínuo para a unidade de transmissão 115.

[00152] Na etapa S115, a unidade de transmissão 115 processa o fluxo contínuo provido a partir da unidade de geração de fluxo contínuo 114, por exemplo, em um método de modulação digital, e transmite o fluxo contínuo como um sinal de difusão digital através da antena 116.

[00153] O método de transmissão foi descrito acima. No método de transmissão, os metadados de declaração de texto para fala sobre a declaração de texto para fala da informação de exibição, por exemplo, de uma interface de usuário como o produtor pretende são gerados, e a informação ESG que inclui os metadados de declaração de texto para fala é gerada. Então, a informação ESG que inclui os metadados de declaração de texto para fala é transmitida juntamente com o conteúdo.

[00154] Este método habilita o motor TTS 219 no dispositivo de recepção 20 a ler a informação de exibição em voz alta com base nos metadados de declaração de texto para fala. Assim, por exemplo, mesmo quando a pronúncia da informação de texto não for exclusivamente determinada, ou a informação de texto for um nome próprio difícil de pronunciar, a informação de texto é certamente lida em voz alta como o produtor pretende. Em decorrência disto, pessoas com deficiências visuais podem receber a informação similar à informação que pessoas fisicamente aptas recebem.

(Método de Recepção)

[00155] A seguir, o fluxo de um método de recepção que o dispositivo de recepção 20 da figura 7 realiza será descrito em relação ao fluxograma da figura 21.

[00156] Na etapa S211, a unidade de recepção 212 recebe o sinal de difusão digital transmitido através de uma antena 211 do dispositivo de transmissão 10. Além do mais, a unidade de recepção 212 processa o sinal de difusão digital, por exemplo, em um método de demodulação, e provê o fluxo contínuo gerado pelo método para a unidade de separação de fluxo contínuo 213.

[00157] Na etapa S212, a unidade de separação de fluxo contínuo 213 separa os dados de conteúdo e a informação ESG do fluxo contínuo provido a partir da unidade de recepção 212, e provê os dados de conteúdo para a unidade de reprodução 214, e a informação ESG para a unidade de aquisição da informação ESG 217.

[00158] Na etapa S213, a unidade de aquisição da informação ESG 217 adquire a informação ESG provida a partir da unidade de separação de fluxo contínuo 213. Por exemplo, quando o usuário instruir o dispositivo de recepção 20 a exibir uma tela ESG, a unidade de aquisição da informação ESG 217 provê a informação ESG para a unidade de reprodução 214. Além do mais, a unidade de aquisição da informação ESG 217 provê os metadados de declaração de texto para fala incluídos na informação ESG para a unidade de aquisição de metadados de declaração de texto para fala 218.

[00159] Na etapa S214, a unidade de reprodução 214 gera uma tela ESG com base na informação ESG provida a partir da unidade de aquisição da informação ESG 217, e exibe a tela ESG na unidade de exibição 215.

[00160] Na etapa S215, a unidade de aquisição de metadados de declaração de texto para fala 218 adquire os metadados de declaração de texto para fala providos a partir da unidade de aquisição da informação ESG 217.

[00161] Quando os metadados de declaração de texto para fala incluírem a informação de endereço nesta etapa, a unidade de aquisição de metadados de declaração de texto para fala 218 adquire o arquivo de metadados de declaração de texto para fala a partir do fluxo contínuo separado pela unidade de separação de fluxo contínuo 213 com base na informação de endereço, e provê os metadados de declaração de texto para fala que incluem o conteúdo provido a partir do arquivo de metadados de declaração de texto para fala adquirido para o motor TTS 219. Por outro lado, quando os metadados de declaração de texto para fala incluírem o conteúdo, a unidade de aquisição de metadados de declaração de texto para fala 218 provê os metadados de declaração de texto para fala sem nenhum método para o motor TTS 219.

[00162] Na etapa S216, o motor TTS 219 lê a informação de exibição, por exemplo, de uma interface de usuário em voz alta com base nos metadados de declaração de texto para fala providos a partir da unidade de aquisição de metadados de declaração de texto para fala 218, e transmite o som da informação de exibição a partir do alto-falante 216.

[00163] Neste exemplo, quando uma tela ESG for exibida na unidade de exibição 215 e um título ou informação de programa precisarem ser lidos em voz alta a fim de tornar a tela ESG acessível para pessoas com deficiências visuais, mas, por exemplo, a pronúncia da informação de texto não for exclusivamente determinada no método da etapa S214, o motor TTS 219 segue os metadados de declaração de texto para fala para ler a informação de texto em voz alta como o produtor pretende.

[00164] O método de recepção foi descrito acima. No método de recepção, a informação ESG, que inclui os metadados de declaração de texto para fala sobre a declaração de texto para fala da informação de exibição como o produtor pretende e é transmitida a partir do dispositivo de transmissão 10, é recebida. Subsequentemente, os metadados de declaração de texto para fala incluídos na informação ESG são adquiridos. Então, a informação de exibição, por exemplo, de uma interface de usuário é lida em voz alta com base nos metadados de declaração de texto para fala.

[00165] Este método habilita que o motor TTS 219 leia a informação de exibição em voz alta com base nos metadados de declaração de texto para fala. Assim, por exemplo, quando a pronúncia da informação de texto não for exclusivamente determinada ou a informação de texto for um nome próprio difícil de pronunciar, a informação de texto é certamente lida em voz alta como o produtor pretende. Em decorrência disto, pessoas com deficiências visuais podem receber a informação similar à informação que pessoas fisicamente aptas recebem.

<6. Variação Exemplar>

[00166] Quando os metadados de declaração de texto para fala incluírem a informação de endereço, o arquivo de metadados de declaração de texto para fala transmitido na sessão FLUTE é adquirido de acordo com a informação de endereço na modalidade supradescrita. Entretanto, o arquivo de metadados de declaração de texto para fala pode ser distribuído a partir de um servidor da Internet. Em um caso como este, por exemplo, o Localizador de Recurso Uniforme (URL) do servidor é designado como a informação de endereço.

[00167] O ESG prescrito em OMA-BCAST foi descrito como a informação eletrônica de programa na modalidade supradescrita. A presente tecnologia pode ser aplicada, por exemplo, em Guia Eletrônico de Programa (EPG) ou uma outra informação eletrônica de programa. Além do mais, a informação eletrônica de programa, tal como informação ESG, pode ser distribuída a partir de um servidor da Internet e recebida pelo dispositivo de recepção 20.

<7. Configuração do Computador>

[00168] A série de métodos supradescrita pode ser realizada tanto com hardware quanto com software. Quando a série de métodos for realizada com software, o programa do software é instalado no computador. A figura 22 é um diagrama de configuração exemplar do hardware do computador que realiza a série de métodos com um programa.

[00169] Em um computador 900, uma Unidade de Processamento Central (CPU) 901, uma Memória Exclusiva de Leitura (ROM) 902 e uma Memória de Acesso Aleatório (RAM) 903 são conectadas umas nas outras por meio de um barramento 904. Uma interface de entrada/saída 905 é adicionalmente conectada no barramento 904. Uma unidade de entrada 906, uma unidade de saída 907, uma unidade de gravação 908, uma unidade de comunicação 909 e uma unidade 910 são conectadas na interface de entrada/saída 905.

[00170] A unidade de entrada 906 inclui, por exemplo, um teclado, um mouse e um microfone. A unidade de saída 907 inclui, por exemplo, um visor e um alto-falante. A unidade de gravação 908 inclui, por exemplo, um disco rígido ou uma memória não volátil. A unidade de comunicação 909 inclui, por exemplo, uma interface de rede. A unidade 910 aciona uma mídia removível 911, tais como um disco magnético, um disco ótico, um disco magneto-ótico ou uma memória semicondutora.

[00171] No computador 900 com a configuração supradescrita, a CPU 901 carrega o programa armazenado na ROM 902 ou na unidade de gravação 908 por meio da interface de entrada/saída 905 e do barramento 904 sobre a RAM 903 e executa o programa. Esta execução implementa a série de métodos.

[00172] O programa executado pelo computador 900 (CPU 901) pode ser gravado na mídia removível 911, por exemplo, como uma mídia em pacote e provido. Alternativamente, o programa pode ser provido através de uma mídia de transmissão com fios ou sem fio, tais como uma rede de área local, a Internet ou difusão por satélite digital.

[00173] O computador 900 pode instalar um programa por meio da interface de entrada/saída 905 sobre a unidade de gravação 908 pela anexação da mídia removível 911 na unidade 910. Alternativamente, o programa pode ser recebido na unidade de comunicação 909 por meio de uma mídia de transmissão com fios ou sem fio, e instalado na unidade de gravação 908. Alternativamente, o programa pode ser previamente instalado na ROM 902 ou na unidade de gravação 908.

[00174] Aqui, os métodos que o computador realiza de acordo com um programa não são necessariamente realizados cronologicamente na ordem descrita no fluxograma. Em outras palavras, os métodos que o computador realiza de acordo com um programa incluem métodos realizados em paralelo ou individualmente (por exemplo, processamento em paralelo ou processamento de objeto). Além do mais, o programa pode ser executado por um computador (processador) ou pelo processamento descentralizado com uma pluralidade de computadores.

[00175] Note que as modalidades da presente tecnologia não são limitadas às modalidades descritas anteriormente, e podem ser variadamente mudadas sem fugir da essência da presente tecnologia.

[00176] Alternativamente, a presente tecnologia pode ter a seguinte configuração.

[00177] (1) Um dispositivo de transmissão, que inclui: uma unidade de geração de metadados que gera metadados sobre a declaração de texto para fala da informação de exibição, a declaração de texto para fala sendo realizada como um produtor pretende; uma unidade de geração de informação eletrônica de programa que gera informação eletrônica de programa que inclui os metadados; e uma unidade de transmissão que transmite a informação eletrônica de programa para um dispositivo de recepção capaz de exibir a informação de exibição.

[00178] (2) O Dispositivo de transmissão de acordo com (1), em que os metadados incluem informação sobre a declaração de uma sequência de caracteres cuja pronúncia não é exclusivamente determinada ou uma sequência de caracteres difícil de pronunciar.

[00179] (3) O Dispositivo de transmissão de acordo com (1) ou (2), em que a informação de exibição inclui informação ou um ícone de um conteúdo.

[00180] (4) O Dispositivo de transmissão de acordo com (3), que inclui adicionalmente: uma unidade de aquisição de conteúdo que adquire o conteúdo, em que a unidade de transmissão transmite a informação eletrônica de programa juntamente com o conteúdo usando um sinal de difusão digital.

[00181] (5) O Dispositivo de transmissão de acordo com qualquer um de (1) até (4), em que a informação eletrônica de programa se conforma com Guia Eletrônico de Serviço (ESG) prescrito em Aliança Móvel Aberta - Software Integrado Habilitador de Serviços de Difusão Móvel (OMA-BCAST), os metadados são descritos em um formato de Linguagem de Marcação de Síntese de Fala (SSML), e um fragmento predeterminado incluído no ESG inclui informação de endereço que indica um endereço no qual um arquivo dos metadados descritos no formato SSML é adquirido ou conteúdo dos metadados descritos no formato SSML.

[00182] (6) Um método de transmissão para fazer com que um dispositivo de transmissão realize um método, em que o método inclui: gerar metadados sobre a declaração de texto para fala da informação de exibição, a declaração de texto para fala sendo realizada como um produtor pretende; gerar informação eletrônica de programa que inclui os metadados; e transmitir a informação eletrônica de programa para um dispositivo de recepção capaz de exibir a informação de exibição.

[00183] (7) Um dispositivo de recepção, que inclui: uma unidade de recepção que recebe informação eletrônica de programa, a informação eletrônica de programa sendo transmitida a partir de um dispositivo de transmissão, a informação eletrônica de programa incluindo os metadados sobre a declaração de texto para fala da informação de exibição, a declaração de texto para fala sendo realizada como um produtor pretende; uma unidade de aquisição de metadados que adquire os metadados incluídos na informação eletrônica de programa; e uma unidade de leitura em voz alta de texto para fala que lê a informação de exibição em voz alta com base nos metadados.

[00184] (8) O Dispositivo de recepção de acordo com (7), em que os metadados incluem informação sobre a declaração de uma sequência de caracteres cuja pronúncia não é exclusivamente determinada ou uma sequência de caracteres difícil de pronunciar.

[00185] (9) O Dispositivo de recepção de acordo com (7) ou (8), em que a informação de exibição inclui informação ou um ícone de um conteúdo.

[00186] (10) O Dispositivo de recepção de acordo com (9), em que a unidade de recepção recebe a informação eletrônica de programa transmitida juntamente com o conteúdo como um sinal de difusão digital.

[00187] (11) O Dispositivo de recepção de acordo com qualquer um de (7) até (10), em que a informação eletrônica de programa se conforma com ESG prescrito em OMA-BCAST, os metadados são descritos em um formato SSML, um fragmento predeterminado incluído no ESG inclui informação de endereço que indica um endereço no qual um arquivo dos metadados descritos no formato SSML é adquirido ou conteúdo dos metadados descritos no formato SSML, e a unidade de aquisição de metadados adquire o arquivo dos metadados de acordo com a informação de endereço, ou adquire os metadados a partir do fragmento.

[00188] (12) Um método de recepção para fazer com que um dispositivo de recepção realize um método, em que o método inclui: receber informação eletrônica de programa, a informação eletrônica de programa sendo transmitida a partir de um dispositivo de transmissão, a informação eletrônica de programa incluindo os metadados sobre a declaração de texto para fala da informação de exibição, a declaração de texto para fala sendo realizada como um produtor pretende; adquirir os metadados incluídos na informação eletrônica de programa; e ler a informação de exibição em voz alta com base nos metadados. LISTA DOS SINAIS DE REFERÊNCIA

[00189] 1 Sistema de difusão 10 Dispositivo de transmissão 20 Dispositivo de recepção 111 Unidade de aquisição de conteúdo 112 Unidade de geração de metadados de declaração de texto para fala 113 Unidade de geração de informação ESG 114 Unidade de geração de fluxo contínuo 115 Unidade de transmissão 212 Unidade de recepção 213 Unidade de separação de fluxo contínuo 214 Unidade de reprodução 215 Unidade de exibição 216 Alto-falante 217 Unidade de aquisição da informação ESG 218 Unidade de aquisição de metadados de declaração de texto para fala 219 Motor TTS 900 Computador 901 CPU Assim cumprida a exigência, a Requerente põe-se à disposição para prestar quaisquer outros esclarecimentos e passa a aguardar o oportuno DEFERIMENTO do presente pedido como ato de Direito e Justiça! Termos em que pede o Deferimento. Rio de Janeiro, 15 de outubro de 2020. KASZNAR LEONARDOS PROPRIEDADE INTELECTUAL

Claims

1. Dispositivo de transmissão (10), caracterizado pelo fato de que compreende: um ou mais processadores (900) configurados para: gerar metadados sobre informações fonéticas de fala de informações de exibição, em que a declaração de texto para fala da informação fonética de fala é gerada com base nos metadados; gerar um fragmento de serviço de um guia de serviço, o fragmento de serviço incluindo um elemento de informação de exibição das informações de exibição e os metadados, em pelo menos um subelemento do elemento de informação de exibição; e transmitir o fragmento de serviço para um dispositivo de recepção (20) que exibe as informações de exibição, em que os metadados incluem um objeto de informação de fala embutido em um subelemento de informação do elemento de informação de exibição e, indica uma linguagem de marcação, associada ao objeto de informação de fala embutido e/ou os metadados incluem informação de endereço, em um subelemento de informação URI do elemento de informação de exibição para adquirir um objeto de informação de fala e indica uma linguagem de marcação associada ao objeto de informação de fala, referenciado pelas informações de endereço, e o fragmento de serviço transmitido inclui o elemento de informação de exibição para exibir a informação de exibição pelo dispositivo de recepção (20) e inclui o objeto de informação de fala embutido e/ou a informação de endereço para gerar a expressão de texto para fala pelo dispositivo de recepção (20).

2. Dispositivo de transmissão (10) de acordo com a reivindicação 1, caracterizado pelo fato de que os metadados incluem informação sobre a declaração de um de uma sequência de caracteres cuja pronúncia não é exclusivamente determinada ou uma sequência de caracteres que inclui um substantivo próprio

3. Dispositivo de transmissão (10) de acordo com a reivindicação 2, caracterizado pelo fato de que a informação de exibição inclui uma das informações de conteúdo ou um ícone do conteúdo.

4. Dispositivo de transmissão (10) de acordo com a reivindicação 3, caracterizado pelo fato de que um ou mais processadores (900) são adicionalmente configurados para: adquirir o conteúdo; e transmitir o fragmento de serviço juntamente com o conteúdo em um sinal de difusão digital.

5. Dispositivo de transmissão (10) de acordo com a reivindicação 1, caracterizado pelo fato de que o guia de serviço se conforma com Guia Eletrônico de Serviço (ESG) prescrito em Aliança Móvel Aberta - Software Integrado Habilitador de Serviços de Difusão Móvel (OMA-BCAST), o objeto de informação de fala incorporado e/ou o objeto de informação de fala são descritos em um formato de Linguagem de Marcação de Síntese de Fala (SSML), e o fragmento de serviço incluído no ESG inclui a informação de endereço para adquirir o objeto de informação de fala descrito no formato SSML.

6. Dispositivo de transmissão (10), de acordo com a reivindicação 1, caracterizado pelo fato de que o elemento de informação de exibição é um nome ou elemento de descrição do fragmento de serviço.

7. Dispositivo de transmissão (10), de acordo com a reivindicação 1, caracterizado pelo fato de que o fragmento de serviço transmitido inclui as informações de endereço para gerar a declaração de texto para fala pelo dispositivo de recepção (20) e, inclui um atributo de tipo, indicando um tipo de metadados de declaração de texto para fala disponíveis na informação de endereço.

8. Método de transmissão de um dispositivo de transmissão, caracterizado pelo fato de que o método compreende: gerar, por um ou mais processadores (900) do dispositivo de transmissão, metadados sobre informações fonéticas de fala de informações de exibição, em que a declaração de texto para fala da informação fonética é gerada com base nos metadados; gerar, por um ou mais processadores (900) do dispositivo de transmissão, um fragmento de serviço de um guia de serviço, o fragmento de serviço incluindo um elemento de informação de exibição da informação de exibição, e os metadados, em pelo menos um subelemento do elemento de informação de exibição; e transmitir o fragmento de serviço para um dispositivo de recepção (20) capaz de exibir a informação de exibição, em que os metadados incluem um objeto de informação de fala, embutido em um subelemento de informação do elemento de informação de exibição e, indica uma linguagem de marcação associada ao objeto de informação de fala embutido e/ou os metadados incluem informação de endereço em um subelemento de URI do elemento de informação de exibição para adquirir um objeto de informação de fala e indica uma linguagem de marcação associada ao objeto de informação de fala referenciado pelas informações de endereço, e o fragmento de serviço transmitido inclui o elemento de informação de exibição para exibir a informação de exibição pelo dispositivo de recepção (20) e inclui o objeto de informação de fala embutido e/ou a informação de endereço para gerar a expressão de texto para fala pelo dispositivo de recepção (20).

9. Dispositivo de recepção (20), caracterizado pelo fato de que compreende: um ou mais processadores (900) configurados para: receber um fragmento de um guia de serviço a partir de um dispositivo de transmissão (10), em que o fragmento de serviço inclui um elemento de informação de exibição da informação de exibição e metadados sobre informações fonéticas de fala da informação de exibição, os metadados sendo incluídos em pelo menos um subelemento do elemento de informação de exibição, e em que a declaração de texto para fala da informação fonética da fala é gerada com base nos metadados; adquirir os metadados incluídos no fragmento de serviço; e ler as informações de exibição em voz alta com base nos metadados, em que os metadados incluem um objeto de informação de fala embutido em um subelemento de informação do elemento de informação de exibição e, indica uma linguagem de marcação associada ao objeto de informação de fala embutido e/ou os metadados incluem informação de endereço em um subelemento de URI do elemento de informação de exibição para adquirir um objeto de informação de fala e indicar uma linguagem de marcação, associada ao objeto de informação de fala referenciado pelas informações de endereço, e o fragmento de serviço recebido inclui o elemento de informação de exibição para exibir as informações de exibição pelo dispositivo de recepção (20) e inclui o objeto de informação de fala embutido e/ou a informação de endereço para gerar a declaração de texto para fala sendo realizada como um produtor pretende; pelo dispositivo de recepção (20).

10. Dispositivo de recepção (20) de acordo com a reivindicação 9, caracterizado pelo fato de que os metadados incluem informação sobre a declaração de um de uma sequência de caracteres cuja pronúncia não é exclusivamente determinada ou uma sequência de caracteres que inclui um substantivo próprio.

11. Dispositivo de recepção (20) de acordo com a reivindicação 10, caracterizado pelo fato de que a informação de exibição inclui uma das informações de conteúdo ou um ícone do conteúdo.

12. Dispositivo de recepção (20) de acordo com a reivindicação 11, caracterizado pelo fato de que um ou mais processadores (900) são adicionalmente configurados para receber fragmento de serviço transmitido juntamente com o conteúdo em um sinal de difusão digital.

13. Dispositivo de recepção (20) de acordo com a reivindicação 9, caracterizado pelo fato de que o guia de serviço se conforma com ESG prescrito em OMA- BCAST, os metadados são descritos em um formato SSML, o fragmento de serviço incluído no ESG inclui a informação de endereço para adquirir o objeto de informação de fala descrito no formato SSML e/ou objeto de informação de fala incorporado descrito no formato SSML, e o um ou mais processadores (900) são adicionalmente configurados para adquirir o objeto de informação de fala de acordo com a informação de endereço, adquirir o objeto de informação de fala embutido a partir do fragmento.

14. Dispositivo de recepção (20), de acordo com a reivindicação 9, caracterizado pelo fato de que o elemento de informação de exibição é um nome ou elemento de descrição do fragmento de serviço.

15. Dispositivo de recepção (20), de acordo com a reivindicação 9, caracterizado pelo fato de que o fragmento de serviço recebido inclui a informação de endereço para gerar a declaração texto para fala pelo dispositivo de recepção (20) e inclui um atributo de tipo que indica um tipo de metadados de expressão texto para fala disponível na informação de endereço

16. Método de recepção de um dispositivo de recepção (20), caracterizado pelo fato de que o método compreende: receber fragmento de serviço de um guia de serviço a partir de um dispositivo de transmissão, em que o fragmento de serviço inclui um elemento de exibição da informação de informação de exibição e metadados sobre informação fonética de fala da informação de exibição, os metadados sendo incluídos em pelo menos um subelemento do elemento de informação de exibição, e em que a declaração de texto para fala da informação fonética da fala é gerada com base nos metadados;; adquirir os metadados incluídos no fragmento de serviço; e ler a informação de exibição em voz alta com base nos metadados, em que os metadados incluem um objeto de informação de fala embutido em um subelemento de informação do elemento de informação de exibição e indica uma linguagem de marcação associada ao objeto de informação de fala embutido e/ou os metadados incluem informação de endereço em um subelemento de URI de informação elemento de informação de exibição para adquirir um objeto de informação de fala e indica uma linguagem de marcação associada ao objeto de informação de fala referenciado pelas informações de endereço, e o fragmento de serviço recebido inclui o elemento de informação de exibição para exibir a informação de exibição pelo dispositivo de recepção (20) e inclui o objeto de informação de fala embutido e/ou a informação de endereço para gerar a declaração de texto para fala pelo dispositivo de recepção (20).