BRPI0619607A2 - método e aparelho para acessar um arquivo digital de um conjunto de arquivos digitais - Google Patents
método e aparelho para acessar um arquivo digital de um conjunto de arquivos digitais Download PDFInfo
- Publication number
- BRPI0619607A2 BRPI0619607A2 BRPI0619607-1A BRPI0619607A BRPI0619607A2 BR PI0619607 A2 BRPI0619607 A2 BR PI0619607A2 BR PI0619607 A BRPI0619607 A BR PI0619607A BR PI0619607 A2 BRPI0619607 A2 BR PI0619607A2
- Authority
- BR
- Brazil
- Prior art keywords
- file
- language
- information
- digital file
- voice
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/102—Programmed access in sequence to addressed parts of tracks of operating record carriers
- G11B27/105—Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
- G06F16/433—Query formulation using audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
Abstract
MéTODO E APARELHO PARA ACESSAR UM ARQUIVO DIGITAL DE UM CONJUNTO DE ARQUIVOS DIGITAIS. A presente invenção refere-se a um método para acessar pelo menos um arquivo digital de um conjunto que compreende mais do que um arquivo digital em um dispositivo eletrónico, que inclui: gerar um índice compreendido de entradas de informações obtidas de cada um dos mais do que um arquivo digital no conjunto, com cada arquivo digital nas informações de conjunto estando ligado pelo menos uma entrada de informações; receber uma entrada de voz independente de locutor em pelo menos um idioma durante um modo de recepção de voz; determinar um idioma da entrada de voz; e ajustar o modo de recepção de voz para o idioma da entrada de voz; comparar a entrada de voz recebida durante o modo de recepção de voz com as entradas no índice, O arquivo pode vantajosamente ser acessado quando a entrada de voz coincide com pelo menos uma das entradas de informações no índice. Um aparelho que é capaz de executar o método acima mencionado está também descrito.
Description
Relatório Descritivo da Patente de Invenção para "MÉTODO E APARELHO PARA ACESSAR UM ARQUIVO DIGITAL DE UM CONJUN- TO DE ARQUIVOS DIGITAIS". CAMPO DA INVENÇÃO
A presente invenção refere-se a um método e aparelho para a - cessar um arquivo digital de um conjunto de arquivos digitais, e especifica- mente refere-se ao acesso de arquivos utilizando uma entrada de voz.
ANTECEDENTES DA INVENÇÃO
Os dispositivos com mecanismos de controle ativados por voz estão regularmente crescendo em popularidade. Os telefones móveis com "discagem de voz" e jogos ativados por voz são alguns destes dispositivos que pode-se encontrar prontamente hoje em dia.
No entanto, tais dispositivos usualmente requerem uma pré- programação para associar uma entrada de voz com uma entrada específica (em um telefone móvel, a entrada é um número de contato de entidade es- pecífica). Este pode ser um processo tedioso quando envolve um grande número de entradas, tal como por exemplo, em livros de endereços e em um conjunto de arquivos de mídia. Isto torna tal característica indesejável para um usuário devido à inconveniência.
Existem características de reconhecimento de voz incorporadas em alguns dispositivos atualmente que não requerem pré-programação. No entanto, a tecnologia ainda não está madura o suficiente para ser capaz de superar a dificuldade de reconhecer o Inglês pesadamente pronunciado ou murmurado. Além disso, apesar do Inglês ser o idioma de escolha para a aldeia global interconectada desta era digital, este não é o único idioma em uso. Os países populosos no mundo como a China e a índia não tem um povo que fale predominantemente o Inglês, e estes dispositivos com caracte- rísticas de reconhecimento de voz inteligentes podem não ser amplamente utilizados nestes países. Estes enormes mercados consumidores represen- tam oportunidades perdidas para as corporações se as suas necessidades não estiverem sendo atendidas.
Tais dispositivos "inteligentes" não tem múltiplas capacidades de reconhecimento de idioma neste momento. Como tal, os fabricantes de tais dispositivos são requeridos fazer diferentes versões do mesmo produto para os mercados com capacidades de idioma outras do que o Inglês, e isto inad- vertidamente aumenta o custo de fabricação de cada dispositivo, já que ou uma linha/instalação de produção dedicada é requerida, ou uma li- nha/instalação de produção para a versão em Inglês precisa ser modificada conforme e quando requerido para produzir as outras versões.
É também um desafio para os dispositivos "inteligentes" que tem múltiplas capacidades de reconhecimento de idioma gerenciar e administrar apropriadamente os diferentes conjuntos de códigos de caracteres tais co- mo, por exemplo, o ASCII para os idiomas baseados em Anglo - alfanuméri- co, Big-5 para o Chinês Tradicional, GB para o Chinês Simplificado, JIS para o Japonês, e similares.
SUMÁRIO DA INVENÇÃO
Em um primeiro aspecto da presente invenção, está provido um método para acessar pelo menos um arquivo digital de um conjunto que compreende mais do que um arquivo digital em um dispositivo eletrônico, que inclui: gerar um índice compreendido de entradas de informações obti- das de cada um dos mais do que um arquivo digital no conjunto, com cada arquivo digital nas informações de conjunto estando ligado pelo menos uma entrada de informações; receber uma entrada de voz independente de locu- tor em pelo menos um idioma durante um modo de recepção de voz; deter- minar um idioma da entrada de voz; e ajustar o modo de recepção de voz para o idioma da entrada de voz; comparar a entrada de voz recebida duran- te o modo de recepção de voz com as entradas no índice. O arquivo pode vantajosamente ser acessado quando a entrada de voz coincide com pelo menos uma das entradas de informações no índice. Os arquivos digitais po- dem ser armazenados no dispositivo eletrônico, qualquer dispositivo funcio- nalmente conectado no dispositivo eletrônico ou uma combinação dos acima mencionados. Pelo menos um arquivo digital pode ser recebido de uma fon- te selecionada de: um dispositivo de memória, uma rede de computadores com fio e uma rede de computadores sem fio. De preferência, o arquivo digital pode ser do tipo tal como docu- mentos, planilhas, listas de reprodução, pastas, arquivos de música, arqui- vos de imagem e arquivos de vídeo. É também preferível que a entrada de informações compreende pelo menos uma palavra e obtém as informações do arquivo digital tal como por exemplo, o nome de arquivo, a extensão de arquivo, o título de canção de metadados de arquivo, o nome de artista de metadados de arquivo, o título de canção truncado de metadados de arqui- vo, o nome de artista truncado de metadados de arquivo, o título de canção traduzido ou o título de canção alternativo. A entrada de informações pode ser em qualquer idioma.
A entrada de voz pode ser ou em um idioma ou em uma frase de pelo menos um idioma. O modo de recepção pode ser ajustado ou manual- mente ou automaticamente.
De preferência, o dispositivo eletrônico pode ser um computador de mesa, um computador notebook, um PDA, um reprodutor de mídia portátil e um telefone móvel. A facilidade de acessar pelo menos um arquivo digital no dispositivo eletrônico pode ser pressionando um botão predeterminadpelo menos uma vez.
Em um segundo aspecto da presente invenção, está provido um aparelho para acessar pelo menos um arquivo digital de um conjunto que compreende mais do que um arquivo digital armazenado dentro do aparelho. O aparelho inclui: um indexador para gerar um índice compreendido de en- tradas de informações obtidas de cada um dos mais do que um arquivo digi- tal no conjunto, com cada arquivo digital nas informações de conjunto estan- do ligado pelo menos uma entrada de informações; um meio de recepção de voz para receber uma entrada de voz independente de locutor em pelo me- nos um idioma durante um modo de recepção de voz; um processador para determinar um idioma da entrada de voz; e o processador sendo capaz de comparar a entrada de voz recebida durante o modo de recepção de voz com as entradas no índice. Vantajosamente, o arquivo é acessado quando a entrada de voz coincide com pelo menos uma das entradas de informações no índice. O aparelho pode ser selecionado do grupo que compreende: um computador de mesa, um computador notebook, um PDA, um reprodutor de mídia portátil e um telefone móvel.
É preferível que o meio de recepção de voz seja um microfone. O idioma da entrada de voz pode ser selecionado ou manualmente ou auto- maticamente. A entrada de voz pode ser em um idioma ou em uma frase de pelo menos um idioma.
As entradas de informações podem de preferência compreender pelo menos uma palavra em qualquer idioma. A entrada de informações po- de obter as informações do arquivo digital tal como, por exemplo, o nome de arquivo, a extensão de arquivo, o título de canção de metadados de arquivo, o nome de artista de metadados de arquivo, o título de canção truncado de metadados de arquivo, o nome de artista truncado de metadados de arquivo, o título de canção traduzido e o título de canção alternativo.
O aparelho pode incluir pelo menos um botão para ativar uma facilidade para acessar um arquivo digital pressionando pelo menos um bo- tãpelo menos uma vez. O aparelho pode de preferência incluir um display.
DESCRIÇÃO DOS DESENHOS
Para que a presente invenção possa ser totalmente compreen- dida e prontamente colocada em efeito prático, serão agora descritas por 20 meio de exemplo não Iimitativo somente, as modalidades preferidas da pre- sente invenção, a descrição sendo com referência aos desenhos ilustrativos acompanhantes.
Figura 1 mostra um fluxograma de um processo de uma modali- dade preferida da presente invenção.
Figura 2 mostra um diagrama esquemático de um aparelho de uma modalidade preferida da presente invenção.
Figura 3 mostra uma ampliação do processo de processamento de voz 36 na Figura 1.
DESCRIÇÃO DAS MODALIDADES PREFERIDAS
A discussão seguinte pretende prover uma breve descrição geral de um ambiente de computação adequado no qual a presente invenção po- de ser implementada. Apesar de não requerido, a invenção será descrita no contexto geral de instruções executáveis por computador, tais como módulos de programa, sendo executados por um computador pessoal. Geralmente, os módulos de programa incluem rotinas, programas, caracteres, componen- tes, estruturas de dados, que executam tarefas específicas ou implementam tipos de dados abstratos específicos. Como aqueles versados na técnica apreciarão, a invenção pode ser praticada com outras configurações de sis- tema de computador, que incluem os dispositivos portáteis, os sistemas de multiprocessadores, os eletrônicos de consumidor baseados em micropro- cessador ou programáveis, os PCs em rede, os minicomputadores, os com- putadores de grande porte, e similares. A invenção também pode ser prati- cada em ambientes de computação distribuídos, onde as tarefas são execu- tadas por dispositivos de processamento remoto que estão conectados atra- vés de uma rede de comunicações. Em um ambiente de computação distri- buído, os módulos de programa podem estar localizados em dispositivos de armazenamento de memória tanto locais quanto remotos.
Referindo à Figura 1, está descrito um fluxograma que mostra uma modalidade preferida de um método para acessar pelo menos um ar- quivo digital de um conjunto que compreende mais do que um arquivo digital em um dispositivo eletrônico. O dispositivo eletrônico pode ser por exemplo, um computador de mesa, um computador notebook, um PDA, um reprodutor de mídia portátil ou um telefone móvel. Os arquivos digitais no conjunto po- dem incluir: documentos, planilhas, listas de reprodução, pastas, arquivos de música, arquivos de imagem e arquivos de vídeo. Nesta modalidade mostra- da na Figura 1, os arquivos digitais armazenados no conjunto são arquivos de mídia (arquivos de imagem, música e vídeo). Pelo menos um arquivo di- gital pode ser recebido de uma fonte tal como por exemplo, um dispositivo de memória, uma rede de computadores com fio ou uma rede de computa- dores sem fio. O conjunto de arquivos digitais pode residir no dispositivo de memória no dispositivo eletrônico ou um dispositivo de memória que é co- nectável no dispositivo eletrônico. Os dispositivos de memória podem ser memórias não voláteis e podem ser ou uma memória instantânea ou uma unidade de disco rígido. Primeiramente, uma facilidade para permitir um modo de recep- ção de voz é ativado 20 no dispositivo eletrônico. O dispositivo eletrônico pode ter um display que mostra um menu do qual esta facilidade é selecio- nável, ou o dispositivo pode ter uma chave/botão de atalho que é pressio- nadpelo menos uma vez para ativar o modo de recepção de voz. Nesta con- juntura um usuário pode ser capaz de selecionar manualmente um idioma específico ou múltiplos idiomas para a entrada de voz 22. Isto ajuda o dispo- sitivo no processamento da entrada de voz. Deve ser notado que cada diale- to de um idioma específico tal como, por exemplo, os dialetos Chineses de Cantonês, Teochew e Hokkien entre outros é considerado ser um idioma diferente.
Subseqüentemente a habilitar o modo de recepção de voz, um sistema para acessar um arquivo digital de um conjunto em um dispositivo eletrônico é inicializado 24 em preparação de entradas de voz que chegam para acessar os arquivos no conjunto. Durante o processo de inicialização, existe uma verificação para confirmar a existência de qualquer índice de in- formações 26 dos arquivos no conjunto.
Se nenhum índice for encontrado, menos arquivos digitais foram detectados (arquivos foram apagados), ou novos arquivos digitais foram de- tectados, os arquivos de mídia no dispositivo eletrônico e em qualquer dis- positivo de memória são pesquisados 28. As informações extraídas 25 e in- dexadas de cada arquivo podem incluir pelo menos um dos seguintes: o nome de arquivo, a extensão de arquivo, o título de canção de metadados de arquivo, o nome de artista de metadados de arquivo, o título de canção truncado de metadados de arquivo, o nome de artista truncado de metada- dos de arquivo, e o título de canção alternativo. As informações acima po- dem também ser obtidas de fontes alternativas 29, tais como, por exemplo, a Internet se o dispositivo eletrônico estiver conectado na fonte alternativa. Cada entrada de informações deve compreender pelo menos uma palavra. As informações extraídas podem ser em qualquer idioma e não precisam estar baseadas em alfabeto alfanumérico Anglo. As várias formas de carac- teres Chineses (simplificados e tradicionais), várias formas de caracteres Japoneses (kanji, hiragana e katakana), caracteres Coreanos, caracteres Islâmicos e similares podem todas ser extraíveis e armazenadas no índice de informações. Uma transliteração dos caracteres não Ingleses acima men- cionados para ò Inglês pode também ser armazenada no índice de informa- ções. As traduções dos caracteres não Ingleses acima mencionados para o Inglês podem também ser armazenadas no índice de informações se tais informações estiverem incluídas no metadados de arquivo. Pode ser possí- vel que cada arquivo digital tenha uma pluralidade de entradas de informa- ções no índice de informações de modo a permitir que o arquivo seja aces- sado através de vários percursos tais como, por exemplo, por nome de artis- ta, por título de canção, por nome de arquivo e assim por diante. No caso onde menos arquivos foram detectados, as entradas de informações de ar- quivos não existentes são removidas quando criando o índice. Um usuário pode também dar a uma canção específica um título alternativo e este título alternativo pode também ser incluído no índice. Após todas as informações sobre os arquivos de mídia serem reunidas, uma função de identificação de conjunto de código de caractere 27 analisa as informações de cada arquivo de mídia e identifica o conjunto de códigos ou conjuntos de códigos utiliza- dos em cada arquivo.
Um índice de todas as entradas de informações de cada arquivo 1 digital no dispositivo eletrônico e qualquer dispositivo de memória funcional- mente conectado juntamente com as informações de conjunto de códigos de caractere é então formado no dispositivo eletrônico 30, e subseqüentemente à construção do índice, o índice é carregado no dispositivo eletrônico 32 de modo que todas as entradas de informações no índice sejam acessíveis. O índice de informações pode também ser carregado 32 após confirmar a exis- tência de um índice de informações 26, se nenhum arquivo digital novo foi detectado e se nenhum arquivo digital for apagado quando o índice de in- formações foi construído.
Deve ser notado que a duração de tempo requerida para as eta- pas acima mencionadas é dependente da velocidade de processamento de dados, da velocidade de I/O de memória e da latência de rede/servidor re- moto. Fica aparente que quanto maiores os arquivos digitais, mais longa é a duração requerida para as etapas acima mencionadas devido ao volume de dados a serem processados.
Nesta conjuntura, o dispositivo eletrônico está pronto para rece- ber uma entrada de voz. O dispositivo eletrônico pode ou soar um alerta au- dível ou mostrar um alerta visual para avisar o usuário que este está pronto para receber as entradas de voz em um modo de recepção de som. A entra- da de voz é independente de locutor. Nenhuma pré-gravação é requerida e o dispositivo eletrônico é basicamente de "pegar e usar". O processamento de voz no método pode ser suficientemente robusto para ser capaz de distinguir a entrada de voz a despeito de quaisquer pronúncias especificamente fortes ou murmúrios. A voz é inserida no dispositivo eletrônico 34. A entrada de voz pode ser em um idioma. A entrada de voz pode também ser uma frase que compreende mais do que um idioma. Por exemplo, um título de canção co- mo " flor" pode ser aceitável e capaz de ser processado. Para os ar- quivos digitais com títulos traduzidos em seus mètadados, a utilização ou do título original ou traduzido permite acesso ao mesmo arquivo digital. Por e- xemplo," " ou "Sem Reservas no Amor" permite acesso ao mes- mo arquivo digital.
Após a voz ser inserida no dispositivo eletrônico, a voz é proces- sada 36. Se a seleção de idioma não foi feita 22 anteriormente manualmen- te, o idioma da entrada de voz é determinado e o modo de recepção de voz apropriado correlacionado com o idioma da voz inserida é automaticamente ajustado. Se a seleção de idioma for ajustada manualmente, então um mo- delo de idioma especificado pelo usuário será correspondentemente carre- gado. Isto permite uma determinação precisa da entrada de voz. Referindo à Figura 3, está descrita uma seqüência em que a voz é processada automati- camente. As informações de cabeçalho de mídia 261 são obtidas em 25, o conjunto de códigos de caractere 362 é obtido em 27 e as informações de mídia 363 reunidas de fontes remotas em 29 são inseridas na função de i- dentificação de reconhecimento de idioma 364 para permitir que o(s) mode- lo(s) de idioma de reconhecimento de voz mais apropriado(s) seja(m) carre- gado(s) 365. Por exemplo, se a função de identificação de reconhecimento de idioma determina que o conjunto de códigos utilizado nos arquivos de mídia são ASCII e GB enquanto que os países de origem são os Estados Unidos da América (USA) e a República Popular da China (PRC), tanto o modelo de idioma de Inglês de USA quanto o modelo de idioma de Putoghua da PRC serão carregados para o reconhecimento de voz. Subseqüilnglêsen- temente, a entrada de voz é adicionalmente "filtrada" 366 onde as informa- ções de mídia significativas tais como títulos de canções, artista e álbum são extraídas da entrada de voz e providas para o reconhecedor de voz como objetos para o reconhecimento de voz. Por exemplo, a entrada de voz de "Toque Sfi=FftS por Sharon Lau", "'M=FftS" será extraído como infor- mações de título de canção enquanto que "Sharon Lau" será inteligentemen- te extraído como informações de artista. Estas informações extraídas são então adicionadas ao acervo 367. Uma filtragem também é feita na entrada de voz para determinar as entradas no acervo de vozes reconhecidas quan- do a seleção manual de idioma 22 é feita.
Subsequente ao processamento da entrada de voz e averiguan- do as entradas no acervo de vozes reconhecidas, a entrada é comparada com as entradas de informações no índice 38. Quando um casamento entre a entrada e pelo menos uma entrada de informações é feito, o(s) arquivo(s) 1 digital(is) conectado(s) na(s) entrada(s) de informações são exibidos 40 para a seleção do usuário. O(s) arquivo(s) digital(is) mostrado(s) pode(m) ser uma lista de resultados e o usuário pode ser capaz de selecionar uma canção desejada 42, uma lista de reproduções desejada 44 ou canções de um artis- ta desejado 46. Estas opções são meramente para propósitos ilustrativos e não são limitantes.
Referindo à Figura 2, está mostrado um aparelho 50 para aces- sar pelo menos um arquivo digital de um conjunto que compreende mais do que um arquivo digital armazenado dentro do aparelho 50. O aparelho 50 pode ser um dispositivo tal como, por exemplo, um computador de mesa, um computador notebook, um PDA, um reprodutor de mídia portátil e um telefo- ne móvel. Os arquivos digitais podem ser arquivos tais como, por exemplo, documentos, planilhas, listas de reprodução, pastas, arquivos de música, arquivos de imagem e arquivos de vídeo. Pelo menos um arquivo digital po- de ser recebido de uma fonte tal como por exemplo, um dispositivo de me- mória, uma rede de computadores com fio ou uma rede de computadores sem fio. O conjunto de arquivos digitais pode residir no dispositivo de memó- ria 58 incluído no aparelho 50 ou os arquivos digitais podem residir em um dispositivo de memória que pode ser conectável no aparelho 50. O dispositi- vo de memória pode ser uma memória não volátil e pode ser ou uma memó- ria instantânea ou uma unidade de disco rígido. De modo a ativar a facilida- de para acessar um arquivo digital, o aparelho 50 pode ter um display 54 que mostra um menu que permite que esta facilidade seja habilitada, ou o aparelho 50 pode ter uma chave/botão de atalho (não mostrada) que é pres- sionadpelo menos uma vez para ativar a facilidade.
O aparelho 50 pode ter um alojamento 52 para conter os seus vários componentes. O aparelho 50 pode ter um display 54 para exibir as informações do aparelho 50, que incluem as informações sobre os arquivos armazenados no aparelho 50 ou acessíveis ao aparelho 50. Pode existir um indexador 56 para gerar um índice que compreende as entradas de informa- ções obtidas de cada um dos mais do que um arquivo digital no conjunto. Cada arquivo digital nas informações de conjunto pode estar conectado pelo menos uma entrada de informações. A entrada de informações pode com- preender pelo menos uma palavra e pode estar em qualquer idioma. As in- formações extraídas e indexadas de cada arquivo podem incluir pelo menos um dos seguintes: o nome de arquivo, a extensão de arquivo, o título de canção de metadados de arquivo, o nome de artista de metadados de arqui- vo, o título de canção truncado de metadados de arquivo, o nome de artista truncado de metadados de arquivo, o título de canção truncado e título de canção alternativo. Cada entrada de informações deve compreender pelo menos uma palavra. As informações extraídas podem estar em qualquer idioma e não precisam estar baseadas em um alfabeto alfanumérico Anglo. As várias formas de caracteres Chineses (simplificados e tradicionais), vá- rias formas de caracteres Japoneses (kanji, hiragana e katakana), caracteres Coreanos, caracteres Islâmicos e similares podem todas ser extraíveis. Uma transliteração dos caracteres não Ingleses acima mencionados para o inglês pode também ser armazenada no índice de informações. As traduções dos caracteres não ingleses acima mencionados para o inglês podem também ser armazenadas no índice de informações se tais informações forem nos metadados de arquivo. Pode ser possível que cada arquivo digital tenha uma pluralidade de entradas de informações no índice de informações de modo a permitir que o arquivo seja acessado através de vários percursos tais como, por exemplo, por nome de artista, por título de canção, por nome de arquivo e assim por diante. O usuário pode também dar a uma canção específica um título alternativo e este título alternativo pode também ser incluído no índice.
Além disso, o aparelho 50 pode incluir um meio de recepção de voz 60 para receber uma entrada de voz em pelo menos um idioma durante um modo de recepção de voz. O meio de recepção de voz pode ser um mi- crofone ou qualquer outro dispositivo que permita a entrada de sinais de áu- dio. O meio de recepção de voz 60 passa a entrada de voz para um proces- sador 62. A entrada de voz pode ser em um idioma. A entrada de voz pode também ser uma frase que compreende mais do que um idioma. Por exem- plo, um título de canção como flor" pode ser compreendido. Para os arquivos digitais com títulos traduzidos em seus metadados, a utilização de qualquer título permite acesso ao mesmo arquivo digital. Por exemplo, ou "Sem Reservas no Amor" permite acesso ao mesmo ar- quivo digital. O processador 62 pode ser capaz de determinar um idioma da entrada de voz automaticamente. O aparelho 50 pode também ser capaz de ajustar manualmente o idioma da entrada de voz de modo que o processa- dor 62 não precise executar a tarefa automaticamente. O processador 62 pode também ser utilizado para comparar a entrada de voz recebida durante o modo de recepção de voz com as entradas no índice. A entrada de voz é independente de locutor. Nenhuma pré-gravação é requerida e o aparelho 50 é basicamente de "pegar e usar". O módulo de reconhecimento de voz no aparelho 50 pode ser suficientemente robusto para ser capaz de distinguir a entrada de voz a despeito de quaisquer pronúncias especificamente fortes ou murmúrios.
Quando um casamento entre a entrada e pelo menos uma en- trada de informações é feito, o(s) arquivo(s) digital(is) conectado(s) na(s) entrada(s) de informações são mostrados no display 54 para a seleção do usuário. 0(s) arquivo(s) digital(is) mostrado(s) pode(m) ser uma lista de re- sultados e o usuário pode ser capaz de selecionar uma canção desejada , uma lista de reproduções desejada ou canções de um artista desejado. Es- tas opções são meramente para propósitos ilustrativos e não são limitantes.
Deve ser notado que as setas na Figura 2 denotam a direção de fluxo de dados entre os vários componentes do aparelho 50.
Apesar de terem sido descritas na descrição acima as modalida- des preferidas da presente invenção, será compreendido por aqueles versa- dos na tecnologia referida que muitas variações ou modificações em deta- lhes de projeto ou de construção podem ser feitas sem afastar-se da presen- te invenção.
Claims (23)
1. Método para acessar pelo menos um arquivo digital de um conjunto que compreende mais do que um arquivo digital em um dispositivo eletrônico, que inclui: gerar um índice compreendido de entradas de informações obti- das de cada um dos mais do que um arquivo digital no conjunto, com cada arquivo digital nas informações do conjunto estando ligado pelo menos uma entrada de informações; receber uma entrada de voz independente de locutor em pelo menos um idioma durante um modo de recepção de voz; determinar um idioma da entrada de voz; ajustar o modo de recepção de voz para o idioma da entrada de voz; e comparar a entrada de voz recebida durante o modo de recep- ção de voz com as entradas no índice, em que o arquivo é acessado quando a entrada de voz coincide com pelo menos uma das entradas de informações no índice.
2. Método de acordo com a reivindicação 1, em que o arquivo digital é selecionado do grupo que compreende: documentos, planilhas, Iis- tas de reprodução, pastas, arquivos de música, arquivos de imagem e arqui- -1 vos de vídeo,
3. Método de acordo com a reivindicação 1, em que as entradas de informações compreendem pelo menos uma palavra.
4. Método de acordo com a reivindicação 1, em que a entrada de informações obtém as informações do arquivo digital selecionado do grupo que compreende: o nome de arquivo, a extensão de arquivo, o título de can- ção de metadados de arquivo, o nome de artista do arquivo de metadados, o título de canção truncado de metadados de arquivo, o nome de artista trun- cado de metadados de arquivo, o título de canção traduzido, o título de can- ção alternativo e qualquer um dos acima mencionados de uma fonte remota.
5. Método de acordo com a reivindicação 1, em que a entrada de informações é em qualquer idioma e é dependente de pelo menos um con junto de códigos de caracteres.
6. Método de acordo com a reivindicação 1, em que a entrada de voz é ou em um idioma ou em uma frase de pelo menos um idioma.
7. Método de acordo com a reivindicação 1, em que o arquivo digital está armazenado uma fonte selecionada do grupo que compreende: o dispositivo eletrônico, qualquer dispositivo funcionalmente conectado no dis- positivo eletrônico e uma combinação dos acima mencionados.
8. Método de acordo com a reivindicação 1, em que o idioma do modo de recepção de voz é determinado por um meio selecionado do grupo que compreende: uma seleção manual e uma seleção automática.
9. Método de acordo com a reivindicação 1, em que pelo menos um arquivo digital é recebido de uma fonte selecionada do grupo que com- preende: um dispositivo de memória, uma rede de computadores com fio e uma rede de computadores sem fio.
10. Método de acordo com a reivindicação 1, em que o dispositi- vo eletrônico é selecionado do grupo que compreende: um computador de mesa, um computador notebook, um PDA, um reprodutor de mídia portátil e um telefone móvel.
11. Método de acordo com a reivindicação 1, em que a entrada de voz é filtrada.
12. Aparelho para acessar pelo menos um arquivo digital de um conjunto que compreende mais do que um arquivo digital armazenado den- tro do aparelho, que inclui: um indexador para gerar um índice compreendido de entradas de informações obtidas de cada um dos mais do que um arquivo digital no conjunto, com cada arquivo digital nas informações de conjunto estando li- gado pelo menos uma entrada de informações; um meio de recepção de voz para receber uma entrada de voz independente de locutor em pelo menos um idioma durante um modo de recepção de voz; um processador para determinar um idioma da entrada de voz; e o processador sendo capaz de comparar a entrada de voz rece- bida durante o modo de recepção de voz com as entradas no índice, em qüe o arquivo é acessado quando a entrada de voz coincide com pelo menos uma das entradas de informações no índice.
13. Aparelho de acordo com a reivindicação 12, em que o apare- lho é selecionado do grupo que compreende: um computador de mesa, um computador notebook, um PDA, um reprodutor de mídia portátil e um telefo- ne móvel.
14. Aparelho de acordo com a reivindicação 12, em que o meio de recepção de voz é um microfone.
15. Aparelho de acordo com a reivindicação 12, em que o meio para determinar um idioma da entrada de voz é selecionado do grupo que compreende: automático ou manual.
16. Aparelho de acordo com a reivindicação 12, em que o arqui- vo digital é selecionado do grupo que compreende: documentos, planilhas, listas de reprodução, pastas, arquivos de música, arquivos de imagem e ar- quivos de vídeo.
17. Aparelho de acordo com a reivindicação 12, em que as en- tradas de informações compreendem pelo menos uma palavra.
18. Aparelho de acordo com a reivindicação 12, em que a entra- da de informações obtém as informações do arquivo digital selecionado do grupo que compreende: o nome de arquivo, a extensão de arquivo, o título de canção de metadados de arquivo, o nome de artista do arquivo de meta- dados, o título de canção truncado de metadados de arquivo, o nome de ar- tista truncado de metadados de arquivo, o título de canção traduzido, o título de canção alternativo e qualquer um dos acima mencionados de uma fonte remota.
19. Aparelho de acordo com a reivindicação 12, em que a entra- da de informações é em qualquer idioma e é dependente de pelo menos um conjunto de códigos de caracteres.
20. Aparelho de acordo com a reivindicação 16, em que a entra- da de voz é ou em um idioma ou em uma frase de pelo menos um idioma.
21. Aparelho de acordo com a reivindicação 12, em que pelo menos um arquivo digital é recebido de uma fonte selecionada do grupo que compreende: um dispositivo de memória, uma rede de computadores com fio e uma rede de computadores sem fio.
22. Aparelho de acordo com a reivindicação 12, ainda compre- endendo um display.
23. Aparelho de acordo com a reivindicação 12, em que a entra- da de voz é filtrada.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SG200508000-7 | 2005-12-12 | ||
SG200508000-7A SG133419A1 (en) | 2005-12-12 | 2005-12-12 | A method and apparatus for accessing a digital file from a collection of digital files |
PCT/SG2006/000384 WO2007070013A1 (en) | 2005-12-12 | 2006-12-11 | A method and apparatus for accessing a digital file from a collection of digital files |
Publications (1)
Publication Number | Publication Date |
---|---|
BRPI0619607A2 true BRPI0619607A2 (pt) | 2011-10-11 |
Family
ID=38140537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BRPI0619607-1A BRPI0619607A2 (pt) | 2005-12-12 | 2006-12-11 | método e aparelho para acessar um arquivo digital de um conjunto de arquivos digitais |
Country Status (15)
Country | Link |
---|---|
US (1) | US8015013B2 (pt) |
EP (1) | EP1969590A4 (pt) |
JP (1) | JP2009519538A (pt) |
KR (1) | KR20080083290A (pt) |
CN (1) | CN101341531A (pt) |
AU (1) | AU2006325555B2 (pt) |
BR (1) | BRPI0619607A2 (pt) |
CA (1) | CA2633505A1 (pt) |
NO (1) | NO20083087L (pt) |
NZ (1) | NZ569291A (pt) |
RU (1) | RU2008128440A (pt) |
SG (1) | SG133419A1 (pt) |
TW (1) | TW200805251A (pt) |
WO (1) | WO2007070013A1 (pt) |
ZA (1) | ZA200805567B (pt) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100197255A1 (en) * | 2009-02-05 | 2010-08-05 | Panasonic Automotive Systems Company Of America, Division Of Panasonic Corporation Of North America | Method and apparatus for dynamic station preset configuration in a radio |
US20120221319A1 (en) * | 2011-02-28 | 2012-08-30 | Andrew Trese | Systems, Methods and Media for Translating Informational Content |
US10140320B2 (en) | 2011-02-28 | 2018-11-27 | Sdl Inc. | Systems, methods, and media for generating analytical data |
US20120284276A1 (en) * | 2011-05-02 | 2012-11-08 | Barry Fernando | Access to Annotated Digital File Via a Network |
US8983963B2 (en) * | 2011-07-07 | 2015-03-17 | Software Ag | Techniques for comparing and clustering documents |
US9984054B2 (en) | 2011-08-24 | 2018-05-29 | Sdl Inc. | Web interface including the review and manipulation of a web document and utilizing permission based control |
KR102081925B1 (ko) * | 2012-08-29 | 2020-02-26 | 엘지전자 주식회사 | 디스플레이 디바이스 및 스피치 검색 방법 |
US9916306B2 (en) | 2012-10-19 | 2018-03-13 | Sdl Inc. | Statistical linguistic analysis of source content |
KR102115397B1 (ko) | 2013-04-01 | 2020-05-26 | 삼성전자주식회사 | 휴대 장치 및 휴대 장치의 재생목록 표시 방법 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4833714A (en) * | 1983-09-30 | 1989-05-23 | Mitsubishi Denki Kabushiki Kaisha | Speech recognition apparatus |
JPH0594512A (ja) * | 1991-10-02 | 1993-04-16 | Kobe Nippon Denki Software Kk | 電子フアイリング装置 |
CA2115088A1 (en) | 1993-02-08 | 1994-08-09 | David Michael Boyle | Multi-lingual voice response unit |
CA2091658A1 (en) * | 1993-03-15 | 1994-09-16 | Matthew Lennig | Method and apparatus for automation of directory assistance using speech recognition |
US6081774A (en) * | 1997-08-22 | 2000-06-27 | Novell, Inc. | Natural language information retrieval system and method |
JP4036528B2 (ja) * | 1998-04-27 | 2008-01-23 | 富士通株式会社 | 意味認識システム |
US20020193989A1 (en) * | 1999-05-21 | 2002-12-19 | Michael Geilhufe | Method and apparatus for identifying voice controlled devices |
JP4292646B2 (ja) * | 1999-09-16 | 2009-07-08 | 株式会社デンソー | ユーザインタフェース装置、ナビゲーションシステム、情報処理装置及び記録媒体 |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
JP2001285759A (ja) * | 2000-03-28 | 2001-10-12 | Pioneer Electronic Corp | Av情報処理装置及びav情報処理用プログラムがコンピュータで読取り可能に記録された情報記録媒体 |
US20020099533A1 (en) * | 2001-01-23 | 2002-07-25 | Evan Jaqua | Data processing system for searching and communication |
FI20010644A (fi) * | 2001-03-28 | 2002-09-29 | Nokia Corp | Merkkisekvenssin kielen määrittäminen |
US7043431B2 (en) * | 2001-08-31 | 2006-05-09 | Nokia Corporation | Multilingual speech recognition system using text derived recognition models |
DE50307074D1 (de) * | 2002-01-17 | 2007-05-31 | Siemens Ag | Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner |
US6952691B2 (en) * | 2002-02-01 | 2005-10-04 | International Business Machines Corporation | Method and system for searching a multi-lingual database |
US7188066B2 (en) * | 2002-02-04 | 2007-03-06 | Microsoft Corporation | Speech controls for use with a speech system |
US6907397B2 (en) * | 2002-09-16 | 2005-06-14 | Matsushita Electric Industrial Co., Ltd. | System and method of media file access and retrieval using speech recognition |
US7046984B2 (en) * | 2002-11-28 | 2006-05-16 | Inventec Appliances Corp. | Method for retrieving vocabulary entries in a mobile phone |
US7321852B2 (en) * | 2003-10-28 | 2008-01-22 | International Business Machines Corporation | System and method for transcribing audio files of various languages |
US7725318B2 (en) * | 2004-07-30 | 2010-05-25 | Nice Systems Inc. | System and method for improving the accuracy of audio searching |
US7711542B2 (en) * | 2004-08-31 | 2010-05-04 | Research In Motion Limited | System and method for multilanguage text input in a handheld electronic device |
US7376648B2 (en) * | 2004-10-20 | 2008-05-20 | Oracle International Corporation | Computer-implemented methods and systems for entering and searching for non-Roman-alphabet characters and related search systems |
TWI258087B (en) * | 2004-12-31 | 2006-07-11 | Delta Electronics Inc | Voice input method and system for portable device |
EP1693828B1 (en) * | 2005-02-21 | 2008-01-23 | Harman Becker Automotive Systems GmbH | Multilingual speech recognition |
US7840399B2 (en) * | 2005-04-07 | 2010-11-23 | Nokia Corporation | Method, device, and computer program product for multi-lingual speech recognition |
-
2005
- 2005-12-12 SG SG200508000-7A patent/SG133419A1/en unknown
-
2006
- 2006-12-11 EP EP06835979A patent/EP1969590A4/en not_active Ceased
- 2006-12-11 KR KR1020087015673A patent/KR20080083290A/ko not_active Application Discontinuation
- 2006-12-11 BR BRPI0619607-1A patent/BRPI0619607A2/pt not_active IP Right Cessation
- 2006-12-11 NZ NZ569291A patent/NZ569291A/en unknown
- 2006-12-11 CN CNA2006800468015A patent/CN101341531A/zh active Pending
- 2006-12-11 RU RU2008128440/09A patent/RU2008128440A/ru not_active Application Discontinuation
- 2006-12-11 WO PCT/SG2006/000384 patent/WO2007070013A1/en active Application Filing
- 2006-12-11 AU AU2006325555A patent/AU2006325555B2/en active Active
- 2006-12-11 JP JP2008545547A patent/JP2009519538A/ja active Pending
- 2006-12-11 US US11/637,357 patent/US8015013B2/en active Active
- 2006-12-11 CA CA002633505A patent/CA2633505A1/en not_active Abandoned
- 2006-12-12 TW TW095146399A patent/TW200805251A/zh unknown
-
2008
- 2008-06-25 ZA ZA200805567A patent/ZA200805567B/xx unknown
- 2008-07-09 NO NO20083087A patent/NO20083087L/no not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
EP1969590A1 (en) | 2008-09-17 |
US20070136065A1 (en) | 2007-06-14 |
WO2007070013A1 (en) | 2007-06-21 |
US8015013B2 (en) | 2011-09-06 |
CA2633505A1 (en) | 2007-06-21 |
SG133419A1 (en) | 2007-07-30 |
NO20083087L (no) | 2008-09-01 |
NZ569291A (en) | 2010-03-26 |
AU2006325555B2 (en) | 2012-03-08 |
TW200805251A (en) | 2008-01-16 |
EP1969590A4 (en) | 2010-01-06 |
KR20080083290A (ko) | 2008-09-17 |
ZA200805567B (en) | 2009-06-24 |
JP2009519538A (ja) | 2009-05-14 |
CN101341531A (zh) | 2009-01-07 |
AU2006325555A1 (en) | 2007-06-21 |
RU2008128440A (ru) | 2010-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BRPI0619607A2 (pt) | método e aparelho para acessar um arquivo digital de um conjunto de arquivos digitais | |
TWI525532B (zh) | Set the name of the person to wake up the name for voice manipulation | |
US9280595B2 (en) | Application query conversion | |
TWI554984B (zh) | 電子裝置 | |
WO2014000517A1 (zh) | 一种用于搜索输入的推荐系统及方法 | |
TW200900967A (en) | Multi-mode input method editor | |
CN101415259A (zh) | 嵌入式设备上基于双语语音查询的信息检索系统及方法 | |
US20190204998A1 (en) | Audio book positioning | |
JP2012079252A (ja) | 情報端末装置、文字入力方法および文字入力プログラム | |
TW200910124A (en) | Generalized language independent index storage system and searching method | |
US20070028168A1 (en) | Phonetic searching using multiple readings | |
US20120323559A1 (en) | Information processing apparatus, information processing method, and program | |
CN103631784B (zh) | 页面内容检索方法和系统 | |
KR101567449B1 (ko) | 음성인식에 기반한 애니메이션 재생이 가능한 전자책 단말기 및 그 방법 | |
WO2016155643A1 (zh) | 一种基于输入的显示候选词的方法和装置 | |
CN111128254B (zh) | 音频播放方法、电子设备及存储介质 | |
Adhoni et al. | A programming approach for the digital Quran applications | |
CN115547337A (zh) | 语音识别方法及相关产品 | |
CN112802454B (zh) | 一种唤醒词的推荐方法、装置、终端设备及存储介质 | |
TWI258087B (en) | Voice input method and system for portable device | |
TWI220206B (en) | System and method for searching a single word in accordance with speech | |
TWI272577B (en) | Character input methods and computer systems utilizing the same | |
WO2019109233A1 (zh) | 一种快速操作的方法、装置、终端及计算机可读介质 | |
JP2014215415A (ja) | 音声出力システム | |
KR20090054616A (ko) | 시각장애인을 위한 음성낭독 단말기용 색인어 검색방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B08F | Application dismissed because of non-payment of annual fees [chapter 8.6 patent gazette] |
Free format text: REFERENTE A 6A ANUIDADE |
|
B08K | Patent lapsed as no evidence of payment of the annual fee has been furnished to inpi [chapter 8.11 patent gazette] |
Free format text: REFERENTE AO DESPACHO 8.6 PUBLICADO NA RPI 2214 DE 11/06/2013. |