BRPI0613699A2 - busca de dicionário para dispositivos móveis que usa reconhecimento de escrita - Google Patents

busca de dicionário para dispositivos móveis que usa reconhecimento de escrita Download PDF

Info

Publication number
BRPI0613699A2
BRPI0613699A2 BRPI0613699-0A BRPI0613699A BRPI0613699A2 BR PI0613699 A2 BRPI0613699 A2 BR PI0613699A2 BR PI0613699 A BRPI0613699 A BR PI0613699A BR PI0613699 A2 BRPI0613699 A2 BR PI0613699A2
Authority
BR
Brazil
Prior art keywords
user
speech
letters
list
dictionary
Prior art date
Application number
BRPI0613699-0A
Other languages
English (en)
Inventor
Ophir Azulai
Ron Hoory
Zohar Sivan
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Publication of BRPI0613699A2 publication Critical patent/BRPI0613699A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

BUSCA DE DICIONARIO PARA DISPOSITIVOS MOVEIS QUE USA RECONHECIMENTO DE ESCRITA. Um método para resgatar um dicionário eletrónico usando letras de um alfabeto enunciadas por um usuário inclui a aceitação de uma entrada de discurso do usuário. A entrada de discurso inclui uma seqUência de letras digitadas enunciadas pelo usuário que soletra uma palavra consultada. A entrada de discurso é analisada para determinar uma ou mais seqüências de letras que se aproximam da seqüência de letras digitadas. A uma ou mais seqüências de letras são pós-processadas, de modo a produzir uma pluralidade de palavras reconhecidas que se aproximam da palavra consultada. O dicionário eletrónico é consultado com a pluralidade de palavras reconhecidas, de modo a recuperar uma respectiva pluralidade de entradas de dicionário. Uma lista de resultados, incluindo a pluralidade de palavras reconhecidas e a respectiva pluralidade de entradas de dicionário são apresentadas ao usuário.

Description

Relatório Descritivo da Patente de Invenção para: "BUSCA DEDICIONÁRIO PARA DISPOSITIVOS MÓVEIS QUE USA RECONHECIMENTODE ESCRITA".
Campo Da Invenção
A presente invenção geralmente refere a sistemas dereconhecimento vocal e, especialmente, aos métodos esistemas para consultar um dicionário eletrônico utilizandoentrada falada.
Fundamentos Da Invenção
Muitos dos dispositivos móveis e aplicações desktoppermitir que os utilizadores para consultar os dicionárioseletrônicos. Um dicionário pode incluir, por exemplo, umtesauro léxico ou que apresenta definições de palavras oufrases. Em outras aplicações, dicionários bilingües oumultilingües fornecer tradução de palavras de uma linguapara outra.
Uma série de métodos de entrada de dados sãoconhecidas na arte de digitar uma palavra ou frase a serolhou-se no dicionário. Em algumas aplicações, o usuáriodigita a palavra consulta usando um teclado ou teclado. Porexemplo, Ectaco, Inc., (Long Island City, Nova Iorque)oferece uma série de dicionários e tradutores eletrônicoshandheld. Um exemplar produto é descrito em www. ectaco.com/dictionaries/view info.php3? refid = 831 & pagelang =23 & dict_id = 92. Outras aplicações utilizam oreconhecimento de fala métodos, em que o usuário vocalmentedecreta a consulta palavra. Por exemplo, Ectaco, Inc.,oferece um tradutor multilingue chamada "UT-103 UniversalTranslator" que suporta voz entrada. Detalhes adicionais emrelação a este produto pode ser encontrado emwww.universal-translator.net.
Alguns aplicativos usam dicionário de reconhecimentoóptico de caracteres (OCR) para a introdução de métodos deconsultas. Por exemplo, Wizcom Technologies, Ltd.(Jerusalém, Israel), oferece uma família de tradutores edicionários chamado "Quicktionary". Quicktionary Osprodutos em forma de caneta são dispositivos portáteis queusam métodos OCR para digitalizar e analisar textoimpresso. Detalhes adicionais relativas à Quicktionaryprodutos podem ser encontrados em www.wizcomtech.com. Outroexemplo da utilização de técnicas OCR é descrita por Elganem "Nothing Lost in Translation," HP World Magazine, (5:6),de Junho de 2002. Este artigo também está disponível emwww. interex.org/hpworldnews/hpw206/pub_ hpw_featuresl. jsp. Segundo este método, o usuário tem uma foto danecessária palavra utilizando uma câmera digital. Um móduloOCR produz uma seqüência compreendendo as letras dapalavra, que é então utilizado para consultar o dicionário.De uma maneira geral, métodos de entrada de dados sãopropensos a erros. Por isso, algumas aplicações utilizammétodos de detecção de erros ou reduzindo a possibilidadede entrada de dados errados. Uma forma de reduzir aprobabilidade de erro é utilizando dois ou mais diferentesmétodos de entrada de dados para a mesma palavra. Estaabordagem é muitas vezes referida como "multimodais" aintrodução de dados. Por exemplo, alguns aplicativos usam oreconhecimento de fala a partir de uma entrada de dadosalfanuméricos telefone teclado. Essa técnica é descrita porParthasarathy em "Experiências de Teclado-Aided OrtografiaReconhecimento," The 2004 IEEE International Conference onAcoustics, Speech, e Signal Processing (ICASSP 2004),Quebec, Canadá, maio, 2004. 0 autor descreve vários regimespara aumentar discurso de entrada com o contributo de umtelefone teclado em um call-center aplicação.
Outro exemplo é um sistema de reservas de voo queutiliza teclado entrada para detecção de erro, descrito porFilisko e Seneff em "Erro Detecção e Recuperação emSistemas de Diálogo falado," Proceedings of the HumanLanguage Technology Conference, norte-americana capitulo daAssociação de Lingüística Computacional Anual Reunião (HLT-NAACL 2004), Oficina de Língua Falada Entendimento paraConversational Systems, Boston, Massachusetts, maio, 2004,páginas 31-38.
Algumas aplicações utilizam carta ortografia fonéticaou grafia como um modo de entrada de dados. 0 papel porFilisko e Seneff citados acima também descreve uma "palavramágica e" método, no qual o usuário é convidado a soletrarpalavras como um erro recuperação medida. Outra aplicação,em que um usuário digita uma palavra-alvo usando ortografiafonética, é descrito no E.U. Patente 6.321.196. Ortografiarepresentando uma palavra foneticamente significa 'cadaletra da palavra a ser soletrada comumente entendido poruma palavra. Por exemplo, um mai foneticamente soletrar otrabalho "chave" por dizer "quilo eco yankee". 0 inventordescreve um sistema de reconhecimento de fala que o usuáriodiz uma seqüência de palavras seleccionadas a partir de umdeterminado vocabulário sem estar restrito a uma pré-especifiçado fonética alfabeto. 0 sistema reconhece aspalavras faladas, letras associadas com estas palavras edepois manda as letras para formar a palavra-alvo.
Outra aplicação baseada ortografia-se descrito nodocumento de patente US 5995928. Os inventores descrever oreconhecimento de fala um sistema capaz de reconhecer umapalavra com base em uma continua soletração da palavra porum usuário. 0 sistema atualizado continuamente saídas umaseqüência de letras hipotetizados, com base nas letrasproferidas pelo usuário. 0 sistema compara cada cordahipotetizada de cartas a um vocabulário de palavras eretorna uma melhor correspondência para a cadeia.
O reconhecimento de fala em alguns aplicativos, ousuário é apresentado com várias alternativas resultados naseqüência do processo de reconhecimento automático. Porexemplo, E.U. Patent 5027406 descreve um método para criarmodelos palavra em uma língua natural ditado sistema. Apóso usuário dita uma palavra, o sistema mostra uma lista depalavras no vocabulário ativo que melhor corresponder àpalavra falada. Por teclado ou comando de voz, o usuáriopode escolher a palavra correta da lista ou pode optar poreditar uma palavra semelhante, se a palavra correta nãoestá na lista. Alternativamente, o usuário pode tipo oufalar as primeiras letras da palavra.
Outro usuário-assistida método é descrito em E.U.Patent Application Publicação 2002/0064257 Al. Osinventores descrever-activated uma voz que usa um sistemade marcação DTMF (dual tone multi-frequência) entradadispositivo para reduzir as possibilidades de selecção deum nome baseado foneticamente. O usuário digita um DTMFassinatura de um nome e a assinatura é utilizada por umdicionário para gerar prováveis as possibilidades de apalavra. O usuário é convidado a confirmar se o nomesugerido é o nome digitado.
Sumário da Invenção
Existe, portanto, fornecer, em conformidade com umaconcretização do presente invenção, um método paraconsultar um dicionário eletrônico utilizando letras doalfabeto um enunciado por um usuário. 0 método inclui aaceitação de um discurso de entrada do usuário, o discursode entrada, incluindo uma seqüência de letras digitadasenunciado pelo usuário que soletrar uma palavra consulta. 0discurso de entrada é analisado para determinar uma ou maisseqüências de letras que aproximar a seqüência de letrasdigitadas. A uma ou mais seqüências das letras são pós-processados, a fim de produzir uma pluralidade dereconhecida expressão aproximação à consulta palavra. 0dicionário eletrônico é consultado com a pluralidade dereconhecida expressão, de modo a obter uma pluralidaderespectivas entradas de dicionário. Uma lista deresultados, incluindo a pluralidade de reconhecidaexpressão e as respectivas entradas pluralidade dedicionário é apresentada ao usuário.
Em uma concretização, analisando a fala input incluipelo menos uma aplicação de um modelo acústico e um modelopara a linguagem do discurso entrada. Adicionalmente oualternativamente, a aplicação do modelo de linguagem incluirepresentem, pelo menos, parte do dicionário, em termos deum estado finito gramática (FSG). Outras adicionalmente ouem alternativa, aplicando o modelo de língua incluiatribuir probabilidades para as seqüências das letrasbaseadas em um modelo probabilistico língua.
Em outra concretização, pós-processamento dasseqüências inclui definir duas ou mais classes cartaincluindo subconjuntos de letras do alfabeto que têm sonssemelhantes, e construindo as seqüências de letras,substituindo pelo menos uma das letras que pertencem àmesma classe como carta pelo menos uma das letras dapalavra da consulta, de modo a produzir a pluralidade dereconhecida palavras.
Em outra concretização, consultar o dicionário incluia aceitação de um usuário, incluindo, pelo menos, umcomando de uma entrada e digitou um comando de voz, emodificar, pelo menos, uma carta de um dos reconhecidos combase em palavras que o usuário comando.
Em ainda outra concretização, apresentando a lista deresultados inclui atribuir probabilidade pontuação para asreconhecidas palavras na lista e ordenação da lista combase na probabilidade pontuação. Adicionalmente oualternativamente, apresentando a lista de resultados deconversão inclui pelo menos uma parte da lista para umdiscurso de saida, e jogar o discurso de saida para ousuário. Outras adicionalmente ou em alternativa,apresentar a lista dos resultados inclui a aceitação de umusuário, incluindo, pelo menos, um comando de uma entrada edigitou um comando de voz, e percorrer a listaresponsaveImente para o usuário comando.
Em uma concretização, aceitando o discurso de entradainclui o recebimento do discurso de entrada de áudioatravés de uma interface associada com um dispositivomóvel, incluindo pelo menos um de um telemóvel, umcomputador portátil e um assistente pessoal digital (PDA),e apresentar a lista inclui o fornecimento da através deuma lista de saida do dispositivo móvel.
Em outra concretização, aceitando o discurso de entradainclui o envio do discurso a partir da entrada dispositivomóvel para um servidor remoto que serve um ou maisusuários, e apresentar a lista de resultados inclui atransmissão da lista de resultados a partir do servidorremoto para o dispositivo móvel para apresentação para ousuário.Aparelhos e um computador de produtos de software paraconsultar um dicionário eletrônico são também fornecidos.
Existe adicionalmente fornecidos, de acordo com umaconcretização do presente invenção, um sistema paraconsultar um dicionário eletrônico utilizando letras doalfabeto um enunciado por um usuário. 0 sistema inclui umservidor remoto, incluindo uma memória, que é acoplado aarmazenar o dicionário eletrônico.
O sistema inclui um ou mais processadores ortografia, quesão acoplados a aceitar um discurso de entrada do usuário,o discurso de entrada, incluindo uma seqüência de letrasdigitadas enunciado pelo usuário que soletrar uma palavrapesquisa, para analisar o discurso de entrada, de modo adeterminar um ou mais seqüências de aproximar as letrasdigitadas a seqüência de letras, a pós-processo, a uma oumais seqüências das letras, a fim de produzir umapluralidade de reconhecida expressão aproximação à consultapalavra, para consultar o dicionário eletrônico armazenadosna memória com o pluralidade de reconhecida expressão, demodo a obter uma pluralidade de dicionário respectivoscadastros, bem como para gerar uma lista de resultados,incluindo a pluralidade de palavras reconhecidas e asrespectivas entradas pluralidade de dicionário.
O sistema também inclui um dispositivo utilizador,incluindo um processador de cliente, que é acoplado areceber a intervenção de entrada do usuário e enviar odiscurso de entrada para o servidor remoto, e que éacoplado a receber, responsavelmente para o discurso deentrada, a lista dos resultados. O usuário dispositivoinclui um dispositivo de saida, que é acoplado a apresentara lista de resultados gerados pelo processador ortografiapara o usuário.
A presente invenção será mais plenamente entendida a partirda seguinte descrição detalhada das concretizações,juntamente com os desenhos em que:
Breve Descrição Dos Desenhos
Fig. 1 é um esquemático, ilustração pictórica de um sistemapara consultar um dicionário eletrônico, de acordo com umaconcretização do presente invenção;
Fig. 2A bloco é um diagrama que ilustra esquematicamente umdispositivo móvel, de acordo com uma concretização dopresente invenção;
Fig. 2B é um bloco diagrama que ilustra esquematicamenteuma ortografia transformador, de acordo com umaconcretização do presente invenção;
Fig. 3 é um bloco diagrama que ilustra esquematicamente umsistema para consultar um dicionário eletrônico, de acordocom uma outra concretização do presente invenção;
Fig. Bloco 4 é um diagrama que ilustra esquematicamente umsistema para consultar um dicionário eletrônico, de acordocom outra concretização do presente invenção, e
Fig. 5 é um gráfico que ilustra esquematicamente um métodopara consultar um dicionário eletrônico, de acordo com umaconcretização da presente invenção.
Descrição Pormenorizada Das Concretizações
Visão geral
Concretizações da presente invenção proporcionarmelhores métodos e sistemas que permitem que os usuários dedispositivos móveis para consultar um dicionário eletrônicoutilizando ortografia reconhecimento. Em vez de sepronunciar a palavra consulta como um todo, como oreconhecimento de fala aplicadas em sistemas convencionais,o usuário especifica a consulta vocalmente palavra letrapor letra. Um processador de ortografia no dispositivomóvel capta e processa as palavras digitadas. Uma lista depossíveis palavras reconhecido é produzido, de acordo commodelos predefinidos. Uma lista de resultados, incluindo areconhecida expressão, juntamente com as entradascorrespondentes dicionário, é apresentada ao usuário. Ousuário pode então percorrer os resultados e identificar apalavra correta e dicionário entrada.
Em comparação com métodos convencionais o reconhecimento defala que reconhecer a palavra inteira, ortografiareconhecimento atinge tipicamente melhor reconhecimentodesempenho. Concretizações da presente invenção fornecer ummétodo e um sistema que são particularmente adequados paraos usuários que não estão familiarizados com a língua emquestão, como turistas ou estrangeiros. Esses usuáriospodem não saber a pronúncia correta das palavras, mas podemfacilmente feitiço-los. Os usuários com deficiênciasdiscurso, cuja pronúncia de palavras pode ser difícil deentender, pode também beneficiar dos métodos divulgados.Por outro lado, a carta confiáveis-por-letra ortografiareconhecimento não é uma tarefa trivial, que introduzmecanismos de outros tipos de erro, como será explicado aseguir. A divulgação destes métodos endereço erro aodefinir modelos adequados mecanismos que determinam a listade palavras alternativas reconhecidas. A lista é geralmenteclassificado por relevância,relevância usando medidas que têm por base o mesmo erromecanismos e / ou o modelo a ser utilizado.
Alguns concretizações da presente invenção tambémproporcionar um rápido e simples interface de usuário parausuários de dispositivos móveis. A interface de usuáriocombina ortografia reconhecimento funções com teclado e /ou comandos de voz. Esta funcionalidade permite multimodalrápido e bom funcionamento do dicionário pedido por ambosos utilizadores normais e usuários com necessidadesespeciais.
Além disso, a interface do usuário divulgado permite aoutilizador consultar o dicionário, sem ter que deslocar osseus olhos a partir do texto escrito. Para os usuárioscegos que lêem textos escritos em Braille, a interface dousuário permite consultar o dicionário, sem mover os dedosdo usuário fora da página.
Em uma concretização divulgado, o resultado é convertidopara lista discurso e jogado para o usuário usar um text-to-speech (TTS) gerador. Esta implementação é tambémparticularmente adequado para os usuários cegos e para osusuários que operam o sistema durante a condução ourealização de outras tarefas que requerem atenção visualcontinuo.
Em outra concretização, consulta o dicionário sistema éexecutado em um servidor remoto configuração distribuídautilizando o reconhecimento de fala (DSR).
Descrição Do Sistema
Fig. 1 é um esquemático, ilustração pictórica de um sistemapara consultar um dicionário eletrônico, de acordo com umaconcretização da presente invenção. Um usuário comuniqueutilizando 22 discurso 24 com um dispositivo móvel 26, paraconsultar um dicionário eletrônico. 0 dispositivo móvelpode incluir um assistente digital pessoal (PDA), tais comoum PDA da PalmOne ™ produtos (ver www.palmone.com) . 0dispositivo móvel podem, em alternativa, composta por umcomputador portátil, um telefone celular ou outrodispositivo computacional adequado e com 1/0 capacidades.
Embora o concretizações descrito hereinbelow respeito adispositivos móveis por meio de ilustrações, os princípiosda presente invenção pode ser aplicada também em não-computação móvel dispositivos, tais como computadoresdesktop.
O dispositivo móvel normalmente inclui um microfone 27discurso de aceitação do usuário e um teclado 28 paraaceitar entrada de usuário. Uma exibição 30 apresentainformação textual para o usuário. Em algunsconcretizações, móveis 26 dispositivo também inclui um altifalante 31 para jogardiscurso sintetizado para o usuário, como será explicado aseguir.
O pedido eletrônico pode incluir um dicionário ou thesaurusum léxico, caso em que consultar o dicionário significaobter uma definição de uma palavra. Alternativamente, odicionário bilíngüe pode incluir um ou dicionáriomultilingue, caso em que consultar o dicionário significaobter uma tradução da palavra para outra língua. Outrasaplicações incluem dicionários dicionário que sãoespecíficos de determinadas disciplinas e profissionaisphrasebooks que traduzir frases de uma língua para outra.Outras aplicações dicionário serão aparentes para aquelesqualificados na arte, e pode ser implementada utilizando osmétodos descritos hereinbelow. No contexto do presentepedido de patentes e nas reivindicações, o termo"dicionário" pertence a qualquer dicionário aplicação. 0termo "dicionário entrada" remete para a definição ou atradução de uma palavra ou frase, como relevantes para aaplicação específica.
Fig. 2A bloco é um diagrama que ilustra esquematicamentedispositivo móvel 26, em conformidade com uma concretizaçãoda presente invenção. Dispositivo móvel 26 compreende umdispositivo de entrada, tais como um microfone 27, fala queaceita entrada do usuário. A intervenção inclui umaconsulta palavra ou frase, digitadas letra por letra pelousuário. Um sampler 32 amostras de fala de entrada e produzdiscurso digitalizado. A ortografia do processador de 34processos digitalizados discurso e produz uma lista depossíveis palavras reconhecidas. Vários métodosalternativos reconhecimento são explicadas em pormenor nadescrição da figura. 5 abaixo.
A ortografia processador está normalmente implementado comoum processo de software que funciona em uma unidade centralde processamento (CPU) do dispositivo móvel. A ortografiaprocessador queries um dicionário eletrônico 36, que éarmazenada em uma memória do dispositivo móvel, e recuperadicionário entradas correspondentes à reconhecida palavras.
A ortografia processador tipicamente apresenta a lista deresultados usando um dispositivo de saida, como exibir 30.Adicionalmente ou alternativamente, o dispositivo de saidacompreende um texto para fala (TTS) 38 gerador que convertea lista de resultados, ou partes dos mesmos, a fala e joga-lo para o usuário. Novamente, uma descrição detalhada dométodo e as respectivas interfaces utilizador é dada nadescrição da figura. 5 abaixo.
Fig. 2B é um bloco diagrama esquemático que mostra detalhesde ortografia processador 34, em conformidade com umaconcretização da presente invenção. Em algunsconcretizações, a ortografia processo de reconhecimentorealizado por processador 34 pode ser dividida em duasetapas consecutivas. Um reconhecedor de discurso 39 noUm processador de 41 em pós ortografia processador 36aceita a carta de seqüências e probabilidades associadasreconhecedor 39. 0 processador de consultas pós-36 com odicionário palavras reconhecida e produz uma lista ordenadade resultados. A lista inclui o reconhecimento e aspalavras associadas dicionário definições destas palavras.
A configuração do processador ortografia 34 mostrado nafig. 2B é normalmente utilizado em ambos os locais deconfiguração mostrada na fig. 2A acima e no servidor remotoconfiguração mostrada na Figs. 3 e 4 abaixo. Em algunsconcretizações, fala reconhecedor 39 e pós-processador 41processador 34 aceita o discurso digitalizado. Oreconhecedor de discurso aplica um modelo adequado para odiscurso digitalizado, a fim de produzir uma ou maisseqüências carta que representa possivelmente uma palavra-reconhecido. Cada letra é atribuída uma seqüênciaprobabilidade valor que indica a probabilidade de a cartaparticular seqüência representando a palavra digitadas peloutilizador. Em alguns concretizações, fala reconhecedor 39queries dicionário 36 como parte do processo dereconhecimento. Em alternativa concretizações, o modeloutilizado pelo reconhecedor 39 já contém, pelo menos, partedo dicionário.são implementados como dois processos geridos por softwareortografia processador 34.
Fig. 3 é um bloco diagrama que ilustra esquematicamente umservidor remoto para o sistema de consulta eletrônicadicionário 36, de acordo com uma outra concretização dopresente invenção. Em alguns casos, é preferível aplicar odicionário aplicação utilizando um servidor remotoconfiguração. Em um servidor remoto configuração, odicionário eletrônico está localizado em uma únicalocalização central. Vários usuários podem consultar odicionário distribuído com o reconhecimento de fala (DSR)técnicas, como são conhecidos na arte.
Uma configuração centralizada dicionário às vezes épreferível porque permite o uso de grandes dicionários.Grandes dicionários, dicionários ou exploração e grandesentradas detalhadas, podem exceder significativamente ascapacidades de armazenamento de memória típica dosdispositivos móveis. Além disso, manter e atualizarinformações em uma estrutura centralizada dicionário dedados é muitas vezes mais fácil do que a gestão demúltiplos dicionários distribuídos entre vários usuários.A configuração mostrada na fig. 3 inclui um servidor deaplicações 40. Ortografia processador 34 e dicionário 36estão localizados no servidor 40. Embora Fig. 3 mostra umúnico processador ortografia, típico implementações deservidor de 40 compreendem múltiplos processadoresortografia 34, que interagem com múltiplos dispositivosmóveis 26. As múltiplas formas de ortografiatransformadores são tipicamente implementada comoinstâncias paralelas software ou threads em execução em umaou mais CPUs do servidor 40. Dicionário 36 pode serimplementado usando qualquer adequada estrutura de dados,tais como um banco de dados, adequadas para o acesso multi-usuário.
Na configuração do servidor remoto, compreende umdispositivo móvel 26 cliente processador 42 que aceita odiscurso de entrada do usuário através do microfone 27 esampler 32 (não mostrado nesta figura). Processador 42comprime o capturados e digitalizados fala e transmite-o,tipicamente em uma forma compacta, como uma corrente decomprimido característica vetores, a ortografia processador34 no servidor 40. A ortografia processador descomprime orecurso vetores, processa o discurso descompactada econsultas dicionário 36, de acordo com o método da fig. 5abaixo. A transformação realizada pela ortografiaprocessador 36 no servidor remoto configuração é semelhanteà que foi realizada no local configuração mostrada na fig.2A acima. A ortografia processador envia a lista depalavras reconhecidas e os correspondentes dictionaryentradas para o cliente processador 42 no dispositivomóvel. 0 cliente transformador apresenta os resultados parao usuário usando exibir 30 e / ou gerador TTS 38. O clientetransformador, que trata da interface do usuário, quepermite ao usuário editar e percorra a lista de resultadosusando teclado 28 e / ou comandos de voz. Novamente, ainterface de usuário é explicado em pormenor na descriçãoda figura. 5 abaixo.
Dispositivo móvel e 26 servidor 40 são ligadas por um canalde comunicação. O canal é usado para enviar compactadodiscurso para o servidor, enviar resultado listas para odispositivo móvel e trocar informações diversas controle.Canal de comunicação pode incluir qualquer suporteadequado, como uma ligação à Internet, uma linhatelefônica, uma rede de dados sem fios, uma rede celular,ou uma combinação de várias dessas mídias.
Fig. Bloco 4 é um diagrama que ilustra esquematicamente umservidor remoto sistema para consultar dicionárioeletrônico 36, em conformidade com mais uma personificaçãoda presente invenção. A configuração da fig. 4 é semelhanteã configuração do gráfico. 3 acima, exceto que, naconfiguração do gráfico. 4, o texto-fala conversão funçãotambém é dividida entre o servidor eo dispositivo móvel.
Servidor aqui compreende 40TTS gerador 38, que nesta concretização aceita a lista deresultados do processador ortografia e converte-lo (oupartes dele) para um fluxo de discurso comprimidocaracterística vetores. O discurso é então compactadosenviados para o dispositivo móvel ao longo do canal decomunicação. Um discurso decodificador no dispositivo móveldecodifica e descomprime o recurso recebido vetores ereproduz o discurso descodifiçados para o usuário.
Normalmente, ortografia processador 34 e clientes incluemprocessador 42 processadores computador de uso geral, quesão programadas no software para executar as funçõesdescritas neste documento. O software pode ser baixado parao computador em formato eletrônico, através de uma rede,por exemplo, ou alternativamente, pode ser fornecido paraos computadores de suportes materiais, tais como CD-ROM.Outras alternativamente, a ortografia processador pode seruma unidade autônoma, ou alternativamente, pode serintegrada com outras funções do dispositivo móvelcomputando 26 ou servidor 40. Adicionalmente oualternativamente, pelo menos algumas das funções doprocessador de ortografia podem ser executadas utilizandohardware dedicado. Cliente processador 42 pode também serintegrada com outras funções de computação móveldispositivo 26.
DICIONÁRIO consultando MÉTODO DESCRIÇÃO
Fig. 5 é um gráfico que ilustra esquematicamente um métodopara consultar dicionário eletrônico 36, em conformidadecom uma concretização da presente invenção. 0 método começacom 22 usuário digitar uma consulta palavra ou frase, emuma palavra entrada passo 50. Para este efeito, o usuárioinicia o primeiro dicionário aplicação em execução nodispositivo móvel 26. O usuário, em seguida, inicia oprocesso de aquisição fala, por exemplo, clicando em umbotão do teclado 28. O usuário especifica a consultavocalmente palavra, letra por letra. Após a ortografia detodo o termo do utilizador pára o processo de aquisiçãofala, por exemplo, utilizando teclado 28. O dispositivomóvel capta o discurso compreendendo a seqüência de letrasdigitadas usando microfone 27. Sampler 32 digitaliza odiscurso capturado. Em outra concretização, o usuário podeiniciar e parar o discurso aquisição processo usandocomandos de voz predeterminado.
(Se o método é aplicado divulgadas através de um servidorremoto configuração, como mostrado na Figs. 3 e 4 acima,processador de 42 cliente transmite dados, normalmente soba forma de um fluxo de comprimido característica vetores,que representam o discurso transformados à ortografiaprocessador , em um discurso transmissão passo 52. Conformemostrado na Figs. 3 e 4 acima, o processador de ortografia,de tal configuração é parte do servidor 40. Se ométodo é executado localmente no dispositivo móvel, comomostrado na fig. 2A acima, passo 52 é omitido. )
Reconhecedor de discurso 39 e pós-processador de 41 emortografia processador 34 (Fig. 2B) o processo digitalizadodiscurso, em um discurso de transformação passo 54.Reconhecedor de discurso 39 analisa o discursodigitalizado, tipicamente segmentar o discurso em fonéticacomponentes individuais, que representam letras da palavraconsulta. Vários métodos são conhecidos na arte para aidentificação de um som dentro de uma fonética limitadovocabulário. Qualquer método adequado pode ser utilizadopelo reconhecedor de discurso para identificar as letrasdigitadas no discurso capturado. A maioria dos métodos quenão exigem formação especifica de usuário (por vezesreferido como "usuário matricula") por causa do pequenovocabulário eo pequeno usuário dependente de diferenças napronúncia de letras digitadas.
No entanto, em casos específicos, como os utilizadores comdeficiências ou fala com os usuários pesados de acentos, ouso de aprendi discurso características específicas de cadausuário pode melhorar a qualidade de reconhecimento. Emalguns concretizações, fala reconhecedor 39 extraiinformações adicionais a partir do discurso digitalizado,para ser utilizado no processo de reconhecimento como seráexplicado a seguir.
Em alguns concretizações, o reconhecedor de discursoutiliza um modelo acústico adequado para atribuir umapontuação a cada risco identificado soletrados carta. Cadapontuação probabilidade quantifica a probabilidade de que acarta foi realmente especial iterada pelo usuário.O reconhecedor de discurso modelo usa uma linguagem, quepode ser feita com base na totalidade ou em parte dodicionário a ser utilizado. Usando a linguagem modelo, oreconhecedor de discurso gera uma ou mais letras querepresentam seqüências possivelmente-reconhecido palavrasem resposta à entrada capturados discurso.
Em alguns concretizações, a língua modelo inclui um gráficorepresentando o dicionário, que é normalmente referido comoum Finite State Gramática (FSG). Finite State gramáticas(por vezes também referidos como estado finito-redes) sãodescritas, por exemplo, e Rabiner Juang em "Fundamentais ofSpeech Recognition", Prentice Hall, Abril de 1993, páginas414-416,. Os nós da FSG representar letras do alfabeto. (Emimplementações típicas, cada letra do alfabeto aparecevárias vezes no gráfico). Arcs entre nós adjacentesrepresentam letras em legítimapalavras. Em outras palavras, cada palavra no dicionário érepresentado como uma trajetória ou caminho através dográfico.
Em alguns concretizações, apenas parte do dicionário érepresentado como um FSG. Em muitos casos práticos, FSG-baseados modelos são utilizados para pequenas e médiasdimensões vocabulários e dicionários, que geralmente é deaté vários milhares de palavras.
Ao utilizar o FSG, o reconhecedor de discurso tipicamentecompara a seqüência de letras digitadas do discursodigitalizado para as diferentes trajetórias através da FSG.Em alguns concretizações, o reconhecedor de discursoprobabilidade atribui pontuação para as trajetórias. 0reconhecedor de discurso produz a carta e as seqüênciasprobabilidade associada pontuação.
Em outras concretizações, a lingua modelo compreende umalinguagem probabilistica modelo, que atribui probabilidadesa diferentes seqüências carta no vocabulário. Linguamodelos probabilisticos são descritos, por exemplo, porYoung em "A Review of Large-Vocabulary Continuous-SpeechRecognition," IEEE Signal Processing Magazine, Setembro de1996, páginas 45-57. Lingua modelos probabilisticos sãotipicamente utilizadas quando o tamanho do dicionário émuito grande, tornando difícil para representar cadapalavra no modelo explicitamente. Nestes concretizações,fala reconhecedor 39 produz uma ou mais seqüências cartaque lembram a seqüência de letras digitadas, comprobabilidade associada pontuação de acordo com o modeloprobabilistico língua.
Em outra concretização, o reconhecedor de discursorepresenta a letra diferente seqüências produzidas pelomodelo probabilistico língua em termos de um látice. AMalha é um gráfico que inclua as possíveis seqüências deletras, com cada seqüência atribuída uma pontuaçãorespectiva probabilidade, de acordo com o modeloprobabilistico língua.
Após processo de reconhecimento de fala, fala reconhecedor39 prevê para postar um processador 41 ou mais seqüênciascarta com probabilidade associada pontuação, como descritoacima.
Em uma concretização, quando fala reconhecedor FSG 39 usaum modelo de como a língua, a carta para enviar seqüênciasdesde processador 41 já estão legítimo palavras queaparecem no dicionário 36.
Em outra concretização, na qual fala reconhecedor 39probabilística usa uma linguagem com o modelo látice saída,conforme descrito acima, pós processador 41 seleciona umsubconjunto da carta seqüências no látice, com a pontuaçãomais alta probabilidade. Uma vez que nem todas asseqüências possíveis carta na látice necessariamentecorrespondem aos legítimos dicionário palavras, tipicamentepós processador 41 queries 36 com o dicionário seleccionadocarta seqüências, e devoluções palavras que não aparecem nodicionário.
Em outra concretização, na qual fala reconhecedor 39 usa ummodelo probabilístico língua, fala reconhecedor 39 saídasapenas a carta com a seqüência pontuação máximaverossimilhança (aqui a seguir referidos como os mais altoscargos seqüência).
ós-processador de 41 constrói uma lista de alternativascarta seqüências baseadas na classificação mais altaseqüência usando carta classes, conforme explicado abaixo.
Soletrados cartas podem ser classificadas em classes combase na sua carta pronúncia características. Durante oreconhecimento de voz, algumas letras digitadas podem serconfundidas com um outro. Por exemplo, as letras digitadas/ b /, / c /, / d /, / e /, IqI, IPI, ITI, IMI e / z /pertencem todos à mesma carta classe (referido como o "e-class"). Essas cartas têm todos vogai sons semelhantesquando digitadas. Em alguns casos, o reconhecedor dediscurso maio erroneamente um erro dessa carta para outro.Do mesmo modo, o reconhecedor de discurso maio erroneamenteintercâmbio cartas pertencentes à "uma classe" (IAI, IHI, /j /, DNI) 1, o "i-classe" (/ i /, íyi) e do "u-classe" (IuI, IqI) ■
As probabilidades de confundir uma carta para outro sãotipicamente representados como uma matriz, que é chamado deuma "matriz confusão". A probabilidade de intercâmbio decartas pertencentes a diferentes classes carta é assumidapara ser pequena. Ao utilizar carta aulas, o pósprocessador constroi a lista de alternativas cartaseqüências substituindo cada letra da seqüência com melhorranking similarmente-sonantes cartas, segundo a cartaclasses descritas acima. 0 posto transformador tipicamentefileiras da lista, por exemplo, computação probabilidadepontuação baseada na confusão matriz.
Por exemplo, suponha que a melhor classificação seqüência,conforme reconhecido pelo reconhecedor de discurso 39, é aICI, / a / e ITI, assumindo que o usuário tenha digitado apalavra "gato". Usando a carta classes acima descritas, após-processador constrói uma lista de seqüênciasalternativas carta definida por [ (e) de classe, uma classede (), (e-class) ] (ou seja, todos os 9x4x9 = 324 três-letras
As cordas, em que a primeira letra pertence ao e-classe, asegunda letra pertence a uma classe ea terceira cartanovamente pertence ao e-classe) . Em alguns concretizações,a alternativa carta seqüências também podem incluir umnúmero diferente de letras ou letras de outras classescarta. Por exemplo, a consulta palavra "gato" pode tambémser reconhecida como "beat".
Obviamente, apenas algumas das alternativas cartaseqüências produzidas no exemplo acima (como o "bastão","a", "almofada" eo original "gato") são significativaspalavras. A maior parte delas são inúteis cordas. Notetambém que a pronúncia de todo o palavras podem ser muitodiferente da pronúncia da palavra consulta. Como um exemploextremo, o som da palavra "a" é muito diferente do som dapalavra "gato". No entanto, essas duas palavras são ambosconsiderados legítimos alternativa carta seqüências pelaortografia processador, porque a seqüência soletrados / t/, / h /, / e / o som semelhante ao soletrados seqüência /c/, / a/, / t/ .O posto transformador mantém (ou produzem primeiro lugar), apenas a letra seqüências quecorrespondem a uma expressão. 0 pós processador podediferenciar entre significado e sentido por cartaseqüências consultando dicionário 36 ou usando qualqueradequadas regras gramaticais, que são parte da linguagemmodelo a ser utilizado.
A fim de minimizar a probabilidade de falso reconhecimento,a ortografia transformador pode solicitar que o usuário daassistência para determinar que uma das seqüênciasreconhecidas carta, ou seja reconhecido, é a consultaoriginal palavra digitada pelo usuário. Para esse efeito, opós-processador prepara uma lista de resultados, numa listapreparação passo 56. Em alguns concretizações, o pósprocessador produz a lista de resultados em conformidadecom um dos modelos acima descritos língua. Em algunsconcretizações, o pós processador ordena a lista deresultados em ordem decrescente de relevância. O índice derelevância de uma determinada palavra é geralmentereconhecido determinado de acordo com o idioma modelo a serutilizado, conforme descrito acima. Alternativamente, alista pode ser ordenada por ordem alfabética, ou porqualquer outro critério adequado.(Se o método é aplicado divulgadas através de um servidorremoto configuração, como mostrado na Figs. 3 e 4 acima,ortografia processador 34 no servidor 40 transmite a listade resultados para o cliente processador 42, em umresultado transmissão etapa 58. Se o método é executadaslocalmente no dispositivo móvel, como mostrado na fig. 2Aacima, passo 58 é omitido.)
A ortografia processador apresenta a lista de resultadospara o usuário, em uma apresentação passo 60. Normalmente,a lista de palavras reconhecidas é exibido como texto naexibição 30 do dispositivo móvel. O usuário pode percorrera lista utilizando teclado 28 até que ele ou ela encontra aconsulta palavra e corre o dicionário entrada. Emalternativa, apenas a primeira palavra da lista é exibidojuntamente com a sua entrada dicionário. Se a primeirapalavra reconhecida no resultado lista está incorreta, ousuário poderá se deslocar para baixo e selecione a palavraseguinte. Qualquer outro método adequado apresentação podemser utilizadas, dependendo da aplicação especifica e ascapacidades de 28 teclado e visor 30 do dispositivo móvel.Além disso, o usuário também pode editar as palavrasexibidas reconhecido a qualquer momento usando o teclado,de modo a introduzir a totalidade ou parte da intenção deproceder à consulta palavra.
Em outra concretização, a lista de resultados é convertidoem discurso utilizando gerador TTS 38 e jogou para ousuário através de altifalante 31. 0 usuário pode indicar,quer utilizando o teclado ou por proferir um comando devoz, quando a palavra correta está sendo tocada. Depois deselecionar a palavra correta, o TTS gerador desempenha ocorrespondente dicionário entrada.
Embora os métodos divulgados principalmente endereçoortografia dicionário baseia-lookup em dispositivos móveis,os mesmos métodos podem ser usados em uma variedade deaplicações adicionais. Por exemplo, os métodos dedivulgação também pode ser utilizado em mainframescomputador desktop ou aplicações que exigem alta qualidadepalavra reconhecimento. Tais aplicações incluem, porexemplo, diretório de serviços e assistência nome marcaçãoaplicações.
Assim, será apreciado que as concretizações descritasacima são citadas a titulo de exemplo, e que a presenteinvenção não se limita ao que tem sido particularmenteapresentado e descrito aqui acima. Em vez disso, o escopoda presente invenção inclui as combinações e sub-conjuntosdas várias características descritas aqui acima, bem comovariações e modificações da mesma, que iria ocorrer apessoas qualificadas na técnica após a leitura da descriçãoexposta e que não são divulgadas no técnica anterior.

Claims (16)

1. Método para recuperar um dicionário eletrônicousando as letras de um alfabeto enunciadas por um usuário,o método caracterizado pelo fato de que inclui:aceitar uma entrada de discurso do usuário, a entradade discurso compreendendo uma seqüência de letras digitadasenunciadas pelo usuário que o soletrou uma palavraconsultada;analisar a entrada de discurso para determinar uma oumais seqüências das letras que se aproximam da seqüência deletras digitadas;pós-processamento de uma ou mais seqüencias deletras, de modo a produzir uma pluralidade de palavrasreconhecidas que se aproximam da palavra consultada;examinar o dicionário eletrônico com a pluralidade depalavras reconhecidas, de modo a recuperar uma respectivapluralidade de entradas de dicionário; eapresentar uma lista de resultados, que compreende apluralidade de palavras reconhecidas e a respectivapluralidade de entradas de dicionário para o usuário.
2. Método de acordo com a reivindicação 1,caracterizado pelo fato de que a análise da entrada dediscurso inclui a aplicação de pelo menos um de um modeloacústico e uma modelo de idioma para o entrada de discurso.
3. Método de acordo com a reivindicação 2,caracterizado pelo fato de que a aplicação do modelo deidioma compreende representar, pelo menos, parte dodicionário em termos de uma gramática de estado finito (FSG).
4. Método de acordo com a reivindicação 2,caracterizado pelo fato de que a aplicação do modelo deidioma compreende atribuir probabilidades para asseqüências das letras com base em um modelo de idiomaprobabilistico.
5. Método, de acordo com qualquer uma dasreivindicações 1 a 4, caracterizado pelo fato de que o pós-processamento das seqüências compreende definir duas oumais classes de letras compreendendo subconjuntos dasletras no alfabeto que têm sons semelhantes, e construirseqüências de letras, substituindo, pelo menos, uma dasletras pertencentes à mesma classe de letra como pelo menosuma das letras da palavra consultada, de modo a produzir apluralidade das palavras reconhecidas.
6. Método, de acordo com qualquer uma dasreivindicações de 1 a 5, caracterizado pelo fato de que oexame do dicionário inclui aceitar um comando do usuáriocompreendendo, pelo menos, uma entrada digitada e umcomando de voz, e modificando, pelo menos, uma letra de umadas palavras reconhecidos com base no comando do usuário.
7. Método, de acordo com qualquer uma dasreivindicações Ia 6, caracterizado pelo fato de que aapresentação da lista de resultados contém um ou mais de:(I) atribuir pontuação de semelhança para as palavrasreconhecidas que constam na lista e ordenação da lista combase na pontuação de semelhança;(II) converter pelo menos uma parte da lista para umasaída de discurso, e tocar o discurso de saída para ousuário; e(III) compreende aceitar um comando do usuáriocompreendendo, pelo menos, um de uma entrada digitada e umcomando de voz, e percorrer a lista responsivamente aocomando do usuário.
8. Método, de acordo com qualquer uma dasreivindicações 1 a 7, caracterizado pelo fato de queaceitar a entrada de discurso compreende receber a entradade discurso através de uma interface de áudio associada aum dispositivo móvel composta por, pelo menos, um de umtelefone móvel, um computador portátil e um assistentepessoal digital(PDA), e em que a apresentação da lista inclui ofornecimento da lista por meio de uma saída do dispositivomóvel e / ou enviando a entrada de discurso do dispositivomóvel para um servidor remoto que serve um ou maisusuários, e em que a apresentação da lista de resultadoscompreende a transmissão da lista de resultados a partir doservidor remoto para o dispositivo móvel para apresentaçãoao usuário.
9. Aparelho para recuperar um dicionário eletrônicousando letras de um alfabeto enunciadas por um usuário, oaparelho caracterizado pelo fato de que compreende:uma memória, que é organizada para armazenar odicionário eletrônico;um processador de grafia, que é organizado paraaceitar uma entrada de discurso do usuário, a entrada dediscurso compreendendo uma seqüência de letras digitadasenunciadas pelo usuário que soletra uma palavra consultada,para analisar a entrada de discurso, de modo a determinaruma ou mais das seqüencias de letras que se aproximam daseqüência de letras digitadas, para o pós-processamento deuma ou mais seqüencias de letras, de modo a produzir umapluralidade de palavras reconhecidas que se aproximam dapalavra consultada, para consultar o dicionário eletrônicoarmazenado na memória com a pluralidade de palavrasreconhecidas, de modo a obter uma respectiva pluralidade deentradas de dicionário e para gerar uma lista deresultados, que compreende a pluralidade de palavrasreconhecidas e a respectiva pluralidade de entradas dedicionário; eum dispositivo de saída, que é acoplado a apresentara lista dos resultados gerados pelo processador de grafiapara o usuário.
10. Aparelho, de acordo com a reivindicação 9,caracterizado pelo fato de que o processador de grafiacompreende um reconhecedor de discurso, que é organizado aaplicar, pelo menos, um de um modelo acústico e um modelode idioma, a fim de analisar a entrada de discurso.
11. Aparelho, de acordo com a reivindicação 10,caracterizado pelo fato de que o modelo de idioma é formadopor uma gramática de estado finito (FSG) que representa,pelo menos, parte do dicionário; e um modelo de idiomaprobabilístico, e onde o reconhecedor de discurso éorganizado para atribuir probabilidades para palavrasreconhecidas com base no modelo de idioma probabilístico.
12. Aparelho, de acordo com qualquer uma dasreivindicações de 9 a 11, caracterizado pelo fato de que oprocessador de grafia é organizado para definir duas oumais classes de letras compreendendo subconjuntos dasletras no alfabeto que têm sons semelhantes, e paraconstruir seqüencias de letras, substituindo pelo menos umadas letras pertencentes à mesma classe de letra como pelomenos uma das letras da palavra consultada, de modo aproduzir a pluralidade de palavras reconhecidas; ou oprocessador de grafia é organizado para aceitar um comandode usuário compreendendo, pelo menos, um de entradadigitada e um comando de voz, bem como para modificar, pelomenos, uma letra de uma das palavras reconhecidas com baseno comando do usuário; o processador de grafia é organizadopara atribuir pontuação de semelhança para as palavrasreconhecidas na lista de resultados e para ordenar a listacom base na pontuação de semelhança.
13. Aparelho, de acordo com qualquer uma dasreivindicações de 9 a 12, caracterizado pelo fato de que odispositivo de saída inclui um conversor de texto paradiscurso, que é organizado para converter pelo menos umaparte da lista para uma saída de discurso e para reproduzira saída de discurso para o usuário.
14. Aparelho, de acordo com qualquer uma dasreivindicações, caracterizado pelo fato de que oprocessador de grafia é organizado para receber a entradade discurso através de uma interface de áudio associada aum dispositivo móvel composta por, pelo menos, um de umtelefone móvel, um computador portátil e um assistentepessoal digital (PDA), e fornece a lista de resultadosatravés de uma saída do dispositivo móvel.
15. Sistema para recuperar um dicionário eletrônicousando letras de um alfabeto enunciadas por um usuário, osistema caracterizado pelo fato de que inclui:Um servidor remoto que inclui:uma memória, que é organizada para armazenar odicionário eletrônico;um processador de grafia, que é organizado paraaceitar uma entrada de discurso do usuário, a entrada dediscurso compreendendo uma seqüência de letras digitadasenunciadas pelo usuário que soletra uma palavra consultada,para analisar a entrada de discurso, de modo a determinaruma ou mais das seqüencias de letras que se aproximam daseqüência de letras digitadas, para o pós-processamento deuma ou mais seqüencias de letras, de modo a produzir umapluralidade de palavras reconhecidas que se aproximam dapalavra consultada, para consultar o dicionário eletrônicoarmazenado na memória com a pluralidade de palavrasreconhecidas, de modo a obter uma respectiva pluralidade deentradas de dicionário e para gerar uma lista deresultados, que compreende a pluralidade de palavrasreconhecidas e a respectiva pluralidade de entradas dedicionário; eum dispositivo de usuário compreendendo:um processador cliente, que é acoplado para receber aentrada de discurso do usuário e enviar a entrada dediscurso para o servidor remoto, e que é acoplado parareceber, responsivamente à entrada de discurso, a lista deresultados; eum dispositivo de saida, que é acoplado paraapresentar a lista dos resultados gerados pelo processadorde grafia para o usuário.
16. Produto de programa de computador para recuperarum dicionário eletrônico usando letras de um alfabetoenunciadas por um usuário, o produto caracterizado pelofato de que compreende uma mídia legível por computador, naqual instruções de programa são armazenadas, as instruções,quando lidas por um computador, fazem com que o computadoraceite uma entrada de discurso do usuário, a entrada dediscurso compreendendo uma seqüência de letras digitadasenunciadas pelo usuário que soletra uma palavra consultada,para analisar a entrada de discurso, de modo a determinarum ou mais seqüencias de letras que se aproximam daseqüência de letras digitadas, o pós-processamento de umaou mais seqüencias de letras, de modo a produzir umapluralidade de palavras reconhecidas que se aproximam dapalavra consultada, para consultar o dicionário eletrônicocom a pluralidade de palavras reconhecidas, de modo a obteruma respectiva pluralidade de entradas de dicionário, paragerar uma lista de resultados, que compreende a pluralidadede palavras reconhecidas e a respectiva pluralidade deentradas de dicionário, e para liberar a lista deresultados gerados pelo processador de grafia para aapresentação para o usuário.
BRPI0613699-0A 2005-07-07 2006-05-12 busca de dicionário para dispositivos móveis que usa reconhecimento de escrita BRPI0613699A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/176,154 2005-07-07
US11/176,154 US20070016420A1 (en) 2005-07-07 2005-07-07 Dictionary lookup for mobile devices using spelling recognition
PCT/EP2006/062284 WO2007006596A1 (en) 2005-07-07 2006-05-12 Dictionary lookup for mobile devices using spelling recognition

Publications (1)

Publication Number Publication Date
BRPI0613699A2 true BRPI0613699A2 (pt) 2011-01-25

Family

ID=36617037

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0613699-0A BRPI0613699A2 (pt) 2005-07-07 2006-05-12 busca de dicionário para dispositivos móveis que usa reconhecimento de escrita

Country Status (6)

Country Link
US (1) US20070016420A1 (pt)
EP (1) EP1905001A1 (pt)
CN (1) CN101218625A (pt)
BR (1) BRPI0613699A2 (pt)
CA (1) CA2613154A1 (pt)
WO (1) WO2007006596A1 (pt)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8756063B2 (en) * 2006-11-20 2014-06-17 Samuel A. McDonald Handheld voice activated spelling device
US8195456B2 (en) * 2009-12-04 2012-06-05 GM Global Technology Operations LLC Robust speech recognition based on spelling with phonetic letter families
CN102722525A (zh) * 2012-05-15 2012-10-10 北京百度网讯科技有限公司 通讯录人名的语言模型建立方法、语音搜索方法及其系统
CN105531758B (zh) * 2014-07-17 2019-10-01 微软技术许可有限责任公司 使用外国单词语法的语音识别
CN105096945A (zh) * 2015-08-31 2015-11-25 百度在线网络技术(北京)有限公司 一种终端的语音识别方法和装置
US10446143B2 (en) * 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
CN110019667A (zh) * 2017-10-20 2019-07-16 沪江教育科技(上海)股份有限公司 一种基于语音输入信息的查词方法及装置
US10586537B2 (en) * 2017-11-30 2020-03-10 International Business Machines Corporation Filtering directive invoking vocal utterances
CN111859920B (zh) * 2020-06-19 2024-06-04 北京国音红杉树教育科技有限公司 单词拼写错误的识别方法、系统及电子设备
CN113053362A (zh) * 2021-03-30 2021-06-29 建信金融科技有限责任公司 语音识别的方法、装置、设备和计算机可读介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4890230A (en) * 1986-12-19 1989-12-26 Electric Industry Co., Ltd. Electronic dictionary
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5960395A (en) * 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification
US6047257A (en) * 1997-03-01 2000-04-04 Agfa-Gevaert Identification of medical images through speech recognition
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
US6321196B1 (en) * 1999-07-02 2001-11-20 International Business Machines Corporation Phonetic spelling for speech recognition
DE19944608A1 (de) * 1999-09-17 2001-03-22 Philips Corp Intellectual Pty Erkennung einer in buchstabierter Form vorliegenden Sprachäußerungseingabe
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6304844B1 (en) * 2000-03-30 2001-10-16 Verbaltek, Inc. Spelling speech recognition apparatus and method for communications
EP1330101B1 (en) * 2000-09-25 2008-04-16 Yamaha Corporation Mobile terminal device
US6728348B2 (en) * 2000-11-30 2004-04-27 Comverse, Inc. System for storing voice recognizable identifiers using a limited input device such as a telephone key pad
US20040049386A1 (en) * 2000-12-14 2004-03-11 Meinrad Niemoeller Speech recognition method and system for a small device
WO2004023455A2 (en) * 2002-09-06 2004-03-18 Voice Signal Technologies, Inc. Methods, systems, and programming for performing speech recognition
US7152213B2 (en) * 2001-10-04 2006-12-19 Infogation Corporation System and method for dynamic key assignment in enhanced user interface
EP1396840A1 (de) * 2002-08-12 2004-03-10 Siemens Aktiengesellschaft Verfahren zur Spracherkennung von buchstabierten Worten
EP1614102A4 (en) * 2002-12-10 2006-12-20 Kirusa Inc VOICE ENTRY DESAMBIGUATION TECHNIQUES BASED ON THE USE OF MULTIMODAL INTERFACES
KR100679042B1 (ko) * 2004-10-27 2007-02-06 삼성전자주식회사 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템

Also Published As

Publication number Publication date
WO2007006596A1 (en) 2007-01-18
US20070016420A1 (en) 2007-01-18
CA2613154A1 (en) 2007-01-18
EP1905001A1 (en) 2008-04-02
CN101218625A (zh) 2008-07-09

Similar Documents

Publication Publication Date Title
US7047195B2 (en) Speech translation device and computer readable medium
BRPI0613699A2 (pt) busca de dicionário para dispositivos móveis que usa reconhecimento de escrita
US6067520A (en) System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
JP4485694B2 (ja) 並列する認識エンジン
JP3962763B2 (ja) 対話支援装置
TWI293455B (en) System and method for disambiguating phonetic input
KR100769029B1 (ko) 다언어의 이름들의 음성 인식을 위한 방법 및 시스템
JP4267081B2 (ja) 分散システムにおけるパターン認識登録
KR101309042B1 (ko) 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법
JP3481497B2 (ja) 綴り言葉に対する複数発音を生成し評価する判断ツリーを利用する方法及び装置
KR101445904B1 (ko) 현장 음성 번역 유지 시스템 및 방법
US20080133245A1 (en) Methods for speech-to-speech translation
JP4987682B2 (ja) 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
JP5703491B2 (ja) 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
El Ouahabi et al. Toward an automatic speech recognition system for amazigh-tarifit language
JP5208795B2 (ja) 通訳装置、方法、及びプログラム
Shan et al. Search by voice in mandarin chinese
CN111429886B (zh) 一种语音识别方法及系统
JP4084515B2 (ja) アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体
Mittal et al. Speaker-independent automatic speech recognition system for mobile phone applications in Punjabi
Lee Structural features of Chinese language–Why Chinese spoken language processing is special and where we are
JP2003162524A (ja) 言語処理装置
JP3758241B2 (ja) 音声情報検索装置
Komatani et al. Generating confirmation to distinguish phonologically confusing word pairs in spoken dialogue systems
Kishore et al. A text to speech interface for Universal Digital Library

Legal Events

Date Code Title Description
B06G Technical and formal requirements: other requirements [chapter 6.7 patent gazette]

Free format text: APRESENTE O DEPOSITANTE O RELATORIO DESCRITIVO E OS DESENHOS DO PEDIDO, CONFORME DETERMINA O ATO NORMATIVO NO 128 DE 05/03/1997, ITENS 9.2 E 9.2.1.

B06G Technical and formal requirements: other requirements [chapter 6.7 patent gazette]

Free format text: EM ADITAMENTO A EXIGENCIA PUBLICADA NA RPI NO 1986 DE 27/01/2009, APRESENTE O DEPOSITANTE OS DESENHOS DO PEDIDO ADAPTADO AO ATO NORMATIVO NO 128 DE 05/03/1997, ITENS 9.2 E 9.2.1.

B11A Dismissal acc. art.33 of ipl - examination not requested within 36 months of filing
B11Y Definitive dismissal - extension of time limit for request of examination expired [chapter 11.1.1 patent gazette]