BRPI0401850B1 - compreensão síncrona de objeto semântico, implementada com identificadores de linguagem para aplicativos de fala - Google Patents
compreensão síncrona de objeto semântico, implementada com identificadores de linguagem para aplicativos de fala Download PDFInfo
- Publication number
- BRPI0401850B1 BRPI0401850B1 BRPI0401850A BRPI0401850A BRPI0401850B1 BR PI0401850 B1 BRPI0401850 B1 BR PI0401850B1 BR PI0401850 A BRPI0401850 A BR PI0401850A BR PI0401850 A BRPI0401850 A BR PI0401850A BR PI0401850 B1 BRPI0401850 B1 BR PI0401850B1
- Authority
- BR
- Brazil
- Prior art keywords
- input
- language model
- semantic
- recognition
- speech
- Prior art date
Links
- 230000001360 synchronised effect Effects 0.000 title description 6
- 238000000034 method Methods 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 25
- 150000003839 salts Chemical class 0.000 claims 6
- 235000021183 entrée Nutrition 0.000 claims 1
- 238000004891 communication Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 230000000007 visual effect Effects 0.000 description 11
- 230000014509 gene expression Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000013515 script Methods 0.000 description 7
- 230000001755 vocal effect Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000004520 agglutination Effects 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013523 data management Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000005055 memory storage Effects 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 229940035564 duration Drugs 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000007373 indentation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephone Function (AREA)
Abstract
"compreensão síncrona de objeto semântico, implementada com identificadores de linguagem para aplicativos de fala". trata-se de um sistema de compreensão de fala que inclui um modelo de linguagem que compreende uma combinação de um modelo de linguagem n-grama e um modelo de linguagem de gramática livre de contexto. o modelo de linguagem armazena informações relacionadas a palavras e informações semânticas para serem reconhecidas. um módulo é adaptado para receber entrada proveniente de um usuário e capturar a entrada para processamento. o módulo é adicionalmente adaptado para receber interfaces de programa aplicativo salt referentes a reconhecimento da entrada. o módulo é configurado para processar as interfaces de programa aplicativo salt e a entrada para verificar a informação semântica referente a uma primeira parte da entrada e liberar um objeto semântico compreendendo texto e informação semântica para a primeira parte por meio do acesso ao modelo de linguagem, em que a realização de reconhecimento e liberação do objeto semântico são executadas enquanto continua a captura por partes subseqüentes da entrada.
Description
(54) Título: COMPREENSÃO SÍNCRONA DE OBJETO SEMÂNTICO, IMPLEMENTADA COM IDENTIFICADORES DE LINGUAGEM PARA APLICATIVOS DE FALA (51) Int.CI.: G10L 15/22 (30) Prioridade Unionista: 29/05/2003 US 10/448.018 (73) Titular(es): MICROSOFT TECHNOLOGY LICENSING, LLC (72) Inventor(es): KUANSAN WANG (85) Data do Início da Fase Nacional: 27/05/2004
SÍNCRONA DE
COMPREENSÃO
IMPLEMENTADA COM IDENTIFICADORES
APLICATIVOS DE FALA
OBJETO SEMÂNTICO,
DE LI NGUAGEM PARA
Fundamentos da Invenção
A presente invenção refere-se a acesso e apresentação de informações em um sistema computacional. Mais particularmente, a presente invenção se refere a acesso de informações com o uso de reconhecimento e compreensão.
Recentemente, a tecnologia tem avançado de modo que permita que o usuário tenha acesso a informações em um sistema computacional ao fornecer comandos de fala. Quando
da | recepção | do comando de um | usuário, | o | sistema | computacio- |
nal | realiza | o reconhecimento | de fala | na | entrada | do usuário |
e, | adicionalmente, processa a | entrada | de | modo a | averiguar a |
intenção do usuário, de modo que o sistema computacional realize a ação desejada.
Em algumas situações, a entrada fornecida pelo usuário é incompleta ou indefinida, o que irá requerer que o sistema computacional solicite mais informações do usuário, seja na forma de solicitações visuais, seja na forma de solicitações audíveis. Deste modo, pode ser estabelecido um diálogo entre o usuário e o sistema computacional, onde cada um reveza fazendo perguntas, dando respostas e/ou autorizações até a intenção do usuário ser determinada e uma ação poder ser realizada. Em outras situações, criar tal diálogo é o modo preferido para interagir com o sistema computacional .
Os Identificadores de Linguagem para Aplicativos
e de Fala (SALT - Speech Application Language Tags) foram introduzidos para facilitar a fala como uma modalidade viável de entrada/saída para projetos modernos de interface com o usuário. A meta de projeto para SALT é tornar simples a programação de tarefas de fala comuns, permitindo ainda capacidades avançadas com realização direta. SALT foi projetado para muitos aplicativos. Um deles é, por exemplo, um aplicativo apenas de fala baseado em telefone que apenas interage com usuários exclusivamente através de diálogo falado.
SALT inclui objetos de entrada e saída de fala (ouvir e solicitar), os quais têm um projeto de modo para incorporar tecnologias para detectar o início e o fim da vez do usuário. Sendo assim, muitos aplicativos de fala empregam interfaces com o usuário que requerem que o usuário sinalize o início da vez do usuário. Alguns sistemas computacionais incluem dispositivos utilizáveis por computadores, modais habilitados por fala ou multimodais (entrada de fala fornecida a campos selecionados por um dispositivo de entrada, tal como um mouse) , e outros aplicativos livres de olhos. No entanto, em cada um destes ambientes, uma definição de corte clara no usuário versus a vez do sistema computacional no diálogo, ainda está presente.
Entretanto, a conversação humana não segue, de modo geral, um diálogo de revezamento com corte claro entre os participantes. Ao invés disso, as conversações podem incluir reconhecimentos, confirmações, perguntas de um participante, etc., enquanto o outro está fornecendo informações que podem afetar drasticamente, afetar levemente ou nem mesmo afetar a
• « · · · maneira pela qual o interlocutor está fornecendo informações. Interlocutores humanos desfrutam desta forma natural de conversação. De modo similar, sistemas telefônicos empregam tecnologia duplex completa de modo a permitir que ocorra tal conversação.
Por outro lado, interfaces baseadas em diálogo empregam um modo de operação de revezamento rígido entre um usuário e um sistema computacional, o que faz com que o sistema computacional espere pelo final do diálogo do usuário antes de processar e realizar a ação subsequente. Embora retornos simples, tais como indicações visuais como uma série de pontos progredindo pela tela de um computador, possam proporcionar ao usuário alguma garantia de que o sistema computacional está pelo menos processando algo, até o usuá15 rio terminar sua vez e o sistema computacional responder, não se sabe a extensão de compreensão do sistema computacional .
Por conseguinte, existe a necessidade de melhorias em um sistema computacional que sejam baseadas em reconhecimento e compreensão. Tais aperfeiçoamentos proporcionariam um sistema ou método para acesso a informações que seria mais fácil de usar por ser mais natural para o usuário. Sumário da Invenção
Um método e sistema proporcionam um modo de entrada de fala que registra dinamicamente análises semânticas parciais, enquanto a captura auditiva ainda está em progresso. A análise gramatical pode ser avaliada com um resultado imediatamente relatado de volta ao usuário.
• · · • · « · · * · · · ·
Em um aspecto, um sistema de compreensão de fala inclui um modelo de linguagem que compreende uma combinação de um modelo de linguagem N gram e um modelo de linguagem gramatical livre de contexto. 0 modelo de linguagem armazena informações relacionadas a palavras e informações semânticas a serem reconhecidas. Um módulo é adaptado para receber entradas provenientes de um usuário e capturar a entrada para processamento. O módulo é adaptado ainda para receber interfaces de programas aplicativos SALT que dizem respeito ao reconhecimento da entrada. O módulo é configurado para processar as interfaces de programa aplicativo SALT e a entrada para averiguar informações semânticas relativas a uma primeira parte da entrada e dar liberar um objeto semântico compreendendo texto e informações semânticas para a primeira parte por meio de acesso ao modelo de linguagem, em que o reconhecimento e a liberação do objeto semântico são feitos enquanto continua a captura por partes subsequentes da entrada .
Breve Descrição dos Desenhos
A Figura 1 é um diagrama de bloco de um sistema de apresentação de dados.
A Figura 2 é uma vista plana de um ambiente de operação de dispositivo de computação.
A Figura 3 é um diagrama de bloco do dispositivo de computação da Figura 2.
A Figura 4 é uma vista plana de um telefone.
A Figura 5 é um diagrama de bloco de um computador para fins gerais.
·· ···· ·a • · * « « •a aaa a a • a aaa • a a a a a • · aa a a
A Figura 6 é um diagrama de bloco de uma arquitetura para um sistema cliente/servidor.
A Figura 7 é um diagrama de bloco de um módulo de reconhecimento e compreensão de fala.
Descrição Detalhada de Modalidades Ilustrativas
A Figura 1 é um diagrama de bloco de um sistema de apresentação de dados 10 para apresentação de dados baseados em entrada de voz. 0 sistema 10 inclui um módulo de interface de fala 12, um módulo de reconhecimento e compreensão de fala 14 e um módulo de apresentação de dados 16. Um usuário fornece entradas na forma de uma consulta de voz ao módulo de interface de fala 12. 0 módulo de interface de fala 12 reúne as informações de fala oriundas de um usuário e fornece um sinal indicativo. Depois de a fala de entrada ter sido agrupada pelo módulo de interface de fala 12, o módulo de reconhecimento e compreensão de fala 14 reconhece a fala visando um reconhecedor de fala e também realiza a compreensão de fala, em que, em um aspecto da presente invenção, proporciona análises semânticas parciais da entrada até então recebida, enquanto a entrada de fala de áudio ainda está sendo capturada.
A análise semântica parcial, que tipicamente inclui o texto para a entrada recebida (ou outro dado indicativo do texto da entrada), como também informações semânti25 cas averiguadas, é fornecida a um módulo de aplicativo 16 que pode ter muitas formas diferentes. Por exemplo, em uma modalidade, o módulo de aplicativo 16 pode ser um gerenciador de informação pessoal que é usado para enviar, receber e ·· ··· · · • · · ·
• · · • · · · ······ responder a e-mails, marcar reuniões e coisas do gênero. Desta maneira, o usuário pode fornecer comandos audíveis para realizar estas tarefas. No entanto, o mais importante é que o módulo de aplicativo 16 pode fornecer retorno interativo e/ou agir sobre as informações das análises semânticas parciais conforme elas são recebidas, deste modo, proporcionando ao usuário uma interface altamente interativa para o módulo de aplicativo 16. Por exemplo, em um modo de operação apenas de voz, uma saída 20 pode incluir declarações audíveis de retorno ao usuário, enquanto, obviamente, possívelmente realiza outras tarefas relacionadas ao aplicativo. As análises semânticas parciais ou objetos semânticos podem ser usados para executar lógica de diálogo no aplicativo. Por exemplo, a lógica de diálogo pode apresentar uma opção ou uma pluralidade ou lista de opções para o usuário, com base em um ou mais objetos semânticos.
Isso permite que o sistema registre imediatamente saídas com base em uma expressão vocal parcial, a saber, antes de a vez do usuário ter terminado. Em outras palavras, usando-se comunicação por canal de retorno para registrar e realizar tarefas normalmente associadas a uma vez do sistema, a definição de uma vez do usuário e uma vez do sistema é obscurecida. Os estudos mais convencionais sobre diálogo, especialmente aqueles baseados em diálogos de humanos com humanos, com freqüência vêem as comunicações por canal de retorno como retorno não intrusivo, que transporta apenas sinais simples, tais como recebimento positivo, negativo ou neutro. No entanto, o retorno proporcionado pela saída 20
Ί \1/ ' · · · · • ♦ « ♦ « • · · • · · · ·· I pode potencialmente carregar mais informações de modo a ser algo intrusivo à expressão verbal em progresso do usuário, o que pode ou não fazer com que o usuário esclareça a intenção ou direção do usuário. No entanto, esta abordagem proporciona um diálogo humano mais real entre o usuário e o sistema 10, o que, em muitos casos, não será considerado perturbador, mas, ao invés disso, mais confortável para o usuário, além de inspirar a confiança de que os desejos do usuário serão atendidos.
Neste ponto, deve-se notar que a presente invenção não está limitada a um ambiente operacional apenas de voz, mas ao invés disso, pode incluir outras formas de retorno para o usuário com base no processamento de análises semânticas parciais ou objetos. Por exemplo, no aplicativo discutido acima, onde o módulo de aplicativo 16 realiza tarefas de e-mail, a saída 20 pode incluir retorno visual, como por exemplo ativando um módulo de e-mail baseado apenas na recepção de uma sentença, tal como Enviar e-mail em um comando ininterrupto proveniente do usuário, compreendendo Enviar e-mail para Bob, onde o processamento da sentença para Bob pode fazer com que o módulo de aplicativo acesse outras informações no armazenamento de dados 18 e apresente uma lista de pessoas que têm Bob como primeiro nome. Ao ver a lista, o usuário simplesmente identifica o destinatário pretendido como Bob Green, que pode então ser selecionado porque o sistema forneceu um outro objeto semântico para a expressão verbal parcial Bob Green que, quando da re8
• · · • · * · • · ♦ · » • ······ • · · · • · · cepção pelo aplicativo e processamento, faria com que Bob Green fosse selecionado.
Conforme indicado acima, o módulo de aplicativo 16 pode tomar muitas formas, onde aspectos da presente invenção discutidos abaixo, podem ser benéficos. Sem limitação, o módulo de aplicativo 16 também pode ser um módulo de ditado para fornecer uma saída textual da entrada falada do usuário. No entanto, processando-se a informação semântica para entrada parcial ou sentenças de entrada também, é possível obter uma transcrição mais precisa.
Embora descritos acima com relação a uma entrada proveniente do usuário, compreendendo comandos de voz, aspectos da presente invenção também podem ser aplicados a outras formas de entrada, tais como escritas a mão, DTMF, ges15 tuais ou indicações visuais.
Dada a ampla aplicabilidade de processamento de análises semânticas parciais ou objetos, pode ser útil descrever, de maneira geral, dispositivos de computação que podem funcionar no sistema 10 descrito acima. Conforme apreci20 ado por aqueles versados na técnica, os componentes do sistema 10 podem estar localizados dentro de um único computador ou distribuídos por um ambiente distribuído de computação usando conexões e protocolos de rede.
Agora, com referência â Figura 2, uma forma exem25 piar de um dispositivo móvel, tal como um dispositivo de gerenciamento de dados (PIM, PDA ou similar) , é ilustrado em 30. No entanto, contempla-se que a presente invenção também pode ser praticada usando-se outros dispositivos computacio9
♦ · nais discutidos abaixo. Por exemplo, dispositivos telefônicos e/ou dispositivo de gerenciamento de dados também obterão benefícios com a presente invenção. Tais dispositivos terão uma utilidade maior em comparação com dispositivos de gerenciamento de informações pessoais portáteis existentes e outros dispositivos eletrônicos portáteis.
Na forma exemplar de um dispositivo móvel de gerenciamento de dados 30 é ilustrado na Figura 2, o dispositivo móvel 3 0 inclui um alojamento 32 e tem uma interface com o usuário que inclui um visor 34, o qual usa uma tela de exibição sensível a contato em conjunto com um dispositivo em forma de caneta (stylus) 33 . O dispositivo em forma de caneta 33 é usado para pressionar ou para entrar em contato com o visor 34 em coordenadas designadas para selecionar um campo, para mover seletivamente uma posição inicial de um cursor ou para fornecer informações de comando, como por exemplo, através de gestos ou escrita a mão. Alternativamente, ou adicionalmente, um ou mais botões 35 podem ser incluídos no dispositivo 30 para navegação. Em adição, outros mecanismos de entrada, tais como rodas giratórias, roladores ou similares, também podem ser proporcionados. No entanto, deve-se notar que a invenção não pretende ser limitada por estas formas de mecanismos de entrada. Por exemplo, uma outra forma de entrada pode incluir uma entrada visual, tal como através de visão de computador.
Agora, com referência à Figura 3, um diagrama de bloco ilustra os componentes funcionais do dispositivo móvel 30. Uma unidade de processamento central (CPU) 50 implementa
······ e
as funções de controle de software. A CPU 50 é acoplada ao visor 34 tal que ícones gráficos e textos, gerados de acordo com o software de controle, aparecem no visor 34. Um altofalante 43 pode ser acoplado a CPU 50 tipicamente com um conversor digital-para-analógico 59, de modo a proporcionar uma saída audível. Dados que são baixados ou inseridos pelo usuário no dispositivo móvel 30 são armazenados em um armazenamento de memória de acesso aleatório de leitura/gravação não volátil 54, acoplado bi-direcionalmente à CPU 50. A memória de acesso aleatório (RAM) 54 proporciona armazenamento volátil para instruções que são executadas pela CPU 50, e o armazenamento de dados temporários, tais como valores de registro. Os valores padrões para opções de configuração e outras variáveis são armazenados em uma memória de leitura apenas (ROM) 58. A ROM 58 também pode ser usada para armazenar o software do sistema operacional para o dispositivo que controla a funcionalidade básica do dispositivo móvel 30 e outras funções kernel do sistema operacional (por exemplo, o carregamento de componentes de software na RAM 54).
A RAM 54 também serve como um armazenamento para o código, de maneira análoga à função de um disco rígido em um PC, que é usado para armazenar programas aplicativos. Devese notar que embora a memória não volátil seja usada para armazenar o código, alternativamente ele pode ser armazenado na memória volátil que não é usada para execução do código.
Sinais sem fio podem ser transmitidos/recebidos pelo dispositivo móvel através de um transceptor sem fio 52, que é acoplado à CPU 50. Uma interface de comunicação ótica
também pode ser proporcionada para baixar dados diretamente de um computador (por exemplo, computador de mesa) ou de uma rede ligada por fio, se desejado. Sendo assim, a interface 60 pode compreender diversas formas de dispositivos de comunicação, por exemplo, uma ligação infravermelha, um modem, uma placa de rede, ou algo similar.
dispositivo móvel 30 inclui um microfone 29 e o conversor analógico para digital (A/D) 37 e um programa de reconhecimento opcional (fala, DTMF, escrita a mão, gestos ou visão do computador) armazenado no armazenamento 54. À guisa de exemplo, em resposta a informação audível, instruções ou comandos provenientes de um usuário do dispositivo 30, o microfone 29 fornece sinais de fala, que são digitalizados pelo conversor A/D 37. 0 programa de reconhecimento de fala pode realizar funções de normalização e/ou extração de características nos sinais de fala digitalizados para obter resultados de reconhecimento de fala intermediários. Usando o transceptor sem fio 52 ou a interface de comunicação 60, dados de fala podem ser transmitidos para um servidor de reconhecimento remoto 204 discutido abaixo e ilustrado na arquitetura da Figura 6. Então, os resultados de reconhecimento podem ser retornados para o dispositivo móvel 30 para apresentação nele (por exemplo, visual e/ou audível) e transmissão eventual para um servidor de rede 202 (Figura 6), em que o servidor de rede 202 e o dispositivo móvel 30 operam em uma relação cliente/servidor.
Processamento similar pode ser usado para outras formas de entrada. Por exemplo, entrada manuscrita pode ser ^b digitalizada com ou sem pré-processamento no dispositivo 30. Como os dados de fala, esta forma de entrada pode ser transmitida para o servidor de reconhecimento 204 para reconhecimento, em que os resultados de reconhecimento são retornados para pelo menos um do dispositivo 30 e/ou servidor de rede 202. De modo similar, dados DTMF, dados gestuais e dados visuais podem ser processados similarmente. Dependendo da forma de entrada, o dispositivo 30 (e as outras formas de clientes discutidas abaixo) incluiría hardware necessário, tal como uma câmera para entrada visual.
A Figura 4 é uma vista plana de uma modalidade exemplar de um telefone portátil 80. 0 telefone 80 inclui um visor 82 e um teclado 84. De modo geral, o diagrama de bloco da Figura 3 se aplica ao telefone da Figura 4, embora possa ser requerido conjunto de circuitos necessário adicional para realizar outras funções. Por exemplo, um transceptor necessário para operar como um telefone será requerido para a modalidade da Figura 3; no entanto, tal conjunto de circuitos não é pertinente à presente invenção.
Em adição aos dispositivos de computação portáteis ou móveis descritos acima, também deve-se entender que a presente invenção pode ser usada com inúmeros outros dispositivos computacionais, tal como um computador de mesa geral. Por exemplo, a presente invenção irá permitir que um usuário com capacidade física limitada, insira ou entre texto em um computador ou outro dispositivo de computação quando outros dispositivos convencionais de entrada, tal como um teclado alfa-numérico, forem muito difíceis de operar.
A invenção também é operacional com inúmeros outros sistemas, ambientes ou configurações computacionais para fins gerais ou fins especiais. Exemplos de sistemas, ambientes e/ou configurações computacionais bem conhecidas que podem ser adequadas para uso com a invenção incluem, mas não estão limitadas a, telefones regulares (sem qualquer tela), computadores pessoais, computadores servidores, dispositivos de mão ou lap-tops, computadores com mesa digitalizadora, sistemas multiprocessadores, sistemas baseados em microprocessadores, caixas de codificação, produtos eletrônicos programãveis pelo consumidor, PCs em rede, minicomputadores, computadores principais, ambientes computacionais distribuídos que incluam qualquer um dos sistemas ou dispositivos acima e similares.
A seguir está uma breve descrição de um computador para fins gerais 120 ilustrado na Figura 5. No entanto, o computador 120 é, novamente, apenas um exemplo de um ambiente computacional adequado e não deve sugerir qualquer limitação quanto ao escopo de uso ou funcionalidade da invenção. Nem o computador 12 0 deve ser interpretado como tendo qualquer dependência ou requisito relacionado a qualquer componente ou combinação de componentes ilustrados.
A invenção pode ser descrita no contexto geral de instruções executáveis por computador, tais como módulos de programa, sendo executadas por um computador. Ee maneira geral, os módulos de programa incluem rotinas, programas, objetos, componentes, estruturas de dados, etc, que realizam tarefas particulares ou implementam tipos de dados abstratos
particulares. A invenção também pode ser praticada em ambientes computacionais distribuídos onde as tarefas são realizadas por dispositivos de processamento remotos que são ligados através de uma rede de comunicações. Em um ambiente de computação distribuída, os módulos de programa podem estar localizados tanto em mídia de armazenamento de computador local quanto remoto, incluindo dispositivos de armazenamento de memória. As tarefas executadas pelos programas e módulos são descritas abaixo e com a ajuda de figuras. Aqueles versa10 dos na técnica podem implementar a descrição e figuras como instruções executáveis pelo processador, que podem ser gravadas em qualquer forma de uma mídia legível por computador.
Com referência â Figura 5, os componentes do computador 120 podem incluir, mas não estão limitados a, uma unidade de processamento 14 0, uma memória de sistema 150, e um barramento de sistema 141 que acopla diversos componentes do sistema, inclusive a memória do sistema à unidade de processamento 140. 0 barramento do sistema 141 pode ser qualquer dentre diversos tipos de estruturas de barramento, in20 clusive um barramento de memória ou controlador de memória, um barramento periférico e um barramento local usando qualquer dentre uma variedade de arquiteturas de barramento. À guisa de exemplo, e não de limitação, tais arquiteturas incluem barramento Industry Standard Architecture (ISA), Uni25 versai Serial Bus (USB), barramento Micro Channel Architecture (MCA), barramento Enhanced ISA (EISA), barramento local Vídeo Electronics Standards Association (VESA) e barramento Peripheral Component Interconnect (PCI), também conhecido • ······ * »« · · · como barramento Mezzanine. O computador 120 tipicamente inclui uma variedade de mídias legíveis por computador. As mídias legíveis por computador podem ser quaisquer mídias disponíveis que possam ser acessadas pelo computador 12 0, in5 cluindo tanto mídia volátil quanto não volátil, mídia removível e não removível. À guisa de exemplo, e não de limitação, mídias legíveis pelo computador podem compreender mídia de armazenamento em computador e mídia de comunicação. A mídia de armazenamento em computador inclui mídia volátil e não volátil, removível e não removível, implementada em qualquer método ou tecnologia para armazenamento de informação, tais como instruções que podem ser lidas pelo computador, estruturas de dados, módulos de programas ou outros dados. A mídia de armazenamento em computador inclui, mas não está limitada a, RAM, ROM, EEPROM, memória instantânea ou outra tecnologia de memória, CD-ROM, discos versáteis digitais (DVD) , ou outro armazenamento em disco ótico, cassetes magnéticos, fitas magnéticas, armazenamento em disco magnético ou outros dispositivos de armazenamento magnético ou qualquer outro meio que possa ser usado para armazenar a informação desejada e que possa ser acessado pelo computador 12 0.
A mídia de comunicação tipicamente incorpora instruções que podem ser lidas pelo computador, estruturas de dados, módulos de programa ou outros dados em um sinal de
5 dados modulado, tal como uma onda portadora ou outro mecanismo de transporte e inclui qualquer mídia de entrega de informação. 0 termo sinal de dado modulado significa um sinal que tem uma ou mais de suas características definidas • · · · · ou mudadas de maneira tal que a informação é codificada no sinal. À guisa de exemplo, e não de limitação, mídia de comunicação inclui mídia ligada por fio, tal como uma rede por fio ou conexão direta por fio, e mídia sem fio tal como a5 cústica, FR, infravermelha, e outras mídias sem fio. Combinações de quaisquer dos meios citados acima também devem ser incluídas dentro do escopo de mídia legível pelo computador.
A memória do sistema 150 inclui mídia de armazenamento em computador na forma de memória volátil e/ou não vo10 lãtil, tal como memória somente de leitura (ROM) 151 e memória de acesso aleatório (RAM) 152. Um sistema de entrada/ saída básico 153 (BIOS), contendo as rotinas básicas que ajudam a transferir informações entre elementos dentro do computador 120, tal como durante a inicialização, é armaze15 nado tipicamente na ROM 151. A RAM 152 contém tipicamente dados e/ou módulos de programa que são imediatamente acessíveis a e/ou estão presentemente sendo operados pela unidade de processamento 140. À guisa de exemplo, e não de limitação, a Figura 5 ilustra o sistema operacional 154, os pro20 gramas aplicativos 155, outros módulos de programa 156 e dados de programa 157.
O computador 120 pode também incluir outras mídias de armazenamento removíveis/não removíveis, volãteis/não voláteis. À guisa de exemplo apenas, a Figura 5 ilustra uma unidade de disco rígido 161 que lê de ou grava em mídia magnética não removível, não volátil, uma unidade de disco magnético 171 que lê de ou grava em um disco magnético removível não volátil 172 e uma unidade de disco ótico 175 que lê
de ou grava em um disco ótico removível não volátil 176, tal como um CD-ROM ou outra mídia óptica. Outros meios de armazenamento em computador removíveis/não removíveis, voláteis/não voláteis que podem ser usados no ambiente operacional exemplar incluem, mas não estão limitados a, fitas cassete magnéticas, cartões de memória instantânea, discos versáteis digitais, fita de vídeo digital, RAM de estado sólido, ROM de estado sólido e similares. A unidade de disco rígido 161 é conectada, tipicamente, ao barramento do sistema 141, através de uma interface de memória não removível, tal como a interface 160 e a unidade de disco magnético 171 e a unidade de disco óptico 175 são conectadas, tipicamente, ao barramento do sistema 141 por uma interface de memória removível, tal como a interface 170.
As unidades e seus meios associados de armazenamento em computador discutidos acima e ilustrados na Figura 5, proporcionam armazenamento de instruções legíveis pelo computador, estruturas de dados, módulos de programas e outros dados para o computador 12 0. Na Figura 5, por exemplo, a unidade de disco rígido 161 é ilustrada como armazenando o sistema operacional 164, programas aplicativos 165, outros módulos de programas 166 e dados de programas 167. Note que estes componentes podem ser iguais ou diferentes do sistema operacional 154, programas aplicativos 155, outros módulos de programa 156 e dados de programa 157. 0 sistema operacional 164, os programas aplicativos 163, outros módulos de programas 166 e dados de programas 167, recebem números diferentes aqui para ilustrar que, no mínimo, eles são cópias ·· ·«· ·· · ·· · ·· ···· ·· • · » · ······ · · · · ·· ♦ ·· · · · > * · · * * * · ··· ·· » «« ··· ·· *· *· diferentes .
Um usuário pode inserir comandos e informações no computador 120 através de dispositivos de entrada, tais como um teclado 182, um microfone 183 e um dispositivo de aponta5 mento 181, tal como um mouse, um trackball ou almofada de toque. Outros dispositivos de entrada (não mostrados) podem incluir um joystick, almofada de jogo, prato satélite, digitalizador, ou similar. Estes e outros dispositivos de entrada são conectados, com freqüência, à unidade de processamen10 to 140 através de uma interface de entrada com o usuário 180 que é acoplada ao barramento do sistema, mas pode haver a conexão por outras estruturas de interface e barramento, tais como uma porta paralela, porta de jogo ou um barramento serial universal (USB) . Um monitor 184 ou outro tipo de dis15 positivo de exibição também é conectado ao barramento do sistema 141 via uma interface, tal como uma interface de video 185. Em adição ao monitor, os computadores também podem incluir outros dispositivos de saída periféricos, tais como alto-falantes 187 e impressora 186, que podem ser conectados através de uma interface periférica de saída 188.
computador 120 pode operar em um ambiente em rede usando conexões lógicas a um ou mais computadores remotos, tal como um computador remoto 194. 0 computador remoto 194 pode ser um computador pessoal, um dispositivo de mão, um servidor, um roteador, um PC em rede, um dispositivo de ponto ou outro nó de rede comum, e tipicamente inclui muitos ou todos os elementos descritos acima relativos ao computador 120. As conexões lógicas ilustradas na Figura 5 incluem
uma rede de área local (LAN) 191 e uma rede de área ampla (WAN) 193, mas também podem incluir outras redes. Tais ambientes em rede são comuns em escritórios, redes de computadores de grandes empresas, intranets e Internet.
Quando usado em um ambiente em rede LAN, o computador 12 0 é conectado à LAN 191 através de uma interface ou adaptador de rede 190. Quando usado em um ambiente em rede WAN, o computador 120 tipicamente inclui um modem 192 ou outros meios para estabelecer comunicações pela WAN 193, tal como a Internet. 0 modem 192, que pode ser interno ou externo, pode ser conectado ao barramento do sistema 141 via interface de entrada com o usuário 180 ou outro mecanismo apropriado. Em um ambiente em rede, módulos de programa ilustrados com relação ao computador 120 ou partes suas, podem ser armazenados no dispositivo de armazenamento de memória remota. À guisa de exemplo, e não de limitação, a Figura 5 ilustra programas aplicativos remotos 195 como residindo no computador remoto 194. Será apreciado que as conexões de rede mostradas são exemplares e outros meios de estabelecer uma ligação de comunicação entre os computadores podem ser usados.
A Figura 6 ilustra arquitetura 200 para apresentação de dados e reconhecimento baseado na rede, que é um ambiente exemplar para a presente invenção. De modo geral, a informação armazenada em um servidor de rede 2 02 pode ser acessada através de um cliente 100, tal como um dispositivo móvel 30 ou computador 120 (que aqui representa outras formas de dispositivos computacionais tendo uma tela de exibi20 • · ······ ·· · *· ção, um microfone, uma câmera, um painel sensível a toque, etc. , conforme requerido com base na forma de entrada) , ou através do telefone 80, em que a informação é solicitada de maneira audível ou através de tons gerados pelo telefone 80 em resposta a teclas apertadas e em que a informação do servidor de rede 2 02 é fornecida apenas de maneira audível de volta ao usuário.
Nesta modalidade, a arquitetura 200 é unificada em que, se a informação for obtida através do cliente 100 ou telefone 80 usando reconhecimento de fala, um servidor de reconhecimento de fala simples 2 04 pode suportar um modo ou outro de operação. Em adição, a arquitetura 200 opera usando uma extensão de linguagens de marcação bem conhecidas (por exemplo, HTML, XHTML, cHTML, XML, WML e similares). Assim, informações armazenadas no servidor de rede 202 também podem ser acessadas usando-se métodos GUI bem conhecidos encontrados nestas linguagens de marcação. Usando-se uma extensão de linguagens de marcação bem conhecidas, é mais fácil executar programas na linguagem do autor na rede e aplicativos de legado existentes correntemente também podem ser facilmente modificados de modo a incluírem reconhecimento de voz.
Em geral, o cliente 100 executa páginas HTML, scripts, ou similares, indicados genericamente em 206, proporcionados pelo servidor de rede 202 usando um navegador. Quando é requerido o reconhecimento de voz, à guisa de exemplo, dados de fala, que podem ser sinais de áudio digitalizados ou itens de fala, em que os sinais de áudio foram préprocessados pelo cliente 100, conforme foi discutido acima,
são fornecidos ao servidor de reconhecimento 204 com uma indicação de um modelo de gramática ou linguagem 220 para uso durante o reconhecimento de fala, o que pode ser proporcionado pelo cliente 100. Alternativamente, o servidor de fala 204 pode incluir o modelo de linguagem 220. A implementação do servidor de reconhecimento 204 pode tomar muitas formas, sendo que uma das quais é ilustrada, mas geralmente inclui um reconhecedor 211. Os resultados do reconhecimento são fornecidos de volta ao cliente 100 para apresentação local, se desejado ou apropriado. Se desejado, o módulo texto-parafala 222 pode ser usado para proporcionar texto falado ao cliente 100. Quando da compilação da informação através do reconhecimento e qualquer interface gráfica com o usuário, se usada, o cliente 100 envia a informação para o servidor de rede 202 para processamento adicional e recepção de páginas/scripts HTML adicionais, se necessário.
Conforme ilustrado na Figura 6, o cliente 100, o servidor de rede 2 02 e o servidor de reconhecimento 2 04 são conectados comumente e endereçáveis separadamente através de uma rede 205, aqui uma rede de área ampla, tal como a Internet. Logo, não é necessário que quaisquer destes dispositivos estejam localizados fisicamente adjacentes um ao outro. Em particular, não é necessário que o servidor de rede 202 inclua o servidor de reconhecimento 204. Desta maneira, a execução do programa no servidor de rede 202 pode ser focada no aplicativo para o qual ele está destinado, sem que os autores precisem saber das complexidades do servidor de reconhecimento 204. Ao invés disso, o servidor de reconhecimento
204 pode ser projetado independentemente e conectado à rede
205 e, deste modo, ser atualizado e melhorado sem mudanças adicionais requeridas no servidor de rede 202. O servidor de rede 202 também pode incluir um mecanismo de execução de programa de linguagem do autor que possa gerar dinamicamente marcações e scripts no lado do cliente. Em uma outra modalidade , o servidor de rede 202, o servidor de reconhecimento 204 e o cliente 100 podem ser combinados, dependendo das capacidades das maquinas de implementação. Por exemplo, se o cliente 100 compreender um computador para fins gerais, por exemplo, um computador pessoal, o cliente pode incluir o servidor de reconhecimento 204. Da mesma forma, se desejado, o servidor de rede 202 e o servidor de reconhecimento 204 podem ser incorporados em uma única máquina.
O acesso ao servidor de rede 202 através de um telefone 80 inclui a conexão do telefone 80 a uma rede telefônica 208 com fio ou sem fio, que, por sua vez, conecta o telefone 80 a um circuito de acesso de terceira parte 210. 0 circuito de acesso 210 conecta o telefone 80 a um navegador de voz por telefonia 212. O navegador de voz por telefonia 212 inclui um servidor de mídia 214 que proporciona uma interface de telefonia e um navegador de voz 216. Como o cliente 100, o navegador de voz por telefonia 212 recebe páginas/scripts HTML ou algo similar do servidor de rede 202. Em uma modalidade, as páginas/scripts HTML são da forma similar as páginas/scripts HTML proporcionadas ao cliente 100. Desta maneira, o servidor de rede 202 não precisa suportar o cliente 100 e o telefone 80 separadamente ou mesmo suportar os • · · · · · clientes GUI padrões separadamente. Ao invés disso, uma linguagem de marcação comum pode ser usada. Em adição, como o cliente 100, reconhecimento de voz a partir dos sinais audíveis transmitidos pelo telefone 80, é proporcionado a partir do navegador de voz 216 para o servidor de reconhecimento 204, seja através da rede 205 ou através de uma linha dedi-
cada 2 07, por exemplo, usando TCP/ IP. O servidor de rede 202, o servidor de reconhecimento 204 e o navegador de voz por telefone 212 podem ser incorporados em qualquer ambiente computacional adequado, tal como o computador de mesa para fins gerais, ilustrado na Figura 5.
Tendo descrito os diversos ambientes e arquiteturas funcionando no sistema 10, é proporcionada uma descrição mais detalhada de diversos componentes e da função do sistema 10. A Figura 7 ilustra um diagrama de bloco de módulo de reconhecimento e compreensão de fala 14. A entrada de fala recebida do módulo de interface de fala 12 é enviada para o módulo de reconhecimento e compreensão de fala 14. O módulo de reconhecimento e compreensão de fala 14 inclui uma máquina de reconhecimento 3 06, que tem um modelo de linguagem associado 310. A máquina de reconhecimento 306 utiliza o modelo de linguagem 310 para identificar possíveis estruturas semânticas superficiais para representar cada uma das sentenças que formam a entrada, proporcionando análise semântica parcial ou objetos, conforme a entrada é recebida. Ao contrário do sistema que espera que o usuário complete a expressão verbal e então processa a entrada completa recebida, o módulo 14 fornece objetos semânticos continuamente com ba24 ·4· ·· 4 ·· 4 ·♦ 4444 *« • 4 4 · 444444 4 4« · 44 4 « 44 4 44 44 44 »
444 *4 4 44 444 44 44 44 se apenas no que foi recebido até então.
A maquina de reconhecimento 306 proporciona pelo menos um objeto de saída semântico superficial baseado na expressão verbal parcial. Em algumas modalidades, a maquina de reconhecimento 306 é capaz de proporcionar mais de um objeto semântico superficial alternativo para cada estrutura alternativa.
Embora esteja ilustrada na Figura 7 em que a entrada de fala é proporcionada, a presente invenção pode ser usada com reconhecimento de escrita a mão, reconhecimento de gestos ou interfaces gráficas com o usuário (onde o usuário interage com um teclado ou outro dispositivo de entrada). Nestas outras modalidades, o reconhecedor de fala 306 é substituído por uma máquina de reconhecimento adequada, conforme é conhecido na técnica. Para as interfaces gráficas com o usuário, uma gramática (tendo o modelo de linguagem) é associada à entrada do usuário, tal como através de uma caixa de entrada. Por conseguinte, a entrada de um usuário é processada de uma maneira consistente sem modificação significativa baseada na maneira de entrada.
O diálogo interativo discutido acima, que também inclui outras formas de retorno informativo pelo sistema 10, com base em análise semântica parcial ou objetos, pode ser implementado usando SALT (Speech Application Language Tags) ou outra fala, escrita a mão, e APIs (Application Program Interfaces) de reconhecimento de padrão que suportem uma construção de modelo de linguagem que possa proporcionar informações semânticas baseadas em um esquema selecionado para um dado aplicativo e decodificação síncrona de objeto semântico . SALT é um padrão em desenvolvimento para permitir o acesso a informações, aplicativos e serviços de rede a partir de computadores pessoais, telefones, PCs com mesa digitalizadora e dispositivos móveis sem fio, por exemplo, mas também pode ser aplicado a interfaces de aplicativo, assim como sem interconexão em uma rede. SALT estende linguagens de marcação existentes, tais como HTML, XHTML e XML. A versão SALT 1.0 pode ser encontrada on-line em http://www.SALTforum.organização. Deve-se notar que SALT pode proporcionar informações semânticas baseadas na entrada do usuário, por exemplo, a partir do servidor de fala 204, sendo que tal informação forma o objeto fornecido ao módulo de apresentação de dados 16 depois de completar uma expressão verbal; no entanto, conforme discutido abaixo, SALT pode ser usado de maneira não contemplada anteriormente para proporcionar análise ou objeto semântico parcial. O uso de extensões SALT ou extensões similares em outras APIs, proporciona suporte para interação de usuário acionada por evento altamente interativo.
Usando-se SALT, à guisa de exemplo, o objeto ouvir (listen) SALT pode ser usado para realizar tanto tarefas de reconhecimento de fala quanto de compreensão. Isso é porque o projeto segue o ponto de vista e formulação que trata a compreensão da fala como um problema de reconhecimento de padrão, tal como reconhecimento de fala. Ambos esforçam-se para encontrar um padrão a partir de uma coletânea de possíveis resultados, que melhor corresponda a um dado sinal de
fala. Para reconhecimento de fala, o padrão a ser encontrado é uma cadeia de palavras, enquanto que, para compreensão, uma arvore de objetos semânticos. Uma tarefa de reconhecimento de fala tradicional instrui o processo de busca com um modelo de linguagem na composição das prováveis cadeias de palavras. De uma maneira similar, uma tarefa de compreensão de fala pode guiar a mesma máquina de busca a compor as ár10 *
vores adequadas de objetos semânticos com um modelo semântico. Como um modelo de linguagem que com frequência implica um léxico e as regras de composição de segmentos de frase a partir das entradas léxicas, um modelo semântico implica em um dicionário de todos os objetos semânticos e nas regras de composição deles. Embora o resultado do reconhecimento sej a uma cadeia de texto, o resultado da compreensão é uma árvore de objetos semânticos.
Embora seja possível estender N-grama para retornar um resultado de busca estruturado, a maioria dos aplicativos típicos de compreensão de fala são baseados em gramática livre de contexto probabilística (PCFG - Probabilistic Context Free Grammar) onde os projetistas podem especificar regras de composição de objetos semânticos sem dados de treinamento massivos anotados no banco de árvore. Um método para especificar tais regras é associar cada regra PCFG a diretrizes de produção para a máquina de busca sobre como transformar a árvore de análise PCFG parcial em uma árvore de objeto semântico. Um exemplo escrito em formato Microsoft Speech Application Interface (SAPI) (que também é um exemplo de um API de fala que pode ser usada na presente invenção) é
• | mostrado abaixo: |
* * 5 | crule name=nyc> <list> <phrase>new york ?city</phrase> / <phrase>?the big spple</phrase> <list> |
• 10 | <output> <city location> <city>New York</city> <state>New York</state> <country>USA</country> <city location> </output> </rule> |
15 | .<rule name=NewMeeting> <ruleref min=”0 nane = CarrierPhrase/> |
A | Cruleref max=inf name=ApptProperty/> <output> <NewMeeting> |
20 | <DateTime> |
25 | Cxsl:apply-templates select=//Date/> <xsl:apply-templates select=//Time/> <xsl: apply-templates select=//Duration/> </DateTime> <Invitees> Cxsl:apply-templates select=”//Person/> |
</Invitees>
9· 999 99 « ·· · ·· ···· ·· ·« 9 * ······ 9 · · · ♦· ·
9 9 9 · · 9 9 · · · · *
9·· 99 9 ·· ·*· ·· ·· ·· </NewMeetinq>
</output>
</rule>
d <rule name=ApptProperty/>
<list>
<ruleref name = Date/>
<ruleref name=,,Duration/>
<ruleref name=Time/>
<ruleref name=Person max=inf/>
<ruleref name=ApptSubject11 />
</list>
</rule>
O segmento de gramática contém três regras. A primeira, uma pré-terminal chamada nyc lista as expressões para New York City. Os identificadores <output> neste exemplo, encerram as regras para a construção de objetos semânticos. Eles são invocados quando o caminho de busca sai do nó gramatical denotado pela ficha que o precede. No caso, um objeto semântico, representado em XML com um elemento <city_location> (cidade_local), é criado quando um caminho de busca sai da regra nyc. Este objeto semântico, por sua vez, é composto de três obj etos semânticos: o nome da cidade, as abreviações de estado e de nome do país, respectivamente.
A composição de objetos semânticos também pode ser um processo dinâmico, por exemplo, para agendar uma nova *· ♦** ·· · ♦· · *· ···· »· • * · · · · · ·* · · · · · • · · ♦· · · * · ·· ·♦* · · ·· * · ······ ♦ · · · «« 9 ·· · · * · * · * · · * · *·· ·· · ·· ·** ·* ·· *·
reunião. Por exemplo, um objeto semântico NewMeeting (NovaReunião) será produzido quando o usuário terminar de especificar as propriedades da reunião tais como data, hora, duração e os presentes. Os gabaritos podem ser usados para colar outros objetos semânticos como constituintes no objeto semântico NewMeeting. O mesmo princípio também pode ser aplicado a outras regras não mostradas aqui. Como um exemplo, uma expressão verbal marcar uma reunião com Li Deng e Alex Acero em primeiro de janeiro, para uma hora, resultará no seguinte objeto semântico:
<NewMeeting> (Nova reunião) <DateTime> (DataHora) <Date>Ol/01/2003</Date>
<Durat ion>3 600 </Durat ion> (Duração) </DateTime>
<Invitees> (Convidados) <Person>Li Deng</Person> (Pessoa) <Person>Alex Acero</Person>
<Invitees>
</NewMeet ing>
Em aplicações reais, melhorar a cobertura PCFD é uma tarefa desanimadora. Logo, é desejável ser capaz de usar um N-grama para modelar, entre outras coisas, frases funcionais que não carregam informação semântica crítica, mas usualmente têm variações dimensionãveis na estrutura sintática [por exemplo, May I. . (Posso), Could you show me...
(Você poderia me mostrar), Please show me... (Por favor, me mostre)] . Em uma modalidade, o modelo de linguagem 310 «· ·*· ·· · ·· · ·· ··*· *· • · · » «··»·· · · · · · · · • · · · · » · · · · · · · »*« ·· > ·· ·*· ·· ·· ·· compreende um modelo de linguagem semântica que combina PCFG com N-grama. A técnica é ligeiramente diferente de um modelo de linguagem unificada, que também pode ser usado. 0 modelo de linguagem unificada é uma extensão natural para o N-grama classe convencional, exceto pelo fato de que permite que fragmentos CFG, não apenas uma lista de palavras, sejam modelados como uma ficha individual em N-grama. 0 reconhecedor 306 que utiliza este modelo, ainda produz cadeia de texto que tem que ser analisado a seguir. 0 modelo de linguagem unificada, deste modo, se destina a incorporar certa estrutura linguística para ajudar na transcrição de texto.
O modelo de linguagem semântica, por outro lado, visa a utilizar o decodificador ou reconhecedor para buscar a estrutura semântica, que é usualmente melhor capturada por
PCFG. Logo, ao invés de embutir fragmentos CFG em N-grama, o PCFG é usado para conter N-grama por meio da criação de um pré-terminal PCFG especial que corresponde a um N-grama de interesses. Em formato gramatical Microsoft SAPI, isso pode ser denotado usando-se um pré-terminal com um identificador
XML <dictation> (ditado), como em
LCFG <dictation Max=inf/> RCFG
Onde LCFG e RDFG denotam o contexto à esquerda e à direita do N-grama embutido, respectivamente. O processo de busca trata o identificador <dictation> como uma ficha e ex25 pande para dentro do N-grama como se inserisse um não terminal regular. O atributo max no identificador, especifica o número máximo de palavras que podem ser consumidas pelo Ngrama. Dentro deste N-grama, a probabilidade da cadeia de
palavras é computada interpolando-se o N-grama de trás com o PCFG, mais especificamente:
(1) P(w„|w„_i, wn_2, · ·) = λΡ (wn|Ngrama, wn_1( w„_2, . . .) + (1 - λ) P(wnjRCFG) P(RCFG|wn_x, w„.2, . . . ) onde λ é o peso da interpolação de N-grama e
P (RCFG | wn_x, . . .) usa a probabilidade de recuo no N-grama, isto é, wn é tratado como se ele estivesse fora do vocabulário de palavras. Em uma modalidade, o termo P(wn|RCFG) assume apenas valores binários dependendo de se o tamanho da cadeia de palavras N-grama máximo for alcançado e de a palavra estar na cobertura do fragmento CFG ou não. Como palavras retiradas de PCFG sempre têm uma probabilidade mais alta, os caminhos que realmente têm que ser cobertos pelo CFG têm tendência a vencer suas partes contrárias N-grama, mesmo quando a contagem de palavra N-grama máxima for definida como infinito. Em adição a sentenças funcionais, o N-grama embutido também pode ser usado para modelar objeto semântico com uma propriedade tipo ditado. Por exemplo, o assunto da reunião é modelado em nossa tarefa como (rule name=ApptSubjetc>
<p> <dictation max=inf/> </p>
Detalhes adicionais referentes ao modelo de linguagem semântica são descritos em K. Wang, Semantic modeling for dialog systems in a pattern recognition framework, em Proc. ASRU-2001, Trento, Itália, 2001, que se incorpora aqui â guisa de referência em sua íntegra.
Um outro aspecto da presente invenção inclui um novo uso do objeto SALT listen (ouvir). SALT proporciona um conjunto de elementos XML, com atributos associados e propriedades de obj eto DOM, eventos e métodos, que podem ser usados em conjunto com uma fonte de marcação de documento para aplicar uma interface de falha a uma página fonte. Em geral, os elementos principais incluem:
<prompt...> para configuração de síntese de fala e executar solicitação <listen...> para configuração do reconhecedor de fala, execução do reconhecimento e pós-processamento e registro <dtmf...> para configuração e controle de DTMF <smex...> para comunicação com finalidade genérica com componentes da plataforma
Os objetos listen e dtmf também contêm controles de gramática e de aglutinação <grammar...> (gramática) para especificar recursos de gramática de entrada <bind...> (aglutinar) para processar resultados de reconhecimento
O elemento listen (ouvir) pode incluir um atributo de modo para distinguir três modos de reconhecimento, que instruem ao servidor de reconhecimento (por exemplo, 204) , como e quando retornar resultados. O retorno de resultados implica em proporcionar o evento onReco ou ativar os elementos bind, conforme apropriado.
Em um primeiro modo, automático, a plataforma de fala, ao invés do aplicativo, está no controle de quando interromper o processo de reconhecimento. Este modo tem avan25
çado em telefonia ou em caso de mãos livres. Assim que um resultado de reconhecimento estiver disponível, e/ou quando tiver decorrido um período de tempo indicando silêncio, a plataforma de fala interrompe automaticamente o reconhecedor e retorna seu resultado, que então pode ser associado ao campo apropriado através do elemento de aglutinação.
Em um segundo modo de operação, único, o retorno de um resultado de reconhecimento estã sob o controle de uma chamada explícita de parar. A chamada de parada correspondería a um evento tal como caneta para cima (pen-up) realizado pelo usuário e este modo é avançado por ser usado em um ambiente multimodal, onde o dispositivo permite entrada de fala, mas o usuário, geralmente, estã sob controle do que e de quando selecionar campos, por exemplo, através do uso do dispositivo em forma de caneta 33 (Figura 1).
Um terceiro modo de operação do reconhecedor de fala é um modo múltiplo . Este modo de operação é usado para um microfone aberto ou em um ditado. Geralmente, neste modo de operação, os resultados de reconhecimento são retornados a intervalos, até uma chamada de parada explícita ser recebida ou os outros períodos de tempo associados à entrada não reconhecida ou um tempo máximo de escuta serem excedidos . Em geral, neste modo de operação, para cada sentença que é reconhecida, um evento onReco é emitido e o resultado é retornado até a chamada de parada ser recebida.
No entanto, este modo de operação, como um outro aspecto da presente invenção, pode proporcionar um meio para as máquinas de busca exporem mais capacidades interativas
é «
para os usuários, ao permitir que eles registrem imediatamente, sempre que uma marcação linguística saliente for alcançada. Algoritmos de busca baseados em decodificação síncrona no tempo são bem conhecidos e podem ser empregados para este modo de uma maneira direta. Um tal algoritmo é descrito em H. Ney, S. Ortmanns, Dynamic programming search for continuous speech recognition, IEEE Signal Processing Magazine, página 64-83, 1999. Para reconhecimento de fala, a marcação lingüística corresponde ao limite de uma palavra ou de uma sentença. Um reconhecimento de modo múltiplo SALT pode, conseqüentemente, ser usado para exibir dinamicamente as hipóteses de cadeia de palavras assim que elas estiverem disponíveis, um efeito UI comumente visto em muitos softwares de ditado comerciais. Entretanto, na presente invenção, o modo múltiplo pode tratar as instanciações de objetos semânticos como marcações linguísticas e registrar, isto ê, fornecer alguma resposta como uma função do que foi entendido, de volta ao aplicativo, também de uma maneira dinâmica. Isso parece ao proj et is t a do aplicativo como se SALT estivesse realizando uma compreensão síncrona de objeto semântico.
Este modo de operação pode ser melhor entendido comparando-o com um cenário multimodal. No cenário multimodal, um usuário indica um campo, por exemplo, apontando e mantendo o dispositivo em forma de caneta em um campo de entrada enquanto fala. Embora o usuário possa ficar batendo sobre um campo genérico e expresse uma sentença elaborada para preencher muitos campos em uma única sentença, a interface bater-e-falar ocupa os olhos e as mãos do usuário, um é
esquema não apropriado para muitas situações. Além disso, embora bater-e-falar apresente um rico canal de comunicação de volta que exibe o volume e uma barra de progresso do processo de linguagem falada subjacente, aqueles retornos proporcionam apenas indícios muito primitivos para a qualidade do processamento de linguagem falada em termos de velocidade e precisão. Isso pode ser potencialmente mais problemático para sentenças mais longas em que os erros podem se propagar até um escopo mais amplo, que eventualmente requer mais esforços na verificação e correção dos resultados de reconhecimento e compreensão. Como os estudos de usabilidade parecem indicar que sentenças longas são um fator de diferenciação chave, que demonstra a utilidade da fala como mais que um aperfeiçoamento de teclado ou alternativo, uma experiência UI satisfatória é absolutamente necessária para o sucesso do uso de fala como uma modalidade viável.
De modo a promover a percepção de humanocomputador como parceiros colaboradores íntimos para alcançar um objetivo comum, a compreensão síncrona de objeto semântico, por meio do registro da análise semântica parcial ou objetos assim que eles estão disponíveis, é efetiva. Em uma modalidade, isso é conseguido usando-se o modo múltiplo do elemento de escuta em SALT. Em particular, para o elemento de escuta, um modo múltiplo é designado e todas as gramáticas de reconhecimento são então especificadas para que a fala de entrada seja reconhecida. A atribuição de resultados também é especificada no objeto de escuta. Por exemplo, o código de entrada HTML para adquirir informações necessá36
rias, tais como data, hora, local, assunto e os presentes à reunião, etc., para criar uma nova reunião, pode tomar a forma:
clisten mode=multiple...>
<grammar src=subject.grm/> <grammar src=date.grm/>
<grammar src=time_duration.grm/> <grammar src=attendees.grm/> cbind targetElement=subject value=//ApptSubject/>
<bind targetElement=date value=//DateTime/>
<bind targetElement=start_time value=//start_time targetElement=end_time value=//end_time targetElement=duration value=//DateTime/duration/>
<listen>
As múltiplas gramáticas compõem um espaço de busca paralelo para o reconhecimento com um ciclo de transição nulo de volta ao ponto de entrada. Neste modo, SALT permite que o objeto de escuta promova um evento assim que uma gra25 mática for liberada. 0 evento toma a direção de um processo paralelo para invocar às diretrizes de aglutinação na seqüência , enquanto a coleta e o reconhecimento de áudio subjacentes estão em progresso, criando assim o efeito para u37 «4 4 1 suário de que campos relevantes no formulário estão sendo preenchidos, enquanto um comando falado ainda está sendo expresso para um aplicativo que tem uma apresentação visual de campos.
Para a interface com o usuário para aplicativos de olhos livres, resultados de fala acompanhados podem ser desejados. Neste caso, SALT solicita que objetos possam ser usados para dar retornos imediatos. Por exemplo, o objeto de solicitação SALT a seguir pode ser usado para sintetizar resposta com base no conteúdo dinâmico no campo de data e a síntese da fala pode ser ativada com diretrizes de aglutinação SALT adicionais, conforme a seguir:
<prompt id=say_date>
on <value targetElement=date/>
<prompt >
cbind targetElement=date value=//date targetElement=say_date targetMethod=Start/>
<listen>
O efeito líquido é o usuário sentir como se ele estivesse falando com uma outra parte que não apenas toma nota, como também repete o que é ouvido, como em Agendar uma reunião (nova reunião) às duas (começando âs duas horas
da tarde) próxima Terça (em 29/10/02) por duas horas (duração: duas horas), onde as sentenças fornecidas nos parênteses representam as solicitações audíveis e/ou visuais (que também podem ser sincronizadas) retornadas ao usuário.
Deve-se notar que SALT permite que os projetistas vinculem manipuladores de evento de reconhecimento personalizados que realizam computações sofisticadas além das simples atribuições como com as diretrizes de aglutinação SALT. No exemplo acima, a normalização da data pode ser conseguida na gramática esquemática que, no entanto, não pode facilitar resolução de referência avançada (por exemplo, Agendar uma reunião com Li Deng e seu gerente). Para tais casos, pode ser implementado algoritmo como objetos de script acessíveis a manipuladores de evento apropriados para acessar dados armazenados, para verificar referências indefinidas. Tais algoritmos são descritos em K. Wang, A plan based dialog System with probabilistic inferences, em Proc. ICSLP-2000, Beijing, China, 2000 e pedido de patente europeu EP 1199630A2, publicado em 24 de abril de 2002, que são incorporados aqui- à guisa de referência, em sua íntegra.
Deve-se notar que, embora a operação de modo múltiplo existisse para o objeto de escuta, em implementações atuais, este modo proporciona apenas texto para a entrada recebida, tal como em ditado. No entanto, neste aspecto da presente invenção, o resultado parcial na medida em que a entrada está sendo recebida, não é apenas o texto, mas também inclui a informação semântica correspondente pertencente ao texto e assim, a saída compreende análise ou objeto se25 • · 4 1 • ·♦ β 44 41 44 t
t mântico parcial, que pode ser usado conforme descrito acima para proporcionar ao usuário mais qualidade de retorno, que o computador compreendeu apropriadamente o que foi recebido. Dependendo da sofisticação do aplicativo que recebe a análise ou objeto semântico parcial, o sistema pode fornecer de volta ao usuário confirmações, alternativas, correções e esclarecimentos, com base na análise semântica parcial recebida.
Embora em aplicativos multimodais seja conhecido incluir múltiplas gramáticas, para permitir que o usuário fale na frente, e deste modo, proporcione a capacidade de fornecer informações que não foram indicadas, usar o elemento de escuta na operação de modo múltiplo pode ser melhor porque ele proporciona ao usuário uma indicação mais alta de compreensão. Em um aplicativo apenas de voz, uma forma natural de diálogo é gerada, enquanto que, se apresentações visuais são empregadas, um aplicativo pode começar o processamento (realizando ações, exibindo resultados ou opções, por exemplo, através de janelas pop-up) com base apenas em análise semântica parcial do que foi proporcionado ao usuário até então, e enquanto o usuário continuar a falar.
Embora a presente invenção tenha sido descrita com referência a modalidades particulares, trabalhadores versados na técnica irão reconhecer que podem ser feitas mudanças na forma e detalhes, sem que se afaste do espírito e escopo da invenção.
Claims (8)
- REIVINDICAÇÕES1. Sistema de compreensão da fala (10, 30, 80) compreendendo:um modelo de linguagem (310) que compreende uma combinação de um modelo de linguagem de N-grama e um modelo de linguagem de gramática livre de contexto, o modelo de linguagem (310) armazenando informações relacionadas a palavras e informações semânticas a serem reconhecidas; e um módulo (14) adaptado para receber entrada de um usuário e capturar a entrada para processamento, em que o módulo (14) está ainda adaptado para receber interfaces de programa aplicativo SALT pertencentes ao reconhecimento da entrada e em que o processamento compreende o reconhecimento de texto a partir da entrada recebida, caracterizado pelo fato de que:o módulo (14) é configurado para processar uma primeira parte da entrada e as interfaces de programa aplicativo SALT para determinar informações semânticas pertencentes à primeira parte da entrada;em que o módulo (14) está configurado para gerar como saída um objeto semântico parcial que compreende texto e informação semântica para a primeira parte da entrada acessando o modelo de linguagem (310); e em que o reconhecimento do texto e a geração como saída do objeto semântico parcial são realizados enquanto a captura continua para partes subsequentes da entrada.de 07/02/2018, pág. 4/10
- 2. Sistema de acordo com a reivindicação 1, caracterizado pelo fato de que o modelo de linguagem compreende um modelo de linguagem unificada.
- 3. Sistema de acordo com a reivindicação 1, caracterizado pelo fato de que o modelo de linguagem compreende um modelo de linguagem semântica.
- 4. Sistema de acordo com qualquer uma das reivindicações 1 a 3, caracterizado pelo fato de que o módulo é adaptado para identificar um objeto de escuta SALT em um modo múltiplo para realizar o reconhecimento de texto e gerar como saída objetos semânticos parciais, enquanto a captura continua para as subsequentes porções da entrada.
- 5. Sistema de acordo com qualquer uma das reivindicações 1 a 4, caracterizado pelo fato de que o módulo é adaptado para identificar objetos de gramática para definir um espaço de busca do modelo de linguagem.
- 6. Meio legível por computador incluindo instruções legíveis por um dispositivo de computação (30, 80) que, quando implementadas, fazem com que o dispositivo de computação (30, 80) manipule a informação executando etapas compreendendo:receber entrada de um usuário e capturar a entrada para processamento em que processamento compreende o reconhecimento de texto a partir da entrada recebida;receber interfaces de programa aplicativo SALT para identificar um modelo de linguagem (310) para de 07/02/2018, pág. 5/10 realizar reconhecimento de texto e compreensão, o modelo de linguagem adaptado para fornecer texto de entrada reconhecida e informações semânticas para a entrada recebida;caracterizado pelo fato de que compreende ainda: processar a entrada acessando o modelo de linguagem (310) para realizar reconhecimento na entrada para determinar informações semânticas pertencentes a uma primeira parte da entrada e gerar como saída um objeto semântico parcial que compreende texto da entrada reconhecida e informação semântica para a primeira parte da entrada, em que realizar o reconhecimento de texto e gerar como saída objetos semânticos parciais são realizados enquanto a captura continua para as subsequentes partes da entrada.
- 7. Meio legível por computador de acordo com a reivindicação 6 caracterizado pelo fato de que o processamento inclui a identificação de um objeto de escuta SALT em um modo múltiplo para realizar o reconhecimento de texto e gerar como saída objetos semânticos parciais, enquanto a captura continua para as subsequentes porções da entrada.
- 8. Meio legível por computador de acordo com a reivindicação 6 ou 7, caracterizado pelo fato de que o recebimento de interfaces de programa aplicativo SALT inclui a identificação de objetos de gramática para definir um espaço de busca do modelo de linguagem.de 07/02/2018, pág. 6/10 »····· esΌ εΗ οco
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/448,018 US7200559B2 (en) | 2003-05-29 | 2003-05-29 | Semantic object synchronous understanding implemented with speech application language tags |
Publications (2)
Publication Number | Publication Date |
---|---|
BRPI0401850A BRPI0401850A (pt) | 2005-03-08 |
BRPI0401850B1 true BRPI0401850B1 (pt) | 2018-09-11 |
Family
ID=33131605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BRPI0401850A BRPI0401850B1 (pt) | 2003-05-29 | 2004-05-27 | compreensão síncrona de objeto semântico, implementada com identificadores de linguagem para aplicativos de fala |
Country Status (16)
Country | Link |
---|---|
US (1) | US7200559B2 (pt) |
EP (2) | EP1482481B1 (pt) |
JP (1) | JP4768970B2 (pt) |
KR (1) | KR101042119B1 (pt) |
CN (1) | CN100578614C (pt) |
AT (1) | ATE398325T1 (pt) |
AU (1) | AU2004201992B2 (pt) |
BR (1) | BRPI0401850B1 (pt) |
CA (1) | CA2467220C (pt) |
DE (1) | DE602004014316D1 (pt) |
HK (1) | HK1071466A1 (pt) |
MX (1) | MXPA04005122A (pt) |
MY (1) | MY142974A (pt) |
RU (1) | RU2349969C2 (pt) |
TW (1) | TWI376681B (pt) |
ZA (1) | ZA200403492B (pt) |
Families Citing this family (249)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU6630800A (en) * | 1999-08-13 | 2001-03-13 | Pixo, Inc. | Methods and apparatuses for display and traversing of links in page character array |
US8645137B2 (en) * | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US9134760B2 (en) | 2000-07-17 | 2015-09-15 | Microsoft Technology Licensing, Llc | Changing power mode based on sensors in a device |
US7249018B2 (en) * | 2001-01-12 | 2007-07-24 | International Business Machines Corporation | System and method for relating syntax and semantics for a conversational speech application |
ITFI20010199A1 (it) * | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US20080313282A1 (en) | 2002-09-10 | 2008-12-18 | Warila Bruce W | User interface, operating system and architecture |
US7386449B2 (en) * | 2002-12-11 | 2008-06-10 | Voice Enabling Systems Technology Inc. | Knowledge-based flexible natural speech dialogue system |
US7426329B2 (en) | 2003-03-06 | 2008-09-16 | Microsoft Corporation | Systems and methods for receiving, storing, and rendering digital video, music, and pictures on a personal media player |
US7669134B1 (en) | 2003-05-02 | 2010-02-23 | Apple Inc. | Method and apparatus for displaying information during an instant messaging session |
US7966188B2 (en) * | 2003-05-20 | 2011-06-21 | Nuance Communications, Inc. | Method of enhancing voice interactions using visual messages |
US8301436B2 (en) * | 2003-05-29 | 2012-10-30 | Microsoft Corporation | Semantic object synchronous understanding for highly interactive interface |
US7532196B2 (en) * | 2003-10-30 | 2009-05-12 | Microsoft Corporation | Distributed sensing techniques for mobile devices |
US7739117B2 (en) * | 2004-09-20 | 2010-06-15 | International Business Machines Corporation | Method and system for voice-enabled autofill |
US20060155530A1 (en) * | 2004-12-14 | 2006-07-13 | International Business Machines Corporation | Method and apparatus for generation of text documents |
TWI276046B (en) * | 2005-02-18 | 2007-03-11 | Delta Electronics Inc | Distributed language processing system and method of transmitting medium information therefore |
US20060247925A1 (en) * | 2005-04-27 | 2006-11-02 | International Business Machines Corporation | Virtual push-to-talk |
US20060277525A1 (en) * | 2005-06-06 | 2006-12-07 | Microsoft Corporation | Lexical, grammatical, and semantic inference mechanisms |
JP4733436B2 (ja) * | 2005-06-07 | 2011-07-27 | 日本電信電話株式会社 | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US7636794B2 (en) | 2005-10-31 | 2009-12-22 | Microsoft Corporation | Distributed sensing techniques for mobile devices |
US7817991B2 (en) * | 2006-02-14 | 2010-10-19 | Microsoft Corporation | Dynamic interconnection of mobile devices |
US7865357B2 (en) * | 2006-03-14 | 2011-01-04 | Microsoft Corporation | Shareable filler model for grammar authoring |
US8032375B2 (en) * | 2006-03-17 | 2011-10-04 | Microsoft Corporation | Using generic predictive models for slot values in language modeling |
US7752152B2 (en) * | 2006-03-17 | 2010-07-06 | Microsoft Corporation | Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling |
US7689420B2 (en) * | 2006-04-06 | 2010-03-30 | Microsoft Corporation | Personalizing a context-free grammar using a dictation language model |
US20070239453A1 (en) * | 2006-04-06 | 2007-10-11 | Microsoft Corporation | Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances |
US7797672B2 (en) * | 2006-05-30 | 2010-09-14 | Motorola, Inc. | Statechart generation using frames |
US7505951B2 (en) * | 2006-05-30 | 2009-03-17 | Motorola, Inc. | Hierarchical state machine generation for interaction management using goal specifications |
US7493293B2 (en) * | 2006-05-31 | 2009-02-17 | International Business Machines Corporation | System and method for extracting entities of interest from text using n-gram models |
US8140267B2 (en) * | 2006-06-30 | 2012-03-20 | International Business Machines Corporation | System and method for identifying similar molecules |
US8346555B2 (en) * | 2006-08-22 | 2013-01-01 | Nuance Communications, Inc. | Automatic grammar tuning using statistical language model generation |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8019595B1 (en) | 2006-09-11 | 2011-09-13 | WordRake Holdings, LLC | Computer processes for analyzing and improving document readability |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US8515733B2 (en) * | 2006-10-18 | 2013-08-20 | Calculemus B.V. | Method, device, computer program and computer program product for processing linguistic data in accordance with a formalized natural language |
ES2302640B1 (es) * | 2006-12-21 | 2009-05-21 | Juan Jose Bermudez Perez | Sistema para la interaccion mediante voz en paginas web. |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US7912828B2 (en) * | 2007-02-23 | 2011-03-22 | Apple Inc. | Pattern searching methods and apparatuses |
US8977255B2 (en) * | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
ITFI20070177A1 (it) | 2007-07-26 | 2009-01-27 | Riccardo Vieri | Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento. |
US8074199B2 (en) * | 2007-09-24 | 2011-12-06 | Microsoft Corporation | Unified messaging state machine |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8165886B1 (en) | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8364694B2 (en) | 2007-10-26 | 2013-01-29 | Apple Inc. | Search assistant for digital media assets |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US8386260B2 (en) * | 2007-12-31 | 2013-02-26 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US8370160B2 (en) * | 2007-12-31 | 2013-02-05 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8327272B2 (en) | 2008-01-06 | 2012-12-04 | Apple Inc. | Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8289283B2 (en) | 2008-03-04 | 2012-10-16 | Apple Inc. | Language input interface on a device |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US20100082328A1 (en) * | 2008-09-29 | 2010-04-01 | Apple Inc. | Systems and methods for speech preprocessing in text to speech synthesis |
US8352268B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US8396714B2 (en) * | 2008-09-29 | 2013-03-12 | Apple Inc. | Systems and methods for concatenation of words in text to speech synthesis |
US8352272B2 (en) * | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for text to speech synthesis |
US8355919B2 (en) * | 2008-09-29 | 2013-01-15 | Apple Inc. | Systems and methods for text normalization for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US8380507B2 (en) * | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
GB0905457D0 (en) | 2009-03-30 | 2009-05-13 | Touchtype Ltd | System and method for inputting text into electronic devices |
US9189472B2 (en) | 2009-03-30 | 2015-11-17 | Touchtype Limited | System and method for inputting text into small screen devices |
US9424246B2 (en) | 2009-03-30 | 2016-08-23 | Touchtype Ltd. | System and method for inputting text into electronic devices |
GB0917753D0 (en) | 2009-10-09 | 2009-11-25 | Touchtype Ltd | System and method for inputting text into electronic devices |
US10191654B2 (en) | 2009-03-30 | 2019-01-29 | Touchtype Limited | System and method for inputting text into electronic devices |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US8412531B2 (en) * | 2009-06-10 | 2013-04-02 | Microsoft Corporation | Touch anywhere to speak |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US20110010179A1 (en) * | 2009-07-13 | 2011-01-13 | Naik Devang K | Voice synthesis and processing |
KR20110036385A (ko) * | 2009-10-01 | 2011-04-07 | 삼성전자주식회사 | 사용자 의도 분석 장치 및 방법 |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US9104670B2 (en) | 2010-07-21 | 2015-08-11 | Apple Inc. | Customized search or acquisition of digital media assets |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
TWI423044B (zh) * | 2010-10-25 | 2014-01-11 | Univ Nat Taiwan Science Tech | 基於普及運算的意見交流方法與系統 |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US8983995B2 (en) * | 2011-04-15 | 2015-03-17 | Microsoft Corporation | Interactive semantic query suggestion for content search |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US20130204619A1 (en) * | 2012-02-03 | 2013-08-08 | Kextil, Llc | Systems and methods for voice-guided operations |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9294539B2 (en) | 2013-03-14 | 2016-03-22 | Microsoft Technology Licensing, Llc | Cooperative federation of digital devices via proxemics and device micro-mobility |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
US10078487B2 (en) | 2013-03-15 | 2018-09-18 | Apple Inc. | Context-sensitive handling of interruptions |
KR101857648B1 (ko) | 2013-03-15 | 2018-05-15 | 애플 인크. | 지능형 디지털 어시스턴트에 의한 사용자 트레이닝 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
US9437186B1 (en) * | 2013-06-19 | 2016-09-06 | Amazon Technologies, Inc. | Enhanced endpoint detection for speech recognition |
US9123336B1 (en) * | 2013-06-25 | 2015-09-01 | Google Inc. | Learning parsing rules and argument identification from crowdsourcing of proposed command inputs |
US9026431B1 (en) * | 2013-07-30 | 2015-05-05 | Google Inc. | Semantic parsing with multiple parsers |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9495359B1 (en) * | 2013-08-21 | 2016-11-15 | Athena Ann Smyros | Textual geographical location processing |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US8868409B1 (en) | 2014-01-16 | 2014-10-21 | Google Inc. | Evaluating transcriptions with a semantic parser |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
EP3195145A4 (en) | 2014-09-16 | 2018-01-24 | VoiceBox Technologies Corporation | Voice commerce |
WO2016044321A1 (en) | 2014-09-16 | 2016-03-24 | Min Tang | Integration of domain information into state transitions of a finite state transducer for natural language processing |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
WO2016061309A1 (en) | 2014-10-15 | 2016-04-21 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US9836527B2 (en) * | 2016-02-24 | 2017-12-05 | Google Llc | Customized query-action mappings for an offline grammar model |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
GB201610984D0 (en) | 2016-06-23 | 2016-08-10 | Microsoft Technology Licensing Llc | Suppression of input images |
US10503808B2 (en) | 2016-07-15 | 2019-12-10 | Sap Se | Time user interface with intelligent text reduction |
US10140260B2 (en) * | 2016-07-15 | 2018-11-27 | Sap Se | Intelligent text reduction for graphical interface elements |
CN107665706B (zh) * | 2016-07-29 | 2021-05-04 | 科大讯飞股份有限公司 | 快速语音交互方法及系统 |
US10331784B2 (en) | 2016-07-29 | 2019-06-25 | Voicebox Technologies Corporation | System and method of disambiguating natural language processing requests |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
RU2648572C1 (ru) * | 2017-01-12 | 2018-03-26 | Общество с ограниченной ответственностью "Инвестиционная группа "Коперник" | Алгоритм поиска в компьютерных системах и базах данных |
US10311860B2 (en) * | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
TWI640877B (zh) * | 2017-06-14 | 2018-11-11 | 財團法人資訊工業策進會 | 語意分析裝置、方法及其電腦程式產品 |
US11037554B1 (en) * | 2017-09-12 | 2021-06-15 | Wells Fargo Bank, N.A. | Network of domain knowledge based conversational agents |
CN108010525A (zh) * | 2017-12-07 | 2018-05-08 | 横琴七弦琴知识产权服务有限公司 | 一种语音控制智能抽屉系统 |
CN108133701B (zh) * | 2017-12-25 | 2021-11-12 | 江苏木盟智能科技有限公司 | 一种机器人语音交互的系统与方法 |
CN109994105A (zh) * | 2017-12-29 | 2019-07-09 | 宝马股份公司 | 信息输入方法、装置、系统、车辆以及可读存储介质 |
CN108831482A (zh) * | 2018-08-24 | 2018-11-16 | 深圳市云采网络科技有限公司 | 一种基于语音识别搜索电子元器件的方法 |
US11430433B2 (en) | 2019-05-05 | 2022-08-30 | Microsoft Technology Licensing, Llc | Meeting-adapted language model for speech recognition |
CN110379428A (zh) * | 2019-07-16 | 2019-10-25 | 维沃移动通信有限公司 | 一种信息处理方法及终端设备 |
CN110619873A (zh) | 2019-08-16 | 2019-12-27 | 北京小米移动软件有限公司 | 音频处理方法、装置及存储介质 |
CN113223510B (zh) * | 2020-01-21 | 2022-09-20 | 青岛海尔电冰箱有限公司 | 冰箱及其设备语音交互方法、计算机可读存储介质 |
Family Cites Families (119)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2981254A (en) * | 1957-11-12 | 1961-04-25 | Edwin G Vanderbilt | Apparatus for the gas deflation of an animal's stomach |
US3657744A (en) * | 1970-05-08 | 1972-04-25 | Univ Minnesota | Method for fixing prosthetic implants in a living body |
US3788327A (en) * | 1971-03-30 | 1974-01-29 | H Donowitz | Surgical implant device |
US3874388A (en) * | 1973-02-12 | 1975-04-01 | Ochsner Med Found Alton | Shunt defect closure system |
US4014318A (en) * | 1973-08-20 | 1977-03-29 | Dockum James M | Circulatory assist device and system |
US4086665A (en) * | 1976-12-16 | 1978-05-02 | Thermo Electron Corporation | Artificial blood conduit |
US4212463A (en) * | 1978-02-17 | 1980-07-15 | Pratt Enoch B | Humane bleeder arrow |
DE3019996A1 (de) * | 1980-05-24 | 1981-12-03 | Institute für Textil- und Faserforschung Stuttgart, 7410 Reutlingen | Hohlorgan |
US4808183A (en) * | 1980-06-03 | 1989-02-28 | University Of Iowa Research Foundation | Voice button prosthesis and method for installing same |
WO1986002845A1 (en) * | 1984-11-15 | 1986-05-22 | Stefano Nazari | Device for selective bronchial intubation and separate lung ventilation |
ES8705239A1 (es) * | 1984-12-05 | 1987-05-01 | Medinvent Sa | Un dispositivo para implantar,mediante insercion en un lugarde dificil acceso, una protesis sustancialmente tubular y radialmente expandible |
US4759758A (en) * | 1984-12-07 | 1988-07-26 | Shlomo Gabbay | Prosthetic heart valve |
US4831550A (en) * | 1986-03-27 | 1989-05-16 | International Business Machines Corporation | Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events |
US4832680A (en) * | 1986-07-03 | 1989-05-23 | C.R. Bard, Inc. | Apparatus for hypodermically implanting a genitourinary prosthesis |
US4795449A (en) * | 1986-08-04 | 1989-01-03 | Hollister Incorporated | Female urinary incontinence device |
US4852568A (en) * | 1987-02-17 | 1989-08-01 | Kensey Nash Corporation | Method and apparatus for sealing an opening in tissue of a living being |
DE3723078A1 (de) | 1987-07-11 | 1989-01-19 | Philips Patentverwaltung | Verfahren zur erkennung von zusammenhaengend gesprochenen woertern |
DE3821631A1 (de) * | 1987-07-28 | 1989-02-09 | Bader Paul | Verschluss fuer eine maennliche harnroehre |
DE3739681A1 (de) * | 1987-11-24 | 1989-06-08 | Philips Patentverwaltung | Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens |
US4830003A (en) * | 1988-06-17 | 1989-05-16 | Wolff Rodney G | Compressive stent and delivery system |
JP2710355B2 (ja) * | 1988-09-20 | 1998-02-10 | 日本ゼオン株式会社 | 医用弁装置 |
US4846836A (en) * | 1988-10-03 | 1989-07-11 | Reich Jonathan D | Artificial lower gastrointestinal valve |
DE3834545A1 (de) * | 1988-10-11 | 1990-04-12 | Rau Guenter | Flexibles schliessorgan, insbesondere herzklappe, und verfahren zur herstellung desselben |
CA2054728C (en) * | 1989-05-31 | 2003-07-29 | Rodolfo C. Quijano | Biological valvular prosthesis |
US5263117A (en) | 1989-10-26 | 1993-11-16 | International Business Machines Corporation | Method and apparatus for finding the best splits in a decision tree for a language model for a speech recognizer |
DK124690D0 (da) * | 1990-05-18 | 1990-05-18 | Henning Rud Andersen | Klapprotes til implantering i kroppen for erstatning af naturlig klap samt kateter til brug ved implantering af en saadan klapprotese |
US5411552A (en) * | 1990-05-18 | 1995-05-02 | Andersen; Henning R. | Valve prothesis for implantation in the body and a catheter for implanting such valve prothesis |
US5193525A (en) * | 1990-11-30 | 1993-03-16 | Vision Sciences | Antiglare tip in a sheath for an endoscope |
US5116360A (en) * | 1990-12-27 | 1992-05-26 | Corvita Corporation | Mesh composite graft |
US5477451A (en) | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
US5123919A (en) * | 1991-11-21 | 1992-06-23 | Carbomedics, Inc. | Combined prosthetic aortic heart valve and vascular graft |
DE69324239T2 (de) * | 1992-01-21 | 1999-11-04 | The Regents Of The University Of Minnesota, Minneapolis | Verschlusseinrichtung eines septumschadens |
US5329887A (en) * | 1992-04-03 | 1994-07-19 | Vision Sciences, Incorporated | Endoscope control assembly with removable control knob/brake assembly |
US5502774A (en) * | 1992-06-09 | 1996-03-26 | International Business Machines Corporation | Automatic recognition of a consistent message using multiple complimentary sources of information |
US5382261A (en) * | 1992-09-01 | 1995-01-17 | Expandable Grafts Partnership | Method and apparatus for occluding vessels |
JP3378595B2 (ja) * | 1992-09-30 | 2003-02-17 | 株式会社日立製作所 | 音声対話システムおよびその対話進行制御方法 |
US5409019A (en) * | 1992-10-30 | 1995-04-25 | Wilk; Peter J. | Coronary artery by-pass method |
US5419310A (en) * | 1992-11-03 | 1995-05-30 | Vision Sciences, Inc. | Partially inflated protective endoscope sheath |
US5384892A (en) * | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
US5306234A (en) * | 1993-03-23 | 1994-04-26 | Johnson W Dudley | Method for closing an atrial appendage |
US5447148A (en) * | 1993-07-08 | 1995-09-05 | Vision Sciences, Inc. | Endoscopic contamination protection system to facilitate cleaning of endoscopes |
DE69423838T2 (de) | 1993-09-23 | 2000-08-03 | Xerox Corp., Rochester | Semantische Gleichereignisfilterung für Spracherkennung und Signalübersetzungsanwendungen |
US5615296A (en) * | 1993-11-12 | 1997-03-25 | International Business Machines Corporation | Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors |
US5483951A (en) * | 1994-02-25 | 1996-01-16 | Vision-Sciences, Inc. | Working channels for a disposable sheath for an endoscope |
US5520607A (en) * | 1994-03-04 | 1996-05-28 | Vision Sciences, Inc. | Holding tray and clamp assembly for an endoscopic sheath |
US5499995C1 (en) * | 1994-05-25 | 2002-03-12 | Paul S Teirstein | Body passageway closure apparatus and method of use |
US5417226A (en) * | 1994-06-09 | 1995-05-23 | Juma; Saad | Female anti-incontinence device |
US5675819A (en) | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
US5752052A (en) * | 1994-06-24 | 1998-05-12 | Microsoft Corporation | Method and system for bootstrapping statistical processing into a rule-based natural language parser |
US5755770A (en) * | 1995-01-31 | 1998-05-26 | Boston Scientific Corporatiion | Endovascular aortic graft |
US5689617A (en) | 1995-03-14 | 1997-11-18 | Apple Computer, Inc. | Speech recognition system which returns recognition results as a reconstructed language model with attached data values |
IT1279171B1 (it) * | 1995-03-17 | 1997-12-04 | Ist Trentino Di Cultura | Sistema di riconoscimento di parlato continuo |
DE29507519U1 (de) * | 1995-05-05 | 1995-08-10 | Angiomed Ag, 76227 Karlsruhe | Endosphinkter und Set zum freigebbaren Verschließen der Urethra |
US5710866A (en) * | 1995-05-26 | 1998-01-20 | Microsoft Corporation | System and method for speech recognition using dynamically adjusted confidence measure |
US5667476A (en) * | 1995-06-05 | 1997-09-16 | Vision-Sciences, Inc. | Endoscope articulation system to reduce effort during articulation of an endoscope |
US5680511A (en) | 1995-06-07 | 1997-10-21 | Dragon Systems, Inc. | Systems and methods for word recognition |
US5645565A (en) * | 1995-06-13 | 1997-07-08 | Ethicon Endo-Surgery, Inc. | Surgical plug |
KR19990064209A (ko) * | 1995-10-13 | 1999-07-26 | 트랜스바스큘라, 인코포레이티드 | 간질성 경혈관 개입을 위한 장치, 시스템 및 방법 |
JPH09114488A (ja) * | 1995-10-16 | 1997-05-02 | Sony Corp | 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車 |
JP3126985B2 (ja) * | 1995-11-04 | 2001-01-22 | インターナシヨナル・ビジネス・マシーンズ・コーポレーション | 音声認識システムの言語モデルのサイズを適応させるための方法および装置 |
US6567778B1 (en) * | 1995-12-21 | 2003-05-20 | Nuance Communications | Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores |
US5913193A (en) * | 1996-04-30 | 1999-06-15 | Microsoft Corporation | Method and system of runtime acoustic unit selection for speech synthesis |
US5937384A (en) | 1996-05-01 | 1999-08-10 | Microsoft Corporation | Method and system for speech recognition using continuous density hidden Markov models |
ATE285812T1 (de) * | 1996-05-20 | 2005-01-15 | Medtronic Percusurge Inc | Katheterventil mit niedrigem profil |
DE69719237T2 (de) * | 1996-05-23 | 2003-11-27 | Samsung Electronics Co., Ltd. | Flexibler, selbstexpandierbarer Stent und Verfahren zu dessen Herstellung |
US5835888A (en) | 1996-06-10 | 1998-11-10 | International Business Machines Corporation | Statistical language model for inflected languages |
KR980000327U (ko) * | 1996-06-13 | 1998-03-30 | 이정행 | 귀걸이 설치용 귀걸이홀 성형구 |
US5855601A (en) * | 1996-06-21 | 1999-01-05 | The Trustees Of Columbia University In The City Of New York | Artificial heart valve and method and device for implanting the same |
US5963903A (en) | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Method and system for dynamically adjusted training for speech recognition |
US5685822A (en) * | 1996-08-08 | 1997-11-11 | Vision-Sciences, Inc. | Endoscope with sheath retaining device |
US5782916A (en) * | 1996-08-13 | 1998-07-21 | Galt Laboratories, Inc. | Device for maintaining urinary continence |
JPH1097280A (ja) * | 1996-09-19 | 1998-04-14 | Hitachi Ltd | 音声画像認識翻訳装置 |
US5819220A (en) | 1996-09-30 | 1998-10-06 | Hewlett-Packard Company | Web triggered word set boosting for speech interfaces to the world wide web |
US5905972A (en) * | 1996-09-30 | 1999-05-18 | Microsoft Corporation | Prosodic databases holding fundamental frequency templates for use in speech synthesis |
US5829000A (en) | 1996-10-31 | 1998-10-27 | Microsoft Corporation | Method and system for correcting misrecognized spoken words or phrases |
GB9701866D0 (en) | 1997-01-30 | 1997-03-19 | British Telecomm | Information retrieval |
DE19708183A1 (de) | 1997-02-28 | 1998-09-03 | Philips Patentverwaltung | Verfahren zur Spracherkennung mit Sprachmodellanpassung |
US6200333B1 (en) * | 1997-04-07 | 2001-03-13 | Broncus Technologies, Inc. | Bronchial stenter |
US6083255A (en) * | 1997-04-07 | 2000-07-04 | Broncus Technologies, Inc. | Bronchial stenter |
US6245102B1 (en) * | 1997-05-07 | 2001-06-12 | Iowa-India Investments Company Ltd. | Stent, stent graft and stent valve |
US5855597A (en) * | 1997-05-07 | 1999-01-05 | Iowa-India Investments Co. Limited | Stent valve and stent graft for percutaneous surgery |
US6073091A (en) * | 1997-08-06 | 2000-06-06 | International Business Machines Corporation | Apparatus and method for forming a filtered inflected language model for automatic speech recognition |
US5954766A (en) * | 1997-09-16 | 1999-09-21 | Zadno-Azizi; Gholam-Reza | Body fluid flow control device |
US6154722A (en) | 1997-12-18 | 2000-11-28 | Apple Computer, Inc. | Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability |
EP0941713B1 (de) * | 1998-03-04 | 2004-11-03 | Schneider (Europe) GmbH | Vorrichtung zum Einführen einer Endoprothese in einen Katheterschaft |
US6182039B1 (en) * | 1998-03-24 | 2001-01-30 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus using probabilistic language model based on confusable sets for speech recognition |
US6141641A (en) | 1998-04-15 | 2000-10-31 | Microsoft Corporation | Dynamically configurable acoustic model for speech recognition system |
US6009614A (en) * | 1998-04-21 | 2000-01-04 | Advanced Cardiovascular Systems, Inc. | Stent crimping tool and method of use |
US5974652A (en) * | 1998-05-05 | 1999-11-02 | Advanced Cardiovascular Systems, Inc. | Method and apparatus for uniformly crimping a stent onto a catheter |
US6174323B1 (en) * | 1998-06-05 | 2001-01-16 | Broncus Technologies, Inc. | Method and assembly for lung volume reduction |
US6188976B1 (en) * | 1998-10-23 | 2001-02-13 | International Business Machines Corporation | Apparatus and method for building domain-specific language models |
US6174280B1 (en) * | 1998-11-19 | 2001-01-16 | Vision Sciences, Inc. | Sheath for protecting and altering the bending characteristics of a flexible endoscope |
US6020380A (en) * | 1998-11-25 | 2000-02-01 | Tap Holdings Inc. | Method of treating chronic obstructive pulmonary disease |
US6051022A (en) * | 1998-12-30 | 2000-04-18 | St. Jude Medical, Inc. | Bileaflet valve having non-parallel pivot axes |
US6350231B1 (en) * | 1999-01-21 | 2002-02-26 | Vision Sciences, Inc. | Apparatus and method for forming thin-walled elastic components from an elastomeric material |
US6530881B1 (en) * | 1999-01-21 | 2003-03-11 | Vision Sciences, Inc. | Sheath apparatus for endoscopes and methods for forming same |
US6081799A (en) * | 1999-05-05 | 2000-06-27 | International Business Machines Corporation | Executing complex SQL queries using index screening for conjunct or disjunct index operations |
US6206918B1 (en) * | 1999-05-12 | 2001-03-27 | Sulzer Carbomedics Inc. | Heart valve prosthesis having a pivot design for improving flow characteristics |
US6234996B1 (en) * | 1999-06-23 | 2001-05-22 | Percusurge, Inc. | Integrated inflation/deflation device and method |
US6287290B1 (en) * | 1999-07-02 | 2001-09-11 | Pulmonx | Methods, systems, and kits for lung volume reduction |
US6712812B2 (en) * | 1999-08-05 | 2004-03-30 | Broncus Technologies, Inc. | Devices for creating collateral channels |
US6190330B1 (en) * | 1999-08-09 | 2001-02-20 | Vision-Sciences, Inc. | Endoscopic location and vacuum assembly and method |
US6416554B1 (en) * | 1999-08-24 | 2002-07-09 | Spiration, Inc. | Lung reduction apparatus and method |
US6293951B1 (en) * | 1999-08-24 | 2001-09-25 | Spiration, Inc. | Lung reduction device, system, and method |
US6402754B1 (en) * | 1999-10-20 | 2002-06-11 | Spiration, Inc. | Apparatus for expanding the thorax |
US6398775B1 (en) * | 1999-10-21 | 2002-06-04 | Pulmonx | Apparatus and method for isolated lung access |
US6510846B1 (en) * | 1999-12-23 | 2003-01-28 | O'rourke Sam | Sealed back pressure breathing device |
US6865528B1 (en) * | 2000-06-01 | 2005-03-08 | Microsoft Corporation | Use of a unified language model |
AU2001275974A1 (en) * | 2000-07-19 | 2002-01-30 | University Of Florida | Method for treating chronic obstructive pulmonary disorder |
TW472232B (en) * | 2000-08-11 | 2002-01-11 | Ind Tech Res Inst | Probability-base fault-tolerance natural language understanding method |
US6785651B1 (en) | 2000-09-14 | 2004-08-31 | Microsoft Corporation | Method and apparatus for performing plan-based dialog |
US6527761B1 (en) * | 2000-10-27 | 2003-03-04 | Pulmonx, Inc. | Methods and devices for obstructing and aspirating lung tissue segments |
EP1410381A4 (en) * | 2001-05-04 | 2005-10-19 | Unisys Corp | DYNAMIC GENERATION OF VOICE APPLICATION INFORMATION FROM A WEB SERVER |
JP4602602B2 (ja) * | 2001-07-19 | 2010-12-22 | オリンパス株式会社 | 医療器具 |
US20030018327A1 (en) * | 2001-07-20 | 2003-01-23 | Csaba Truckai | Systems and techniques for lung volume reduction |
JP4094255B2 (ja) * | 2001-07-27 | 2008-06-04 | 日本電気株式会社 | コマンド入力機能つきディクテーション装置 |
US20030050648A1 (en) * | 2001-09-11 | 2003-03-13 | Spiration, Inc. | Removable lung reduction devices, systems, and methods |
US6592594B2 (en) * | 2001-10-25 | 2003-07-15 | Spiration, Inc. | Bronchial obstruction device deployment system and method |
JP4000828B2 (ja) * | 2001-11-06 | 2007-10-31 | 株式会社デンソー | 情報システム、電子機器、プログラム |
-
2003
- 2003-05-29 US US10/448,018 patent/US7200559B2/en active Active
-
2004
- 2004-05-07 ZA ZA200403492A patent/ZA200403492B/en unknown
- 2004-05-11 AU AU2004201992A patent/AU2004201992B2/en not_active Ceased
- 2004-05-12 MY MYPI20041762A patent/MY142974A/en unknown
- 2004-05-12 AT AT04011317T patent/ATE398325T1/de not_active IP Right Cessation
- 2004-05-12 EP EP04011317A patent/EP1482481B1/en not_active Expired - Lifetime
- 2004-05-12 EP EP08010531A patent/EP1970897A1/en not_active Ceased
- 2004-05-12 DE DE602004014316T patent/DE602004014316D1/de not_active Expired - Lifetime
- 2004-05-13 CA CA2467220A patent/CA2467220C/en not_active Expired - Fee Related
- 2004-05-20 TW TW093114299A patent/TWI376681B/zh not_active IP Right Cessation
- 2004-05-27 BR BRPI0401850A patent/BRPI0401850B1/pt not_active IP Right Cessation
- 2004-05-27 JP JP2004158360A patent/JP4768970B2/ja not_active Expired - Fee Related
- 2004-05-28 MX MXPA04005122A patent/MXPA04005122A/es active IP Right Grant
- 2004-05-28 KR KR1020040038497A patent/KR101042119B1/ko active IP Right Grant
- 2004-05-28 RU RU2004116304/09A patent/RU2349969C2/ru not_active IP Right Cessation
- 2004-05-28 CN CN200410059568A patent/CN100578614C/zh not_active Expired - Fee Related
-
2005
- 2005-05-13 HK HK05104043A patent/HK1071466A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
RU2349969C2 (ru) | 2009-03-20 |
AU2004201992A1 (en) | 2004-12-16 |
EP1970897A1 (en) | 2008-09-17 |
JP4768970B2 (ja) | 2011-09-07 |
TW200515369A (en) | 2005-05-01 |
BRPI0401850A (pt) | 2005-03-08 |
EP1482481B1 (en) | 2008-06-11 |
KR101042119B1 (ko) | 2011-06-17 |
JP2004355630A (ja) | 2004-12-16 |
TWI376681B (en) | 2012-11-11 |
RU2004116304A (ru) | 2005-11-10 |
EP1482481A1 (en) | 2004-12-01 |
DE602004014316D1 (de) | 2008-07-24 |
ATE398325T1 (de) | 2008-07-15 |
MXPA04005122A (es) | 2005-02-17 |
MY142974A (en) | 2011-01-31 |
CN100578614C (zh) | 2010-01-06 |
CN1573928A (zh) | 2005-02-02 |
US7200559B2 (en) | 2007-04-03 |
CA2467220A1 (en) | 2004-11-29 |
KR20040103445A (ko) | 2004-12-08 |
US20040243393A1 (en) | 2004-12-02 |
ZA200403492B (en) | 2006-04-26 |
CA2467220C (en) | 2014-07-08 |
HK1071466A1 (en) | 2005-07-15 |
AU2004201992B2 (en) | 2009-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BRPI0401850B1 (pt) | compreensão síncrona de objeto semântico, implementada com identificadores de linguagem para aplicativos de fala | |
JP4768969B2 (ja) | 高度対話型インターフェースに対する理解同期意味オブジェクト | |
US8311835B2 (en) | Assisted multi-modal dialogue | |
US20030130854A1 (en) | Application abstraction with dialog purpose | |
JP2003131772A (ja) | Webで使用可能な認識のためのマークアップ言語拡張部 | |
WO2003036930A1 (en) | Web server controls for web enabled recognition and/or audible prompting | |
WO2019169722A1 (zh) | 快捷键识别方法、装置、设备以及计算机可读存储介质 | |
JP4467226B2 (ja) | ウェブ対応音声認識用サーバの方法および記録媒体 | |
Tomko et al. | Towards efficient human machine speech communication: The speech graffiti project | |
Wang | Semantic object synchronous understanding in SALT for highly interactive user interface. | |
Milhorat | An open-source framework for supporting the design and implementation of natural-language spoken dialog systems | |
Habeeb et al. | Design module for speech recognition graphical user interface browser to supports the web speech applications | |
Deng et al. | A speech-centric perspective for human-computer interface | |
Spiros | Multimodal System for Preschool Children | |
Molapo | Implementing a distributed approach for speech resource and system development | |
Branco et al. | A Portuguese spoken and multi-modal dialog corpora. | |
Beskow et al. | Modal Dialogue System Output Applied to an Animated Talking Head. To appear in Minker, W., Bühler, D. and Dybkj r, T.(Eds) Spoken Multimodal Human-Computer Dialogue in Mobile Envirnonments. Dordrech, The Netherlands: Kluwer Academic Publishers. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B25A | Requested transfer of rights approved |
Owner name: MICROSOFT TECHNOLOGY LICENSING, LLC (US) |
|
B06A | Patent application procedure suspended [chapter 6.1 patent gazette] | ||
B06A | Patent application procedure suspended [chapter 6.1 patent gazette] | ||
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 11/09/2018, OBSERVADAS AS CONDICOES LEGAIS. |
|
B21F | Lapse acc. art. 78, item iv - on non-payment of the annual fees in time |
Free format text: REFERENTE A 17A ANUIDADE. |
|
B24J | Lapse because of non-payment of annual fees (definitively: art 78 iv lpi, resolution 113/2013 art. 12) |
Free format text: EM VIRTUDE DA EXTINCAO PUBLICADA NA RPI 2622 DE 06-04-2021 E CONSIDERANDO AUSENCIA DE MANIFESTACAO DENTRO DOS PRAZOS LEGAIS, INFORMO QUE CABE SER MANTIDA A EXTINCAO DA PATENTE E SEUS CERTIFICADOS, CONFORME O DISPOSTO NO ARTIGO 12, DA RESOLUCAO 113/2013. |