BRPI0401850B1 - compreensão síncrona de objeto semântico, implementada com identificadores de linguagem para aplicativos de fala - Google Patents

compreensão síncrona de objeto semântico, implementada com identificadores de linguagem para aplicativos de fala Download PDF

Info

Publication number
BRPI0401850B1
BRPI0401850B1 BRPI0401850A BRPI0401850A BRPI0401850B1 BR PI0401850 B1 BRPI0401850 B1 BR PI0401850B1 BR PI0401850 A BRPI0401850 A BR PI0401850A BR PI0401850 A BRPI0401850 A BR PI0401850A BR PI0401850 B1 BRPI0401850 B1 BR PI0401850B1
Authority
BR
Brazil
Prior art keywords
input
language model
semantic
recognition
speech
Prior art date
Application number
BRPI0401850A
Other languages
English (en)
Inventor
Wang Kuansan
Original Assignee
Microsoft Corp
Microsoft Technology Licensing Llc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp, Microsoft Technology Licensing Llc filed Critical Microsoft Corp
Publication of BRPI0401850A publication Critical patent/BRPI0401850A/pt
Publication of BRPI0401850B1 publication Critical patent/BRPI0401850B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephone Function (AREA)

Abstract

"compreensão síncrona de objeto semântico, implementada com identificadores de linguagem para aplicativos de fala". trata-se de um sistema de compreensão de fala que inclui um modelo de linguagem que compreende uma combinação de um modelo de linguagem n-grama e um modelo de linguagem de gramática livre de contexto. o modelo de linguagem armazena informações relacionadas a palavras e informações semânticas para serem reconhecidas. um módulo é adaptado para receber entrada proveniente de um usuário e capturar a entrada para processamento. o módulo é adicionalmente adaptado para receber interfaces de programa aplicativo salt referentes a reconhecimento da entrada. o módulo é configurado para processar as interfaces de programa aplicativo salt e a entrada para verificar a informação semântica referente a uma primeira parte da entrada e liberar um objeto semântico compreendendo texto e informação semântica para a primeira parte por meio do acesso ao modelo de linguagem, em que a realização de reconhecimento e liberação do objeto semântico são executadas enquanto continua a captura por partes subseqüentes da entrada.

Description

(54) Título: COMPREENSÃO SÍNCRONA DE OBJETO SEMÂNTICO, IMPLEMENTADA COM IDENTIFICADORES DE LINGUAGEM PARA APLICATIVOS DE FALA (51) Int.CI.: G10L 15/22 (30) Prioridade Unionista: 29/05/2003 US 10/448.018 (73) Titular(es): MICROSOFT TECHNOLOGY LICENSING, LLC (72) Inventor(es): KUANSAN WANG (85) Data do Início da Fase Nacional: 27/05/2004
SÍNCRONA DE
COMPREENSÃO
IMPLEMENTADA COM IDENTIFICADORES
APLICATIVOS DE FALA
OBJETO SEMÂNTICO,
DE LI NGUAGEM PARA
Fundamentos da Invenção
A presente invenção refere-se a acesso e apresentação de informações em um sistema computacional. Mais particularmente, a presente invenção se refere a acesso de informações com o uso de reconhecimento e compreensão.
Recentemente, a tecnologia tem avançado de modo que permita que o usuário tenha acesso a informações em um sistema computacional ao fornecer comandos de fala. Quando
da recepção do comando de um usuário, o sistema computacio-
nal realiza o reconhecimento de fala na entrada do usuário
e, adicionalmente, processa a entrada de modo a averiguar a
intenção do usuário, de modo que o sistema computacional realize a ação desejada.
Em algumas situações, a entrada fornecida pelo usuário é incompleta ou indefinida, o que irá requerer que o sistema computacional solicite mais informações do usuário, seja na forma de solicitações visuais, seja na forma de solicitações audíveis. Deste modo, pode ser estabelecido um diálogo entre o usuário e o sistema computacional, onde cada um reveza fazendo perguntas, dando respostas e/ou autorizações até a intenção do usuário ser determinada e uma ação poder ser realizada. Em outras situações, criar tal diálogo é o modo preferido para interagir com o sistema computacional .
Os Identificadores de Linguagem para Aplicativos
Figure BRPI0401850B1_D0001
Figure BRPI0401850B1_D0002
Figure BRPI0401850B1_D0003
e de Fala (SALT - Speech Application Language Tags) foram introduzidos para facilitar a fala como uma modalidade viável de entrada/saída para projetos modernos de interface com o usuário. A meta de projeto para SALT é tornar simples a programação de tarefas de fala comuns, permitindo ainda capacidades avançadas com realização direta. SALT foi projetado para muitos aplicativos. Um deles é, por exemplo, um aplicativo apenas de fala baseado em telefone que apenas interage com usuários exclusivamente através de diálogo falado.
SALT inclui objetos de entrada e saída de fala (ouvir e solicitar), os quais têm um projeto de modo para incorporar tecnologias para detectar o início e o fim da vez do usuário. Sendo assim, muitos aplicativos de fala empregam interfaces com o usuário que requerem que o usuário sinalize o início da vez do usuário. Alguns sistemas computacionais incluem dispositivos utilizáveis por computadores, modais habilitados por fala ou multimodais (entrada de fala fornecida a campos selecionados por um dispositivo de entrada, tal como um mouse) , e outros aplicativos livres de olhos. No entanto, em cada um destes ambientes, uma definição de corte clara no usuário versus a vez do sistema computacional no diálogo, ainda está presente.
Entretanto, a conversação humana não segue, de modo geral, um diálogo de revezamento com corte claro entre os participantes. Ao invés disso, as conversações podem incluir reconhecimentos, confirmações, perguntas de um participante, etc., enquanto o outro está fornecendo informações que podem afetar drasticamente, afetar levemente ou nem mesmo afetar a
Figure BRPI0401850B1_D0004
• « · · · maneira pela qual o interlocutor está fornecendo informações. Interlocutores humanos desfrutam desta forma natural de conversação. De modo similar, sistemas telefônicos empregam tecnologia duplex completa de modo a permitir que ocorra tal conversação.
Por outro lado, interfaces baseadas em diálogo empregam um modo de operação de revezamento rígido entre um usuário e um sistema computacional, o que faz com que o sistema computacional espere pelo final do diálogo do usuário antes de processar e realizar a ação subsequente. Embora retornos simples, tais como indicações visuais como uma série de pontos progredindo pela tela de um computador, possam proporcionar ao usuário alguma garantia de que o sistema computacional está pelo menos processando algo, até o usuá15 rio terminar sua vez e o sistema computacional responder, não se sabe a extensão de compreensão do sistema computacional .
Por conseguinte, existe a necessidade de melhorias em um sistema computacional que sejam baseadas em reconhecimento e compreensão. Tais aperfeiçoamentos proporcionariam um sistema ou método para acesso a informações que seria mais fácil de usar por ser mais natural para o usuário. Sumário da Invenção
Um método e sistema proporcionam um modo de entrada de fala que registra dinamicamente análises semânticas parciais, enquanto a captura auditiva ainda está em progresso. A análise gramatical pode ser avaliada com um resultado imediatamente relatado de volta ao usuário.
• · · • · « · · * · · · ·
Em um aspecto, um sistema de compreensão de fala inclui um modelo de linguagem que compreende uma combinação de um modelo de linguagem N gram e um modelo de linguagem gramatical livre de contexto. 0 modelo de linguagem armazena informações relacionadas a palavras e informações semânticas a serem reconhecidas. Um módulo é adaptado para receber entradas provenientes de um usuário e capturar a entrada para processamento. O módulo é adaptado ainda para receber interfaces de programas aplicativos SALT que dizem respeito ao reconhecimento da entrada. O módulo é configurado para processar as interfaces de programa aplicativo SALT e a entrada para averiguar informações semânticas relativas a uma primeira parte da entrada e dar liberar um objeto semântico compreendendo texto e informações semânticas para a primeira parte por meio de acesso ao modelo de linguagem, em que o reconhecimento e a liberação do objeto semântico são feitos enquanto continua a captura por partes subsequentes da entrada .
Breve Descrição dos Desenhos
A Figura 1 é um diagrama de bloco de um sistema de apresentação de dados.
A Figura 2 é uma vista plana de um ambiente de operação de dispositivo de computação.
A Figura 3 é um diagrama de bloco do dispositivo de computação da Figura 2.
A Figura 4 é uma vista plana de um telefone.
A Figura 5 é um diagrama de bloco de um computador para fins gerais.
·· ···· ·a • · * « « •a aaa a a • a aaa • a a a a a • · aa a a
A Figura 6 é um diagrama de bloco de uma arquitetura para um sistema cliente/servidor.
A Figura 7 é um diagrama de bloco de um módulo de reconhecimento e compreensão de fala.
Descrição Detalhada de Modalidades Ilustrativas
A Figura 1 é um diagrama de bloco de um sistema de apresentação de dados 10 para apresentação de dados baseados em entrada de voz. 0 sistema 10 inclui um módulo de interface de fala 12, um módulo de reconhecimento e compreensão de fala 14 e um módulo de apresentação de dados 16. Um usuário fornece entradas na forma de uma consulta de voz ao módulo de interface de fala 12. 0 módulo de interface de fala 12 reúne as informações de fala oriundas de um usuário e fornece um sinal indicativo. Depois de a fala de entrada ter sido agrupada pelo módulo de interface de fala 12, o módulo de reconhecimento e compreensão de fala 14 reconhece a fala visando um reconhecedor de fala e também realiza a compreensão de fala, em que, em um aspecto da presente invenção, proporciona análises semânticas parciais da entrada até então recebida, enquanto a entrada de fala de áudio ainda está sendo capturada.
A análise semântica parcial, que tipicamente inclui o texto para a entrada recebida (ou outro dado indicativo do texto da entrada), como também informações semânti25 cas averiguadas, é fornecida a um módulo de aplicativo 16 que pode ter muitas formas diferentes. Por exemplo, em uma modalidade, o módulo de aplicativo 16 pode ser um gerenciador de informação pessoal que é usado para enviar, receber e ·· ··· · · • · · ·
Figure BRPI0401850B1_D0005
• · · • · · · ······ responder a e-mails, marcar reuniões e coisas do gênero. Desta maneira, o usuário pode fornecer comandos audíveis para realizar estas tarefas. No entanto, o mais importante é que o módulo de aplicativo 16 pode fornecer retorno interativo e/ou agir sobre as informações das análises semânticas parciais conforme elas são recebidas, deste modo, proporcionando ao usuário uma interface altamente interativa para o módulo de aplicativo 16. Por exemplo, em um modo de operação apenas de voz, uma saída 20 pode incluir declarações audíveis de retorno ao usuário, enquanto, obviamente, possívelmente realiza outras tarefas relacionadas ao aplicativo. As análises semânticas parciais ou objetos semânticos podem ser usados para executar lógica de diálogo no aplicativo. Por exemplo, a lógica de diálogo pode apresentar uma opção ou uma pluralidade ou lista de opções para o usuário, com base em um ou mais objetos semânticos.
Isso permite que o sistema registre imediatamente saídas com base em uma expressão vocal parcial, a saber, antes de a vez do usuário ter terminado. Em outras palavras, usando-se comunicação por canal de retorno para registrar e realizar tarefas normalmente associadas a uma vez do sistema, a definição de uma vez do usuário e uma vez do sistema é obscurecida. Os estudos mais convencionais sobre diálogo, especialmente aqueles baseados em diálogos de humanos com humanos, com freqüência vêem as comunicações por canal de retorno como retorno não intrusivo, que transporta apenas sinais simples, tais como recebimento positivo, negativo ou neutro. No entanto, o retorno proporcionado pela saída 20
Ί \1/ ' · · · · • ♦ « ♦ « • · · • · · · ·· I pode potencialmente carregar mais informações de modo a ser algo intrusivo à expressão verbal em progresso do usuário, o que pode ou não fazer com que o usuário esclareça a intenção ou direção do usuário. No entanto, esta abordagem proporciona um diálogo humano mais real entre o usuário e o sistema 10, o que, em muitos casos, não será considerado perturbador, mas, ao invés disso, mais confortável para o usuário, além de inspirar a confiança de que os desejos do usuário serão atendidos.
Neste ponto, deve-se notar que a presente invenção não está limitada a um ambiente operacional apenas de voz, mas ao invés disso, pode incluir outras formas de retorno para o usuário com base no processamento de análises semânticas parciais ou objetos. Por exemplo, no aplicativo discutido acima, onde o módulo de aplicativo 16 realiza tarefas de e-mail, a saída 20 pode incluir retorno visual, como por exemplo ativando um módulo de e-mail baseado apenas na recepção de uma sentença, tal como Enviar e-mail em um comando ininterrupto proveniente do usuário, compreendendo Enviar e-mail para Bob, onde o processamento da sentença para Bob pode fazer com que o módulo de aplicativo acesse outras informações no armazenamento de dados 18 e apresente uma lista de pessoas que têm Bob como primeiro nome. Ao ver a lista, o usuário simplesmente identifica o destinatário pretendido como Bob Green, que pode então ser selecionado porque o sistema forneceu um outro objeto semântico para a expressão verbal parcial Bob Green que, quando da re8
Figure BRPI0401850B1_D0006
Figure BRPI0401850B1_D0007
Figure BRPI0401850B1_D0008
• · · • · * · • · ♦ · » • ······ • · · · • · · cepção pelo aplicativo e processamento, faria com que Bob Green fosse selecionado.
Conforme indicado acima, o módulo de aplicativo 16 pode tomar muitas formas, onde aspectos da presente invenção discutidos abaixo, podem ser benéficos. Sem limitação, o módulo de aplicativo 16 também pode ser um módulo de ditado para fornecer uma saída textual da entrada falada do usuário. No entanto, processando-se a informação semântica para entrada parcial ou sentenças de entrada também, é possível obter uma transcrição mais precisa.
Embora descritos acima com relação a uma entrada proveniente do usuário, compreendendo comandos de voz, aspectos da presente invenção também podem ser aplicados a outras formas de entrada, tais como escritas a mão, DTMF, ges15 tuais ou indicações visuais.
Dada a ampla aplicabilidade de processamento de análises semânticas parciais ou objetos, pode ser útil descrever, de maneira geral, dispositivos de computação que podem funcionar no sistema 10 descrito acima. Conforme apreci20 ado por aqueles versados na técnica, os componentes do sistema 10 podem estar localizados dentro de um único computador ou distribuídos por um ambiente distribuído de computação usando conexões e protocolos de rede.
Agora, com referência â Figura 2, uma forma exem25 piar de um dispositivo móvel, tal como um dispositivo de gerenciamento de dados (PIM, PDA ou similar) , é ilustrado em 30. No entanto, contempla-se que a presente invenção também pode ser praticada usando-se outros dispositivos computacio9
Figure BRPI0401850B1_D0009
♦ · nais discutidos abaixo. Por exemplo, dispositivos telefônicos e/ou dispositivo de gerenciamento de dados também obterão benefícios com a presente invenção. Tais dispositivos terão uma utilidade maior em comparação com dispositivos de gerenciamento de informações pessoais portáteis existentes e outros dispositivos eletrônicos portáteis.
Na forma exemplar de um dispositivo móvel de gerenciamento de dados 30 é ilustrado na Figura 2, o dispositivo móvel 3 0 inclui um alojamento 32 e tem uma interface com o usuário que inclui um visor 34, o qual usa uma tela de exibição sensível a contato em conjunto com um dispositivo em forma de caneta (stylus) 33 . O dispositivo em forma de caneta 33 é usado para pressionar ou para entrar em contato com o visor 34 em coordenadas designadas para selecionar um campo, para mover seletivamente uma posição inicial de um cursor ou para fornecer informações de comando, como por exemplo, através de gestos ou escrita a mão. Alternativamente, ou adicionalmente, um ou mais botões 35 podem ser incluídos no dispositivo 30 para navegação. Em adição, outros mecanismos de entrada, tais como rodas giratórias, roladores ou similares, também podem ser proporcionados. No entanto, deve-se notar que a invenção não pretende ser limitada por estas formas de mecanismos de entrada. Por exemplo, uma outra forma de entrada pode incluir uma entrada visual, tal como através de visão de computador.
Agora, com referência à Figura 3, um diagrama de bloco ilustra os componentes funcionais do dispositivo móvel 30. Uma unidade de processamento central (CPU) 50 implementa
Figure BRPI0401850B1_D0010
······ e
as funções de controle de software. A CPU 50 é acoplada ao visor 34 tal que ícones gráficos e textos, gerados de acordo com o software de controle, aparecem no visor 34. Um altofalante 43 pode ser acoplado a CPU 50 tipicamente com um conversor digital-para-analógico 59, de modo a proporcionar uma saída audível. Dados que são baixados ou inseridos pelo usuário no dispositivo móvel 30 são armazenados em um armazenamento de memória de acesso aleatório de leitura/gravação não volátil 54, acoplado bi-direcionalmente à CPU 50. A memória de acesso aleatório (RAM) 54 proporciona armazenamento volátil para instruções que são executadas pela CPU 50, e o armazenamento de dados temporários, tais como valores de registro. Os valores padrões para opções de configuração e outras variáveis são armazenados em uma memória de leitura apenas (ROM) 58. A ROM 58 também pode ser usada para armazenar o software do sistema operacional para o dispositivo que controla a funcionalidade básica do dispositivo móvel 30 e outras funções kernel do sistema operacional (por exemplo, o carregamento de componentes de software na RAM 54).
A RAM 54 também serve como um armazenamento para o código, de maneira análoga à função de um disco rígido em um PC, que é usado para armazenar programas aplicativos. Devese notar que embora a memória não volátil seja usada para armazenar o código, alternativamente ele pode ser armazenado na memória volátil que não é usada para execução do código.
Sinais sem fio podem ser transmitidos/recebidos pelo dispositivo móvel através de um transceptor sem fio 52, que é acoplado à CPU 50. Uma interface de comunicação ótica
Figure BRPI0401850B1_D0011
Figure BRPI0401850B1_D0012
também pode ser proporcionada para baixar dados diretamente de um computador (por exemplo, computador de mesa) ou de uma rede ligada por fio, se desejado. Sendo assim, a interface 60 pode compreender diversas formas de dispositivos de comunicação, por exemplo, uma ligação infravermelha, um modem, uma placa de rede, ou algo similar.
dispositivo móvel 30 inclui um microfone 29 e o conversor analógico para digital (A/D) 37 e um programa de reconhecimento opcional (fala, DTMF, escrita a mão, gestos ou visão do computador) armazenado no armazenamento 54. À guisa de exemplo, em resposta a informação audível, instruções ou comandos provenientes de um usuário do dispositivo 30, o microfone 29 fornece sinais de fala, que são digitalizados pelo conversor A/D 37. 0 programa de reconhecimento de fala pode realizar funções de normalização e/ou extração de características nos sinais de fala digitalizados para obter resultados de reconhecimento de fala intermediários. Usando o transceptor sem fio 52 ou a interface de comunicação 60, dados de fala podem ser transmitidos para um servidor de reconhecimento remoto 204 discutido abaixo e ilustrado na arquitetura da Figura 6. Então, os resultados de reconhecimento podem ser retornados para o dispositivo móvel 30 para apresentação nele (por exemplo, visual e/ou audível) e transmissão eventual para um servidor de rede 202 (Figura 6), em que o servidor de rede 202 e o dispositivo móvel 30 operam em uma relação cliente/servidor.
Processamento similar pode ser usado para outras formas de entrada. Por exemplo, entrada manuscrita pode ser ^b digitalizada com ou sem pré-processamento no dispositivo 30. Como os dados de fala, esta forma de entrada pode ser transmitida para o servidor de reconhecimento 204 para reconhecimento, em que os resultados de reconhecimento são retornados para pelo menos um do dispositivo 30 e/ou servidor de rede 202. De modo similar, dados DTMF, dados gestuais e dados visuais podem ser processados similarmente. Dependendo da forma de entrada, o dispositivo 30 (e as outras formas de clientes discutidas abaixo) incluiría hardware necessário, tal como uma câmera para entrada visual.
A Figura 4 é uma vista plana de uma modalidade exemplar de um telefone portátil 80. 0 telefone 80 inclui um visor 82 e um teclado 84. De modo geral, o diagrama de bloco da Figura 3 se aplica ao telefone da Figura 4, embora possa ser requerido conjunto de circuitos necessário adicional para realizar outras funções. Por exemplo, um transceptor necessário para operar como um telefone será requerido para a modalidade da Figura 3; no entanto, tal conjunto de circuitos não é pertinente à presente invenção.
Em adição aos dispositivos de computação portáteis ou móveis descritos acima, também deve-se entender que a presente invenção pode ser usada com inúmeros outros dispositivos computacionais, tal como um computador de mesa geral. Por exemplo, a presente invenção irá permitir que um usuário com capacidade física limitada, insira ou entre texto em um computador ou outro dispositivo de computação quando outros dispositivos convencionais de entrada, tal como um teclado alfa-numérico, forem muito difíceis de operar.
Figure BRPI0401850B1_D0013
A invenção também é operacional com inúmeros outros sistemas, ambientes ou configurações computacionais para fins gerais ou fins especiais. Exemplos de sistemas, ambientes e/ou configurações computacionais bem conhecidas que podem ser adequadas para uso com a invenção incluem, mas não estão limitadas a, telefones regulares (sem qualquer tela), computadores pessoais, computadores servidores, dispositivos de mão ou lap-tops, computadores com mesa digitalizadora, sistemas multiprocessadores, sistemas baseados em microprocessadores, caixas de codificação, produtos eletrônicos programãveis pelo consumidor, PCs em rede, minicomputadores, computadores principais, ambientes computacionais distribuídos que incluam qualquer um dos sistemas ou dispositivos acima e similares.
A seguir está uma breve descrição de um computador para fins gerais 120 ilustrado na Figura 5. No entanto, o computador 120 é, novamente, apenas um exemplo de um ambiente computacional adequado e não deve sugerir qualquer limitação quanto ao escopo de uso ou funcionalidade da invenção. Nem o computador 12 0 deve ser interpretado como tendo qualquer dependência ou requisito relacionado a qualquer componente ou combinação de componentes ilustrados.
A invenção pode ser descrita no contexto geral de instruções executáveis por computador, tais como módulos de programa, sendo executadas por um computador. Ee maneira geral, os módulos de programa incluem rotinas, programas, objetos, componentes, estruturas de dados, etc, que realizam tarefas particulares ou implementam tipos de dados abstratos
Figure BRPI0401850B1_D0014
particulares. A invenção também pode ser praticada em ambientes computacionais distribuídos onde as tarefas são realizadas por dispositivos de processamento remotos que são ligados através de uma rede de comunicações. Em um ambiente de computação distribuída, os módulos de programa podem estar localizados tanto em mídia de armazenamento de computador local quanto remoto, incluindo dispositivos de armazenamento de memória. As tarefas executadas pelos programas e módulos são descritas abaixo e com a ajuda de figuras. Aqueles versa10 dos na técnica podem implementar a descrição e figuras como instruções executáveis pelo processador, que podem ser gravadas em qualquer forma de uma mídia legível por computador.
Com referência â Figura 5, os componentes do computador 120 podem incluir, mas não estão limitados a, uma unidade de processamento 14 0, uma memória de sistema 150, e um barramento de sistema 141 que acopla diversos componentes do sistema, inclusive a memória do sistema à unidade de processamento 140. 0 barramento do sistema 141 pode ser qualquer dentre diversos tipos de estruturas de barramento, in20 clusive um barramento de memória ou controlador de memória, um barramento periférico e um barramento local usando qualquer dentre uma variedade de arquiteturas de barramento. À guisa de exemplo, e não de limitação, tais arquiteturas incluem barramento Industry Standard Architecture (ISA), Uni25 versai Serial Bus (USB), barramento Micro Channel Architecture (MCA), barramento Enhanced ISA (EISA), barramento local Vídeo Electronics Standards Association (VESA) e barramento Peripheral Component Interconnect (PCI), também conhecido • ······ * »« · · · como barramento Mezzanine. O computador 120 tipicamente inclui uma variedade de mídias legíveis por computador. As mídias legíveis por computador podem ser quaisquer mídias disponíveis que possam ser acessadas pelo computador 12 0, in5 cluindo tanto mídia volátil quanto não volátil, mídia removível e não removível. À guisa de exemplo, e não de limitação, mídias legíveis pelo computador podem compreender mídia de armazenamento em computador e mídia de comunicação. A mídia de armazenamento em computador inclui mídia volátil e não volátil, removível e não removível, implementada em qualquer método ou tecnologia para armazenamento de informação, tais como instruções que podem ser lidas pelo computador, estruturas de dados, módulos de programas ou outros dados. A mídia de armazenamento em computador inclui, mas não está limitada a, RAM, ROM, EEPROM, memória instantânea ou outra tecnologia de memória, CD-ROM, discos versáteis digitais (DVD) , ou outro armazenamento em disco ótico, cassetes magnéticos, fitas magnéticas, armazenamento em disco magnético ou outros dispositivos de armazenamento magnético ou qualquer outro meio que possa ser usado para armazenar a informação desejada e que possa ser acessado pelo computador 12 0.
A mídia de comunicação tipicamente incorpora instruções que podem ser lidas pelo computador, estruturas de dados, módulos de programa ou outros dados em um sinal de
5 dados modulado, tal como uma onda portadora ou outro mecanismo de transporte e inclui qualquer mídia de entrega de informação. 0 termo sinal de dado modulado significa um sinal que tem uma ou mais de suas características definidas • · · · · ou mudadas de maneira tal que a informação é codificada no sinal. À guisa de exemplo, e não de limitação, mídia de comunicação inclui mídia ligada por fio, tal como uma rede por fio ou conexão direta por fio, e mídia sem fio tal como a5 cústica, FR, infravermelha, e outras mídias sem fio. Combinações de quaisquer dos meios citados acima também devem ser incluídas dentro do escopo de mídia legível pelo computador.
A memória do sistema 150 inclui mídia de armazenamento em computador na forma de memória volátil e/ou não vo10 lãtil, tal como memória somente de leitura (ROM) 151 e memória de acesso aleatório (RAM) 152. Um sistema de entrada/ saída básico 153 (BIOS), contendo as rotinas básicas que ajudam a transferir informações entre elementos dentro do computador 120, tal como durante a inicialização, é armaze15 nado tipicamente na ROM 151. A RAM 152 contém tipicamente dados e/ou módulos de programa que são imediatamente acessíveis a e/ou estão presentemente sendo operados pela unidade de processamento 140. À guisa de exemplo, e não de limitação, a Figura 5 ilustra o sistema operacional 154, os pro20 gramas aplicativos 155, outros módulos de programa 156 e dados de programa 157.
O computador 120 pode também incluir outras mídias de armazenamento removíveis/não removíveis, volãteis/não voláteis. À guisa de exemplo apenas, a Figura 5 ilustra uma unidade de disco rígido 161 que lê de ou grava em mídia magnética não removível, não volátil, uma unidade de disco magnético 171 que lê de ou grava em um disco magnético removível não volátil 172 e uma unidade de disco ótico 175 que lê
Figure BRPI0401850B1_D0015
de ou grava em um disco ótico removível não volátil 176, tal como um CD-ROM ou outra mídia óptica. Outros meios de armazenamento em computador removíveis/não removíveis, voláteis/não voláteis que podem ser usados no ambiente operacional exemplar incluem, mas não estão limitados a, fitas cassete magnéticas, cartões de memória instantânea, discos versáteis digitais, fita de vídeo digital, RAM de estado sólido, ROM de estado sólido e similares. A unidade de disco rígido 161 é conectada, tipicamente, ao barramento do sistema 141, através de uma interface de memória não removível, tal como a interface 160 e a unidade de disco magnético 171 e a unidade de disco óptico 175 são conectadas, tipicamente, ao barramento do sistema 141 por uma interface de memória removível, tal como a interface 170.
As unidades e seus meios associados de armazenamento em computador discutidos acima e ilustrados na Figura 5, proporcionam armazenamento de instruções legíveis pelo computador, estruturas de dados, módulos de programas e outros dados para o computador 12 0. Na Figura 5, por exemplo, a unidade de disco rígido 161 é ilustrada como armazenando o sistema operacional 164, programas aplicativos 165, outros módulos de programas 166 e dados de programas 167. Note que estes componentes podem ser iguais ou diferentes do sistema operacional 154, programas aplicativos 155, outros módulos de programa 156 e dados de programa 157. 0 sistema operacional 164, os programas aplicativos 163, outros módulos de programas 166 e dados de programas 167, recebem números diferentes aqui para ilustrar que, no mínimo, eles são cópias ·· ·«· ·· · ·· · ·· ···· ·· • · » · ······ · · · · ·· ♦ ·· · · · > * · · * * * · ··· ·· » «« ··· ·· *· *· diferentes .
Um usuário pode inserir comandos e informações no computador 120 através de dispositivos de entrada, tais como um teclado 182, um microfone 183 e um dispositivo de aponta5 mento 181, tal como um mouse, um trackball ou almofada de toque. Outros dispositivos de entrada (não mostrados) podem incluir um joystick, almofada de jogo, prato satélite, digitalizador, ou similar. Estes e outros dispositivos de entrada são conectados, com freqüência, à unidade de processamen10 to 140 através de uma interface de entrada com o usuário 180 que é acoplada ao barramento do sistema, mas pode haver a conexão por outras estruturas de interface e barramento, tais como uma porta paralela, porta de jogo ou um barramento serial universal (USB) . Um monitor 184 ou outro tipo de dis15 positivo de exibição também é conectado ao barramento do sistema 141 via uma interface, tal como uma interface de video 185. Em adição ao monitor, os computadores também podem incluir outros dispositivos de saída periféricos, tais como alto-falantes 187 e impressora 186, que podem ser conectados através de uma interface periférica de saída 188.
computador 120 pode operar em um ambiente em rede usando conexões lógicas a um ou mais computadores remotos, tal como um computador remoto 194. 0 computador remoto 194 pode ser um computador pessoal, um dispositivo de mão, um servidor, um roteador, um PC em rede, um dispositivo de ponto ou outro nó de rede comum, e tipicamente inclui muitos ou todos os elementos descritos acima relativos ao computador 120. As conexões lógicas ilustradas na Figura 5 incluem
Figure BRPI0401850B1_D0016
Figure BRPI0401850B1_D0017
uma rede de área local (LAN) 191 e uma rede de área ampla (WAN) 193, mas também podem incluir outras redes. Tais ambientes em rede são comuns em escritórios, redes de computadores de grandes empresas, intranets e Internet.
Quando usado em um ambiente em rede LAN, o computador 12 0 é conectado à LAN 191 através de uma interface ou adaptador de rede 190. Quando usado em um ambiente em rede WAN, o computador 120 tipicamente inclui um modem 192 ou outros meios para estabelecer comunicações pela WAN 193, tal como a Internet. 0 modem 192, que pode ser interno ou externo, pode ser conectado ao barramento do sistema 141 via interface de entrada com o usuário 180 ou outro mecanismo apropriado. Em um ambiente em rede, módulos de programa ilustrados com relação ao computador 120 ou partes suas, podem ser armazenados no dispositivo de armazenamento de memória remota. À guisa de exemplo, e não de limitação, a Figura 5 ilustra programas aplicativos remotos 195 como residindo no computador remoto 194. Será apreciado que as conexões de rede mostradas são exemplares e outros meios de estabelecer uma ligação de comunicação entre os computadores podem ser usados.
A Figura 6 ilustra arquitetura 200 para apresentação de dados e reconhecimento baseado na rede, que é um ambiente exemplar para a presente invenção. De modo geral, a informação armazenada em um servidor de rede 2 02 pode ser acessada através de um cliente 100, tal como um dispositivo móvel 30 ou computador 120 (que aqui representa outras formas de dispositivos computacionais tendo uma tela de exibi20 • · ······ ·· · *· ção, um microfone, uma câmera, um painel sensível a toque, etc. , conforme requerido com base na forma de entrada) , ou através do telefone 80, em que a informação é solicitada de maneira audível ou através de tons gerados pelo telefone 80 em resposta a teclas apertadas e em que a informação do servidor de rede 2 02 é fornecida apenas de maneira audível de volta ao usuário.
Nesta modalidade, a arquitetura 200 é unificada em que, se a informação for obtida através do cliente 100 ou telefone 80 usando reconhecimento de fala, um servidor de reconhecimento de fala simples 2 04 pode suportar um modo ou outro de operação. Em adição, a arquitetura 200 opera usando uma extensão de linguagens de marcação bem conhecidas (por exemplo, HTML, XHTML, cHTML, XML, WML e similares). Assim, informações armazenadas no servidor de rede 202 também podem ser acessadas usando-se métodos GUI bem conhecidos encontrados nestas linguagens de marcação. Usando-se uma extensão de linguagens de marcação bem conhecidas, é mais fácil executar programas na linguagem do autor na rede e aplicativos de legado existentes correntemente também podem ser facilmente modificados de modo a incluírem reconhecimento de voz.
Em geral, o cliente 100 executa páginas HTML, scripts, ou similares, indicados genericamente em 206, proporcionados pelo servidor de rede 202 usando um navegador. Quando é requerido o reconhecimento de voz, à guisa de exemplo, dados de fala, que podem ser sinais de áudio digitalizados ou itens de fala, em que os sinais de áudio foram préprocessados pelo cliente 100, conforme foi discutido acima,
Figure BRPI0401850B1_D0018
Figure BRPI0401850B1_D0019
são fornecidos ao servidor de reconhecimento 204 com uma indicação de um modelo de gramática ou linguagem 220 para uso durante o reconhecimento de fala, o que pode ser proporcionado pelo cliente 100. Alternativamente, o servidor de fala 204 pode incluir o modelo de linguagem 220. A implementação do servidor de reconhecimento 204 pode tomar muitas formas, sendo que uma das quais é ilustrada, mas geralmente inclui um reconhecedor 211. Os resultados do reconhecimento são fornecidos de volta ao cliente 100 para apresentação local, se desejado ou apropriado. Se desejado, o módulo texto-parafala 222 pode ser usado para proporcionar texto falado ao cliente 100. Quando da compilação da informação através do reconhecimento e qualquer interface gráfica com o usuário, se usada, o cliente 100 envia a informação para o servidor de rede 202 para processamento adicional e recepção de páginas/scripts HTML adicionais, se necessário.
Conforme ilustrado na Figura 6, o cliente 100, o servidor de rede 2 02 e o servidor de reconhecimento 2 04 são conectados comumente e endereçáveis separadamente através de uma rede 205, aqui uma rede de área ampla, tal como a Internet. Logo, não é necessário que quaisquer destes dispositivos estejam localizados fisicamente adjacentes um ao outro. Em particular, não é necessário que o servidor de rede 202 inclua o servidor de reconhecimento 204. Desta maneira, a execução do programa no servidor de rede 202 pode ser focada no aplicativo para o qual ele está destinado, sem que os autores precisem saber das complexidades do servidor de reconhecimento 204. Ao invés disso, o servidor de reconhecimento
Figure BRPI0401850B1_D0020
204 pode ser projetado independentemente e conectado à rede
205 e, deste modo, ser atualizado e melhorado sem mudanças adicionais requeridas no servidor de rede 202. O servidor de rede 202 também pode incluir um mecanismo de execução de programa de linguagem do autor que possa gerar dinamicamente marcações e scripts no lado do cliente. Em uma outra modalidade , o servidor de rede 202, o servidor de reconhecimento 204 e o cliente 100 podem ser combinados, dependendo das capacidades das maquinas de implementação. Por exemplo, se o cliente 100 compreender um computador para fins gerais, por exemplo, um computador pessoal, o cliente pode incluir o servidor de reconhecimento 204. Da mesma forma, se desejado, o servidor de rede 202 e o servidor de reconhecimento 204 podem ser incorporados em uma única máquina.
O acesso ao servidor de rede 202 através de um telefone 80 inclui a conexão do telefone 80 a uma rede telefônica 208 com fio ou sem fio, que, por sua vez, conecta o telefone 80 a um circuito de acesso de terceira parte 210. 0 circuito de acesso 210 conecta o telefone 80 a um navegador de voz por telefonia 212. O navegador de voz por telefonia 212 inclui um servidor de mídia 214 que proporciona uma interface de telefonia e um navegador de voz 216. Como o cliente 100, o navegador de voz por telefonia 212 recebe páginas/scripts HTML ou algo similar do servidor de rede 202. Em uma modalidade, as páginas/scripts HTML são da forma similar as páginas/scripts HTML proporcionadas ao cliente 100. Desta maneira, o servidor de rede 202 não precisa suportar o cliente 100 e o telefone 80 separadamente ou mesmo suportar os • · · · · · clientes GUI padrões separadamente. Ao invés disso, uma linguagem de marcação comum pode ser usada. Em adição, como o cliente 100, reconhecimento de voz a partir dos sinais audíveis transmitidos pelo telefone 80, é proporcionado a partir do navegador de voz 216 para o servidor de reconhecimento 204, seja através da rede 205 ou através de uma linha dedi-
Figure BRPI0401850B1_D0021
cada 2 07, por exemplo, usando TCP/ IP. O servidor de rede 202, o servidor de reconhecimento 204 e o navegador de voz por telefone 212 podem ser incorporados em qualquer ambiente computacional adequado, tal como o computador de mesa para fins gerais, ilustrado na Figura 5.
Tendo descrito os diversos ambientes e arquiteturas funcionando no sistema 10, é proporcionada uma descrição mais detalhada de diversos componentes e da função do sistema 10. A Figura 7 ilustra um diagrama de bloco de módulo de reconhecimento e compreensão de fala 14. A entrada de fala recebida do módulo de interface de fala 12 é enviada para o módulo de reconhecimento e compreensão de fala 14. O módulo de reconhecimento e compreensão de fala 14 inclui uma máquina de reconhecimento 3 06, que tem um modelo de linguagem associado 310. A máquina de reconhecimento 306 utiliza o modelo de linguagem 310 para identificar possíveis estruturas semânticas superficiais para representar cada uma das sentenças que formam a entrada, proporcionando análise semântica parcial ou objetos, conforme a entrada é recebida. Ao contrário do sistema que espera que o usuário complete a expressão verbal e então processa a entrada completa recebida, o módulo 14 fornece objetos semânticos continuamente com ba24 ·4· ·· 4 ·· 4 ·♦ 4444 *« • 4 4 · 444444 4 4« · 44 4 « 44 4 44 44 44 »
444 *4 4 44 444 44 44 44 se apenas no que foi recebido até então.
A maquina de reconhecimento 306 proporciona pelo menos um objeto de saída semântico superficial baseado na expressão verbal parcial. Em algumas modalidades, a maquina de reconhecimento 306 é capaz de proporcionar mais de um objeto semântico superficial alternativo para cada estrutura alternativa.
Embora esteja ilustrada na Figura 7 em que a entrada de fala é proporcionada, a presente invenção pode ser usada com reconhecimento de escrita a mão, reconhecimento de gestos ou interfaces gráficas com o usuário (onde o usuário interage com um teclado ou outro dispositivo de entrada). Nestas outras modalidades, o reconhecedor de fala 306 é substituído por uma máquina de reconhecimento adequada, conforme é conhecido na técnica. Para as interfaces gráficas com o usuário, uma gramática (tendo o modelo de linguagem) é associada à entrada do usuário, tal como através de uma caixa de entrada. Por conseguinte, a entrada de um usuário é processada de uma maneira consistente sem modificação significativa baseada na maneira de entrada.
O diálogo interativo discutido acima, que também inclui outras formas de retorno informativo pelo sistema 10, com base em análise semântica parcial ou objetos, pode ser implementado usando SALT (Speech Application Language Tags) ou outra fala, escrita a mão, e APIs (Application Program Interfaces) de reconhecimento de padrão que suportem uma construção de modelo de linguagem que possa proporcionar informações semânticas baseadas em um esquema selecionado para um dado aplicativo e decodificação síncrona de objeto semântico . SALT é um padrão em desenvolvimento para permitir o acesso a informações, aplicativos e serviços de rede a partir de computadores pessoais, telefones, PCs com mesa digitalizadora e dispositivos móveis sem fio, por exemplo, mas também pode ser aplicado a interfaces de aplicativo, assim como sem interconexão em uma rede. SALT estende linguagens de marcação existentes, tais como HTML, XHTML e XML. A versão SALT 1.0 pode ser encontrada on-line em http://www.SALTforum.organização. Deve-se notar que SALT pode proporcionar informações semânticas baseadas na entrada do usuário, por exemplo, a partir do servidor de fala 204, sendo que tal informação forma o objeto fornecido ao módulo de apresentação de dados 16 depois de completar uma expressão verbal; no entanto, conforme discutido abaixo, SALT pode ser usado de maneira não contemplada anteriormente para proporcionar análise ou objeto semântico parcial. O uso de extensões SALT ou extensões similares em outras APIs, proporciona suporte para interação de usuário acionada por evento altamente interativo.
Usando-se SALT, à guisa de exemplo, o objeto ouvir (listen) SALT pode ser usado para realizar tanto tarefas de reconhecimento de fala quanto de compreensão. Isso é porque o projeto segue o ponto de vista e formulação que trata a compreensão da fala como um problema de reconhecimento de padrão, tal como reconhecimento de fala. Ambos esforçam-se para encontrar um padrão a partir de uma coletânea de possíveis resultados, que melhor corresponda a um dado sinal de
Figure BRPI0401850B1_D0022
fala. Para reconhecimento de fala, o padrão a ser encontrado é uma cadeia de palavras, enquanto que, para compreensão, uma arvore de objetos semânticos. Uma tarefa de reconhecimento de fala tradicional instrui o processo de busca com um modelo de linguagem na composição das prováveis cadeias de palavras. De uma maneira similar, uma tarefa de compreensão de fala pode guiar a mesma máquina de busca a compor as ár10 *
vores adequadas de objetos semânticos com um modelo semântico. Como um modelo de linguagem que com frequência implica um léxico e as regras de composição de segmentos de frase a partir das entradas léxicas, um modelo semântico implica em um dicionário de todos os objetos semânticos e nas regras de composição deles. Embora o resultado do reconhecimento sej a uma cadeia de texto, o resultado da compreensão é uma árvore de objetos semânticos.
Embora seja possível estender N-grama para retornar um resultado de busca estruturado, a maioria dos aplicativos típicos de compreensão de fala são baseados em gramática livre de contexto probabilística (PCFG - Probabilistic Context Free Grammar) onde os projetistas podem especificar regras de composição de objetos semânticos sem dados de treinamento massivos anotados no banco de árvore. Um método para especificar tais regras é associar cada regra PCFG a diretrizes de produção para a máquina de busca sobre como transformar a árvore de análise PCFG parcial em uma árvore de objeto semântico. Um exemplo escrito em formato Microsoft Speech Application Interface (SAPI) (que também é um exemplo de um API de fala que pode ser usada na presente invenção) é
mostrado abaixo:
* * 5 crule name=nyc> <list> <phrase>new york ?city</phrase> / <phrase>?the big spple</phrase> <list>
• 10 <output> <city location> <city>New York</city> <state>New York</state> <country>USA</country> <city location> </output> </rule>
15 .<rule name=NewMeeting> <ruleref min=”0 nane = CarrierPhrase/>
A Cruleref max=inf name=ApptProperty/> <output> <NewMeeting>
20 <DateTime>
25 Cxsl:apply-templates select=//Date/> <xsl:apply-templates select=//Time/> <xsl: apply-templates select=//Duration/> </DateTime> <Invitees> Cxsl:apply-templates select=”//Person/>
</Invitees>
9· 999 99 « ·· · ·· ···· ·· ·« 9 * ······ 9 · · · ♦· ·
9 9 9 · · 9 9 · · · · *
9·· 99 9 ·· ·*· ·· ·· ·· </NewMeetinq>
</output>
</rule>
d <rule name=ApptProperty/>
<list>
<ruleref name = Date/>
<ruleref name=,,Duration/>
<ruleref name=Time/>
<ruleref name=Person max=inf/>
<ruleref name=ApptSubject11 />
</list>
</rule>
O segmento de gramática contém três regras. A primeira, uma pré-terminal chamada nyc lista as expressões para New York City. Os identificadores <output> neste exemplo, encerram as regras para a construção de objetos semânticos. Eles são invocados quando o caminho de busca sai do nó gramatical denotado pela ficha que o precede. No caso, um objeto semântico, representado em XML com um elemento <city_location> (cidade_local), é criado quando um caminho de busca sai da regra nyc. Este objeto semântico, por sua vez, é composto de três obj etos semânticos: o nome da cidade, as abreviações de estado e de nome do país, respectivamente.
A composição de objetos semânticos também pode ser um processo dinâmico, por exemplo, para agendar uma nova *· ♦** ·· · ♦· · *· ···· »· • * · · · · · ·* · · · · · • · · ♦· · · * · ·· ·♦* · · ·· * · ······ ♦ · · · «« 9 ·· · · * · * · * · · * · *·· ·· · ·· ·** ·* ·· *·
Figure BRPI0401850B1_D0023
reunião. Por exemplo, um objeto semântico NewMeeting (NovaReunião) será produzido quando o usuário terminar de especificar as propriedades da reunião tais como data, hora, duração e os presentes. Os gabaritos podem ser usados para colar outros objetos semânticos como constituintes no objeto semântico NewMeeting. O mesmo princípio também pode ser aplicado a outras regras não mostradas aqui. Como um exemplo, uma expressão verbal marcar uma reunião com Li Deng e Alex Acero em primeiro de janeiro, para uma hora, resultará no seguinte objeto semântico:
<NewMeeting> (Nova reunião) <DateTime> (DataHora) <Date>Ol/01/2003</Date>
<Durat ion>3 600 </Durat ion> (Duração) </DateTime>
<Invitees> (Convidados) <Person>Li Deng</Person> (Pessoa) <Person>Alex Acero</Person>
<Invitees>
</NewMeet ing>
Em aplicações reais, melhorar a cobertura PCFD é uma tarefa desanimadora. Logo, é desejável ser capaz de usar um N-grama para modelar, entre outras coisas, frases funcionais que não carregam informação semântica crítica, mas usualmente têm variações dimensionãveis na estrutura sintática [por exemplo, May I. . (Posso), Could you show me...
(Você poderia me mostrar), Please show me... (Por favor, me mostre)] . Em uma modalidade, o modelo de linguagem 310 «· ·*· ·· · ·· · ·· ··*· *· • · · » «··»·· · · · · · · · • · · · · » · · · · · · · »*« ·· > ·· ·*· ·· ·· ·· compreende um modelo de linguagem semântica que combina PCFG com N-grama. A técnica é ligeiramente diferente de um modelo de linguagem unificada, que também pode ser usado. 0 modelo de linguagem unificada é uma extensão natural para o N-grama classe convencional, exceto pelo fato de que permite que fragmentos CFG, não apenas uma lista de palavras, sejam modelados como uma ficha individual em N-grama. 0 reconhecedor 306 que utiliza este modelo, ainda produz cadeia de texto que tem que ser analisado a seguir. 0 modelo de linguagem unificada, deste modo, se destina a incorporar certa estrutura linguística para ajudar na transcrição de texto.
O modelo de linguagem semântica, por outro lado, visa a utilizar o decodificador ou reconhecedor para buscar a estrutura semântica, que é usualmente melhor capturada por
PCFG. Logo, ao invés de embutir fragmentos CFG em N-grama, o PCFG é usado para conter N-grama por meio da criação de um pré-terminal PCFG especial que corresponde a um N-grama de interesses. Em formato gramatical Microsoft SAPI, isso pode ser denotado usando-se um pré-terminal com um identificador
XML <dictation> (ditado), como em
LCFG <dictation Max=inf/> RCFG
Onde LCFG e RDFG denotam o contexto à esquerda e à direita do N-grama embutido, respectivamente. O processo de busca trata o identificador <dictation> como uma ficha e ex25 pande para dentro do N-grama como se inserisse um não terminal regular. O atributo max no identificador, especifica o número máximo de palavras que podem ser consumidas pelo Ngrama. Dentro deste N-grama, a probabilidade da cadeia de
Figure BRPI0401850B1_D0024
palavras é computada interpolando-se o N-grama de trás com o PCFG, mais especificamente:
(1) P(w„|w„_i, wn_2, · ·) = λΡ (wn|Ngrama, wn_1( w„_2, . . .) + (1 - λ) P(wnjRCFG) P(RCFG|wn_x, w„.2, . . . ) onde λ é o peso da interpolação de N-grama e
P (RCFG | wn_x, . . .) usa a probabilidade de recuo no N-grama, isto é, wn é tratado como se ele estivesse fora do vocabulário de palavras. Em uma modalidade, o termo P(wn|RCFG) assume apenas valores binários dependendo de se o tamanho da cadeia de palavras N-grama máximo for alcançado e de a palavra estar na cobertura do fragmento CFG ou não. Como palavras retiradas de PCFG sempre têm uma probabilidade mais alta, os caminhos que realmente têm que ser cobertos pelo CFG têm tendência a vencer suas partes contrárias N-grama, mesmo quando a contagem de palavra N-grama máxima for definida como infinito. Em adição a sentenças funcionais, o N-grama embutido também pode ser usado para modelar objeto semântico com uma propriedade tipo ditado. Por exemplo, o assunto da reunião é modelado em nossa tarefa como (rule name=ApptSubjetc>
<p> <dictation max=inf/> </p>
Detalhes adicionais referentes ao modelo de linguagem semântica são descritos em K. Wang, Semantic modeling for dialog systems in a pattern recognition framework, em Proc. ASRU-2001, Trento, Itália, 2001, que se incorpora aqui â guisa de referência em sua íntegra.
Um outro aspecto da presente invenção inclui um novo uso do objeto SALT listen (ouvir). SALT proporciona um conjunto de elementos XML, com atributos associados e propriedades de obj eto DOM, eventos e métodos, que podem ser usados em conjunto com uma fonte de marcação de documento para aplicar uma interface de falha a uma página fonte. Em geral, os elementos principais incluem:
<prompt...> para configuração de síntese de fala e executar solicitação <listen...> para configuração do reconhecedor de fala, execução do reconhecimento e pós-processamento e registro <dtmf...> para configuração e controle de DTMF <smex...> para comunicação com finalidade genérica com componentes da plataforma
Os objetos listen e dtmf também contêm controles de gramática e de aglutinação <grammar...> (gramática) para especificar recursos de gramática de entrada <bind...> (aglutinar) para processar resultados de reconhecimento
O elemento listen (ouvir) pode incluir um atributo de modo para distinguir três modos de reconhecimento, que instruem ao servidor de reconhecimento (por exemplo, 204) , como e quando retornar resultados. O retorno de resultados implica em proporcionar o evento onReco ou ativar os elementos bind, conforme apropriado.
Em um primeiro modo, automático, a plataforma de fala, ao invés do aplicativo, está no controle de quando interromper o processo de reconhecimento. Este modo tem avan25
Figure BRPI0401850B1_D0025
Figure BRPI0401850B1_D0026
çado em telefonia ou em caso de mãos livres. Assim que um resultado de reconhecimento estiver disponível, e/ou quando tiver decorrido um período de tempo indicando silêncio, a plataforma de fala interrompe automaticamente o reconhecedor e retorna seu resultado, que então pode ser associado ao campo apropriado através do elemento de aglutinação.
Em um segundo modo de operação, único, o retorno de um resultado de reconhecimento estã sob o controle de uma chamada explícita de parar. A chamada de parada correspondería a um evento tal como caneta para cima (pen-up) realizado pelo usuário e este modo é avançado por ser usado em um ambiente multimodal, onde o dispositivo permite entrada de fala, mas o usuário, geralmente, estã sob controle do que e de quando selecionar campos, por exemplo, através do uso do dispositivo em forma de caneta 33 (Figura 1).
Um terceiro modo de operação do reconhecedor de fala é um modo múltiplo . Este modo de operação é usado para um microfone aberto ou em um ditado. Geralmente, neste modo de operação, os resultados de reconhecimento são retornados a intervalos, até uma chamada de parada explícita ser recebida ou os outros períodos de tempo associados à entrada não reconhecida ou um tempo máximo de escuta serem excedidos . Em geral, neste modo de operação, para cada sentença que é reconhecida, um evento onReco é emitido e o resultado é retornado até a chamada de parada ser recebida.
No entanto, este modo de operação, como um outro aspecto da presente invenção, pode proporcionar um meio para as máquinas de busca exporem mais capacidades interativas
Figure BRPI0401850B1_D0027
é «
Figure BRPI0401850B1_D0028
para os usuários, ao permitir que eles registrem imediatamente, sempre que uma marcação linguística saliente for alcançada. Algoritmos de busca baseados em decodificação síncrona no tempo são bem conhecidos e podem ser empregados para este modo de uma maneira direta. Um tal algoritmo é descrito em H. Ney, S. Ortmanns, Dynamic programming search for continuous speech recognition, IEEE Signal Processing Magazine, página 64-83, 1999. Para reconhecimento de fala, a marcação lingüística corresponde ao limite de uma palavra ou de uma sentença. Um reconhecimento de modo múltiplo SALT pode, conseqüentemente, ser usado para exibir dinamicamente as hipóteses de cadeia de palavras assim que elas estiverem disponíveis, um efeito UI comumente visto em muitos softwares de ditado comerciais. Entretanto, na presente invenção, o modo múltiplo pode tratar as instanciações de objetos semânticos como marcações linguísticas e registrar, isto ê, fornecer alguma resposta como uma função do que foi entendido, de volta ao aplicativo, também de uma maneira dinâmica. Isso parece ao proj et is t a do aplicativo como se SALT estivesse realizando uma compreensão síncrona de objeto semântico.
Este modo de operação pode ser melhor entendido comparando-o com um cenário multimodal. No cenário multimodal, um usuário indica um campo, por exemplo, apontando e mantendo o dispositivo em forma de caneta em um campo de entrada enquanto fala. Embora o usuário possa ficar batendo sobre um campo genérico e expresse uma sentença elaborada para preencher muitos campos em uma única sentença, a interface bater-e-falar ocupa os olhos e as mãos do usuário, um é
esquema não apropriado para muitas situações. Além disso, embora bater-e-falar apresente um rico canal de comunicação de volta que exibe o volume e uma barra de progresso do processo de linguagem falada subjacente, aqueles retornos proporcionam apenas indícios muito primitivos para a qualidade do processamento de linguagem falada em termos de velocidade e precisão. Isso pode ser potencialmente mais problemático para sentenças mais longas em que os erros podem se propagar até um escopo mais amplo, que eventualmente requer mais esforços na verificação e correção dos resultados de reconhecimento e compreensão. Como os estudos de usabilidade parecem indicar que sentenças longas são um fator de diferenciação chave, que demonstra a utilidade da fala como mais que um aperfeiçoamento de teclado ou alternativo, uma experiência UI satisfatória é absolutamente necessária para o sucesso do uso de fala como uma modalidade viável.
De modo a promover a percepção de humanocomputador como parceiros colaboradores íntimos para alcançar um objetivo comum, a compreensão síncrona de objeto semântico, por meio do registro da análise semântica parcial ou objetos assim que eles estão disponíveis, é efetiva. Em uma modalidade, isso é conseguido usando-se o modo múltiplo do elemento de escuta em SALT. Em particular, para o elemento de escuta, um modo múltiplo é designado e todas as gramáticas de reconhecimento são então especificadas para que a fala de entrada seja reconhecida. A atribuição de resultados também é especificada no objeto de escuta. Por exemplo, o código de entrada HTML para adquirir informações necessá36
Figure BRPI0401850B1_D0029
rias, tais como data, hora, local, assunto e os presentes à reunião, etc., para criar uma nova reunião, pode tomar a forma:
clisten mode=multiple...>
<grammar src=subject.grm/> <grammar src=date.grm/>
<grammar src=time_duration.grm/> <grammar src=attendees.grm/> cbind targetElement=subject value=//ApptSubject/>
<bind targetElement=date value=//DateTime/>
<bind targetElement=start_time value=//start_time targetElement=end_time value=//end_time targetElement=duration value=//DateTime/duration/>
<listen>
As múltiplas gramáticas compõem um espaço de busca paralelo para o reconhecimento com um ciclo de transição nulo de volta ao ponto de entrada. Neste modo, SALT permite que o objeto de escuta promova um evento assim que uma gra25 mática for liberada. 0 evento toma a direção de um processo paralelo para invocar às diretrizes de aglutinação na seqüência , enquanto a coleta e o reconhecimento de áudio subjacentes estão em progresso, criando assim o efeito para u37 «4 4 1 suário de que campos relevantes no formulário estão sendo preenchidos, enquanto um comando falado ainda está sendo expresso para um aplicativo que tem uma apresentação visual de campos.
Para a interface com o usuário para aplicativos de olhos livres, resultados de fala acompanhados podem ser desejados. Neste caso, SALT solicita que objetos possam ser usados para dar retornos imediatos. Por exemplo, o objeto de solicitação SALT a seguir pode ser usado para sintetizar resposta com base no conteúdo dinâmico no campo de data e a síntese da fala pode ser ativada com diretrizes de aglutinação SALT adicionais, conforme a seguir:
<prompt id=say_date>
on <value targetElement=date/>
<prompt >
cbind targetElement=date value=//date targetElement=say_date targetMethod=Start/>
<listen>
O efeito líquido é o usuário sentir como se ele estivesse falando com uma outra parte que não apenas toma nota, como também repete o que é ouvido, como em Agendar uma reunião (nova reunião) às duas (começando âs duas horas
Figure BRPI0401850B1_D0030
Figure BRPI0401850B1_D0031
da tarde) próxima Terça (em 29/10/02) por duas horas (duração: duas horas), onde as sentenças fornecidas nos parênteses representam as solicitações audíveis e/ou visuais (que também podem ser sincronizadas) retornadas ao usuário.
Deve-se notar que SALT permite que os projetistas vinculem manipuladores de evento de reconhecimento personalizados que realizam computações sofisticadas além das simples atribuições como com as diretrizes de aglutinação SALT. No exemplo acima, a normalização da data pode ser conseguida na gramática esquemática que, no entanto, não pode facilitar resolução de referência avançada (por exemplo, Agendar uma reunião com Li Deng e seu gerente). Para tais casos, pode ser implementado algoritmo como objetos de script acessíveis a manipuladores de evento apropriados para acessar dados armazenados, para verificar referências indefinidas. Tais algoritmos são descritos em K. Wang, A plan based dialog System with probabilistic inferences, em Proc. ICSLP-2000, Beijing, China, 2000 e pedido de patente europeu EP 1199630A2, publicado em 24 de abril de 2002, que são incorporados aqui- à guisa de referência, em sua íntegra.
Deve-se notar que, embora a operação de modo múltiplo existisse para o objeto de escuta, em implementações atuais, este modo proporciona apenas texto para a entrada recebida, tal como em ditado. No entanto, neste aspecto da presente invenção, o resultado parcial na medida em que a entrada está sendo recebida, não é apenas o texto, mas também inclui a informação semântica correspondente pertencente ao texto e assim, a saída compreende análise ou objeto se25 • · 4 1 • ·♦ β 44 41 44 t
t mântico parcial, que pode ser usado conforme descrito acima para proporcionar ao usuário mais qualidade de retorno, que o computador compreendeu apropriadamente o que foi recebido. Dependendo da sofisticação do aplicativo que recebe a análise ou objeto semântico parcial, o sistema pode fornecer de volta ao usuário confirmações, alternativas, correções e esclarecimentos, com base na análise semântica parcial recebida.
Embora em aplicativos multimodais seja conhecido incluir múltiplas gramáticas, para permitir que o usuário fale na frente, e deste modo, proporcione a capacidade de fornecer informações que não foram indicadas, usar o elemento de escuta na operação de modo múltiplo pode ser melhor porque ele proporciona ao usuário uma indicação mais alta de compreensão. Em um aplicativo apenas de voz, uma forma natural de diálogo é gerada, enquanto que, se apresentações visuais são empregadas, um aplicativo pode começar o processamento (realizando ações, exibindo resultados ou opções, por exemplo, através de janelas pop-up) com base apenas em análise semântica parcial do que foi proporcionado ao usuário até então, e enquanto o usuário continuar a falar.
Embora a presente invenção tenha sido descrita com referência a modalidades particulares, trabalhadores versados na técnica irão reconhecer que podem ser feitas mudanças na forma e detalhes, sem que se afaste do espírito e escopo da invenção.

Claims (8)

  1. REIVINDICAÇÕES
    1. Sistema de compreensão da fala (10, 30, 80) compreendendo:
    um modelo de linguagem (310) que compreende uma combinação de um modelo de linguagem de N-grama e um modelo de linguagem de gramática livre de contexto, o modelo de linguagem (310) armazenando informações relacionadas a palavras e informações semânticas a serem reconhecidas; e um módulo (14) adaptado para receber entrada de um usuário e capturar a entrada para processamento, em que o módulo (14) está ainda adaptado para receber interfaces de programa aplicativo SALT pertencentes ao reconhecimento da entrada e em que o processamento compreende o reconhecimento de texto a partir da entrada recebida, caracterizado pelo fato de que:
    o módulo (14) é configurado para processar uma primeira parte da entrada e as interfaces de programa aplicativo SALT para determinar informações semânticas pertencentes à primeira parte da entrada;
    em que o módulo (14) está configurado para gerar como saída um objeto semântico parcial que compreende texto e informação semântica para a primeira parte da entrada acessando o modelo de linguagem (310); e em que o reconhecimento do texto e a geração como saída do objeto semântico parcial são realizados enquanto a captura continua para partes subsequentes da entrada.
    de 07/02/2018, pág. 4/10
  2. 2. Sistema de acordo com a reivindicação 1, caracterizado pelo fato de que o modelo de linguagem compreende um modelo de linguagem unificada.
  3. 3. Sistema de acordo com a reivindicação 1, caracterizado pelo fato de que o modelo de linguagem compreende um modelo de linguagem semântica.
  4. 4. Sistema de acordo com qualquer uma das reivindicações 1 a 3, caracterizado pelo fato de que o módulo é adaptado para identificar um objeto de escuta SALT em um modo múltiplo para realizar o reconhecimento de texto e gerar como saída objetos semânticos parciais, enquanto a captura continua para as subsequentes porções da entrada.
  5. 5. Sistema de acordo com qualquer uma das reivindicações 1 a 4, caracterizado pelo fato de que o módulo é adaptado para identificar objetos de gramática para definir um espaço de busca do modelo de linguagem.
  6. 6. Meio legível por computador incluindo instruções legíveis por um dispositivo de computação (30, 80) que, quando implementadas, fazem com que o dispositivo de computação (30, 80) manipule a informação executando etapas compreendendo:
    receber entrada de um usuário e capturar a entrada para processamento em que processamento compreende o reconhecimento de texto a partir da entrada recebida;
    receber interfaces de programa aplicativo SALT para identificar um modelo de linguagem (310) para de 07/02/2018, pág. 5/10 realizar reconhecimento de texto e compreensão, o modelo de linguagem adaptado para fornecer texto de entrada reconhecida e informações semânticas para a entrada recebida;
    caracterizado pelo fato de que compreende ainda: processar a entrada acessando o modelo de linguagem (310) para realizar reconhecimento na entrada para determinar informações semânticas pertencentes a uma primeira parte da entrada e gerar como saída um objeto semântico parcial que compreende texto da entrada reconhecida e informação semântica para a primeira parte da entrada, em que realizar o reconhecimento de texto e gerar como saída objetos semânticos parciais são realizados enquanto a captura continua para as subsequentes partes da entrada.
  7. 7. Meio legível por computador de acordo com a reivindicação 6 caracterizado pelo fato de que o processamento inclui a identificação de um objeto de escuta SALT em um modo múltiplo para realizar o reconhecimento de texto e gerar como saída objetos semânticos parciais, enquanto a captura continua para as subsequentes porções da entrada.
  8. 8. Meio legível por computador de acordo com a reivindicação 6 ou 7, caracterizado pelo fato de que o recebimento de interfaces de programa aplicativo SALT inclui a identificação de objetos de gramática para definir um espaço de busca do modelo de linguagem.
    de 07/02/2018, pág. 6/10 »····· es
    Ό ε
    Η ο
    co
BRPI0401850A 2003-05-29 2004-05-27 compreensão síncrona de objeto semântico, implementada com identificadores de linguagem para aplicativos de fala BRPI0401850B1 (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/448,018 US7200559B2 (en) 2003-05-29 2003-05-29 Semantic object synchronous understanding implemented with speech application language tags

Publications (2)

Publication Number Publication Date
BRPI0401850A BRPI0401850A (pt) 2005-03-08
BRPI0401850B1 true BRPI0401850B1 (pt) 2018-09-11

Family

ID=33131605

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0401850A BRPI0401850B1 (pt) 2003-05-29 2004-05-27 compreensão síncrona de objeto semântico, implementada com identificadores de linguagem para aplicativos de fala

Country Status (16)

Country Link
US (1) US7200559B2 (pt)
EP (2) EP1482481B1 (pt)
JP (1) JP4768970B2 (pt)
KR (1) KR101042119B1 (pt)
CN (1) CN100578614C (pt)
AT (1) ATE398325T1 (pt)
AU (1) AU2004201992B2 (pt)
BR (1) BRPI0401850B1 (pt)
CA (1) CA2467220C (pt)
DE (1) DE602004014316D1 (pt)
HK (1) HK1071466A1 (pt)
MX (1) MXPA04005122A (pt)
MY (1) MY142974A (pt)
RU (1) RU2349969C2 (pt)
TW (1) TWI376681B (pt)
ZA (1) ZA200403492B (pt)

Families Citing this family (249)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6630800A (en) * 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
US8645137B2 (en) * 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US9134760B2 (en) 2000-07-17 2015-09-15 Microsoft Technology Licensing, Llc Changing power mode based on sensors in a device
US7249018B2 (en) * 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
ITFI20010199A1 (it) * 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US20080313282A1 (en) 2002-09-10 2008-12-18 Warila Bruce W User interface, operating system and architecture
US7386449B2 (en) * 2002-12-11 2008-06-10 Voice Enabling Systems Technology Inc. Knowledge-based flexible natural speech dialogue system
US7426329B2 (en) 2003-03-06 2008-09-16 Microsoft Corporation Systems and methods for receiving, storing, and rendering digital video, music, and pictures on a personal media player
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US7966188B2 (en) * 2003-05-20 2011-06-21 Nuance Communications, Inc. Method of enhancing voice interactions using visual messages
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
US7532196B2 (en) * 2003-10-30 2009-05-12 Microsoft Corporation Distributed sensing techniques for mobile devices
US7739117B2 (en) * 2004-09-20 2010-06-15 International Business Machines Corporation Method and system for voice-enabled autofill
US20060155530A1 (en) * 2004-12-14 2006-07-13 International Business Machines Corporation Method and apparatus for generation of text documents
TWI276046B (en) * 2005-02-18 2007-03-11 Delta Electronics Inc Distributed language processing system and method of transmitting medium information therefore
US20060247925A1 (en) * 2005-04-27 2006-11-02 International Business Machines Corporation Virtual push-to-talk
US20060277525A1 (en) * 2005-06-06 2006-12-07 Microsoft Corporation Lexical, grammatical, and semantic inference mechanisms
JP4733436B2 (ja) * 2005-06-07 2011-07-27 日本電信電話株式会社 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US7636794B2 (en) 2005-10-31 2009-12-22 Microsoft Corporation Distributed sensing techniques for mobile devices
US7817991B2 (en) * 2006-02-14 2010-10-19 Microsoft Corporation Dynamic interconnection of mobile devices
US7865357B2 (en) * 2006-03-14 2011-01-04 Microsoft Corporation Shareable filler model for grammar authoring
US8032375B2 (en) * 2006-03-17 2011-10-04 Microsoft Corporation Using generic predictive models for slot values in language modeling
US7752152B2 (en) * 2006-03-17 2010-07-06 Microsoft Corporation Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling
US7689420B2 (en) * 2006-04-06 2010-03-30 Microsoft Corporation Personalizing a context-free grammar using a dictation language model
US20070239453A1 (en) * 2006-04-06 2007-10-11 Microsoft Corporation Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances
US7797672B2 (en) * 2006-05-30 2010-09-14 Motorola, Inc. Statechart generation using frames
US7505951B2 (en) * 2006-05-30 2009-03-17 Motorola, Inc. Hierarchical state machine generation for interaction management using goal specifications
US7493293B2 (en) * 2006-05-31 2009-02-17 International Business Machines Corporation System and method for extracting entities of interest from text using n-gram models
US8140267B2 (en) * 2006-06-30 2012-03-20 International Business Machines Corporation System and method for identifying similar molecules
US8346555B2 (en) * 2006-08-22 2013-01-01 Nuance Communications, Inc. Automatic grammar tuning using statistical language model generation
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8019595B1 (en) 2006-09-11 2011-09-13 WordRake Holdings, LLC Computer processes for analyzing and improving document readability
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US8515733B2 (en) * 2006-10-18 2013-08-20 Calculemus B.V. Method, device, computer program and computer program product for processing linguistic data in accordance with a formalized natural language
ES2302640B1 (es) * 2006-12-21 2009-05-21 Juan Jose Bermudez Perez Sistema para la interaccion mediante voz en paginas web.
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US7912828B2 (en) * 2007-02-23 2011-03-22 Apple Inc. Pattern searching methods and apparatuses
US8977255B2 (en) * 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
US8074199B2 (en) * 2007-09-24 2011-12-06 Microsoft Corporation Unified messaging state machine
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US8386260B2 (en) * 2007-12-31 2013-02-26 Motorola Mobility Llc Methods and apparatus for implementing distributed multi-modal applications
US8370160B2 (en) * 2007-12-31 2013-02-05 Motorola Mobility Llc Methods and apparatus for implementing distributed multi-modal applications
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US20100082328A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for speech preprocessing in text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8396714B2 (en) * 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8352272B2 (en) * 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8355919B2 (en) * 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8380507B2 (en) * 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
GB0905457D0 (en) 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US9189472B2 (en) 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
US9424246B2 (en) 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
GB0917753D0 (en) 2009-10-09 2009-11-25 Touchtype Ltd System and method for inputting text into electronic devices
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US8412531B2 (en) * 2009-06-10 2013-04-02 Microsoft Corporation Touch anywhere to speak
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110010179A1 (en) * 2009-07-13 2011-01-13 Naik Devang K Voice synthesis and processing
KR20110036385A (ko) * 2009-10-01 2011-04-07 삼성전자주식회사 사용자 의도 분석 장치 및 방법
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
TWI423044B (zh) * 2010-10-25 2014-01-11 Univ Nat Taiwan Science Tech 基於普及運算的意見交流方法與系統
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8983995B2 (en) * 2011-04-15 2015-03-17 Microsoft Corporation Interactive semantic query suggestion for content search
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US20130204619A1 (en) * 2012-02-03 2013-08-08 Kextil, Llc Systems and methods for voice-guided operations
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9294539B2 (en) 2013-03-14 2016-03-22 Microsoft Technology Licensing, Llc Cooperative federation of digital devices via proxemics and device micro-mobility
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US10078487B2 (en) 2013-03-15 2018-09-18 Apple Inc. Context-sensitive handling of interruptions
KR101857648B1 (ko) 2013-03-15 2018-05-15 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
US9437186B1 (en) * 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition
US9123336B1 (en) * 2013-06-25 2015-09-01 Google Inc. Learning parsing rules and argument identification from crowdsourcing of proposed command inputs
US9026431B1 (en) * 2013-07-30 2015-05-05 Google Inc. Semantic parsing with multiple parsers
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9495359B1 (en) * 2013-08-21 2016-11-15 Athena Ann Smyros Textual geographical location processing
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US8868409B1 (en) 2014-01-16 2014-10-21 Google Inc. Evaluating transcriptions with a semantic parser
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9836527B2 (en) * 2016-02-24 2017-12-05 Google Llc Customized query-action mappings for an offline grammar model
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
GB201610984D0 (en) 2016-06-23 2016-08-10 Microsoft Technology Licensing Llc Suppression of input images
US10503808B2 (en) 2016-07-15 2019-12-10 Sap Se Time user interface with intelligent text reduction
US10140260B2 (en) * 2016-07-15 2018-11-27 Sap Se Intelligent text reduction for graphical interface elements
CN107665706B (zh) * 2016-07-29 2021-05-04 科大讯飞股份有限公司 快速语音交互方法及系统
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
RU2648572C1 (ru) * 2017-01-12 2018-03-26 Общество с ограниченной ответственностью "Инвестиционная группа "Коперник" Алгоритм поиска в компьютерных системах и базах данных
US10311860B2 (en) * 2017-02-14 2019-06-04 Google Llc Language model biasing system
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
TWI640877B (zh) * 2017-06-14 2018-11-11 財團法人資訊工業策進會 語意分析裝置、方法及其電腦程式產品
US11037554B1 (en) * 2017-09-12 2021-06-15 Wells Fargo Bank, N.A. Network of domain knowledge based conversational agents
CN108010525A (zh) * 2017-12-07 2018-05-08 横琴七弦琴知识产权服务有限公司 一种语音控制智能抽屉系统
CN108133701B (zh) * 2017-12-25 2021-11-12 江苏木盟智能科技有限公司 一种机器人语音交互的系统与方法
CN109994105A (zh) * 2017-12-29 2019-07-09 宝马股份公司 信息输入方法、装置、系统、车辆以及可读存储介质
CN108831482A (zh) * 2018-08-24 2018-11-16 深圳市云采网络科技有限公司 一种基于语音识别搜索电子元器件的方法
US11430433B2 (en) 2019-05-05 2022-08-30 Microsoft Technology Licensing, Llc Meeting-adapted language model for speech recognition
CN110379428A (zh) * 2019-07-16 2019-10-25 维沃移动通信有限公司 一种信息处理方法及终端设备
CN110619873A (zh) 2019-08-16 2019-12-27 北京小米移动软件有限公司 音频处理方法、装置及存储介质
CN113223510B (zh) * 2020-01-21 2022-09-20 青岛海尔电冰箱有限公司 冰箱及其设备语音交互方法、计算机可读存储介质

Family Cites Families (119)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2981254A (en) * 1957-11-12 1961-04-25 Edwin G Vanderbilt Apparatus for the gas deflation of an animal's stomach
US3657744A (en) * 1970-05-08 1972-04-25 Univ Minnesota Method for fixing prosthetic implants in a living body
US3788327A (en) * 1971-03-30 1974-01-29 H Donowitz Surgical implant device
US3874388A (en) * 1973-02-12 1975-04-01 Ochsner Med Found Alton Shunt defect closure system
US4014318A (en) * 1973-08-20 1977-03-29 Dockum James M Circulatory assist device and system
US4086665A (en) * 1976-12-16 1978-05-02 Thermo Electron Corporation Artificial blood conduit
US4212463A (en) * 1978-02-17 1980-07-15 Pratt Enoch B Humane bleeder arrow
DE3019996A1 (de) * 1980-05-24 1981-12-03 Institute für Textil- und Faserforschung Stuttgart, 7410 Reutlingen Hohlorgan
US4808183A (en) * 1980-06-03 1989-02-28 University Of Iowa Research Foundation Voice button prosthesis and method for installing same
WO1986002845A1 (en) * 1984-11-15 1986-05-22 Stefano Nazari Device for selective bronchial intubation and separate lung ventilation
ES8705239A1 (es) * 1984-12-05 1987-05-01 Medinvent Sa Un dispositivo para implantar,mediante insercion en un lugarde dificil acceso, una protesis sustancialmente tubular y radialmente expandible
US4759758A (en) * 1984-12-07 1988-07-26 Shlomo Gabbay Prosthetic heart valve
US4831550A (en) * 1986-03-27 1989-05-16 International Business Machines Corporation Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events
US4832680A (en) * 1986-07-03 1989-05-23 C.R. Bard, Inc. Apparatus for hypodermically implanting a genitourinary prosthesis
US4795449A (en) * 1986-08-04 1989-01-03 Hollister Incorporated Female urinary incontinence device
US4852568A (en) * 1987-02-17 1989-08-01 Kensey Nash Corporation Method and apparatus for sealing an opening in tissue of a living being
DE3723078A1 (de) 1987-07-11 1989-01-19 Philips Patentverwaltung Verfahren zur erkennung von zusammenhaengend gesprochenen woertern
DE3821631A1 (de) * 1987-07-28 1989-02-09 Bader Paul Verschluss fuer eine maennliche harnroehre
DE3739681A1 (de) * 1987-11-24 1989-06-08 Philips Patentverwaltung Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens
US4830003A (en) * 1988-06-17 1989-05-16 Wolff Rodney G Compressive stent and delivery system
JP2710355B2 (ja) * 1988-09-20 1998-02-10 日本ゼオン株式会社 医用弁装置
US4846836A (en) * 1988-10-03 1989-07-11 Reich Jonathan D Artificial lower gastrointestinal valve
DE3834545A1 (de) * 1988-10-11 1990-04-12 Rau Guenter Flexibles schliessorgan, insbesondere herzklappe, und verfahren zur herstellung desselben
CA2054728C (en) * 1989-05-31 2003-07-29 Rodolfo C. Quijano Biological valvular prosthesis
US5263117A (en) 1989-10-26 1993-11-16 International Business Machines Corporation Method and apparatus for finding the best splits in a decision tree for a language model for a speech recognizer
DK124690D0 (da) * 1990-05-18 1990-05-18 Henning Rud Andersen Klapprotes til implantering i kroppen for erstatning af naturlig klap samt kateter til brug ved implantering af en saadan klapprotese
US5411552A (en) * 1990-05-18 1995-05-02 Andersen; Henning R. Valve prothesis for implantation in the body and a catheter for implanting such valve prothesis
US5193525A (en) * 1990-11-30 1993-03-16 Vision Sciences Antiglare tip in a sheath for an endoscope
US5116360A (en) * 1990-12-27 1992-05-26 Corvita Corporation Mesh composite graft
US5477451A (en) 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5123919A (en) * 1991-11-21 1992-06-23 Carbomedics, Inc. Combined prosthetic aortic heart valve and vascular graft
DE69324239T2 (de) * 1992-01-21 1999-11-04 The Regents Of The University Of Minnesota, Minneapolis Verschlusseinrichtung eines septumschadens
US5329887A (en) * 1992-04-03 1994-07-19 Vision Sciences, Incorporated Endoscope control assembly with removable control knob/brake assembly
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
US5382261A (en) * 1992-09-01 1995-01-17 Expandable Grafts Partnership Method and apparatus for occluding vessels
JP3378595B2 (ja) * 1992-09-30 2003-02-17 株式会社日立製作所 音声対話システムおよびその対話進行制御方法
US5409019A (en) * 1992-10-30 1995-04-25 Wilk; Peter J. Coronary artery by-pass method
US5419310A (en) * 1992-11-03 1995-05-30 Vision Sciences, Inc. Partially inflated protective endoscope sheath
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
US5306234A (en) * 1993-03-23 1994-04-26 Johnson W Dudley Method for closing an atrial appendage
US5447148A (en) * 1993-07-08 1995-09-05 Vision Sciences, Inc. Endoscopic contamination protection system to facilitate cleaning of endoscopes
DE69423838T2 (de) 1993-09-23 2000-08-03 Xerox Corp., Rochester Semantische Gleichereignisfilterung für Spracherkennung und Signalübersetzungsanwendungen
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US5483951A (en) * 1994-02-25 1996-01-16 Vision-Sciences, Inc. Working channels for a disposable sheath for an endoscope
US5520607A (en) * 1994-03-04 1996-05-28 Vision Sciences, Inc. Holding tray and clamp assembly for an endoscopic sheath
US5499995C1 (en) * 1994-05-25 2002-03-12 Paul S Teirstein Body passageway closure apparatus and method of use
US5417226A (en) * 1994-06-09 1995-05-23 Juma; Saad Female anti-incontinence device
US5675819A (en) 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5752052A (en) * 1994-06-24 1998-05-12 Microsoft Corporation Method and system for bootstrapping statistical processing into a rule-based natural language parser
US5755770A (en) * 1995-01-31 1998-05-26 Boston Scientific Corporatiion Endovascular aortic graft
US5689617A (en) 1995-03-14 1997-11-18 Apple Computer, Inc. Speech recognition system which returns recognition results as a reconstructed language model with attached data values
IT1279171B1 (it) * 1995-03-17 1997-12-04 Ist Trentino Di Cultura Sistema di riconoscimento di parlato continuo
DE29507519U1 (de) * 1995-05-05 1995-08-10 Angiomed Ag, 76227 Karlsruhe Endosphinkter und Set zum freigebbaren Verschließen der Urethra
US5710866A (en) * 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
US5667476A (en) * 1995-06-05 1997-09-16 Vision-Sciences, Inc. Endoscope articulation system to reduce effort during articulation of an endoscope
US5680511A (en) 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
US5645565A (en) * 1995-06-13 1997-07-08 Ethicon Endo-Surgery, Inc. Surgical plug
KR19990064209A (ko) * 1995-10-13 1999-07-26 트랜스바스큘라, 인코포레이티드 간질성 경혈관 개입을 위한 장치, 시스템 및 방법
JPH09114488A (ja) * 1995-10-16 1997-05-02 Sony Corp 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車
JP3126985B2 (ja) * 1995-11-04 2001-01-22 インターナシヨナル・ビジネス・マシーンズ・コーポレーション 音声認識システムの言語モデルのサイズを適応させるための方法および装置
US6567778B1 (en) * 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
US5937384A (en) 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
ATE285812T1 (de) * 1996-05-20 2005-01-15 Medtronic Percusurge Inc Katheterventil mit niedrigem profil
DE69719237T2 (de) * 1996-05-23 2003-11-27 Samsung Electronics Co., Ltd. Flexibler, selbstexpandierbarer Stent und Verfahren zu dessen Herstellung
US5835888A (en) 1996-06-10 1998-11-10 International Business Machines Corporation Statistical language model for inflected languages
KR980000327U (ko) * 1996-06-13 1998-03-30 이정행 귀걸이 설치용 귀걸이홀 성형구
US5855601A (en) * 1996-06-21 1999-01-05 The Trustees Of Columbia University In The City Of New York Artificial heart valve and method and device for implanting the same
US5963903A (en) 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US5685822A (en) * 1996-08-08 1997-11-11 Vision-Sciences, Inc. Endoscope with sheath retaining device
US5782916A (en) * 1996-08-13 1998-07-21 Galt Laboratories, Inc. Device for maintaining urinary continence
JPH1097280A (ja) * 1996-09-19 1998-04-14 Hitachi Ltd 音声画像認識翻訳装置
US5819220A (en) 1996-09-30 1998-10-06 Hewlett-Packard Company Web triggered word set boosting for speech interfaces to the world wide web
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US5829000A (en) 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
GB9701866D0 (en) 1997-01-30 1997-03-19 British Telecomm Information retrieval
DE19708183A1 (de) 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
US6200333B1 (en) * 1997-04-07 2001-03-13 Broncus Technologies, Inc. Bronchial stenter
US6083255A (en) * 1997-04-07 2000-07-04 Broncus Technologies, Inc. Bronchial stenter
US6245102B1 (en) * 1997-05-07 2001-06-12 Iowa-India Investments Company Ltd. Stent, stent graft and stent valve
US5855597A (en) * 1997-05-07 1999-01-05 Iowa-India Investments Co. Limited Stent valve and stent graft for percutaneous surgery
US6073091A (en) * 1997-08-06 2000-06-06 International Business Machines Corporation Apparatus and method for forming a filtered inflected language model for automatic speech recognition
US5954766A (en) * 1997-09-16 1999-09-21 Zadno-Azizi; Gholam-Reza Body fluid flow control device
US6154722A (en) 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
EP0941713B1 (de) * 1998-03-04 2004-11-03 Schneider (Europe) GmbH Vorrichtung zum Einführen einer Endoprothese in einen Katheterschaft
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6141641A (en) 1998-04-15 2000-10-31 Microsoft Corporation Dynamically configurable acoustic model for speech recognition system
US6009614A (en) * 1998-04-21 2000-01-04 Advanced Cardiovascular Systems, Inc. Stent crimping tool and method of use
US5974652A (en) * 1998-05-05 1999-11-02 Advanced Cardiovascular Systems, Inc. Method and apparatus for uniformly crimping a stent onto a catheter
US6174323B1 (en) * 1998-06-05 2001-01-16 Broncus Technologies, Inc. Method and assembly for lung volume reduction
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US6174280B1 (en) * 1998-11-19 2001-01-16 Vision Sciences, Inc. Sheath for protecting and altering the bending characteristics of a flexible endoscope
US6020380A (en) * 1998-11-25 2000-02-01 Tap Holdings Inc. Method of treating chronic obstructive pulmonary disease
US6051022A (en) * 1998-12-30 2000-04-18 St. Jude Medical, Inc. Bileaflet valve having non-parallel pivot axes
US6350231B1 (en) * 1999-01-21 2002-02-26 Vision Sciences, Inc. Apparatus and method for forming thin-walled elastic components from an elastomeric material
US6530881B1 (en) * 1999-01-21 2003-03-11 Vision Sciences, Inc. Sheath apparatus for endoscopes and methods for forming same
US6081799A (en) * 1999-05-05 2000-06-27 International Business Machines Corporation Executing complex SQL queries using index screening for conjunct or disjunct index operations
US6206918B1 (en) * 1999-05-12 2001-03-27 Sulzer Carbomedics Inc. Heart valve prosthesis having a pivot design for improving flow characteristics
US6234996B1 (en) * 1999-06-23 2001-05-22 Percusurge, Inc. Integrated inflation/deflation device and method
US6287290B1 (en) * 1999-07-02 2001-09-11 Pulmonx Methods, systems, and kits for lung volume reduction
US6712812B2 (en) * 1999-08-05 2004-03-30 Broncus Technologies, Inc. Devices for creating collateral channels
US6190330B1 (en) * 1999-08-09 2001-02-20 Vision-Sciences, Inc. Endoscopic location and vacuum assembly and method
US6416554B1 (en) * 1999-08-24 2002-07-09 Spiration, Inc. Lung reduction apparatus and method
US6293951B1 (en) * 1999-08-24 2001-09-25 Spiration, Inc. Lung reduction device, system, and method
US6402754B1 (en) * 1999-10-20 2002-06-11 Spiration, Inc. Apparatus for expanding the thorax
US6398775B1 (en) * 1999-10-21 2002-06-04 Pulmonx Apparatus and method for isolated lung access
US6510846B1 (en) * 1999-12-23 2003-01-28 O'rourke Sam Sealed back pressure breathing device
US6865528B1 (en) * 2000-06-01 2005-03-08 Microsoft Corporation Use of a unified language model
AU2001275974A1 (en) * 2000-07-19 2002-01-30 University Of Florida Method for treating chronic obstructive pulmonary disorder
TW472232B (en) * 2000-08-11 2002-01-11 Ind Tech Res Inst Probability-base fault-tolerance natural language understanding method
US6785651B1 (en) 2000-09-14 2004-08-31 Microsoft Corporation Method and apparatus for performing plan-based dialog
US6527761B1 (en) * 2000-10-27 2003-03-04 Pulmonx, Inc. Methods and devices for obstructing and aspirating lung tissue segments
EP1410381A4 (en) * 2001-05-04 2005-10-19 Unisys Corp DYNAMIC GENERATION OF VOICE APPLICATION INFORMATION FROM A WEB SERVER
JP4602602B2 (ja) * 2001-07-19 2010-12-22 オリンパス株式会社 医療器具
US20030018327A1 (en) * 2001-07-20 2003-01-23 Csaba Truckai Systems and techniques for lung volume reduction
JP4094255B2 (ja) * 2001-07-27 2008-06-04 日本電気株式会社 コマンド入力機能つきディクテーション装置
US20030050648A1 (en) * 2001-09-11 2003-03-13 Spiration, Inc. Removable lung reduction devices, systems, and methods
US6592594B2 (en) * 2001-10-25 2003-07-15 Spiration, Inc. Bronchial obstruction device deployment system and method
JP4000828B2 (ja) * 2001-11-06 2007-10-31 株式会社デンソー 情報システム、電子機器、プログラム

Also Published As

Publication number Publication date
RU2349969C2 (ru) 2009-03-20
AU2004201992A1 (en) 2004-12-16
EP1970897A1 (en) 2008-09-17
JP4768970B2 (ja) 2011-09-07
TW200515369A (en) 2005-05-01
BRPI0401850A (pt) 2005-03-08
EP1482481B1 (en) 2008-06-11
KR101042119B1 (ko) 2011-06-17
JP2004355630A (ja) 2004-12-16
TWI376681B (en) 2012-11-11
RU2004116304A (ru) 2005-11-10
EP1482481A1 (en) 2004-12-01
DE602004014316D1 (de) 2008-07-24
ATE398325T1 (de) 2008-07-15
MXPA04005122A (es) 2005-02-17
MY142974A (en) 2011-01-31
CN100578614C (zh) 2010-01-06
CN1573928A (zh) 2005-02-02
US7200559B2 (en) 2007-04-03
CA2467220A1 (en) 2004-11-29
KR20040103445A (ko) 2004-12-08
US20040243393A1 (en) 2004-12-02
ZA200403492B (en) 2006-04-26
CA2467220C (en) 2014-07-08
HK1071466A1 (en) 2005-07-15
AU2004201992B2 (en) 2009-10-22

Similar Documents

Publication Publication Date Title
BRPI0401850B1 (pt) compreensão síncrona de objeto semântico, implementada com identificadores de linguagem para aplicativos de fala
JP4768969B2 (ja) 高度対話型インターフェースに対する理解同期意味オブジェクト
US8311835B2 (en) Assisted multi-modal dialogue
US20030130854A1 (en) Application abstraction with dialog purpose
JP2003131772A (ja) Webで使用可能な認識のためのマークアップ言語拡張部
WO2003036930A1 (en) Web server controls for web enabled recognition and/or audible prompting
WO2019169722A1 (zh) 快捷键识别方法、装置、设备以及计算机可读存储介质
JP4467226B2 (ja) ウェブ対応音声認識用サーバの方法および記録媒体
Tomko et al. Towards efficient human machine speech communication: The speech graffiti project
Wang Semantic object synchronous understanding in SALT for highly interactive user interface.
Milhorat An open-source framework for supporting the design and implementation of natural-language spoken dialog systems
Habeeb et al. Design module for speech recognition graphical user interface browser to supports the web speech applications
Deng et al. A speech-centric perspective for human-computer interface
Spiros Multimodal System for Preschool Children
Molapo Implementing a distributed approach for speech resource and system development
Branco et al. A Portuguese spoken and multi-modal dialog corpora.
Beskow et al. Modal Dialogue System Output Applied to an Animated Talking Head. To appear in Minker, W., Bühler, D. and Dybkj r, T.(Eds) Spoken Multimodal Human-Computer Dialogue in Mobile Envirnonments. Dordrech, The Netherlands: Kluwer Academic Publishers.

Legal Events

Date Code Title Description
B25A Requested transfer of rights approved

Owner name: MICROSOFT TECHNOLOGY LICENSING, LLC (US)

B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 11/09/2018, OBSERVADAS AS CONDICOES LEGAIS.

B21F Lapse acc. art. 78, item iv - on non-payment of the annual fees in time

Free format text: REFERENTE A 17A ANUIDADE.

B24J Lapse because of non-payment of annual fees (definitively: art 78 iv lpi, resolution 113/2013 art. 12)

Free format text: EM VIRTUDE DA EXTINCAO PUBLICADA NA RPI 2622 DE 06-04-2021 E CONSIDERANDO AUSENCIA DE MANIFESTACAO DENTRO DOS PRAZOS LEGAIS, INFORMO QUE CABE SER MANTIDA A EXTINCAO DA PATENTE E SEUS CERTIFICADOS, CONFORME O DISPOSTO NO ARTIGO 12, DA RESOLUCAO 113/2013.