BRPI1014550B1

BRPI1014550B1 - sistema de reconhecimento implementado por computador e método de reconhecimento implementado por computador

Info

Publication number: BRPI1014550B1
Application number: BRPI1014550A
Authority: BR
Inventors: Buntschuh Bruce; Levit Michael; Chang Shuangyu
Original assignee: Microsoft Corp; Microsoft Technology Licensing Llc
Priority date: 2009-06-04
Filing date: 2010-06-01
Publication date: 2020-05-05
Also published as: BRPI1014550A2; KR101700466B1; KR20120029413A; RU2571519C2; CA2760992C; CN102460423B; WO2010141513A2; AU2010256788A1; JP2012529080A; US8930179B2; CA2760992A1; JP2016026326A; CN102460423A; EP2438533B1; US20100312546A1; RU2011149321A; EP2438533A2; EP2438533A4; WO2010141513A3; AU2010256788B2

Abstract

sistema de reconhecimento implementado por computador e método de reconhecimento implementado por computador a presente invenção refere-se a uma arquitetura que emprega uma gramática geral como um conjunto de gramáticas específicas ao contexto para reconhecimento de uma entrada, cada uma responsável por um contexto específico, tal como uma categoria de subtarefa, região geográfica, etc. as gramáticas juntas abrangem todo o domínio. ademais, múltiplos reconhecimentos podem ser executados em paralelo em relação à mesma entrada, onde cada reconhecimento usa uma ou mais gramáticas específicas ao contexto. os múltiplos resultados de reconhecimento intermediários a partir de diferentes gramáticas de reconhecedor são conciliados executando-se um rereconhecimento que utiliza uma gramática dinamicamente composta com base nos múltiplos resultados de reconhecimento e potencialmente outro conhecimento de domínio, ou selecionando-se o vencedor através do uso de um classificador estatístico que opera em recursos de classificação extraídos dos múltiplos resultados de reconhecimento e de outro conhecimento de domínio.

Description

Relatório Descritivo da Patente de Invenção para SISTEMA DE RECONHECIMENTO IMPLEMENTADO POR COMPUTADOR E MÉTODO DE RECONHECIMENTO IMPLEMENTADO POR COMPUTADOR.

ANTECEDENTES DA INVENÇÃO [0001] Frequentemente, o desempenho de reconhecimento de fala é sub-ótimo quando uma se envolve um grande espaço de busca gramatical, tal como uma tarefa de busca por voz que abrange um grande número de nomes de empresas, consultas de busca da web, solicitações de discagem de voz, etc. Três subotimalidades principais que são geralmente exibidas incluem longa latência de reconhecimento, fraca precisão de reconhecimento, e abrangência gramatical insuficiente.

[0002] Um aplicativo móvel de busca por voz existente usa uma gramática de listagem de empresas nacionais mais uma gramática de localizada no primeiro estágio e re-reconhece a mesma prosódia utilizando-se uma gramática de listagem de empresas específicas por localidade no segundo estágio (onde a localidade foi determinada no primeiro estágio). Esta abordagem não atribui a questão de latência, porém, pode aperfeiçoar a cobertura e a precisão em situações muito específicas. Outra abordagem tenta reduzir a taxa de erro de palavras votando-se entre as saídas de reconhecedores distintos no nível de sub-prosódia. A abordagem e suas extensões geralmente assumem cada reconhecimento de tentativa do reconhecedor com uma gramática completa para toda a tarefa.

SUMÁRIO DA INVENÇÃO [0003] A seguir, apresenta-se um sumário simplificado com a finalidade de proporcionar uma compreensão básica de algumas modalidades inusitadas descritas no presente documento. Este sumário não é uma visão geral extensiva, e não se destina a identificar elementos chave/críticos ou delinear o escopo do mesmo. Seu único propósito

Petição 870190110556, de 30/10/2019, pág. 4/34

2/23 consiste em apresentar alguns conceitos em uma forma simplificada como um prelúdio à descrição mais detalhada que será apresentada mais adiante.

[0004] A arquitetura descrita adota uma entrada para conhecimento e aplica diferentes casos de restrições específicas ao contexto à entrada para processamento de reconhecimento. Os casos de restrições separadas tomados juntamente proporcionam o domínio de contexto geral para a determinada entrada. Operando-se o reconhecimento em paralelo, por exemplo, em relação a esses casos de restrições, proporciona-se a latência de reconhecimento, a precisão de reconhecimento, e a cobertura de domínio de reconhecimento. Ademais, o processamento de reconhecimento das trajetórias de reconhecimento separadas pode ser gerenciado impondo-se limitações de tempo em pro quanto tempo o sistema aguardará para que um resultado seja produzido.

[0005] No contexto de reconhecimento de fala, a arquitetura emprega uma gramática geral sob a forma de uma disjunção de gramáticas específicas ao contexto individuais menores para reconhecimento de uma entrada de prosódia, cada uma responsável por um contexto específico, tal como uma categoria de subtarefa, região geográfica, etc. As gramáticas juntas abrangem todo o domínio. Ademais, múltiplos reconhecimentos podem ser executados em paralelo em relação à mesma entrada, onde cada trajetória de reconhecimento usa uma ou mais gramáticas específicas ao contexto.

[0006] Os múltiplos resultados de reconhecimento intermediários a partir das diferentes trajetórias reconhecedoras de gramáticas são reconciliados executando-se um re-reconhecimento através do uso de uma gramática dinamicamente composta baseada em múltiplos resultados de reconhecimento e potencialmente outro conhecimento de domínio, ou selecionando-se o vencedor através do uso de um classi

Petição 870190110556, de 30/10/2019, pág. 5/34

3/23 ficador estatístico que opera nos recursos de classificação extraídos dos múltiplos resultados de reconhecimento e outro conhecimento de domínio.

[0007] Para realização disto e de finalidades relacionadas, determinados aspectos ilustrativos são descritos no presente documento em conexão à descrição a seguir e aos desenhos em anexo. Esses aspectos são indicativos das várias formas nas quais os princípios aqui descritos podem ser praticados e todos os aspectos e equivalentes destes são destinados a estarem no escopo do assunto em questão reivindicado. Outras vantagens e recursos inusitados se tornarão aparentes a partir da descrição detalhada a seguir considerada em conjunto com os desenhos.

BREVE DESCRIÇÃO DOS DESENHOS [0008] A FIGURA 1 ilustra um sistema de reconhecimento implementado por computador de acordo com a arquitetura descrita.

[0009] A FIGURA 2 ilustra uma modalidade alternativa de um sistema que emprega regras para determinação do único resultado de reconhecimento.

[00010] A FIGURA 3 ilustra um sistema de reconhecimento de restrições específicas ao contexto que emprega um re-reconhecimento e onde as restrições são gramáticas para reconhecimento de voz.

[00011] A FIGURA 4 ilustra um sistema de reconhecimento de restrições específicas ao contexto que emprega uma classificação estatística e onde as restrições são gramáticas para reconhecimento de voz paralelo.

[00012] A FIGURA 5 ilustra um método de reconhecimento implementado por computador.

[00013] A FIGURA 6 ilustra aspectos adicionais do método da FIGURA 5.

[00014] A FIGURA 7 ilustra aspectos adicionais do método da FIPetição 870190110556, de 30/10/2019, pág. 6/34

4/23

GURA 5.

[00015] A FIGURA 8 ilustra um diagrama de blocos de um sistema operacional operável para executar um reconhecimento de acordo com a arquitetura descrita.

[00016] A FIGURA 9 ilustra um diagrama de blocos esquemático de um ambiente computacional que proporciona um reconhecimento paralelo de acordo com a arquitetura descrita.

DESCRIÇÃO DETALHADA DA INVENÇÃO [00017] A arquitetura descrita é um sistema de reconhecimento que primeiramente realiza um reconhecimento independente da mesma entrada (por exemplo, prosódia) utilizando-se restrições específicas ao contexto. Esses reconhecimentos independentes podem ser realizados serialmente ou em paralelo. As restrições específicas ao contexto são menores que uma restrição que se tenta unificar todos os conhecimentos de domínio. A reconciliação dos múltiplos resultados de reconhecimento pode ser realizada utilizando-se um reconhecimento subsequente (re-reconhecimento) e/ou através de classificação estatística.

[00018] A arquitetura endereça problemas de latência de reconhecimento, precisão de reconhecimento, e cobertura de gramática insuficiente associada a uma abordagem de gramática única e reconhecimento único tradicional. Em relação à latência de reconhecimento, cada caso de reconhecimento no reconhecimento paralelo ocorre em relação a uma gramática menor que uma única gramática grande que pode abranger as mesmas tarefas. Além disso, a etapa de rereconhecimento ocorre em relação a uma gramática dinâmica pequena. Os dois estágios de reconhecimento combinados da latência máxima dos reconhecimentos paralelos, por exemplo, mais a latência de re-reconhecimento podem ter uma latência menor que o reconhecimento com uma única gramática grande, particularmente em casos de

Petição 870190110556, de 30/10/2019, pág. 7/34

5/23 fluxo não-contínuo.

[00019] Com um reconhecimento único, a precisão de reconhecimento algumas vezes é perdida devido à remoção durante a busca hipotética. Tendo múltiplos reconhecimentos alivia esta limitação uma vez que um conjunto de hipóteses muito maior pode ser mantido. Além disso, as restrições específicas ao contexto, tais como as gramáticas, mais provavelmente têm uma precisão melhor em prosódias, por exemplo, a partir do contexto alvo do que uma gramática única que abrange muitos contextos. Portanto, há uma chance maior que os resultados dos múltiplos reconhecimentos contenham o resultado correto, e reconcilie os múltiplos resultados de reconhecimento ao rereconhecimento ou um seja mais provável que um classificador gere o resultado correto do que uma abordagem de gramática única e reconhecimento único.

[00020] Em relação à cobertura de gramática insuficiente, por exemplo, geralmente existem limitações práticas (por exemplo, hardware, software) em quão grande uma gramática única pode ser e/ou quão grandes as gramáticas podem ser em um reconhecimento único. Executando-se múltiplos reconhecimentos em paralelo, por exemplo, pode aumentar significativamente a cobertura de gramática total, visto que cada reconhecimento pode potencialmente ser executado em processos de software distintos e/ou recursos de hardware.

[00021] Considera-se a aplicação da arquitetura descrita a uma tarefa de reconhecimento de fala em grande escala. O exemplo a seguir ilustra o conceito utilizando-se uma tarefa de busca por voz como um exemplo, que pode incluir uma busca em aberto da web, empresas locais, contatos pessoais, etc. Variantes e aprimoramentos são possíveis às várias partes da solução.

[00022] A gramática de reconhecimento é proporcionada como uma série de gramáticas específicas ao contexto menores e possivelmente

Petição 870190110556, de 30/10/2019, pág. 8/34

6/23 sobrepostas, cada uma cobrindo um subconjunto específico do espaço de tarefa original. O contexto para divisão pode se basear em uma categoria de subtarefa (por exemplo, nomes de empresas versus títulos de filmes), localização geográfica (por exemplo, empresas na Califórnia versus em Nova York), origens demográficas (por exemplo, conteúdos orientados a jovens versus conteúdos maduros), etc. Cada gramática específica a conteúdos pode ser construída separadamente, alavancar o conhecimento e outras informações disponíveis relevantes para cada contexto para maximizar a taxa de sucesso para as entradas esperadas de usuário a partir de cada contexto.

[00023] Agora, faz-se referência aos desenhos, onde referências numéricas similares são usadas para se referir a elementos similares ao longo do presente documento. Na descrição a seguir, por propósitos de explicação, vários detalhes específicos são apresentados com a finalidade de proporcionar uma compreensão completa da mesma. No entanto, pode ser evidente que as modalidades inusitadas podem ser praticadas sem esses detalhes específicos. Em outros casos, estruturas e dispositivos bem conhecidos são mostrados em um diagrama de blocos com a finalidade de facilitar uma descrição destes. A intenção consiste em abranger todas as modificações, equivalentes, e alternativas encontradas no espírito e escopo do assunto em questão reivindicado.

[00024] A FIGURA 1 ilustra um sistema de reconhecimento implementado por computador 100 de acordo com a arquitetura descrita. O sistema 100 inclui um componente de restrições 102 de restrições específicas ao contexto 104 para processamento de reconhecimento de uma entrada 106 nos resultados de reconhecimento 108, e um componente de reconciliação 110 que serve para reconciliar os resultados de reconhecimento 108 em um único resultado de reconhecimento 112.

Petição 870190110556, de 30/10/2019, pág. 9/34

7/23 [00025] O sistema 100 pode compreender, ainda, um componente de reconhecimento 114 para um processamento de reconhecimento separado de restrições específicas ao contexto correspondentes 104 em trajetórias paralelas e/ou seriais. Por exemplo, as restrições específicas ao contexto 104 podem incluir gramáticas para processamento de reconhecimento das gramáticas em relação à entrada 106 em trajetórias paralelas e/ou trajetórias seriais. Os conjuntos individuais de restrições específicas ao contexto 104 podem incluir uma cobertura de contexto desarticulado e entrecruzado. Em outras palavras, um conjunto de restrições pode ter alguma sobreposição às restrições de outro conjunto de restrições. Este também é o caso onde alguns conjuntos de restrições não se sobrepõem às restrições dos outros conjuntos de restrições.

[00026] O componente de reconciliação 110 pode reconciliar os resultados de reconhecimento 108 utilizando-se re-reconhecimento para gerar o único resultado de reconhecimento 112, empregando-se uma gramática dinamicamente composta com base nos resultados de reconhecimento 108.

[00027] Alternativamente, o componente de reconciliação 110 pode reconciliar os resultados 108 utilizando-se um classificador estatístico que opera em recursos de classificação extraídos dos resultados de reconhecimento 108 para gerar o único resultado de reconhecimento 112.

[00028] O processamento de reconciliação também pode processar dados de tarefa relevante para chagar ao único resultado de reconhecimento 112. Estes dados de tarefa relevante podem incluir pelo menos uma das cadeias reconhecidas, classificações de confiança em nível de prosódia e em nível de sub-prosódia, cobertura de fala, latências relativas entre os reconhecimentos concorrentes, probabilidades anteriores de contexto, dificuldade relativa de cada reconhecimento,

Petição 870190110556, de 30/10/2019, pág. 10/34

8/23 ou consenso entre os resultados de reconhecimento. Além disso, uma série de regras manuscritas e/ou automaticamente derivadas que refletem requerimentos específicos da tarefa podem influenciar o processo de reconciliação de múltiplas hipóteses de reconhecimento. [00029] A FIGURA 2 ilustra uma modalidade alternativa de um sistema 200 que emprega regras para determinação do único resultado de reconhecimento 112. O sistema 200 inclui o componente de restrições 102 de restrições específicas ao contexto 104 para processamento de reconhecimento da entrada 106 nos resultados de reconhecimento 108, e o componente de reconciliação 110 que serve para reconciliar os resultados de reconhecimento 108 no único resultado de reconhecimento 112, e o componente de reconhecimento 114 para um processamento de reconhecimento separado de restrições específicas ao contexto correspondentes 104 em trajetórias paralelas e/ou seriais. [00030] Um componente de regras 202 é proporcionado para aplicar regras (por exemplo, prioridade) para declarar um ou mais dos resultados de reconhecimento 108 e/ou do único resultado de reconhecimento 112 (por exemplo, um resultado final). Por exemplo, pode-se criar e aplicar uma regra que determine se um reconhecedor específico retorna um resultado particular com uma classificação de confiança suficientemente alta, então, tal resultado pode ser aceito como final para tal processo reconhecedor correspondente ou até mesmo para o único resultado de reconhecimento 112.

[00031] A FIGURA 3 ilustra um sistema de reconhecimento de restrições específicas ao contexto 300 que emprega um rereconhecimento e onde as restrições são gramáticas para reconhecimento de voz. O sistema 300 inclui N pares de gramática de reconhecimento que operam em paralelo, onde cada par inclui uma ou mais gramáticas específicas ao contexto e um reconhecedor (denotado como Reconhecimento N). Conforme ilustrado, as gramáticas são dife

Petição 870190110556, de 30/10/2019, pág. 11/34

9/23 rentes; no entanto, pode existir alguma sobreposição de uma gramática à outra gramática, embora isto não seja necessário. Ao invés de criar e utilizar uma gramática grande, conforme em sistemas de reconhecimento existentes, o sistema 300 retém as gramáticas separadas (ao invés de mesclar em uma gramática grande), e executa o reconhecimento de uma entrada de prosódia da fala 302 em cada uma das gramáticas.

[00032] Em outras palavras, a entrada de prosódia 302 é processada através de um primeiro reconhecedor 304 e associada à primeira gramática específica ao contexto 306 que produz o(s) primeiro(s) resultado^) 308, assim como através de um segundo reconhecedor 310 e associada à segunda gramática específica ao contexto 312 que produz o(s) segundo(s) resultado(s) 314, e assim por diante, até o número N desejado de reconhecedores e gramáticas, produzindo, assim, N resultados. Os resultados são utilizados para gerar uma gramática dinâmica 316, que pode, então, ser usada para re-reconhecimento 318 à saída de um resultado de reconhecimento final 320.

[00033] De outra forma, com a entrada de prosódia de usuário 302, um reconhecimento separado é executado em relação a cada uma das gramáticas específicas ao contexto. Isto é ilustrado ocorrendo de modo paralelo no mesmo momento ou aproximadamente no mesmo momento. Cada um dos reconhecimentos paralelos pode empregar o mesmo tipo ou um tipo diferente de reconhecedor (por exemplo, reconhecedores embutidos versus reconhecedores de rede, reconhecedores de rede com diferentes modelos acústicos, etc.), e usar parâmetros de conhecimento iguais ou diferentes. Até um período máxima de espera, o sistema 300 coleta todos os resultados de reconhecimento disponíveis (por exemplo, resultado(s) 308, resultado(s) 314, etc.) e determina o resultado de reconhecimento final 320 por rereconhecimento.

Petição 870190110556, de 30/10/2019, pág. 12/34

10/23 [00034] A gramática dinâmica 316 é construída para incluir entradas concorrentes derivadas de todos os resultados de reconhecimento, que podem incluir cadeias de reconhecimento, interpretações, e classificações de confiança, dos N-melhores resultados de reconhecimento, e/ou treliça de reconhecimento, se disponível. O re-reconhecimento da entrada de prosódia original 302 é realizado em relação a esta gramática dinâmica 316. O resultado do re-reconhecimento 318, que inclui classificações de confiança, é adotado como o resultado de reconhecimento final 320.

[00035] Opcionalmente, determinadas regras de prioridade podem ser incluídas pelo componente de regras 202 para declarar o resultado de reconhecimento final 320 antes de todos os reconhecimentos estarem completos, tal como se um determinado reconhecedor retornar um resultado particular com uma classificação de confiança suficientemente alta, este resultado pode ser aceito como final. Opcionalmente, outro conhecimento de domínio 322 que seja relevante à tarefa pode ser proporcionado como uma entrada à gramática dinâmica para proporcionar um processo de reconhecimento mais focalizado. Este conhecimento 322 pode incluir preferências do usuário, conteúdos relacionados ao o que está sendo dito na prosódia, considerações de hardware/software, localidade, e assim por diante.

[00036] A FIGURA 4 ilustra um sistema de reconhecimento de restrições específicas ao contexto 400 que emprega uma classificação estatística e onde as restrições são gramáticas para reconhecimento de voz em paralelo. Múltiplos recursos numéricos e/ou categóricos 402 podem ser derivados a partir de todos os resultados de reconhecimento (por exemplo, resultado(s) 308, resultado(s) 314, etc.), e potencialmente, o outro conhecimento de domínio 322 relevante para a tarefa de reconhecimento. Um classificador estatístico é usado para determinar o quão provavelmente cada resultado reflete a entrada real do

Petição 870190110556, de 30/10/2019, pág. 13/34

11/23 usuário. O resultado com a classificação mais alta pode ser selecionado como o resultado de reconhecimento final 320 e a classificação pode ser normalizada como sendo a confidência de reconhecimento final. [00037] O sistema 400 inclui os N pares de reconhecimento de gramática operando em paralelo, onde cada par inclui uma gramática específica ao contexto (denotada como gramática específica ao contexto N) e um reconhecedor (denotado como Reconhecimento N). Conforme previamente ilustrado e descrito, as gramáticas são diferentes; no entanto, pode existir alguma sobreposição de uma gramática à outra gramática, embora isto não seja necessário. Ao invés de criar e utilizar uma gramática grande, conforme em sistemas de reconhecimento existentes, o sistema 400 retém as gramáticas separadas (ao invés de mesclar em uma gramática grande), e executa o reconhecimento de uma entrada de prosódia da fala 302 em cada uma das gramáticas.

[00038] Em outras palavras, a entrada de prosódia 302 é processada através do primeiro reconhecedor 304 e associada à primeira gramática específica ao contexto 306 que produz o(s) primeiro(s) resultado(s) 308, assim como através de um segundo reconhecedor 310 e associada à segunda gramática específica ao contexto 312 que produz o(s) segundo(s) resultado(s) 314, e assim por diante, até o número N desejado de reconhecedores e gramáticas, produzindo, assim, N resultados. Os resultados (Resultado(s) 308, Resultado(s) 314,...,Resultado(s) N) são utilizados para gerar recursos 402, que são, então, passados à classificação estatística 404 para o resultado de reconhecimento final 320.

[00039] Conforme previamente ilustrado e descrito na FIGURA 3, opcionalmente, determinadas regras de prioridade podem ser incluídas pelos componentes de regra 202 para declarar o resultado de reconhecimento final 320 antes que todos os reconhecidos sejam completos, tal como se um determinado reconhecedor retorna um resultado

Petição 870190110556, de 30/10/2019, pág. 14/34

12/23 particular com uma classificação de confiança suficientemente alta, este resultado pode ser aceito como final. Opcionalmente, o outro conhecimento de domínio 322 que seja relevante à tarefa pode ser proporcionado como uma entrada à gramática dinâmica para proporcionar um processo de reconhecimento mais focalizado. Este conhecimento 322 pode incluir preferências do usuário, conteúdos relacionados ao o que está sendo dito na prosódia, considerações de hardware/software, localidade, e assim por diante.

[00040] Nota-se que a descrição aqui contida abrange como a arquitetura funciona ao receber uma prosódia de entrada de usuário online. Outro aspecto da solução consiste em escolher as configurações apropriadas, recursos, etc., usados pelo sistema, particularmente durante a reconciliação de múltiplos resultados de reconhecimento. Tanto para abordagens de re-reconhecimento como para abordagens de classificador estatístico, podem-se utilizar dados de treinamento e um processo de treinamento offline pode ser empregado para selecionar uma configuração ou parametrização ótima.

[00041] Para a abordagem de re-reconhecimento, também é possível realizar opcionalmente uma análise estatística, tal como uma regressão para atribuir pesos relativos às trajetórias na gramática dinâmica de re-reconhecimento. A saída do outro conhecimento de domínio 322 pode ser controlada de modo a influenciar a gramática dinâmica 316 para cada processo de re-reconhecimento.

[00042] Em outra abordagem, um ou mais dos recursos a seguir 402 podem ser empregados, alguns recursos diretamente obtidos a partir de resultados de reconhecimento paralelo, e outros recursos derivados a partir de conhecimento de tarefa relevante. Os recursos 402 podem incluir, mas não se limitam a, cadeias reconhecidas, classificações de confiança em nível de prosódia e em nível de sub-prosódia, cobertura de fala (por exemplo, fração de uma prosódia hipotética co

Petição 870190110556, de 30/10/2019, pág. 15/34

13/23 mo fala), latências relativas entre os reconhecimentos (por exemplo, paralelos), probabilidades anteriores de contextos (por exemplo, quão frequente os usuários pedem por nomes de empresas versus placares de esportes), dificuldade relativa de cada reconhecimento específico ao contexto (por exemplo, perplexidade das gramáticas específicas ao contexto, dentro da precisão de reconhecimento de contexto), admissibilidade de cada gramática (por exemplo, uma gramática de busca da web pode aceitar uma grande variedade de buscas), e consenso entre os resultados de reconhecimento.

[00043] Nota-se que os processos de reconhecimento individual podem ser distribuídos por diferentes máquinas, tais como servidores, clientes, ou uma combinação de servidores e clientes. Isto se aplica a reconhecimento paralelo assim como a reconhecimento serial em ambos os cenários de classificação e re-reconhecimento.

[00044] De outra forma, a arquitetura descrita é um sistema de reconhecimento implementado por computador que compreende o componente de restrições de gramáticas específicas ao contexto para processamento de reconhecimento de uma entrada de prosódia em resultados de reconhecimento, sendo que o componente de reconhecimento para processamento de reconhecimento individual da entrada de prosódia em trajetórias paralelas usa gramáticas específicas ao contexto correspondentes, e o componente de reconciliação para reconciliar os resultados de reconhecimento em um resultado de reconhecimento final.

[00045] O componente de reconciliação emprega uma gramática dinamicamente composta dos resultados de reconhecimento e reconcilia os resultados de reconhecimento utilizando-se um rereconhecimento para gerar o resultado de reconhecimento final. Opcionalmente, o componente de reconciliação reconcilia os resultados de reconhecimento empregando-se uma análise estatística, tal como re

Petição 870190110556, de 30/10/2019, pág. 16/34

14/23 gressão antes de um re-reconhecimento para determinar o resultado de reconhecimento final. Alternativamente, o componente de reconciliação reconcilia os resultados de reconhecimento utilizando-se a classificação estatística que opera em recursos extraídos a partir dos resultados de reconhecimento para gerar o resultado de reconhecimento final. Além disso, o componente de regras impõe uma ou mais regras que definem uma determinação do resultado de reconhecimento final e, outro conhecimento de domínio pode influenciar os recursos para reconciliação de classificação estatística e uma gramática dinâmica para reconciliação de re-reconhecimento.

[00046] Incluído no presente documento encontra-se um conjunto de fluxogramas representativos de metodologias exemplificadoras para realizar aspectos inusitados da arquitetura descrita. Embora, por propósitos de simplicidade de explicação, uma ou mais metodologias aqui mostradas, por exemplo, sob a forma de um fluxograma ou diagrama de fluxo, sejam mostradas e descritas como uma série de ações, deve-se compreender e avaliar que as metodologias não se limitam pela ordem de ações, assim como algumas ações podem, de acordo com isto, ocorrer em uma ordem diferente e/ou simultânea a outras ações a partir daquelas mostradas e descritas no presente documento. Por exemplo, os indivíduos versados na técnica compreenderão e avaliarão que uma metodologia pode ser alternativamente representada como uma série de estados ou eventos inter-relacionados, tal como em um diagrama de estado. Ademais, nem todas as ações ilustradas em uma metodologia podem ser requeridas para uma implementação inusitada.

[00047] A FIGURA 5 ilustra um método de reconhecimento implementado por computador. Em 500, as gramáticas específicas ao contexto separadas são recebidas para processamento de uma entrada de prosódia. Em 502, a entrada de prosódia é reconhecida em trajetó

Petição 870190110556, de 30/10/2019, pág. 17/34

15/23 rias paralelas utilizando-se uma gramática específica ao contexto correspondente para cada trajetória. Em 504, um resultado de reconhecimento intermediário é gerado a partir de cada trajetória. Em 506, os resultados de reconhecimento intermediários são reconciliados em um resultado de reconhecimento final.

[00048] A FIGURA 6 ilustra aspectos adicionais do método da FIGURA 5. Em 600, os resultados de reconhecimento intermediários são reconciliados utilizando-se um re-reconhecimento de uma gramática dinâmica gerada a partir dos resultados de reconhecimento. Em 602, outro conhecimento de domínio é inserido durante a reconciliação dos resultados de reconhecimento intermediários através do rereconhecimento. Em 604, uma ou mais regras são impostas para gerar o resultado de reconhecimento final. Em 606, outro conhecimento de domínio é inserido durante uma reconciliação dos resultados de reconhecimento intermediários através de classificação estatística. Em 608, uma ou mais regras impostas para gerar o resultado de reconhecimento final.

[00049] A FIGURA 7 ilustra aspectos adicionais do método da FIGURA 5. Em 700, realiza-se uma análise estatística, tal como uma regressão. A análise é realizada por todas as trajetórias simultaneamente. Em 702, os pesos relativos são atribuídos a cada trajetória em uma gramática dinâmica de re-reconhecimento. Em 704, um período predeterminado de tempo é aguardado para geração de um resultado de reconhecimento intermediário de uma trajetória. Em 706, o resultado de reconhecimento final é gerado com base nos resultados de reconhecimento intermediários que são gerados com o período de tempo.

[00050] Conforme o uso em questão, os termos “componente” e “sistema” são destinados a se referirem a uma entidade relacionada a computador, seja hardware, uma combinação de hardware e software, software, ou software em execução. Por exemplo, um componente po

Petição 870190110556, de 30/10/2019, pág. 18/34

16/23 de ser, mas não se limita a, um processo que executa em um processador, um processador, uma unidade de disco rígido, múltiplas unidades de armazenamento (de meio de armazenamento óptico, estado sólido, e/ou magnético), um objeto, um executável, uma a thread de execução, um programa, e/ou um computador. A título de ilustração, tanto um aplicativo executado em um servidor como o servidor podem ser um componente. Um ou mais componentes podem residir em um processo e/ou thread de execução, e um componente pode estar localizado em um computador e/ou distribuído entre dois ou mais computadores. A palavra “exemplificador(a)” pode ser usada no presente documento para significar servir como um exemplo, caso, ou ilustração. Qualquer aspecto ou projeto aqui descrito como “exemplificador” não é necessariamente construído como preferencial ou vantajoso em relação a outros aspectos ou projetos.

[00051] Reportando-se, agora, à FIGURA 8, ilustra-se um diagrama de blocos de um sistema operacional 800 operável para executar um reconhecimento de acordo com a arquitetura descrita. Com a finalidade de proporcionar um contexto adicional para vários aspectos da mesma, a FIGURA 8 e a discussão a seguir são destinadas a proporcionar uma breve descrição geral do sistema operacional adequado 800 no qual os vários aspectos podem ser implementados. Embora a descrição anterior esteja em um contexto geral de instruções executáveis por computador que podem executar em um ou mais computadores, os indivíduos versados na técnica reconhecerão que uma modalidade inusitada também pode ser implementada em combinação com outros módulos de programa e/ou como uma combinação de hardware e software.

[00052] O sistema operacional 800 que serve para implementar vários aspectos inclui o computador 802 tendo unidade(s) de processamento 804, uma memória de sistema 806, e um barramento de siste

Petição 870190110556, de 30/10/2019, pág. 19/34

17/23 ma 808. A(s) unidade(s) de processamento 804 pode(m) ser qualquer um dos vários processadores comercialmente disponíveis, tal como um processador único, um processador múltiplo, unidades de núcleo único e unidades de múltiplos núcleos. Ademais, os indivíduos versados na técnica avaliarão que os métodos inusitados podem ser praticados com outras configurações de sistema computacional, que incluem minicomputadores, computadores principais, assim como computadores pessoais (por exemplo, desktop, laptop, etc.), dispositivos computacionais portáteis, eletrônicos de consumo baseados em microprocessador ou programáveis, e similares, cada um desses pode ser operacionalmente acoplado a um ou mais dispositivos associados. [00053] A memória de sistema 806 pode incluir uma memória volátil (VOL) 810 (por exemplo, uma memória de acesso aleatório (RAM)) e uma memória não-volátil (NON-VOL) 812 (por exemplo, ROM, EPROM, EEPROM, etc.). Um sistema básico de entrada/saída (BIOS) pode ser armazenado na memória não-volátil 812, e inclui as rotinas básicas que facilitam a comunicação de dados e sinais entre os componentes no computador 802, tal como durante a inicialização. A memória volátil 810 também pode incluir uma RAM de alta velocidade, tal como uma RAM estática para cache de dados.

[00054] O barramento de sistema 808 proporciona uma interface para os componentes do sistema que incluem, mas não se limitam a, subsistema de memória 806 à(s) unidade(s) de processamento 804. O barramento de sistema 808 pode ser qualquer entre vários tipos de estruturas de barramento que podem se interconectar, ainda, a um barramento de memória (com ou sem um controlador de memória), e um barramento periférico (por exemplo, PCI, PCIe, AGP, LPC, etc.), utilizando-se qualquer entre uma variedade de arquiteturas de barramento comercialmente disponíveis.

[00055] O computador 802 inclui, ainda, subsistema(s) de armaze

Petição 870190110556, de 30/10/2019, pág. 20/34

18/23 namento 814 e interface(s) de armazenamento 816 que serve(m) para fazer interface do(s) subsistema(s) de armazenamento 814 ao barramento de sistema 808 e outros componentes computacionais desejados. O(s) subsistema(s) de armazenamento 814 pode(m) incluir uma ou mais entre uma unidade de disco rígido (HDD), unidade de disco flexível magnético (FDD), e/ou unidade de armazenamento de disco óptico (por exemplo, uma unidade de CD-ROM, uma unidade de DVD), por exemplo. A(s) interface(s) de armazenamento 816 pode(m) incluir tecnologias de interface, tais como EIDE, ATA, SATA, e IEEE 1394, por exemplo.

[00056] Um ou mais programas e dados podem ser armazenados no subsistema de memória 806, um subsistema de memória removível 818 (por exemplo, tecnologia de fator de forma de unidade flash), e/ou o(s) subsistema(s) de armazenamento 814 (por exemplo, estado óptico, magnético, sólido), incluindo um sistema operacional 820, um ou mais programas de aplicativo 822, outros módulos de programa 824, e dados de programa 826.

[00057] Um ou mais programas de aplicativo 822, outros módulos de programa 824, e dados de programa 826 podem incluir os componentes, entidades, e resultados do sistema 100 da FIGURA 1, os componentes, entidades, e resultados do sistema 200 da FIGURA 2, os componentes, entidades, e resultados do sistema 300 da FIGURA 3, os componentes, entidades, e resultados do sistema 400 da FIGURA 4, e os métodos de aspectos adicionais nas Figuras 5 a 7, por exemplo.

[00058] Em geral, os programas incluem rotinas, métodos, estruturas de dados, outros componentes de software, etc., que realizam tarefas particulares ou implementa tipos de dados abstratos particulares. Todos ou partes do sistema operacional 820, aplicativos 822, módulos 824, e/ou dados 826 também podem ser armazenados em cache na

Petição 870190110556, de 30/10/2019, pág. 21/34

19/23 memória, tal como a memória volátil 810, por exemplo. Deve-se avaliar que a arquitetura descrita pode ser implementada com vários sistemas operacionais comercialmente disponíveis ou combinações de sistemas operacionais (por exemplo, como máquinas virtuais).

[00059] O(s) subsistema(s) de armazenamento 814 e os subsistemas de memória (806 e 818) servem como mídias legíveis por computador para armazenamento volátil e não-volátil de dados, estruturas de dados, instruções executáveis por computador, e assim por diante. Os meios legíveis por computador podem ser quaisquer mídias disponíveis que podem ser acessadas pelo computador 802 e incluem mídias voláteis e não-voláteis, mídias removíveis e não-removíveis. Para o computador 802, as mídias acomodam o armazenamento de dados em qualquer formato digital adequado. Deve-se avaliar pelos indivíduos versados na técnica que outros tipos de mídias legíveis por computador podem ser empregados, tais como unidades zip, fita magnética, cartões de memória flash, cartuchos, e similares, para armazenar instruções executáveis por computador para realizar os métodos inusitados da arquitetura descrita.

[00060] Um usuário pode interagir com o computador 802, programas, e dados utilizando-se dispositivos de usuário externo 828, tais como um teclado e um mouse. Outros dispositivos de entrada de usuário 828 podem incluir um microfone, um controle remoto IR (infravermelho), um joystick, um gamepad, sistemas de reconhecimento por câmera, uma caneta stylus, uma tela sensível ao toque, sistemas de reconhecimento de gestos (por exemplo, movimento dos olhos, movimento da cabeça, etc.), e/ou similares. O usuário pode interagir com o computador 802, programas, e dados utilizando-se dispositivos de entrada de usuário integrados 830, tal como um touchpad, microfone, teclado, etc., onde o computador 802 é um computador portátil, por exemplo. Estes e outros dispositivos de entrada são conectados à(s)

Petição 870190110556, de 30/10/2019, pág. 22/34

20/23 unidade(s) de processamento 804 pela(s) interface(s) do dispositivo de entrada/saída (VO) 832 através do barramento de sistema 808, porém, podem ser conectados por outras interfaces, tal como uma porta paralela, porta serial IEEE 1394, uma porta para jogos, uma porta USB, uma interface IR, etc. A(s) interface(s) de dispositivo VO 832 também facilita(m) o uso de periféricos de saída 834, tais como impressoras, dispositivos de áudio, dispositivos de câmera, e assim por diante, tal como um cartão sonoro e/ou uma capacidade de processamento de áudio integrado.

[00061] Uma ou mais interface gráficas 836 (também comumente referidas como uma unidade de processamento de gráficos (GPU)) proporcionam gráficos e sinais de vídeo entre o computador 802 e o(s) dispositivo de exibição externa 838 (por exemplo, LCD, plasma) e/ou dispositivos de exibição integrados 840 (por exemplo, para computador portátil). A(s) interface(s) de gráficos 836 também pode(m) ser fabricada(s) como parte da placa de sistema computacional.

[00062] O computador 802 pode operar em um ambiente de rede (por exemplo, IP) utilizando-se conexões lógicas através de um subsistema de comunicações com/sem fio 842 a uma ou mais redes e/ou outros computadores. Os outros computadores podem incluir estações de trabalho, servidores, roteadores, computadores pessoais, aparelhos de entretenimento baseados em microprocessadores, um dispositivo peer ou outro nó de rede comum, e incluem, tipicamente, muitos ou todos os elementos descritos em relação ao computador 802. As conexões lógicas podem incluir uma conectividade com/sem fio a uma rede de área local (LAN), uma rede de área ampliada (WAN), ponto de acesso, e assim por diante. Os ambientes de rede LAN e WAN são comuns em escritórios e companhias e facilitam as redes computacionais a nível empresarial, tais como intranets, sendo que todos esses podem se conectar a uma rede de comunicações global, tal como a

Petição 870190110556, de 30/10/2019, pág. 23/34

21/23

Internet.

[00063] Quando usado em um ambiente de rede, o computador 802 se conecta à rede através de um subsistema de comunicação com/sem fio 842 (por exemplo, um adaptador de interface de rede, um subsistema transceptor integrado, etc.) para se comunicar com redes com/sem fio, impressoras com/sem fio, dispositivos de entrada com/sem fio 844, e assim por diante. O computador 802 pode incluir um modem ou ter outros meios para estabelecer comunicações pela rede network. Em um ambiente de rede, os programas e dados relativos ao computador 802 podem ser armazenados no dispositivo de memória/armazenamento remoto, assim como associados a um sistema distribuído. Avaliar-se-á que as conexões de rede mostradas são exemplificadoras e qualquer outro meio de estabelecer um link de comunicações entre os computadores pode ser usado.

[00064] O computador 802 é operável para se comunicar com dispositivos com/sem fio ou entidades utilizando-se as tecnologias de rádio, tal como a família de padrões IEEE 802. xx, tais como dispositivos sem fio operacionalmente dispostos em comunicação sem fio (por exemplo, técnicas de modulação aérea IEEE 802.11) com, por exemplo, uma impressora, digitalizador, computador desktop e/ou portátil, assistente pessoal digital (PDA), satélites de comunicações, qualquer peça de equipamentos ou local associado a uma etiqueta remotamente detectável (por exemplo, um quiosque, uma banca de jornais, banheiro), e telefone. Isto inclui pelo menos Wi-Fi (ou Fidelidade Sem Fio) para pontos de acesso, WiMax, e tecnologias sem fio Bluetooth^TM. Portanto, as comunicações podem ser uma estrutura predefinida como uma rede convencional ou simplesmente uma comunicação ad hoc entre pelo menos dois dispositivos. As redes Wi-Fi usam tecnologias de rádio denominadas IEEE 802.1 Ix (a, b, g, etc.) para proporcionar uma conectividade sem fio segura, confiável e rápida. Uma rede Wi-Fi

Petição 870190110556, de 30/10/2019, pág. 24/34

22/23 pode ser usada para conectar os computadores entre si, à Internet, e a redes cabeadas (que usam mídias e funções relacionadas a IEEE 802.3).

[00065] Referindo-se agora à FIGURA 9, ilustra-se um diagrama de blocos esquemático de um ambiente computacional 900 que proporciona um reconhecimento paralelo de acordo com a arquitetura descrita. O ambiente 900 inclui um ou mais clientes 902. O(s) cliente(s) 902 pode(m) ser hardware e/ou software (por exemplo, threads, processos, dispositivos computacionais). O(s) cliente(s) 902 pode(m) alojar cookie(s) e/ou informações contextuais associadas, por exemplo.

[00066] O ambiente 900 também inclui um ou mais servidor(es) 904. O(s) servidor(es) 904 também pode(m) ser hardware e/ou software (por exemplo, threads, processos, dispositivos computacionais). Os servidores 904 podem alojar threads para realizar transformações empregando-se a arquitetura, por exemplo. Uma comunicação possível entre um cliente 902 e um servidor 904 pode estar sob a forma de um pacote de dados adaptado para que seja transmitido entre dois ou mais processos computacionais. O pacote de dados pode incluir um cookie e/ou informações contextuais associadas, por exemplo. O ambiente 900 inclui uma estrutura de comunicação 906 (por exemplo, uma rede de comunicação global, tal como a Internet) que pode ser empregada para facilitar as comunicações entre o(s) cliente(s) 902 e o(s) servidor(es) 904.

[00067] As comunicações podem ser facilitadas através de uma tecnologia com fio (incluindo fibra óptica) e/ou sem fio. O(s) cliente(s) 902 é(são) operacionalmente conectado(s) a um ou mais armazenamentos de dados de cliente 908 que podem ser empregados para armazenada informações locais ao(s) cliente(s) 902 (por exemplo, cookie(s) e/ou informações contextuais associadas). De modo semelhante, o(s) servidor(es) 904 é(são) operacionalmente conectado(s) a um

Petição 870190110556, de 30/10/2019, pág. 25/34

23/23 ou mais armazenamentos de dados de servidor 910 que podem ser empregados para armazenar informações locais aos servidores 904. [00068] O(s) cliente(s) 902 pode(m) incluir um cliente através do qual os sinais de voz são recebidos para processamento de reconhecimento pelo(s) servidor(es) 904 ou outro(s) cliente(s) 902. As gramáticas podem ser armazenadas no(s) armazenamento(s) de dados do cliente 908 e/ou no(s) armazenamento(s) de dados do servidor 910. [00069] Descreveram-se anteriormente exemplos da arquitetura descrita. Naturalmente, não é possível descrever cada combinação concebível de componentes e/ou metodologias, porém, um indivíduo com conhecimento comum na técnica pode reconhecer que muitas combinações e permutações são possíveis. Consequentemente, a arquitetura inusitada é destinada a abranger todas as alterações, modificações e variações que se encontram no espírito e escopo das reivindicações em anexo. Além disso, na medida em que o termo “inclui” é usado na descrição detalhada ou nas reivindicações, tal termo é destinado a ser inclusivo de maneira similar ao termo “que compreende” uma vez que “que compreende” é interpretado quando empregado como um termo transicional em uma reivindicação.

Claims

REIVINDICAÇÕES

1. Sistema de reconhecimento implementado por computador (100, 200, 300), caracterizado pelo fato de que compreende:

um componente de restrições (102) de restrições específicas ao contexto (104) para processamento de reconhecimento (304, 310) de uma entrada de fala (106, 302), em que cada uma das restrições específicas ao contexto compreende uma gramática específica ao contexto separada (306, 312), em que as gramáticas específicas ao contexto separadas são diferentes;

uma pluralidade de reconhecedores (114, 304, 310), em que cada um dos reconhecedores está associado a uma das gramáticas específicas ao contexto e realiza um reconhecimento da entrada de fala para produzir um respectivo resultado de reconhecimento (108, 308, 314) para a entrada de fala através do emprego da gramática específica ao contexto respectivamente associada, em que os reconhecimentos são realizados em paralelo;

um componente de reconciliação (110) para reconciliar os resultados de reconhecimento em um resultado de reconhecimento final (112, 320), em que a reconciliação compreende:

gerar uma gramática dinâmica (316) utilizando os resultados de reconhecimento da entrada de fala (106, 302), gerar o resultado de reconhecimento final através de executar um reconhecimento subsequente (318) da entrada de fala (106, 302), em que o reconhecimento subsequente (318) emprega a gramática dinâmica à entrada de fala original (106, 302) para gerar o resultado de reconhecimento final; e um componente de regras (202) para impor uma ou mais regras de prioridade, em que as regras de prioridade declaram o resultado de reconhecimento final (320) antes de todos os reconhecimentos serem concluídos se um dos resultados de reconhecimento tiver uma

Petição 870190110556, de 30/10/2019, pág. 27/34
2/3 classificação de confiança suficientemente alta, em que um dos resultados de reconhecimento é aceito como o resultado de reconhecimento final.

2. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o componente de reconciliação (110) reconcilia os resultados do reconhecimento (308, 314) através do emprego análise estatística antes do reconhecimento subsequente (318), em que a análise estatística é realizada para atribuir pesos à gramática dinâmica (316).
3. Método de reconhecimento implementado por computador, caracterizado pelo fato de que compreende as etapas de:

processar uma entrada de fala (106, 302) usando restrições específicas ao contexto (104), em que cada uma das restrições específicas ao contexto compreende uma gramática específica ao contexto separada (306, 312), em que as gramáticas específicas ao contexto separadas são diferentes, em que cada um de uma pluralidade de reconhecedores (114, 304, 310) está associado com uma das gramáticas específicas ao contexto;

realizar, por cada uma da pluralidade de reconhecedores, um reconhecimento da entrada de fala para produzir um respectivo resultado de reconhecimento (108, 308, 314) para a entrada de fala através do emprego a gramática específica de contexto respectivamente associada, em que os reconhecimentos são realizados em paralelo;

reconciliar os resultados de reconhecimento em um resultado de reconhecimento final (112, 320), em que a reconciliação compreende:

gerar uma gramática dinâmica (316) utilizando os resultados de reconhecimento da entrada de fala (106, 302), gerar o resultado de reconhecimento final através da exe

Petição 870190110556, de 30/10/2019, pág. 28/34

3/3 cução de um reconhecimento subsequente (318) da entrada de fala (106, 302), em que o reconhecimento subsequente emprega a gramática dinâmica à entrada de fala original (106, 302) para gerar o resultado de reconhecimento final; e impor uma ou mais regras de prioridade, em que as regras de prioridade declaram o resultado de reconhecimento final (320) antes de todos os reconhecimentos serem concluídos se um dos resultados do reconhecimento tiver uma classificação de confiança suficientemente alta, em que o resultado de reconhecimento seja aceito como resultado de reconhecimento final.
4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que ainda compreende as etapas de:

aguardar um tempo predeterminado para geração dos resultados de reconhecimento; e gerar o resultado de reconhecimento final com base nos resultados de reconhecimento que são gerados dentro do período de tempo.