BRPI1014550B1 - sistema de reconhecimento implementado por computador e método de reconhecimento implementado por computador - Google Patents

sistema de reconhecimento implementado por computador e método de reconhecimento implementado por computador Download PDF

Info

Publication number
BRPI1014550B1
BRPI1014550B1 BRPI1014550A BRPI1014550A BRPI1014550B1 BR PI1014550 B1 BRPI1014550 B1 BR PI1014550B1 BR PI1014550 A BRPI1014550 A BR PI1014550A BR PI1014550 A BRPI1014550 A BR PI1014550A BR PI1014550 B1 BRPI1014550 B1 BR PI1014550B1
Authority
BR
Brazil
Prior art keywords
recognition
context
specific
grammar
result
Prior art date
Application number
BRPI1014550A
Other languages
English (en)
Inventor
Buntschuh Bruce
Levit Michael
Chang Shuangyu
Original Assignee
Microsoft Corp
Microsoft Technology Licensing Llc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=43298454&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=BRPI1014550(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Microsoft Corp, Microsoft Technology Licensing Llc filed Critical Microsoft Corp
Publication of BRPI1014550A2 publication Critical patent/BRPI1014550A2/pt
Publication of BRPI1014550B1 publication Critical patent/BRPI1014550B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Algebra (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Quality & Reliability (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Fuzzy Systems (AREA)

Abstract

sistema de reconhecimento implementado por computador e método de reconhecimento implementado por computador a presente invenção refere-se a uma arquitetura que emprega uma gramática geral como um conjunto de gramáticas específicas ao contexto para reconhecimento de uma entrada, cada uma responsável por um contexto específico, tal como uma categoria de subtarefa, região geográfica, etc. as gramáticas juntas abrangem todo o domínio. ademais, múltiplos reconhecimentos podem ser executados em paralelo em relação à mesma entrada, onde cada reconhecimento usa uma ou mais gramáticas específicas ao contexto. os múltiplos resultados de reconhecimento intermediários a partir de diferentes gramáticas de reconhecedor são conciliados executando-se um rereconhecimento que utiliza uma gramática dinamicamente composta com base nos múltiplos resultados de reconhecimento e potencialmente outro conhecimento de domínio, ou selecionando-se o vencedor através do uso de um classificador estatístico que opera em recursos de classificação extraídos dos múltiplos resultados de reconhecimento e de outro conhecimento de domínio.

Description

Relatório Descritivo da Patente de Invenção para SISTEMA DE RECONHECIMENTO IMPLEMENTADO POR COMPUTADOR E MÉTODO DE RECONHECIMENTO IMPLEMENTADO POR COMPUTADOR.
ANTECEDENTES DA INVENÇÃO [0001] Frequentemente, o desempenho de reconhecimento de fala é sub-ótimo quando uma se envolve um grande espaço de busca gramatical, tal como uma tarefa de busca por voz que abrange um grande número de nomes de empresas, consultas de busca da web, solicitações de discagem de voz, etc. Três subotimalidades principais que são geralmente exibidas incluem longa latência de reconhecimento, fraca precisão de reconhecimento, e abrangência gramatical insuficiente.
[0002] Um aplicativo móvel de busca por voz existente usa uma gramática de listagem de empresas nacionais mais uma gramática de localizada no primeiro estágio e re-reconhece a mesma prosódia utilizando-se uma gramática de listagem de empresas específicas por localidade no segundo estágio (onde a localidade foi determinada no primeiro estágio). Esta abordagem não atribui a questão de latência, porém, pode aperfeiçoar a cobertura e a precisão em situações muito específicas. Outra abordagem tenta reduzir a taxa de erro de palavras votando-se entre as saídas de reconhecedores distintos no nível de sub-prosódia. A abordagem e suas extensões geralmente assumem cada reconhecimento de tentativa do reconhecedor com uma gramática completa para toda a tarefa.
SUMÁRIO DA INVENÇÃO [0003] A seguir, apresenta-se um sumário simplificado com a finalidade de proporcionar uma compreensão básica de algumas modalidades inusitadas descritas no presente documento. Este sumário não é uma visão geral extensiva, e não se destina a identificar elementos chave/críticos ou delinear o escopo do mesmo. Seu único propósito
Petição 870190110556, de 30/10/2019, pág. 4/34
2/23 consiste em apresentar alguns conceitos em uma forma simplificada como um prelúdio à descrição mais detalhada que será apresentada mais adiante.
[0004] A arquitetura descrita adota uma entrada para conhecimento e aplica diferentes casos de restrições específicas ao contexto à entrada para processamento de reconhecimento. Os casos de restrições separadas tomados juntamente proporcionam o domínio de contexto geral para a determinada entrada. Operando-se o reconhecimento em paralelo, por exemplo, em relação a esses casos de restrições, proporciona-se a latência de reconhecimento, a precisão de reconhecimento, e a cobertura de domínio de reconhecimento. Ademais, o processamento de reconhecimento das trajetórias de reconhecimento separadas pode ser gerenciado impondo-se limitações de tempo em pro quanto tempo o sistema aguardará para que um resultado seja produzido.
[0005] No contexto de reconhecimento de fala, a arquitetura emprega uma gramática geral sob a forma de uma disjunção de gramáticas específicas ao contexto individuais menores para reconhecimento de uma entrada de prosódia, cada uma responsável por um contexto específico, tal como uma categoria de subtarefa, região geográfica, etc. As gramáticas juntas abrangem todo o domínio. Ademais, múltiplos reconhecimentos podem ser executados em paralelo em relação à mesma entrada, onde cada trajetória de reconhecimento usa uma ou mais gramáticas específicas ao contexto.
[0006] Os múltiplos resultados de reconhecimento intermediários a partir das diferentes trajetórias reconhecedoras de gramáticas são reconciliados executando-se um re-reconhecimento através do uso de uma gramática dinamicamente composta baseada em múltiplos resultados de reconhecimento e potencialmente outro conhecimento de domínio, ou selecionando-se o vencedor através do uso de um classi
Petição 870190110556, de 30/10/2019, pág. 5/34
3/23 ficador estatístico que opera nos recursos de classificação extraídos dos múltiplos resultados de reconhecimento e outro conhecimento de domínio.
[0007] Para realização disto e de finalidades relacionadas, determinados aspectos ilustrativos são descritos no presente documento em conexão à descrição a seguir e aos desenhos em anexo. Esses aspectos são indicativos das várias formas nas quais os princípios aqui descritos podem ser praticados e todos os aspectos e equivalentes destes são destinados a estarem no escopo do assunto em questão reivindicado. Outras vantagens e recursos inusitados se tornarão aparentes a partir da descrição detalhada a seguir considerada em conjunto com os desenhos.
BREVE DESCRIÇÃO DOS DESENHOS [0008] A FIGURA 1 ilustra um sistema de reconhecimento implementado por computador de acordo com a arquitetura descrita.
[0009] A FIGURA 2 ilustra uma modalidade alternativa de um sistema que emprega regras para determinação do único resultado de reconhecimento.
[00010] A FIGURA 3 ilustra um sistema de reconhecimento de restrições específicas ao contexto que emprega um re-reconhecimento e onde as restrições são gramáticas para reconhecimento de voz.
[00011] A FIGURA 4 ilustra um sistema de reconhecimento de restrições específicas ao contexto que emprega uma classificação estatística e onde as restrições são gramáticas para reconhecimento de voz paralelo.
[00012] A FIGURA 5 ilustra um método de reconhecimento implementado por computador.
[00013] A FIGURA 6 ilustra aspectos adicionais do método da FIGURA 5.
[00014] A FIGURA 7 ilustra aspectos adicionais do método da FIPetição 870190110556, de 30/10/2019, pág. 6/34
4/23
GURA 5.
[00015] A FIGURA 8 ilustra um diagrama de blocos de um sistema operacional operável para executar um reconhecimento de acordo com a arquitetura descrita.
[00016] A FIGURA 9 ilustra um diagrama de blocos esquemático de um ambiente computacional que proporciona um reconhecimento paralelo de acordo com a arquitetura descrita.
DESCRIÇÃO DETALHADA DA INVENÇÃO [00017] A arquitetura descrita é um sistema de reconhecimento que primeiramente realiza um reconhecimento independente da mesma entrada (por exemplo, prosódia) utilizando-se restrições específicas ao contexto. Esses reconhecimentos independentes podem ser realizados serialmente ou em paralelo. As restrições específicas ao contexto são menores que uma restrição que se tenta unificar todos os conhecimentos de domínio. A reconciliação dos múltiplos resultados de reconhecimento pode ser realizada utilizando-se um reconhecimento subsequente (re-reconhecimento) e/ou através de classificação estatística.
[00018] A arquitetura endereça problemas de latência de reconhecimento, precisão de reconhecimento, e cobertura de gramática insuficiente associada a uma abordagem de gramática única e reconhecimento único tradicional. Em relação à latência de reconhecimento, cada caso de reconhecimento no reconhecimento paralelo ocorre em relação a uma gramática menor que uma única gramática grande que pode abranger as mesmas tarefas. Além disso, a etapa de rereconhecimento ocorre em relação a uma gramática dinâmica pequena. Os dois estágios de reconhecimento combinados da latência máxima dos reconhecimentos paralelos, por exemplo, mais a latência de re-reconhecimento podem ter uma latência menor que o reconhecimento com uma única gramática grande, particularmente em casos de
Petição 870190110556, de 30/10/2019, pág. 7/34
5/23 fluxo não-contínuo.
[00019] Com um reconhecimento único, a precisão de reconhecimento algumas vezes é perdida devido à remoção durante a busca hipotética. Tendo múltiplos reconhecimentos alivia esta limitação uma vez que um conjunto de hipóteses muito maior pode ser mantido. Além disso, as restrições específicas ao contexto, tais como as gramáticas, mais provavelmente têm uma precisão melhor em prosódias, por exemplo, a partir do contexto alvo do que uma gramática única que abrange muitos contextos. Portanto, há uma chance maior que os resultados dos múltiplos reconhecimentos contenham o resultado correto, e reconcilie os múltiplos resultados de reconhecimento ao rereconhecimento ou um seja mais provável que um classificador gere o resultado correto do que uma abordagem de gramática única e reconhecimento único.
[00020] Em relação à cobertura de gramática insuficiente, por exemplo, geralmente existem limitações práticas (por exemplo, hardware, software) em quão grande uma gramática única pode ser e/ou quão grandes as gramáticas podem ser em um reconhecimento único. Executando-se múltiplos reconhecimentos em paralelo, por exemplo, pode aumentar significativamente a cobertura de gramática total, visto que cada reconhecimento pode potencialmente ser executado em processos de software distintos e/ou recursos de hardware.
[00021] Considera-se a aplicação da arquitetura descrita a uma tarefa de reconhecimento de fala em grande escala. O exemplo a seguir ilustra o conceito utilizando-se uma tarefa de busca por voz como um exemplo, que pode incluir uma busca em aberto da web, empresas locais, contatos pessoais, etc. Variantes e aprimoramentos são possíveis às várias partes da solução.
[00022] A gramática de reconhecimento é proporcionada como uma série de gramáticas específicas ao contexto menores e possivelmente
Petição 870190110556, de 30/10/2019, pág. 8/34
6/23 sobrepostas, cada uma cobrindo um subconjunto específico do espaço de tarefa original. O contexto para divisão pode se basear em uma categoria de subtarefa (por exemplo, nomes de empresas versus títulos de filmes), localização geográfica (por exemplo, empresas na Califórnia versus em Nova York), origens demográficas (por exemplo, conteúdos orientados a jovens versus conteúdos maduros), etc. Cada gramática específica a conteúdos pode ser construída separadamente, alavancar o conhecimento e outras informações disponíveis relevantes para cada contexto para maximizar a taxa de sucesso para as entradas esperadas de usuário a partir de cada contexto.
[00023] Agora, faz-se referência aos desenhos, onde referências numéricas similares são usadas para se referir a elementos similares ao longo do presente documento. Na descrição a seguir, por propósitos de explicação, vários detalhes específicos são apresentados com a finalidade de proporcionar uma compreensão completa da mesma. No entanto, pode ser evidente que as modalidades inusitadas podem ser praticadas sem esses detalhes específicos. Em outros casos, estruturas e dispositivos bem conhecidos são mostrados em um diagrama de blocos com a finalidade de facilitar uma descrição destes. A intenção consiste em abranger todas as modificações, equivalentes, e alternativas encontradas no espírito e escopo do assunto em questão reivindicado.
[00024] A FIGURA 1 ilustra um sistema de reconhecimento implementado por computador 100 de acordo com a arquitetura descrita. O sistema 100 inclui um componente de restrições 102 de restrições específicas ao contexto 104 para processamento de reconhecimento de uma entrada 106 nos resultados de reconhecimento 108, e um componente de reconciliação 110 que serve para reconciliar os resultados de reconhecimento 108 em um único resultado de reconhecimento 112.
Petição 870190110556, de 30/10/2019, pág. 9/34
7/23 [00025] O sistema 100 pode compreender, ainda, um componente de reconhecimento 114 para um processamento de reconhecimento separado de restrições específicas ao contexto correspondentes 104 em trajetórias paralelas e/ou seriais. Por exemplo, as restrições específicas ao contexto 104 podem incluir gramáticas para processamento de reconhecimento das gramáticas em relação à entrada 106 em trajetórias paralelas e/ou trajetórias seriais. Os conjuntos individuais de restrições específicas ao contexto 104 podem incluir uma cobertura de contexto desarticulado e entrecruzado. Em outras palavras, um conjunto de restrições pode ter alguma sobreposição às restrições de outro conjunto de restrições. Este também é o caso onde alguns conjuntos de restrições não se sobrepõem às restrições dos outros conjuntos de restrições.
[00026] O componente de reconciliação 110 pode reconciliar os resultados de reconhecimento 108 utilizando-se re-reconhecimento para gerar o único resultado de reconhecimento 112, empregando-se uma gramática dinamicamente composta com base nos resultados de reconhecimento 108.
[00027] Alternativamente, o componente de reconciliação 110 pode reconciliar os resultados 108 utilizando-se um classificador estatístico que opera em recursos de classificação extraídos dos resultados de reconhecimento 108 para gerar o único resultado de reconhecimento 112.
[00028] O processamento de reconciliação também pode processar dados de tarefa relevante para chagar ao único resultado de reconhecimento 112. Estes dados de tarefa relevante podem incluir pelo menos uma das cadeias reconhecidas, classificações de confiança em nível de prosódia e em nível de sub-prosódia, cobertura de fala, latências relativas entre os reconhecimentos concorrentes, probabilidades anteriores de contexto, dificuldade relativa de cada reconhecimento,
Petição 870190110556, de 30/10/2019, pág. 10/34
8/23 ou consenso entre os resultados de reconhecimento. Além disso, uma série de regras manuscritas e/ou automaticamente derivadas que refletem requerimentos específicos da tarefa podem influenciar o processo de reconciliação de múltiplas hipóteses de reconhecimento. [00029] A FIGURA 2 ilustra uma modalidade alternativa de um sistema 200 que emprega regras para determinação do único resultado de reconhecimento 112. O sistema 200 inclui o componente de restrições 102 de restrições específicas ao contexto 104 para processamento de reconhecimento da entrada 106 nos resultados de reconhecimento 108, e o componente de reconciliação 110 que serve para reconciliar os resultados de reconhecimento 108 no único resultado de reconhecimento 112, e o componente de reconhecimento 114 para um processamento de reconhecimento separado de restrições específicas ao contexto correspondentes 104 em trajetórias paralelas e/ou seriais. [00030] Um componente de regras 202 é proporcionado para aplicar regras (por exemplo, prioridade) para declarar um ou mais dos resultados de reconhecimento 108 e/ou do único resultado de reconhecimento 112 (por exemplo, um resultado final). Por exemplo, pode-se criar e aplicar uma regra que determine se um reconhecedor específico retorna um resultado particular com uma classificação de confiança suficientemente alta, então, tal resultado pode ser aceito como final para tal processo reconhecedor correspondente ou até mesmo para o único resultado de reconhecimento 112.
[00031] A FIGURA 3 ilustra um sistema de reconhecimento de restrições específicas ao contexto 300 que emprega um rereconhecimento e onde as restrições são gramáticas para reconhecimento de voz. O sistema 300 inclui N pares de gramática de reconhecimento que operam em paralelo, onde cada par inclui uma ou mais gramáticas específicas ao contexto e um reconhecedor (denotado como Reconhecimento N). Conforme ilustrado, as gramáticas são dife
Petição 870190110556, de 30/10/2019, pág. 11/34
9/23 rentes; no entanto, pode existir alguma sobreposição de uma gramática à outra gramática, embora isto não seja necessário. Ao invés de criar e utilizar uma gramática grande, conforme em sistemas de reconhecimento existentes, o sistema 300 retém as gramáticas separadas (ao invés de mesclar em uma gramática grande), e executa o reconhecimento de uma entrada de prosódia da fala 302 em cada uma das gramáticas.
[00032] Em outras palavras, a entrada de prosódia 302 é processada através de um primeiro reconhecedor 304 e associada à primeira gramática específica ao contexto 306 que produz o(s) primeiro(s) resultado^) 308, assim como através de um segundo reconhecedor 310 e associada à segunda gramática específica ao contexto 312 que produz o(s) segundo(s) resultado(s) 314, e assim por diante, até o número N desejado de reconhecedores e gramáticas, produzindo, assim, N resultados. Os resultados são utilizados para gerar uma gramática dinâmica 316, que pode, então, ser usada para re-reconhecimento 318 à saída de um resultado de reconhecimento final 320.
[00033] De outra forma, com a entrada de prosódia de usuário 302, um reconhecimento separado é executado em relação a cada uma das gramáticas específicas ao contexto. Isto é ilustrado ocorrendo de modo paralelo no mesmo momento ou aproximadamente no mesmo momento. Cada um dos reconhecimentos paralelos pode empregar o mesmo tipo ou um tipo diferente de reconhecedor (por exemplo, reconhecedores embutidos versus reconhecedores de rede, reconhecedores de rede com diferentes modelos acústicos, etc.), e usar parâmetros de conhecimento iguais ou diferentes. Até um período máxima de espera, o sistema 300 coleta todos os resultados de reconhecimento disponíveis (por exemplo, resultado(s) 308, resultado(s) 314, etc.) e determina o resultado de reconhecimento final 320 por rereconhecimento.
Petição 870190110556, de 30/10/2019, pág. 12/34
10/23 [00034] A gramática dinâmica 316 é construída para incluir entradas concorrentes derivadas de todos os resultados de reconhecimento, que podem incluir cadeias de reconhecimento, interpretações, e classificações de confiança, dos N-melhores resultados de reconhecimento, e/ou treliça de reconhecimento, se disponível. O re-reconhecimento da entrada de prosódia original 302 é realizado em relação a esta gramática dinâmica 316. O resultado do re-reconhecimento 318, que inclui classificações de confiança, é adotado como o resultado de reconhecimento final 320.
[00035] Opcionalmente, determinadas regras de prioridade podem ser incluídas pelo componente de regras 202 para declarar o resultado de reconhecimento final 320 antes de todos os reconhecimentos estarem completos, tal como se um determinado reconhecedor retornar um resultado particular com uma classificação de confiança suficientemente alta, este resultado pode ser aceito como final. Opcionalmente, outro conhecimento de domínio 322 que seja relevante à tarefa pode ser proporcionado como uma entrada à gramática dinâmica para proporcionar um processo de reconhecimento mais focalizado. Este conhecimento 322 pode incluir preferências do usuário, conteúdos relacionados ao o que está sendo dito na prosódia, considerações de hardware/software, localidade, e assim por diante.
[00036] A FIGURA 4 ilustra um sistema de reconhecimento de restrições específicas ao contexto 400 que emprega uma classificação estatística e onde as restrições são gramáticas para reconhecimento de voz em paralelo. Múltiplos recursos numéricos e/ou categóricos 402 podem ser derivados a partir de todos os resultados de reconhecimento (por exemplo, resultado(s) 308, resultado(s) 314, etc.), e potencialmente, o outro conhecimento de domínio 322 relevante para a tarefa de reconhecimento. Um classificador estatístico é usado para determinar o quão provavelmente cada resultado reflete a entrada real do
Petição 870190110556, de 30/10/2019, pág. 13/34
11/23 usuário. O resultado com a classificação mais alta pode ser selecionado como o resultado de reconhecimento final 320 e a classificação pode ser normalizada como sendo a confidência de reconhecimento final. [00037] O sistema 400 inclui os N pares de reconhecimento de gramática operando em paralelo, onde cada par inclui uma gramática específica ao contexto (denotada como gramática específica ao contexto N) e um reconhecedor (denotado como Reconhecimento N). Conforme previamente ilustrado e descrito, as gramáticas são diferentes; no entanto, pode existir alguma sobreposição de uma gramática à outra gramática, embora isto não seja necessário. Ao invés de criar e utilizar uma gramática grande, conforme em sistemas de reconhecimento existentes, o sistema 400 retém as gramáticas separadas (ao invés de mesclar em uma gramática grande), e executa o reconhecimento de uma entrada de prosódia da fala 302 em cada uma das gramáticas.
[00038] Em outras palavras, a entrada de prosódia 302 é processada através do primeiro reconhecedor 304 e associada à primeira gramática específica ao contexto 306 que produz o(s) primeiro(s) resultado(s) 308, assim como através de um segundo reconhecedor 310 e associada à segunda gramática específica ao contexto 312 que produz o(s) segundo(s) resultado(s) 314, e assim por diante, até o número N desejado de reconhecedores e gramáticas, produzindo, assim, N resultados. Os resultados (Resultado(s) 308, Resultado(s) 314,...,Resultado(s) N) são utilizados para gerar recursos 402, que são, então, passados à classificação estatística 404 para o resultado de reconhecimento final 320.
[00039] Conforme previamente ilustrado e descrito na FIGURA 3, opcionalmente, determinadas regras de prioridade podem ser incluídas pelos componentes de regra 202 para declarar o resultado de reconhecimento final 320 antes que todos os reconhecidos sejam completos, tal como se um determinado reconhecedor retorna um resultado
Petição 870190110556, de 30/10/2019, pág. 14/34
12/23 particular com uma classificação de confiança suficientemente alta, este resultado pode ser aceito como final. Opcionalmente, o outro conhecimento de domínio 322 que seja relevante à tarefa pode ser proporcionado como uma entrada à gramática dinâmica para proporcionar um processo de reconhecimento mais focalizado. Este conhecimento 322 pode incluir preferências do usuário, conteúdos relacionados ao o que está sendo dito na prosódia, considerações de hardware/software, localidade, e assim por diante.
[00040] Nota-se que a descrição aqui contida abrange como a arquitetura funciona ao receber uma prosódia de entrada de usuário online. Outro aspecto da solução consiste em escolher as configurações apropriadas, recursos, etc., usados pelo sistema, particularmente durante a reconciliação de múltiplos resultados de reconhecimento. Tanto para abordagens de re-reconhecimento como para abordagens de classificador estatístico, podem-se utilizar dados de treinamento e um processo de treinamento offline pode ser empregado para selecionar uma configuração ou parametrização ótima.
[00041] Para a abordagem de re-reconhecimento, também é possível realizar opcionalmente uma análise estatística, tal como uma regressão para atribuir pesos relativos às trajetórias na gramática dinâmica de re-reconhecimento. A saída do outro conhecimento de domínio 322 pode ser controlada de modo a influenciar a gramática dinâmica 316 para cada processo de re-reconhecimento.
[00042] Em outra abordagem, um ou mais dos recursos a seguir 402 podem ser empregados, alguns recursos diretamente obtidos a partir de resultados de reconhecimento paralelo, e outros recursos derivados a partir de conhecimento de tarefa relevante. Os recursos 402 podem incluir, mas não se limitam a, cadeias reconhecidas, classificações de confiança em nível de prosódia e em nível de sub-prosódia, cobertura de fala (por exemplo, fração de uma prosódia hipotética co
Petição 870190110556, de 30/10/2019, pág. 15/34
13/23 mo fala), latências relativas entre os reconhecimentos (por exemplo, paralelos), probabilidades anteriores de contextos (por exemplo, quão frequente os usuários pedem por nomes de empresas versus placares de esportes), dificuldade relativa de cada reconhecimento específico ao contexto (por exemplo, perplexidade das gramáticas específicas ao contexto, dentro da precisão de reconhecimento de contexto), admissibilidade de cada gramática (por exemplo, uma gramática de busca da web pode aceitar uma grande variedade de buscas), e consenso entre os resultados de reconhecimento.
[00043] Nota-se que os processos de reconhecimento individual podem ser distribuídos por diferentes máquinas, tais como servidores, clientes, ou uma combinação de servidores e clientes. Isto se aplica a reconhecimento paralelo assim como a reconhecimento serial em ambos os cenários de classificação e re-reconhecimento.
[00044] De outra forma, a arquitetura descrita é um sistema de reconhecimento implementado por computador que compreende o componente de restrições de gramáticas específicas ao contexto para processamento de reconhecimento de uma entrada de prosódia em resultados de reconhecimento, sendo que o componente de reconhecimento para processamento de reconhecimento individual da entrada de prosódia em trajetórias paralelas usa gramáticas específicas ao contexto correspondentes, e o componente de reconciliação para reconciliar os resultados de reconhecimento em um resultado de reconhecimento final.
[00045] O componente de reconciliação emprega uma gramática dinamicamente composta dos resultados de reconhecimento e reconcilia os resultados de reconhecimento utilizando-se um rereconhecimento para gerar o resultado de reconhecimento final. Opcionalmente, o componente de reconciliação reconcilia os resultados de reconhecimento empregando-se uma análise estatística, tal como re
Petição 870190110556, de 30/10/2019, pág. 16/34
14/23 gressão antes de um re-reconhecimento para determinar o resultado de reconhecimento final. Alternativamente, o componente de reconciliação reconcilia os resultados de reconhecimento utilizando-se a classificação estatística que opera em recursos extraídos a partir dos resultados de reconhecimento para gerar o resultado de reconhecimento final. Além disso, o componente de regras impõe uma ou mais regras que definem uma determinação do resultado de reconhecimento final e, outro conhecimento de domínio pode influenciar os recursos para reconciliação de classificação estatística e uma gramática dinâmica para reconciliação de re-reconhecimento.
[00046] Incluído no presente documento encontra-se um conjunto de fluxogramas representativos de metodologias exemplificadoras para realizar aspectos inusitados da arquitetura descrita. Embora, por propósitos de simplicidade de explicação, uma ou mais metodologias aqui mostradas, por exemplo, sob a forma de um fluxograma ou diagrama de fluxo, sejam mostradas e descritas como uma série de ações, deve-se compreender e avaliar que as metodologias não se limitam pela ordem de ações, assim como algumas ações podem, de acordo com isto, ocorrer em uma ordem diferente e/ou simultânea a outras ações a partir daquelas mostradas e descritas no presente documento. Por exemplo, os indivíduos versados na técnica compreenderão e avaliarão que uma metodologia pode ser alternativamente representada como uma série de estados ou eventos inter-relacionados, tal como em um diagrama de estado. Ademais, nem todas as ações ilustradas em uma metodologia podem ser requeridas para uma implementação inusitada.
[00047] A FIGURA 5 ilustra um método de reconhecimento implementado por computador. Em 500, as gramáticas específicas ao contexto separadas são recebidas para processamento de uma entrada de prosódia. Em 502, a entrada de prosódia é reconhecida em trajetó
Petição 870190110556, de 30/10/2019, pág. 17/34
15/23 rias paralelas utilizando-se uma gramática específica ao contexto correspondente para cada trajetória. Em 504, um resultado de reconhecimento intermediário é gerado a partir de cada trajetória. Em 506, os resultados de reconhecimento intermediários são reconciliados em um resultado de reconhecimento final.
[00048] A FIGURA 6 ilustra aspectos adicionais do método da FIGURA 5. Em 600, os resultados de reconhecimento intermediários são reconciliados utilizando-se um re-reconhecimento de uma gramática dinâmica gerada a partir dos resultados de reconhecimento. Em 602, outro conhecimento de domínio é inserido durante a reconciliação dos resultados de reconhecimento intermediários através do rereconhecimento. Em 604, uma ou mais regras são impostas para gerar o resultado de reconhecimento final. Em 606, outro conhecimento de domínio é inserido durante uma reconciliação dos resultados de reconhecimento intermediários através de classificação estatística. Em 608, uma ou mais regras impostas para gerar o resultado de reconhecimento final.
[00049] A FIGURA 7 ilustra aspectos adicionais do método da FIGURA 5. Em 700, realiza-se uma análise estatística, tal como uma regressão. A análise é realizada por todas as trajetórias simultaneamente. Em 702, os pesos relativos são atribuídos a cada trajetória em uma gramática dinâmica de re-reconhecimento. Em 704, um período predeterminado de tempo é aguardado para geração de um resultado de reconhecimento intermediário de uma trajetória. Em 706, o resultado de reconhecimento final é gerado com base nos resultados de reconhecimento intermediários que são gerados com o período de tempo.
[00050] Conforme o uso em questão, os termos “componente” e “sistema” são destinados a se referirem a uma entidade relacionada a computador, seja hardware, uma combinação de hardware e software, software, ou software em execução. Por exemplo, um componente po
Petição 870190110556, de 30/10/2019, pág. 18/34
16/23 de ser, mas não se limita a, um processo que executa em um processador, um processador, uma unidade de disco rígido, múltiplas unidades de armazenamento (de meio de armazenamento óptico, estado sólido, e/ou magnético), um objeto, um executável, uma a thread de execução, um programa, e/ou um computador. A título de ilustração, tanto um aplicativo executado em um servidor como o servidor podem ser um componente. Um ou mais componentes podem residir em um processo e/ou thread de execução, e um componente pode estar localizado em um computador e/ou distribuído entre dois ou mais computadores. A palavra “exemplificador(a)” pode ser usada no presente documento para significar servir como um exemplo, caso, ou ilustração. Qualquer aspecto ou projeto aqui descrito como “exemplificador” não é necessariamente construído como preferencial ou vantajoso em relação a outros aspectos ou projetos.
[00051] Reportando-se, agora, à FIGURA 8, ilustra-se um diagrama de blocos de um sistema operacional 800 operável para executar um reconhecimento de acordo com a arquitetura descrita. Com a finalidade de proporcionar um contexto adicional para vários aspectos da mesma, a FIGURA 8 e a discussão a seguir são destinadas a proporcionar uma breve descrição geral do sistema operacional adequado 800 no qual os vários aspectos podem ser implementados. Embora a descrição anterior esteja em um contexto geral de instruções executáveis por computador que podem executar em um ou mais computadores, os indivíduos versados na técnica reconhecerão que uma modalidade inusitada também pode ser implementada em combinação com outros módulos de programa e/ou como uma combinação de hardware e software.
[00052] O sistema operacional 800 que serve para implementar vários aspectos inclui o computador 802 tendo unidade(s) de processamento 804, uma memória de sistema 806, e um barramento de siste
Petição 870190110556, de 30/10/2019, pág. 19/34
17/23 ma 808. A(s) unidade(s) de processamento 804 pode(m) ser qualquer um dos vários processadores comercialmente disponíveis, tal como um processador único, um processador múltiplo, unidades de núcleo único e unidades de múltiplos núcleos. Ademais, os indivíduos versados na técnica avaliarão que os métodos inusitados podem ser praticados com outras configurações de sistema computacional, que incluem minicomputadores, computadores principais, assim como computadores pessoais (por exemplo, desktop, laptop, etc.), dispositivos computacionais portáteis, eletrônicos de consumo baseados em microprocessador ou programáveis, e similares, cada um desses pode ser operacionalmente acoplado a um ou mais dispositivos associados. [00053] A memória de sistema 806 pode incluir uma memória volátil (VOL) 810 (por exemplo, uma memória de acesso aleatório (RAM)) e uma memória não-volátil (NON-VOL) 812 (por exemplo, ROM, EPROM, EEPROM, etc.). Um sistema básico de entrada/saída (BIOS) pode ser armazenado na memória não-volátil 812, e inclui as rotinas básicas que facilitam a comunicação de dados e sinais entre os componentes no computador 802, tal como durante a inicialização. A memória volátil 810 também pode incluir uma RAM de alta velocidade, tal como uma RAM estática para cache de dados.
[00054] O barramento de sistema 808 proporciona uma interface para os componentes do sistema que incluem, mas não se limitam a, subsistema de memória 806 à(s) unidade(s) de processamento 804. O barramento de sistema 808 pode ser qualquer entre vários tipos de estruturas de barramento que podem se interconectar, ainda, a um barramento de memória (com ou sem um controlador de memória), e um barramento periférico (por exemplo, PCI, PCIe, AGP, LPC, etc.), utilizando-se qualquer entre uma variedade de arquiteturas de barramento comercialmente disponíveis.
[00055] O computador 802 inclui, ainda, subsistema(s) de armaze
Petição 870190110556, de 30/10/2019, pág. 20/34
18/23 namento 814 e interface(s) de armazenamento 816 que serve(m) para fazer interface do(s) subsistema(s) de armazenamento 814 ao barramento de sistema 808 e outros componentes computacionais desejados. O(s) subsistema(s) de armazenamento 814 pode(m) incluir uma ou mais entre uma unidade de disco rígido (HDD), unidade de disco flexível magnético (FDD), e/ou unidade de armazenamento de disco óptico (por exemplo, uma unidade de CD-ROM, uma unidade de DVD), por exemplo. A(s) interface(s) de armazenamento 816 pode(m) incluir tecnologias de interface, tais como EIDE, ATA, SATA, e IEEE 1394, por exemplo.
[00056] Um ou mais programas e dados podem ser armazenados no subsistema de memória 806, um subsistema de memória removível 818 (por exemplo, tecnologia de fator de forma de unidade flash), e/ou o(s) subsistema(s) de armazenamento 814 (por exemplo, estado óptico, magnético, sólido), incluindo um sistema operacional 820, um ou mais programas de aplicativo 822, outros módulos de programa 824, e dados de programa 826.
[00057] Um ou mais programas de aplicativo 822, outros módulos de programa 824, e dados de programa 826 podem incluir os componentes, entidades, e resultados do sistema 100 da FIGURA 1, os componentes, entidades, e resultados do sistema 200 da FIGURA 2, os componentes, entidades, e resultados do sistema 300 da FIGURA 3, os componentes, entidades, e resultados do sistema 400 da FIGURA 4, e os métodos de aspectos adicionais nas Figuras 5 a 7, por exemplo.
[00058] Em geral, os programas incluem rotinas, métodos, estruturas de dados, outros componentes de software, etc., que realizam tarefas particulares ou implementa tipos de dados abstratos particulares. Todos ou partes do sistema operacional 820, aplicativos 822, módulos 824, e/ou dados 826 também podem ser armazenados em cache na
Petição 870190110556, de 30/10/2019, pág. 21/34
19/23 memória, tal como a memória volátil 810, por exemplo. Deve-se avaliar que a arquitetura descrita pode ser implementada com vários sistemas operacionais comercialmente disponíveis ou combinações de sistemas operacionais (por exemplo, como máquinas virtuais).
[00059] O(s) subsistema(s) de armazenamento 814 e os subsistemas de memória (806 e 818) servem como mídias legíveis por computador para armazenamento volátil e não-volátil de dados, estruturas de dados, instruções executáveis por computador, e assim por diante. Os meios legíveis por computador podem ser quaisquer mídias disponíveis que podem ser acessadas pelo computador 802 e incluem mídias voláteis e não-voláteis, mídias removíveis e não-removíveis. Para o computador 802, as mídias acomodam o armazenamento de dados em qualquer formato digital adequado. Deve-se avaliar pelos indivíduos versados na técnica que outros tipos de mídias legíveis por computador podem ser empregados, tais como unidades zip, fita magnética, cartões de memória flash, cartuchos, e similares, para armazenar instruções executáveis por computador para realizar os métodos inusitados da arquitetura descrita.
[00060] Um usuário pode interagir com o computador 802, programas, e dados utilizando-se dispositivos de usuário externo 828, tais como um teclado e um mouse. Outros dispositivos de entrada de usuário 828 podem incluir um microfone, um controle remoto IR (infravermelho), um joystick, um gamepad, sistemas de reconhecimento por câmera, uma caneta stylus, uma tela sensível ao toque, sistemas de reconhecimento de gestos (por exemplo, movimento dos olhos, movimento da cabeça, etc.), e/ou similares. O usuário pode interagir com o computador 802, programas, e dados utilizando-se dispositivos de entrada de usuário integrados 830, tal como um touchpad, microfone, teclado, etc., onde o computador 802 é um computador portátil, por exemplo. Estes e outros dispositivos de entrada são conectados à(s)
Petição 870190110556, de 30/10/2019, pág. 22/34
20/23 unidade(s) de processamento 804 pela(s) interface(s) do dispositivo de entrada/saída (VO) 832 através do barramento de sistema 808, porém, podem ser conectados por outras interfaces, tal como uma porta paralela, porta serial IEEE 1394, uma porta para jogos, uma porta USB, uma interface IR, etc. A(s) interface(s) de dispositivo VO 832 também facilita(m) o uso de periféricos de saída 834, tais como impressoras, dispositivos de áudio, dispositivos de câmera, e assim por diante, tal como um cartão sonoro e/ou uma capacidade de processamento de áudio integrado.
[00061] Uma ou mais interface gráficas 836 (também comumente referidas como uma unidade de processamento de gráficos (GPU)) proporcionam gráficos e sinais de vídeo entre o computador 802 e o(s) dispositivo de exibição externa 838 (por exemplo, LCD, plasma) e/ou dispositivos de exibição integrados 840 (por exemplo, para computador portátil). A(s) interface(s) de gráficos 836 também pode(m) ser fabricada(s) como parte da placa de sistema computacional.
[00062] O computador 802 pode operar em um ambiente de rede (por exemplo, IP) utilizando-se conexões lógicas através de um subsistema de comunicações com/sem fio 842 a uma ou mais redes e/ou outros computadores. Os outros computadores podem incluir estações de trabalho, servidores, roteadores, computadores pessoais, aparelhos de entretenimento baseados em microprocessadores, um dispositivo peer ou outro nó de rede comum, e incluem, tipicamente, muitos ou todos os elementos descritos em relação ao computador 802. As conexões lógicas podem incluir uma conectividade com/sem fio a uma rede de área local (LAN), uma rede de área ampliada (WAN), ponto de acesso, e assim por diante. Os ambientes de rede LAN e WAN são comuns em escritórios e companhias e facilitam as redes computacionais a nível empresarial, tais como intranets, sendo que todos esses podem se conectar a uma rede de comunicações global, tal como a
Petição 870190110556, de 30/10/2019, pág. 23/34
21/23
Internet.
[00063] Quando usado em um ambiente de rede, o computador 802 se conecta à rede através de um subsistema de comunicação com/sem fio 842 (por exemplo, um adaptador de interface de rede, um subsistema transceptor integrado, etc.) para se comunicar com redes com/sem fio, impressoras com/sem fio, dispositivos de entrada com/sem fio 844, e assim por diante. O computador 802 pode incluir um modem ou ter outros meios para estabelecer comunicações pela rede network. Em um ambiente de rede, os programas e dados relativos ao computador 802 podem ser armazenados no dispositivo de memória/armazenamento remoto, assim como associados a um sistema distribuído. Avaliar-se-á que as conexões de rede mostradas são exemplificadoras e qualquer outro meio de estabelecer um link de comunicações entre os computadores pode ser usado.
[00064] O computador 802 é operável para se comunicar com dispositivos com/sem fio ou entidades utilizando-se as tecnologias de rádio, tal como a família de padrões IEEE 802. xx, tais como dispositivos sem fio operacionalmente dispostos em comunicação sem fio (por exemplo, técnicas de modulação aérea IEEE 802.11) com, por exemplo, uma impressora, digitalizador, computador desktop e/ou portátil, assistente pessoal digital (PDA), satélites de comunicações, qualquer peça de equipamentos ou local associado a uma etiqueta remotamente detectável (por exemplo, um quiosque, uma banca de jornais, banheiro), e telefone. Isto inclui pelo menos Wi-Fi (ou Fidelidade Sem Fio) para pontos de acesso, WiMax, e tecnologias sem fio BluetoothTM. Portanto, as comunicações podem ser uma estrutura predefinida como uma rede convencional ou simplesmente uma comunicação ad hoc entre pelo menos dois dispositivos. As redes Wi-Fi usam tecnologias de rádio denominadas IEEE 802.1 Ix (a, b, g, etc.) para proporcionar uma conectividade sem fio segura, confiável e rápida. Uma rede Wi-Fi
Petição 870190110556, de 30/10/2019, pág. 24/34
22/23 pode ser usada para conectar os computadores entre si, à Internet, e a redes cabeadas (que usam mídias e funções relacionadas a IEEE 802.3).
[00065] Referindo-se agora à FIGURA 9, ilustra-se um diagrama de blocos esquemático de um ambiente computacional 900 que proporciona um reconhecimento paralelo de acordo com a arquitetura descrita. O ambiente 900 inclui um ou mais clientes 902. O(s) cliente(s) 902 pode(m) ser hardware e/ou software (por exemplo, threads, processos, dispositivos computacionais). O(s) cliente(s) 902 pode(m) alojar cookie(s) e/ou informações contextuais associadas, por exemplo.
[00066] O ambiente 900 também inclui um ou mais servidor(es) 904. O(s) servidor(es) 904 também pode(m) ser hardware e/ou software (por exemplo, threads, processos, dispositivos computacionais). Os servidores 904 podem alojar threads para realizar transformações empregando-se a arquitetura, por exemplo. Uma comunicação possível entre um cliente 902 e um servidor 904 pode estar sob a forma de um pacote de dados adaptado para que seja transmitido entre dois ou mais processos computacionais. O pacote de dados pode incluir um cookie e/ou informações contextuais associadas, por exemplo. O ambiente 900 inclui uma estrutura de comunicação 906 (por exemplo, uma rede de comunicação global, tal como a Internet) que pode ser empregada para facilitar as comunicações entre o(s) cliente(s) 902 e o(s) servidor(es) 904.
[00067] As comunicações podem ser facilitadas através de uma tecnologia com fio (incluindo fibra óptica) e/ou sem fio. O(s) cliente(s) 902 é(são) operacionalmente conectado(s) a um ou mais armazenamentos de dados de cliente 908 que podem ser empregados para armazenada informações locais ao(s) cliente(s) 902 (por exemplo, cookie(s) e/ou informações contextuais associadas). De modo semelhante, o(s) servidor(es) 904 é(são) operacionalmente conectado(s) a um
Petição 870190110556, de 30/10/2019, pág. 25/34
23/23 ou mais armazenamentos de dados de servidor 910 que podem ser empregados para armazenar informações locais aos servidores 904. [00068] O(s) cliente(s) 902 pode(m) incluir um cliente através do qual os sinais de voz são recebidos para processamento de reconhecimento pelo(s) servidor(es) 904 ou outro(s) cliente(s) 902. As gramáticas podem ser armazenadas no(s) armazenamento(s) de dados do cliente 908 e/ou no(s) armazenamento(s) de dados do servidor 910. [00069] Descreveram-se anteriormente exemplos da arquitetura descrita. Naturalmente, não é possível descrever cada combinação concebível de componentes e/ou metodologias, porém, um indivíduo com conhecimento comum na técnica pode reconhecer que muitas combinações e permutações são possíveis. Consequentemente, a arquitetura inusitada é destinada a abranger todas as alterações, modificações e variações que se encontram no espírito e escopo das reivindicações em anexo. Além disso, na medida em que o termo “inclui” é usado na descrição detalhada ou nas reivindicações, tal termo é destinado a ser inclusivo de maneira similar ao termo “que compreende” uma vez que “que compreende” é interpretado quando empregado como um termo transicional em uma reivindicação.

Claims (4)

  1. REIVINDICAÇÕES
    1. Sistema de reconhecimento implementado por computador (100, 200, 300), caracterizado pelo fato de que compreende:
    um componente de restrições (102) de restrições específicas ao contexto (104) para processamento de reconhecimento (304, 310) de uma entrada de fala (106, 302), em que cada uma das restrições específicas ao contexto compreende uma gramática específica ao contexto separada (306, 312), em que as gramáticas específicas ao contexto separadas são diferentes;
    uma pluralidade de reconhecedores (114, 304, 310), em que cada um dos reconhecedores está associado a uma das gramáticas específicas ao contexto e realiza um reconhecimento da entrada de fala para produzir um respectivo resultado de reconhecimento (108, 308, 314) para a entrada de fala através do emprego da gramática específica ao contexto respectivamente associada, em que os reconhecimentos são realizados em paralelo;
    um componente de reconciliação (110) para reconciliar os resultados de reconhecimento em um resultado de reconhecimento final (112, 320), em que a reconciliação compreende:
    gerar uma gramática dinâmica (316) utilizando os resultados de reconhecimento da entrada de fala (106, 302), gerar o resultado de reconhecimento final através de executar um reconhecimento subsequente (318) da entrada de fala (106, 302), em que o reconhecimento subsequente (318) emprega a gramática dinâmica à entrada de fala original (106, 302) para gerar o resultado de reconhecimento final; e um componente de regras (202) para impor uma ou mais regras de prioridade, em que as regras de prioridade declaram o resultado de reconhecimento final (320) antes de todos os reconhecimentos serem concluídos se um dos resultados de reconhecimento tiver uma
    Petição 870190110556, de 30/10/2019, pág. 27/34
  2. 2/3 classificação de confiança suficientemente alta, em que um dos resultados de reconhecimento é aceito como o resultado de reconhecimento final.
    2. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o componente de reconciliação (110) reconcilia os resultados do reconhecimento (308, 314) através do emprego análise estatística antes do reconhecimento subsequente (318), em que a análise estatística é realizada para atribuir pesos à gramática dinâmica (316).
  3. 3. Método de reconhecimento implementado por computador, caracterizado pelo fato de que compreende as etapas de:
    processar uma entrada de fala (106, 302) usando restrições específicas ao contexto (104), em que cada uma das restrições específicas ao contexto compreende uma gramática específica ao contexto separada (306, 312), em que as gramáticas específicas ao contexto separadas são diferentes, em que cada um de uma pluralidade de reconhecedores (114, 304, 310) está associado com uma das gramáticas específicas ao contexto;
    realizar, por cada uma da pluralidade de reconhecedores, um reconhecimento da entrada de fala para produzir um respectivo resultado de reconhecimento (108, 308, 314) para a entrada de fala através do emprego a gramática específica de contexto respectivamente associada, em que os reconhecimentos são realizados em paralelo;
    reconciliar os resultados de reconhecimento em um resultado de reconhecimento final (112, 320), em que a reconciliação compreende:
    gerar uma gramática dinâmica (316) utilizando os resultados de reconhecimento da entrada de fala (106, 302), gerar o resultado de reconhecimento final através da exe
    Petição 870190110556, de 30/10/2019, pág. 28/34
    3/3 cução de um reconhecimento subsequente (318) da entrada de fala (106, 302), em que o reconhecimento subsequente emprega a gramática dinâmica à entrada de fala original (106, 302) para gerar o resultado de reconhecimento final; e impor uma ou mais regras de prioridade, em que as regras de prioridade declaram o resultado de reconhecimento final (320) antes de todos os reconhecimentos serem concluídos se um dos resultados do reconhecimento tiver uma classificação de confiança suficientemente alta, em que o resultado de reconhecimento seja aceito como resultado de reconhecimento final.
  4. 4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que ainda compreende as etapas de:
    aguardar um tempo predeterminado para geração dos resultados de reconhecimento; e gerar o resultado de reconhecimento final com base nos resultados de reconhecimento que são gerados dentro do período de tempo.
BRPI1014550A 2009-06-04 2010-06-01 sistema de reconhecimento implementado por computador e método de reconhecimento implementado por computador BRPI1014550B1 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/477,918 US8930179B2 (en) 2009-06-04 2009-06-04 Recognition using re-recognition and statistical classification
PCT/US2010/036964 WO2010141513A2 (en) 2009-06-04 2010-06-01 Recognition using re-recognition and statistical classification

Publications (2)

Publication Number Publication Date
BRPI1014550A2 BRPI1014550A2 (pt) 2016-04-05
BRPI1014550B1 true BRPI1014550B1 (pt) 2020-05-05

Family

ID=43298454

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI1014550A BRPI1014550B1 (pt) 2009-06-04 2010-06-01 sistema de reconhecimento implementado por computador e método de reconhecimento implementado por computador

Country Status (10)

Country Link
US (1) US8930179B2 (pt)
EP (1) EP2438533B1 (pt)
JP (2) JP2012529080A (pt)
KR (1) KR101700466B1 (pt)
CN (1) CN102460423B (pt)
AU (1) AU2010256788B2 (pt)
BR (1) BRPI1014550B1 (pt)
CA (1) CA2760992C (pt)
RU (1) RU2571519C2 (pt)
WO (1) WO2010141513A2 (pt)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US9711167B2 (en) * 2012-03-13 2017-07-18 Nice Ltd. System and method for real-time speaker segmentation of audio interactions
US9431012B2 (en) 2012-04-30 2016-08-30 2236008 Ontario Inc. Post processing of natural language automatic speech recognition
US9093076B2 (en) * 2012-04-30 2015-07-28 2236008 Ontario Inc. Multipass ASR controlling multiple applications
KR20140082157A (ko) * 2012-12-24 2014-07-02 한국전자통신연구원 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법
CN103077718B (zh) * 2013-01-09 2015-11-25 华为终端有限公司 语音处理方法、系统和终端
US10067934B1 (en) 2013-02-22 2018-09-04 The Directv Group, Inc. Method and system for generating dynamic text responses for display after a search
US20140365218A1 (en) * 2013-06-07 2014-12-11 Microsoft Corporation Language model adaptation using result selection
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
US9324321B2 (en) 2014-03-07 2016-04-26 Microsoft Technology Licensing, Llc Low-footprint adaptation and personalization for a deep neural network
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
EP2933067B1 (en) * 2014-04-17 2019-09-18 Softbank Robotics Europe Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US9520127B2 (en) 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US9384334B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content discovery in managed wireless distribution networks
US9430667B2 (en) 2014-05-12 2016-08-30 Microsoft Technology Licensing, Llc Managed wireless distribution network
US9384335B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content delivery prioritization in managed wireless distribution networks
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices
US9786276B2 (en) * 2014-08-25 2017-10-10 Honeywell International Inc. Speech enabled management system
KR102365757B1 (ko) * 2015-09-09 2022-02-18 삼성전자주식회사 인식 장치, 인식 방법 및 협업 처리 장치
WO2017095476A1 (en) * 2015-12-01 2017-06-08 Nuance Communications, Inc. Representing results from various speech services as a unified conceptual knowledge base
KR102019757B1 (ko) * 2015-12-15 2019-09-10 한국전자통신연구원 언어 분석 오류 보정 장치 및 방법
DE102016005629B4 (de) * 2016-05-06 2020-06-25 Audi Ag Kraftfahrzeug-Bedienvorrichtung und Verfahren zum Ermitteln zumindest eines Erkennungsergebnisses zu einem Sprachsignal
JP2018191145A (ja) * 2017-05-08 2018-11-29 オリンパス株式会社 収音装置、収音方法、収音プログラム及びディクテーション方法
CN107437414A (zh) * 2017-07-17 2017-12-05 镇江市高等专科学校 基于嵌入式gpu系统的并行化游客识别方法
CN107943452B (zh) * 2017-11-20 2020-07-14 中国运载火箭技术研究院 一种多用户协同开发的体系结构设计平台
CN112005207A (zh) * 2018-10-18 2020-11-27 惠普发展公司,有限责任合伙企业 创建数据的统计分析以用于传输到服务器
WO2021019775A1 (ja) * 2019-08-01 2021-02-04 三菱電機株式会社 多言語音声認識装置および多言語音声認識方法
US11238884B2 (en) * 2019-10-04 2022-02-01 Red Box Recorders Limited Systems and methods for recording quality driven communication management
US11961511B2 (en) * 2019-11-08 2024-04-16 Vail Systems, Inc. System and method for disambiguation and error resolution in call transcripts
JP6786005B1 (ja) * 2020-04-09 2020-11-18 日鉄エンジニアリング株式会社 情報出力装置、情報出力システム、情報出力方法、プログラム、サーバ装置及びデータ出力方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6265089A (ja) 1985-09-18 1987-03-24 株式会社リコー 音声認識装置
JPS6346496A (ja) 1986-04-04 1988-02-27 株式会社リコー 音声認識装置
US5390279A (en) * 1992-12-31 1995-02-14 Apple Computer, Inc. Partitioning speech rules by context for speech recognition
US5677990A (en) * 1995-05-05 1997-10-14 Panasonic Technologies, Inc. System and method using N-best strategy for real time recognition of continuously spelled names
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US7082391B1 (en) * 1998-07-14 2006-07-25 Intel Corporation Automatic speech recognition
US6434524B1 (en) * 1998-09-09 2002-08-13 One Voice Technologies, Inc. Object interactive user interface using speech recognition and natural language processing
JP2000181487A (ja) 1998-12-14 2000-06-30 Toshiba Tec Corp 音声認識装置
DE19910234A1 (de) 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren mit mehreren Spracherkennern
US6526380B1 (en) 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
JP2001249684A (ja) * 2000-03-02 2001-09-14 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
US7213027B1 (en) 2000-03-21 2007-05-01 Aol Llc System and method for the transformation and canonicalization of semantically structured data
US6973429B2 (en) * 2000-12-04 2005-12-06 A9.Com, Inc. Grammar generation for voice-based searches
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
JP2003029783A (ja) 2001-07-17 2003-01-31 Oki Electric Ind Co Ltd 音声認識制御方式
US20030149566A1 (en) 2002-01-02 2003-08-07 Esther Levin System and method for a spoken language interface to a large database of changing records
US7184957B2 (en) * 2002-09-25 2007-02-27 Toyota Infotechnology Center Co., Ltd. Multiple pass speech recognition method and system
JP4682154B2 (ja) 2004-01-12 2011-05-11 ヴォイス シグナル テクノロジーズ インコーポレーティッド 自動音声認識チャンネルの正規化
JP2006039382A (ja) 2004-07-29 2006-02-09 Nissan Motor Co Ltd 音声認識装置
US7747437B2 (en) 2004-12-16 2010-06-29 Nuance Communications, Inc. N-best list rescoring in speech recognition
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks

Also Published As

Publication number Publication date
BRPI1014550A2 (pt) 2016-04-05
KR101700466B1 (ko) 2017-01-26
KR20120029413A (ko) 2012-03-26
RU2571519C2 (ru) 2015-12-20
CA2760992C (en) 2017-04-25
CN102460423B (zh) 2015-09-09
WO2010141513A2 (en) 2010-12-09
AU2010256788A1 (en) 2011-11-17
JP2012529080A (ja) 2012-11-15
US8930179B2 (en) 2015-01-06
CA2760992A1 (en) 2010-12-09
JP2016026326A (ja) 2016-02-12
CN102460423A (zh) 2012-05-16
EP2438533B1 (en) 2019-01-23
US20100312546A1 (en) 2010-12-09
RU2011149321A (ru) 2013-06-10
EP2438533A2 (en) 2012-04-11
EP2438533A4 (en) 2016-05-11
WO2010141513A3 (en) 2011-03-03
AU2010256788B2 (en) 2014-09-11

Similar Documents

Publication Publication Date Title
BRPI1014550B1 (pt) sistema de reconhecimento implementado por computador e método de reconhecimento implementado por computador
KR102026396B1 (ko) 화자 검증을 위한 신경망들
US10909327B2 (en) Unsupervised learning of interpretable conversation models from conversation logs
US9292489B1 (en) Sub-lexical language models with word level pronunciation lexicons
US11645470B2 (en) Automated testing of dialog systems
WO2021086645A1 (en) Semantic representations using structural ontology for assistant systems
US8838449B2 (en) Word-dependent language model
JP2020537223A (ja) 質問と要求とを自律エージェントが区別できるようにすること
US20150340033A1 (en) Context interpretation in natural language processing using previous dialog acts
US8965763B1 (en) Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
US9665560B2 (en) Information retrieval system based on a unified language model
US20230419947A1 (en) Unsupervised alignment for text to speech synthesis using neural networks
US11397856B2 (en) Phonetic patterns for fuzzy matching in natural language processing
JP2024019082A (ja) システム、コンピュータ実装方法、及びコンピュータプログラム(自動音声検出を改善するためのボイスアクティビティ検出統合)
JP7349523B2 (ja) 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム
US20220180865A1 (en) Runtime topic change analyses in spoken dialog contexts
US11645468B2 (en) User data processing
US11361761B2 (en) Pattern-based statement attribution
US20230316000A1 (en) Generation of conversational responses using neural networks
US20230142339A1 (en) Recognition of user intents and associated entities using a neural network in an interaction environment
KR20230156795A (ko) 단어 분할 규칙화

Legal Events

Date Code Title Description
B25A Requested transfer of rights approved

Owner name: MICROSOFT TECHNOLOGY LICENSING, LLC (US)

B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 01/06/2010, OBSERVADAS AS CONDICOES LEGAIS.