BR102018070673A2 - Gerar diálogo baseado em pontuações de verificação - Google Patents

Gerar diálogo baseado em pontuações de verificação Download PDF

Info

Publication number
BR102018070673A2
BR102018070673A2 BR102018070673-0A BR102018070673A BR102018070673A2 BR 102018070673 A2 BR102018070673 A2 BR 102018070673A2 BR 102018070673 A BR102018070673 A BR 102018070673A BR 102018070673 A2 BR102018070673 A2 BR 102018070673A2
Authority
BR
Brazil
Prior art keywords
score
audio data
speaker
generate
verification
Prior art date
Application number
BR102018070673-0A
Other languages
English (en)
Inventor
Jonathan Huang
David Pearce
Willem M. Beltman
Original Assignee
Intel Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corporation filed Critical Intel Corporation
Publication of BR102018070673A2 publication Critical patent/BR102018070673A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

"gerar diálogo baseado em pontuações de verificação". um aparelho exemplificativo para gerar diálogo inclui um receptor de áudio para receber dados de áudio incluindo fala. o aparelho também inclui um gerador de pontuação de verificação para gerar uma pontuação de verificação baseada nos dados de áudio. o aparelho inclui ainda um detector de usuário para detectar que aa pontuação de verificação excede um limiar inferior, mas não excede um limiar superior. o aparelho inclui um gerador de diálogo para gerar um diálogo para solicitar dados de áudio adicionais destinados a serem utilizados para gerar um pontuação de verificação atualizada em resposta à detecção de que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior.

Description

Relatório Descritivo da Patente de Invenção para GERAR DIÁLOGO BASEADO EM PONTUAÇÕES DE VERIFICAÇÃO. Antecedentes [0001] As interfaces de voz natural podem utilizar reconhecimento automático de fala (ASR) e processamento de linguagem natural (NLP) para receber comandos falados de usuários e efetuar ações em resposta aos comandos falados. Por exemplo, se pode utilizar ASR para converter os comandos falados em um formato legível por máquina. Se pode depois utilizar NPL para traduzir os comandos legíveis por máquina em uma ou mais ações.
Breve Descrição dos Desenhos [0002] A figura 1 é um diagrama de blocos ilustrando um exemplo de pipeline de processamento para gerar uma pontuação de verificação de orador;
[0003] A figura 2 é um fluxograma detalhado ilustrando um exemplo de processo para gerar diálogo baseado em uma pontuação de verificação de orador;
[0004] A figura 3 é um diagrama de blocos ilustrando um exemplo de gerar uma pontuação de verificação de orador, por exemplo, dados de áudio recebidos de um orador;
[0005] A figura 4 é um gráfico ilustrando um exemplo de compromisso de detecção de erro;
[0006] A figura 5 é um fluxograma ilustrando um método para gerar um diálogo baseado em uma pontuação de verificação de orador;
[0007] A figura 6 é um diagrama de blocos ilustrando um exemplo de dispositivo informático que pode gerar um diálogo baseado em uma pontuação de verificação de orador; e [0008] A figura 7 é um diagrama de blocos mostrando meios legíveis por computador que armazenam código para gerar um diálogo
Petição 870180138577, de 08/10/2018, pág. 59/119
2/46 baseado em uma pontuação de verificação de orador.
[0009] Ao longo da divulgação e das figuras são utilizados os mesmos números para indicar componentes e recursos iguais. Números na série 100 se referem a recursos originalmente encontrados na figura 1; números na série 200 se referem a recursos originalmente encontrados na figura 2; e assim por diante.
Descrição das Modalidades [0010] Tal como acima debatido, as interfaces de voz natural podem ser utilizadas para um ou mais serviços em resposta à recepção de comandos falados. Por exemplo, uma interface de voz natural pode receber um comando falado e efetuar uma ou mais tarefas em resposta ao comando falado. No entanto, algumas interfaces de voz natural podem não ter capacidade para reconhecer quem está a falar. Além disso, mesmo se alguns sistemas de voz natural incluem a capacidade de reconhecer quem está a falar, esses sistemas podem ter de tomar uma decisão sobre a ID de orador baseada em uma entrada inicial. Tomar decisões baseadas apenas em uma entrada pode levar a erros em que um usuário pode ser rejeitado ou incorretamente identificado como uma outra pessoa e, por consequência, provocar frustação ao usuário.
[0011] A presente divulgação refere-se, de um modo geral, a técnicas para gerar um diálogo automaticamente. Especificamente, as técnicas aqui descritas incluem um aparelho, um método e um sistema para gerar um diálogo baseado em uma pontuação de verificação calculado. Em particular, as técnicas aqui descritas podem ser utilizadas para determinar quando gerar diálogo adicional com o objetivo de melhorar uma confiança do sistema em uma pontuação de verificação de voz de um orador. Um exemplo de aparelho inclui um receptor de áudio para receber dados de áudio incluindo fala. O aparelho pode incluir um detector de frase chave para detectar uma
Petição 870180138577, de 08/10/2018, pág. 60/119
3/46 frase chave nos dados de áudio. O aparelho também inclui um gerador de pontuação de verificação para gerar uma pontuação de verificação baseada nos dados de áudio. O aparelho inclui ainda um detector de usuário para detectar que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior. O aparelho também inclui ainda um gerador de diálogo para gerar um diálogo para solicitar dados de áudio adicionais destinados a serem utilizados para gerar uma pontuação de verificação atualizada em resposta à detecção de que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior.
[0012] As técnicas aqui descritas permitem assim que o fluxo de diálogo seja ajustado quando há incerteza nas pontuações de verificação de orador ou as medições da qualidade de sinal de entrada indicam que a performance de reconhecimento de orador será problemática devido às condições ambientais. Por exemplo, uma amostra de áudio da fala de usuário pode ser de baixa qualidade devido ao ruído de fundo ou a amostra de áudio pode ser demasiado curta para uma pontuação de verificação alta. Além disso, com capacidade de reconhecimento de orador, as técnicas podem prever a capacidade de gerir inteligentemente perfis de usuário para fazer recomendações de conteúdo específicas de usuário e permitir acesso a certas tarefas limitadas, tais como controlar dispositivos ou fazer pedidos. Além disso, as técnicas descritas preveem várias melhorias que possibilitam uma experiência de usuário melhorada quando está a utilizar um reconhecimento de orador.
[0013] A figura 1 é um diagrama de blocos ilustrando um exemplo de pipeline de processamento para gerar uma pontuação de verificação de orador. O exemplo de sistema é indicado pelo número de referência 100 e pode ser implementado no dispositivo informático
600 abaixo na figura 6 utilizando o método 500 da figura 5 abaixo.
Petição 870180138577, de 08/10/2018, pág. 61/119
4/46 [0014] O exemplo de sistema 100 inclui um receptor de fala 102 comunicativamente acoplado a um pré-processador 104. O sistema 100 também inclui um extrator de recursos 106 comunicativamente acoplado ao pré-processador 104. O sistema 100 também inclui ainda um classificador 108 comunicativamente acoplado ao extrator de recursos 106. O sistema 100 inclui um modelo de orador 110 comunicativamente acoplado ao classificador 108. O classificador 108 é mostrado a emitir uma pontuação de identificação de orador 112.
[0015] Tal como mostrado na figura 1, o sistema 100 pode receber dados de áudio incluindo fala e emitir uma pontuação de identificação de orador 112. Por exemplo, a pontuação de identificação de orador 112 pode indicar a probabilidade de um segmento de fala ser proferido por um orador cadastrado específico.
[0016] O receptor de fala 102 pode receber dados de áudio incluindo fala. Por exemplo, os dados de áudio podem incluir uma frase chave e um comando. Por exemplo, o comprimento da fala nos dados de áudio pode ser de poucos segundos a poucos minutos.
[0017] Em alguns exemplos, a primeira etapa de processamento no pipeline de processamento pode ser pré-processar sinal por meio de um pré-processador 104 para melhorar a qualidade de fala. Por exemplo, utilizando uma série de microfones, pode ser utilizado um formador de feixe para maximizar a relação sinal-ruído (SNR) da fala explorando a diferente direcionalidade de fala e ruído. Em alguns exemplos, pode ser aplicada uma reverberação de respostas a impulso de espaço acústico. Em alguns exemplos, também podem ser empregues outras técnicas de melhoria de fala, tais como subtração espectral, filtro de Weiner e separação de fontes cegas.
[0018] O extrator de recursos 106 pode receber os dados de áudio pré-processados e processar os dados de áudio pré-processados para extrair recursos dos dados de áudio pré-processados. Por exemplo, a
Petição 870180138577, de 08/10/2018, pág. 62/119
5/46 extração de recursos pode ser uma forma de análise espectral efetuada sobre décimos de milissegundos de frames de fala.
[0019] O classificador 108 pode tomar recursos de entrada de dados de áudio e gerar uma pontuação de verificação de orador 112 baseada nos recursos. Por exemplo, o classificador 108 pode tomar todos os dados de áudio e calcular a probabilidade de a elocução corresponder a um modelo de orador cadastrado 110. Em alguns exemplos o classificador 108 pode utilizar um modelo de orador 110 para calcular a pontuação de verificação de orador 112. Por exemplo, pode haver um modelo de orador separado para cada orador que deva ser detectado utilizando o classificador 108. A emissão do pipeline 100 acima é uma pontuação de verificação de orador numérica 112. Por exemplo, uma pontuação de verificação de orador de maior valor pode indicar uma maior probabilidade de uma correspondência com um modelo de orador 110. Em alguns exemplos, para aceitar ou rejeitar um orador, pode ser definido um valor limiar para a probabilidade. Em alguns exemplos, o limiar pode ser definido baseado em um compromisso entre a taxa de falsa aceitação e a taxa de falsa rejeição, tal como descrito mais pormenorizadamente em relação à figura 4 abaixo. Em alguns exemplos, pode ser gerada pontuação de verificação que incorpora a pontuação de verificação de orador e uma pontuação de medição de qualidade de sinal. Por exemplo, a pontuação de verificação pode incorporar a pontuação de verificação de orador emitida pelo sistema de ID de Orador e a proximidade da pontuação de verificação de orador com quaisquer outros oradores cadastrados no mesmo sistema. A pontuação de verificação também pode incorporar medições de qualidade de sinal tomadas no sinal de entrada que se correlacionam com a performance esperada do sistema de ID de Orador. Por exemplo, medições de qualidade de sinal podem incluir nível de ruído de fundo, nível de sinal de entrada,
Petição 870180138577, de 08/10/2018, pág. 63/119
6/46 relação sinal-ruído, medição de reverberação, a duração da entrada, etc.
[0020] Em alguns exemplos, a pontuação de verificação pode depois ser comparada a um ou mais limiares. Por exemplo, pode ser definido um limiar superior e um limiar inferior para a pontuação de verificação. Por exemplo, pode ser detectada fala com uma pontuação de verificação abaixo do limiar inferior como sendo originária de um usuário desconhecido enquanto fala com uma pontuação de verificação próxima do limiar superior pode ser detectada como sendo originária de um usuário conhecido. Em alguns exemplos, a pontuação de verificação pode estar entre um limiar inferior e um limiar superior.
[0021] Em alguns exemplos, um assistente de fala pode incluir um motor de diálogo que pode controlar o fluxo da interação com um ou mais usuários. Por exemplo, o fluxo do diálogo pode depender da confiança na saída proveniente do sistema de verificação de orador. Em alguns exemplos, quando há pouca confiança na saída proveniente do sistema de verificação de orador; em seguida pode ser gerado diálogo adicional para obter mais de entrada falada do usuário na qual deve se basear a decisão de verificação de orador. Por exemplo, o sistema pode gerar o diálogo adicional até que o sistema confie na pontuação e também enquanto não introduz verificações adicionais significativas para o usuário. Como um exemplo, o diálogo adicional pode ser gerado quando a pontuação de verificações é inferior a um limiar superior, mas superior a um limiar inferior e pode ser gerado até que a pontuação de verificação exceda o limiar superior. Em alguns exemplos, o design do fluxo de diálogo pode ser feito para soar natural ao usuário e, portanto, o usuário não saberá que está a ser feita uma verificação adicional de sua voz em segundo plano.
[0022] Um sistema utilizando as técnicas aqui descritas pode
Petição 870180138577, de 08/10/2018, pág. 64/119
7/46 assim ajustar o fluxo do diálogo de interação com o assistente de fala dependendo da confiança no sistema de verificação de orador. Em alguns exemplos, se houver grande confiança na decisão de verificação de orador, então o sistema pode prosseguir para detectar imediatamente um usuário conhecido ou desconhecido baseado somente na primeira elocução de entrada do usuário. Em contrapartida, quando há pouca confiança na decisão de verificação de orador, então o sistema pode adicionar passos de diálogo adicional para poder capturar mais fala do usuário na qual se deve basear a sua decisão da verificação/ID de orador. Em alguns exemplos, a fala de entrada adicional de usuário, que pode ser recebida como dados de áudio adicionais, pode ser utilizada de várias maneiras para melhorar a confiança na identidade do usuário. Por exemplo, o sistema pode gerar uma pontuação de verificação atualizada utilizando somente a fala proveniente dos períodos do diálogo adicionais. Em alguns exemplos, o sistema pode combinar as pontuações provenientes dos dados de áudio adicionais e os dados de áudio adicionais. A confiança ou pontuação de verificação da fala pode melhorar com os dados de áudio de fala adicionais por várias razões. Por exemplo, pode haver mais fala para que seja gerada a pontuação de verificação de orador e sistemas geral mente independentes de texto têm melhor performance com fala de entrada mais longa. Além disso, em alguns exemplos, pode ter havido um ruído externo transitório que ocorreu durante os dados de áudio de fala adicionais ao passo que os segundos dados de áudio têm uma melhor relação sinal-ruído (SNR), melhorando assim o valor de pontuação de verificação resultante.
[0023] Em um exemplo de cenário doméstico, todos os membros da família podem ser usuários do assistente de fala e podem assim ser cadastrados no sistema de verificação de orador. Embora o número de usuários cadastrados neste cenário possa ser pequeno, suas vozes
Petição 870180138577, de 08/10/2018, pág. 65/119
8/46 podem ser similares porque são todas da mesma família. Assim, o sistema de verificação de orador pode, portanto, ter tendência para confusão devido à semelhança das vozes. Portanto, pode ser utilizado um sistema adaptativo para obter fala adicional através de diálogo gerado para melhorar a detecção de usuário de uma maneira mais natural.
[0024] Em alguns exemplos, um sistema de ID de orador pode produzir uma ou mais pontuações que fornecem uma medição da confiança na ID de orador. Em alguns exemplos, o sistema pode detectar uma identidade da correspondência de orador mais próxima dentre o conjunto de pessoas cadastradas e a pontuação de verificação de orador ou probabilidade da elocução para o modelo de orador. Em alguns exemplos, o sistema pode utilizar a pontuação do segundo modelo de orador de correspondência mais próxima. Por exemplo, a pontuação do segundo modelo de orador de correspondência mais próxima pode ser comparada à pontuação do melhor modelo de orador e, consequentemente, fornecer uma medição de confiança alternativa. Em alguns exemplos, o sistema pode utilizar a pontuação de todos os oradores cadastrados. Em alguns exemplos, o sistema pode utilizar uma pontuação de um modelo que representa uma voz de usuário comum.
[0025] O diagrama da figura 1 não é destinado a indicar que o exemplo de sistema 100 deve incluir todos os componentes mostrados na figura 1. Em vez disso, o exemplo de sistema 100 pode ser implementado utilizando menos componentes ou componentes adicionais não ilustrados na figura 1 (por exemplo, modelos adicionais, etapas de processamento, emissão de pontuações de verificação de orador, etc.). Em alguns exemplos, o sistema 100 pode não incluir o pré-processador 104. Por exemplo, o extrator de recursos 106 pode processar diretamente dados de áudio recebidos do receptor de fala
Petição 870180138577, de 08/10/2018, pág. 66/119
9/46
102. Em um outro exemplo, o extrator de recursos pode ser eliminado se o classificador for uma rede neural profunda que toma dados de fala natural como entradas.
[0026] A figura 2 é um fluxograma detalhado ilustrando um exemplo de processo para gerar um diálogo baseado em uma pontuação de verificação de orador. O exemplo de processo é, geralmente, indicado pelo número de referência 200 e pode ser implementado no sistema 100 acima ou no dispositivo informático 600 abaixo. Por exemplo, o processo pode ser implementado utilizando o processador 602 do dispositivo informático 600 da figura 6 abaixo.
[0027] No bloco 202, um processador recebe dados de áudio incluindo fala. Por exemplo, os dados de áudio podem ser recebidos de um ou mais microfones. Em alguns exemplos, a fala pode incluir uma frase chave e um comando. Por exemplo, a frase chave pode ser uma frase de despertar predeterminada.
[0028] No losango de decisão 204, o processador determina se é detectada uma frase chave nos dados de áudio. Por exemplo, o processador pode estar a ouvir continuamente para detectar quando é proferida uma frase chave de despertar específica. Um exemplo de frase pode ser: Olá computador. Em alguns exemplos, um algoritmo de detecção de frase chave pode também fornecer os pontos de partida e de fim de uma forma de onda de fala de modo que possa ser efetuada verificação de orador dependente de texto (SV TD) no segmento. Em alguns exemplos, se a frase chave não for detectada, então o processo pode continuar no bloco 206. Em alguns exemplos, se a frase chave for detectada, então o processo pode continuar nos blocos 208 e 210.
[0029] No bloco 206, o processador pode parar e esperar que sejam recebidos dados de áudio adicionais no bloco 202. Em alguns exemplos, o processador pode dormir ou entrar em um modo de
Petição 870180138577, de 08/10/2018, pág. 67/119
10/46 stand-by, ou efetuar outras tarefas. Por exemplo, o dispositivo pode não fazer nada e voltar ao modo de default.
[0030] No bloco 208, o processador calcula medições de qualidade de sinal de fala de entrada. Por exemplo, o processador pode medir a qualidade de um sinal de entrada de áudio correspondente aos dados de áudio. Em alguns exemplos, o processador pode calcular várias medições de qualidade de sinal que se correlacionam com a capacidade de obter ID de orador. Por exemplo, as medições podem incluir um nível de ruído absoluto, um nível de sinal de fala de entrada, uma relação sinal-ruído (SNR), uma quantidade de reverberação, e uma duração da parte da frase de comando dos dados de áudio de entrada.
[0031] No bloco 210, o processador gera pontuações de verificação (SV) de orador dependentes de texto (TD) e pontuações de verificação (SV) de orador independentes de texto (Tl). Por exemplo, o processador pode utilizar uma porção de frase chave de fala nos dados de áudio recebidos que pode ser utilizada para pontuação versus SV TD. De modo semelhante o processador pode utilizar a porção de comando de fala nos dados de áudio versus SV Tl. Por exemplo, SV TD pode ter taxas de erro muito menores do que Tl para elocuções de muito curta duração, pelo que os dois segmentos dos dados de áudio podem ser separados e processados separadamente. Em alguns exemplos, as duas pontuações resultantes podem ser combinadas em conjunto para se obter uma classificação mais confiável. Em alguns exemplos, pode ser dado um peso maior à porção TD combinando as pontuações. Em alguns exemplos, a pontuação de SV combinada pode ser processada para todos os oradores cadastrados no dispositivo. Em alguns casos, o algoritmo de TD pode utilizar segmentos de fala, tanto das porções de frase chave como de comando, para aumentar a quantidade de dados acústicos
Petição 870180138577, de 08/10/2018, pág. 68/119
11/46 que é fornecida ao classificador. Além disso, tal como mostrado no bloco 212, um ou mais modelos de orador podem ser recebidos no bloco 210. Por exemplo, pode ser recebido um modelo de orador para que cada orador seja potencialmente detectado.
[0032] No bloco 214, o processador combina a pontuação de SV e medições de qualidade de sinal para gerar uma pontuação de verificação. Por exemplo, a pontuação de verificação de orador ou as medições de qualidade de sinal de fala de entrada podem ser utilizadas separadamente ou combinadas para formar uma medição de confiança total na ID da pessoa a partir da elocução proferida. Em alguns exemplos, a pontuação de verificação pode ser uma pontuação em que uma pontuação alta indica uma boa correspondência e uma pontuação baixa uma fraca correspondência. Em alguns exemplos, em alternativa, a pontuação de verificação pode ser uma probabilidade. A pontuação de verificação combinada pode ser obtida por meio de quaisquer técnicas adequadas. Por exemplo, o processador pode gerar a pontuação de verificação utilizando medições estatísticas, medições empíricas, ou aprendizagem de máquina, entre outras técnicas possíveis para combinar pontuações.
[0033] No losango de decisão 216, o processador compara a pontuação de verificação a um ou mais limiares para determinar se a pontuação de verificação excede os limiares. Em alguns exemplos os limiares podem incluir um limiar inferior e um limiar superior. Por exemplo, se o limiar superior for excedido, então o processo pode continuar no bloco 218. Em alguns exemplos, se o limiar superior não for excedido, mas o limiar inferior for excedido, então o processo pode continuar no bloco 220. Em alguns exemplos, se o limiar inferior não for excedido então o processo pode continuar no bloco 224. Por exemplo, para o processador decidir se um determinado usuário não é alguém fora do círculo fechado, a pontuação de verificação tem de ser
Petição 870180138577, de 08/10/2018, pág. 69/119
12/46 comparada com um ou mais dos limiares. Em alguns exemplos, o limiar pode ser definido para alguma taxa de falsa aceitação (FAR) alvo e uma taxa de falsa rejeição (FRR) do aplicativo. Tal como aqui utilizado, a FAR se refere a uma taxa à qual usuários são falsamente detectados como um usuário conhecido. A FRR se refere a uma taxa à qual usuários são falsamente detectados como usuários desconhecidos. Em alguns exemplos, os limiares podem ser diferentes para os vários aplicativos. Por exemplo, alguns aplicativos podem tolerar maiores FAR em vez de FRR e vice-versa.
[0034] No bloco 218, o processador continua a gerar um diálogo presumindo que um usuário é identificado. Em alguns exemplos, o processador pode gerar um diálogo baseado no usuário detectado. Por exemplo, o processador pode detectar uma grande confiança de que a pessoa foi identificada e pode prosseguir e gerar um diálogo presumindo que a identidade da pessoa é conhecida. Por exemplo, gerar um diálogo pode incluir gerar afirmações ou perguntas que correspondam ao usuário conhecido. Em alguns exemplos, o processador pode acessar um banco de dados com uma ou mais preferências armazenadas ou outros dados guardados associados a um usuário conhecido para gerar o diálogo. Em alguns exemplos, o processador também pode efetuar uma ou mais ações em resposta a dados de áudio adicionais recebidos de um usuário. Por exemplo, as ações podem ser efetuadas em resposta à recepção de um ou mais comandos do usuário conhecido.
[0035] No bloco 220, o processador gera um diálogo adicional para determinar a identidade de uma pessoa. O processador pode assim gerar diálogo que não presume que qualquer usuário é identificado. Por exemplo, o processador pode gerar um diálogo perguntando sobre o cotidiano da pessoa, ou outro diálogo generalizado. Em alguns exemplos, o usuário pode fornecer fala
Petição 870180138577, de 08/10/2018, pág. 70/119
13/46 adicional que o processador pode utilizar para aumentar a pontuação de verificação acima do segundo limiar. Por exemplo, se a pontuação de verificação se situar entre um limiar inferior T1 e um limiar superior T2, isso pode indicar que há alguma incerteza sobre a identidade do usuário. Portanto, o processador pode prosseguir e acrescentar mais períodos de diálogo para obter mais fala de entrada do usuário sobre a qual fazer uma determinação mais confiável. Em alguns exemplos, isso pode ocorrer por várias razões. Por exemplo, um orador cadastrado pode ter proferido a fala sob algumas condições variáveis quando comparadas com as condições de cadastramento, produzindo assim uma fraca correspondência. Por exemplo, as condições variáveis podem incluir doença do usuário, disposição do usuário, ruído de fundo, acústica do espaço, microfones diferentes, etc. As taxas de erro resultantes devidas às condições variáveis podem ser possivelmente demasiado grandes para alguns aplicativos. Além disso, rejeitar um orador demasiado cedo pode levar à frustação do usuário. Assim, o processador pode gerar diálogo adicional para recolher mais fala da pessoa sobre a qual fazer uma determinação mais informada quanto a se o usuário é ou não um usuário cadastrado. Em alguns exemplos, o processador pode determinar a identidade de usuário perguntado explicitamente ao usuário se ele ou ela é a pessoa de correspondência mais próxima. Em alguns exemplos, dependendo do nível de segurança de um sistema, o processador pode ainda pedir ao usuário que responda a uma pergunta de desafio ou que forneça uma senha secreta. Em alguns exemplos, o processador pode envolver o usuário em conversação baseada no contexto do diálogo atual. Em alguns exemplos, o processador pode inquirir sobre detalhes adicionais relevantes sobre um pedido de usuário.
[0036] No losango de decisão 222, o processador determina se é
Petição 870180138577, de 08/10/2018, pág. 71/119
14/46 encontrado um usuário correspondente. Por exemplo, o usuário correspondente pode ser encontrado em resposta à detecção de que a pontuação de verificações de 214 excede o limiar superior em relação a um modelo de orador particular associado a um usuário. Em alguns exemplos, se for encontrado um usuário correspondente, então o processo pode continuar no bloco 218. Pelo contrário, se não for encontrado um usuário correspondente, então o processo pode continuar no bloco 224.
[0037] No bloco 224, o processador gera um diálogo presumindo um usuário desconhecido. Por exemplo, pode ter sido obtida uma fraca correspondência e o processador pode gerar um diálogo enquanto continua a presumir que a identidade da pessoa não é conhecida. Em alguns exemplos, uma ou mais funcionalidades podem estar limitadas. Por exemplo, se após gerar diálogo adicional a identidade de usuário ainda não se encaixa em um dos oradores cadastrados, o processador pode continuar a interação como um usuário convidado. O acesso a conteúdo privado será bloqueado e não haverá recomendações específicas de usuário.
[0038] Em um exemplo de um diálogo de vários usuários, pode haver três usuários que são pré-cadastrados e um usuário não cadastrado. Por exemplo, um pai pode perguntar: Olá computador, o que passa na TV esta noite? O sistema pode responder: Oi Brian, há um grande filme de ação às 19:00 que você pode gostar. Uma mãe também pode perguntar: Olá computador, o que passa na TV esta noite? O sistema pode responder: Oi Liz, o seu programa de moda favorito começa às 8. Do mesmo modo, uma criança de 4 anos também pode perguntar: Olá computador, o que passa na TV esta noite? O sistema pode responder: Oi Alice, Super Happy Fun Time começa dentro de 10 minutos. O novo usuário não cadastrado pode pedir: Olá computador, programe um alarme para as 4:00. Neste
Petição 870180138577, de 08/10/2018, pág. 72/119
15/46 caso, no entanto, o sistema pode responder: Oi, lamento, mas somente os membros da família podem programar alarmes. Presumindo que ambos os modelos TD e Tl estão cadastrados, o sistema pode utilizar ambas as partes da fala para determinar a identidade da pessoa. Por exemplo, SV TD pode ser aplicada para frases chaves detectadas e SV Tl pode ser aplicada a comandos para detectar cada orador. Em alguns exemplos, ambas as técnicas podem ser utilizadas para gerar uma única pontuação de verificação de orador para detectar o orador, e determinar se o orador está ou não cadastrado no sistema. Assim, recursos específicos podem ser personalizados ou limitados a usuários que estão cadastrados no sistema.
[0039] Como um outro exemplo de diálogo, um usuário cadastrado pode começar por dizer: Olá computador, o que passa na TV esta noite? O processador pode processar essa frase utilizando as técnicas acima descritas. No entanto, a frase pode receber uma pontuação de verificação que se situa entre o limiar inferior T1 e o limiar superior T2. O processador pode assim solicitar fala adicional da pessoa para aumentar a pontuação de verificação ou de confiança. Por exemplo, o processador pode gerar o diálogo: Deixe-me checar as listagens para você. Por isso, por favor fale-me sobre seu dia enquanto eu procuro isso? O usuário pode responder com a fala adicional: Tive um dia estressante no trabalho, preparando uma grande apresentação em frente de uma platéia enorme. Estamos mesmo pressionados pelo tempo. Eu quero me sentar e relaxar. Assim, o processador pode receber esta fala adicional como dados de áudio, o que pode resultar em uma maior pontuação de verificação. Por exemplo, a pontuação de verificação pode agora exceder o limiar superior T2 para um modelo de orador associado a um usuário chamado Dan. O processador pode então gerar diálogo presumindo
Petição 870180138577, de 08/10/2018, pág. 73/119
16/46 um usuário identificado. Por exemplo, o processador pode gerar o diálogo: Lamento ouvir que você está estressado, Dan. Para fazer você sentir melhor você estará interessado em ver o jogo 7 das finais MBH esta noite no canal XZY que começa às 19:00. Em alguns exemplos, o processador pode ter acesso a conteúdo privado, tal como definições favoritas, música, shows de televisão, esportes de equipe, etc. Por exemplo, o processador pode acessar o conteúdo privado associado ao usuário identificado em resposta à detecção de um usuário identificado.
[0040] Este diagrama de fluxo de processo não se destina a indicar que os exemplos de blocos do processo 200 devem ser executados em qualquer ordem particular, ou que todos os blocos devem ser incluídos em todos os casos. Por exemplo, um losango de decisão de detecção de frase chave 204 pode ser opcional. Em alguns exemplos, o processo 200 pode continuar do bloco 202 diretamente para os blocos 208 e 210. Além disso, pode ser incluído qualquer número de blocos adicionais não mostrados no exemplo de processo 200, dependendo dos detalhes da implementação particular.
[0041] A figura 3 é um diagrama de blocos ilustrando o gerar de uma pontuação de verificação de orador, por exemplo, dados de áudio recebidos de um orador. O exemplo de gerar a pontuação de verificação de orador é geralmente indicado pelo número de referência 300 e pode ser implementado no dispositivo informático 600 abaixo. Por exemplo, a pontuação de verificação de orador 300 pode ser gerada utilizando o pipeline de processamento 100 da figura 1, o processador 602 e o marcador de orador 634 do dispositivo informático 600 da figura 6 abaixo, ou o módulo de marcador de orador 710 dos meios legíveis por computador 700 da figura 7 abaixo.
[0042] A figura 3 mostra exemplos de dados de áudio incluindo fala recebidos de um usuário. Por exemplo, a fala pode incluir a frase:
Petição 870180138577, de 08/10/2018, pág. 74/119
17/46
Olá computador, o que passa na TV esta noite? Por exemplo, a parte da frase Olá computador pode ser detectada como uma frase chave de despertar 304, e a parte da frase 302 o que passa na TV esta noite? pode ser detectada como um comando 306 para reconhecimento automático de fala (ASR).
[0043] No bloco 308, o processador detecta se a frase chave de despertar 304 Olá computador é detectada como uma frase chave. Podem ser utilizadas várias técnicas diferentes para detecção de frase chave. Em alguns exemplos, é utilizado um algoritmo de reconhecimento automático de fala de vocabulário muito reduzido (uma ou várias palavras) para detectar essa frase chave. Por exemplo, pode ser utilizada uma ou várias palavras para detectar a frase chave. Em alguns exemplos, podem ser utilizados recursos espectrais no front end, seguido por um modelo acústico de rede neural profunda (DNN) com um modelo oculto de Markov (HMM) como um modelo de frase chave. Em alguns exemplos, a função DNN pode ser expandida para obviar a necessidade dos recursos espectrais e HMM. Por exemplo, pode ser utilizado um classificador end-to-end DNN para detectar frase chave diretamente de fala natural. Tal como aqui utilizado, o termo DNN se destina a incluir muitas formas alternativas de tipos e topologias de rede neural, tais como uma rede neural convolucional (CNN), uma rede de memória de longo e curto prazo (LSTM), uma rede neural recorrente (RNN), camadas totalmente conectadas, etc., ou qualquer combinação das mesmas.
[0044] No bloco 310, o processador efetua a verificação de orador dependente de texto (SV TD) na frase chave 304. Por exemplo, em dependente de texto (TD), as palavras utilizadas para cadastrar um usuário e testar usuário podem ser as mesmas. Assim, em SV TD, pode ser possível utilizar frases-passe para conseguir EER abaixo de 1% em condições ideais. Por exemplo, as frases-passe curtas podem
Petição 870180138577, de 08/10/2018, pág. 75/119
18/46 ter um comprimento de 1 a 5 segundos tais como Olá computador. O cadastramento pode incluir somente umas poucas repetições da mesma frase pelo usuário a ser cadastrado. Assim, pode ser utilizado SV TD para autenticar rapidamente um usuário com muito pouco esforço e tempo de cadastramento.
[0045] No bloco 312, o processador processa o comando 306 utilizando detecção de atividade de voz 312. Por exemplo, a detecção de atividade de voz (VAD) em uma forma mais simples pode ser um detector de energia. Pode ser detectada voz quando uma energia de um segmento excede o nível de ruído de fundo por algum limiar empiricamente determinado. Em alguns exemplos, uma VAD mais sofisticada poderia utilizar uma DNN para classificar se um segmento de áudio é fala ou algum outro tipo de ruído. Em alguns exemplos pode ser utilizado um reconhecimento automático de fala para detectar palavras significativas ou fonemas correspondentes à linguagem do usuário.
[0046] No bloco 314, o processador efetua uma verificação de orador independente de texto (SV TI). Por exemplo, SV TI pode não ter quaisquer limitações em cadastramento e vocabulário de teste, o que possibilita que SV TI reconheça oradores durante fala conversacional natural. Em alguns exemplos, SV TI pode levar mais do que um minuto de fala para cadastrar, e pode utilizar segmentos de teste de fala mais longos para conseguir EER comparável a SV TD. Por exemplo, o comando o que passa na TV esta noite é duas vezes mais longo do que a frase chave Olá computador.
[0047] No bloco 316, o processador efetua uma fusão de pontuação para gerar uma única pontuação de verificação de orador.
Em alguns exemplos, o processador pode combinar a pontuação SV
TI e a pontuação SV TD utilizando qualquer técnica adequada para gerar uma pontuação de SV combinada. Por exemplo, pode ser
Petição 870180138577, de 08/10/2018, pág. 76/119
19/46 utilizada uma média simples ou uma média ponderada. Em alguns exemplos, como no caso de média ponderada, a ponderação pode ser determinada por fatores tais como SNR, duração, riqueza fonética dos segmentos, ou uma combinação dos mesmos.
[0048] O diagrama da figura 3 não se destina a indicar que o exemplo de gerar a pontuação de verificação de orador 300 deve incluir todos os componentes mostrados na figura 3. Em vez disso, o exemplo de gerar a pontuação de verificação de orador 300 pode ser implementado utilizando menos componentes ou componentes adicionais não ilustrados na figura 3 (por exemplo, expressões chave adicionais, comandos, fala, componentes de pontuação, etc.).
[0049] A figura 4 é um gráfico ilustrando um exemplo de compromisso de detecção de erro. O exemplo de compromisso de detecção de erro é, geralmente, indicado pelo número de referência 400 e pode ser implementado no dispositivo informático 600 abaixo. Por exemplo, o compromisso de detecção de erro 400 pode ser utilizado pelo detector de usuário 640 do dispositivo informático 600 da figura 6 abaixo, ou pelo módulo de detector de usuário 716 dos meios legíveis por computador 700 da figura 7 abaixo. Por exemplo, pode ser utilizado compromisso de detecção de erro para definir um ou mais limiares para detectar um orador.
[0050] A figura 4 mostra taxas de percentagem de erro 402 e 404, e uma linha de taxa de erro igual 406 indicando igual taxa de falsa aceitação (FAR) e taxa de falsa rejeição (FRR). O traçado de erro de detecção 408 indica todas as zonas de operação de um exemplo de sistema que pode ser alcançado escolhendo diferentes valores para um limiar. Por exemplo, definindo um valor de limiar elevado pode levar a uma taxa de falsa aceitação (FAR), mas pode aumentar a taxa de falsa rejeição (FRR). O contrário pode ser verdade com um valor de limiar inferior. Assim, a interseção 410 da linha de traçado de erro de
Petição 870180138577, de 08/10/2018, pág. 77/119
20/46 detecção 408 e a linha de taxa de erro igual 406 podem ser utilizadas para determinar um limiar que pode fornecer, tanto uma baixa FAR, como uma baixa FRR. Por exemplo, a FAR e a FRR na interseção 410 da linha de traçado do erro de detecção 408 e a linha de igual taxa de erro 406 são mostradas como 1%.
[0051] O diagrama da figura 4 não se destina a indicar que o exemplo de compromisso de detecção de erro 400 deve incluir todos os componentes mostrados na figura 4. Em vez disso, o exemplo de compromisso de detecção de erro 400 pode ser implementado utilizando menos componentes ou componentes adicionais não ilustrados na figura 4 (por exemplo, dimensões adicionais, linhas de traçado de erro de detecção, etc.).
[0052] A figura 5 é um fluxograma ilustrando um método para gerar um diálogo baseado em uma pontuação de verificação de orador. O exemplo de método é, geralmente, indicado pelo número de referência 500 e pode ser implementado utilizando pelo menos parcialmente o pipeline de processamento 100 da figura 1 acima, o processador 602 do dispositivo informático 600 da figura 6 abaixo, ou os meios legíveis por computador 700 da figura 7 abaixo.
[0053] No bloco 502, um processador recebe dados de áudio incluindo fala. Por exemplo, os dados de áudio podem ser um sinal de áudio. Em alguns exemplos, a fala pode incluir uma frase chave, um comando, ou ambos.
[0054] No bloco 504, o processador detecta uma frase chave nos dados de áudio. Por exemplo, a frase chave pode ser uma frase chave de despertar. Em alguns exemplos, a frase chave pode ter sido gravada para cada usuário que é cadastrado.
[0055] No bloco 506, o processador gera uma pontuação de verificação baseada nos dados de áudio. Em alguns exemplos, o processador pode gerar a pontuação de verificação em resposta à
Petição 870180138577, de 08/10/2018, pág. 78/119
21/46 detecção da frase chave. Por exemplo, o processador pode gerar uma pontuação de verificação de orador baseada nos dados de áudio e em um modelo de orador e gerar a pontuação de verificação baseada na pontuação de verificação de orador. Em alguns exemplos o processador pode calcular uma pontuação dependente de texto baseada na frase chave e uma pontuação independente de texto baseada em um comando nos dados de áudio e combinar a pontuação dependente de texto e a pontuação independente de texto para gerar uma pontuação de verificação de orador. Por exemplo, o processador pode então gerar a pontuação de verificação baseada na pontuação de verificação de orador. Em alguns exemplos, o processador pode gerar uma pontuação de qualidade de sinal baseada nos dados de áudio e gerar a pontuação de verificação baseada na pontuação de qualidade de sinal. Por exemplo, a pontuação de qualidade de sinal pode ser gerada baseada em um nível de ruído de fundo, em um nível de sinal de entrada, em uma relação sinal-ruído, em uma medição de reverberação, em uma duração da entrada, ou qualquer combinação dos mesmos. Em alguns exemplos, o processador pode gerar a pontuação de verificação baseada na pontuação de qualidade de sinal, na pontuação de verificação de orador, ou em ambas.
[0056] No losango de decisão 508, o processador determina se a pontuação de verificação excede um ou mais limiares. Por exemplo, os limiares podem incluir um limiar inferior e um limiar superior. Em alguns exemplos, o um ou mais limiares podem ser definidos baseados em um aplicativo. Por exemplo, o um ou mais limiares podem ser definidos pelo menos em parte baseados em taxa de falsa aceitação (FAR) alvo e taxa de falsa rejeição (FRR) de um aplicativo. Em alguns exemplos, se o processador detectar que a pontuação de verificação não excede o limiar inferior, então o método 500 pode continuar no bloco 510. Em alguns exemplos, se o processador
Petição 870180138577, de 08/10/2018, pág. 79/119
22/46 detectar que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior, então o método 500 pode continuar no bloco 512. Em alguns exemplos, se o processador detectar que a pontuação de verificação excede ambos os limiares, então o método 500 pode continuar no bloco 514.
[0057] No bloco 510, o processador detecta um usuário desconhecido em resposta à detecção de que a pontuação de verificação não excede a pontuação de limiar inferior. Em alguns exemplos, o processador pode gerar um diálogo negando acesso a serviços restritos em resposta à detecção de um usuário desconhecido. Em alguns exemplos, o processador pode gerar um diálogo ou fornecer um ou mais serviços não restritos em resposta à detecção do usuário desconhecido.
[0058] No bloco 512, o processador gera um diálogo para solicitar dados de áudio adicionais para serem utilizados para gerar uma pontuação de verificação atualizada em resposta à detecção de que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior.
[0059] No bloco 514, o processador gera uma resposta aos dados de áudio baseada no usuário conhecido detectado. Por exemplo, o processador pode detectar um usuário conhecido em resposta à detecção de que a pontuação de verificação excede a pontuação de limiar superior.
[0060] Este diagrama de fluxo de processo não se destina a indicar que os exemplos de blocos do método 500 devem ser executados em qualquer ordem particular, ou que todos os blocos devem ser incluídos em todos os casos. Por exemplo, o método 500 pode ser efetuado sem a detecção da frase chave nos dados de áudio no bloco 504. Além disso, qualquer número de blocos adicionais não mostrados pode ser incluído no exemplo de método 500, dependendo
Petição 870180138577, de 08/10/2018, pág. 80/119
23/46 dos detalhes da implementação particular. Por exemplo, o método 500 também pode incluir pré-processar os dados de áudio para eliminar ruído dos dados de áudio. Em alguns exemplos, o método 500 pode incluir extrair recursos dos dados de áudio. Por exemplo, a pontuação de verificação de orador pode ser gerada baseada nos recursos extraídos.
[0061] Fazendo referência agora à figura 6, é mostrado um diagrama de blocos ilustrando um exemplo de dispositivo informático que pode gerar um diálogo baseado em uma pontuação de verificação de orador. O dispositivo informático 600 pode ser, por exemplo, um computador laptop, computador desktop, computador tablet, mobile dispositivo, ou dispositivo usável, entre outros. Em alguns exemplos, o dispositivo informático 600 pode ser um dispositivo de assistente virtual. O dispositivo informático 600 pode incluir uma unidade de processamento central (CPU) 602 que é configurada para executar instruções armazenadas, assim como um dispositivo de memória 604 que armazena instruções que são executáveis pela CPU 602. A CPU 602 pode ser acoplada ao dispositivo de memória 604 por um barramento 606. Além disso, a CPU 602 pode ser um processador single core, um processador multi-core, um cluster de computadores, ou qualquer número de outras configurações. Além disso, o dispositivo informático 600 pode incluir mais do que uma CPU 602. Em alguns exemplos, a CPU 602 pode ser um sistema em chip (SoC) com uma arquitetura de processador multi-core. Em alguns exemplos, a CPU 602 pode ser um processador de sinal digital especializado (DSP) utilizada para processamento de imagem. O dispositivo de memória 604 pode incluir memória de acesso aleatório (RAM), memória somente de leitura (ROM), memória flash, ou quaisquer outros sistemas de memória adequados. Por exemplo, o dispositivo de memória 604 pode incluir memória de acesso aleatório dinâmica
Petição 870180138577, de 08/10/2018, pág. 81/119
24/46 (DRAM).
[0062] O dispositivo de memória 604 pode incluir memória de acesso aleatório (RAM), memória somente de leitura (ROM), memória flash, ou quaisquer outros sistemas de memória adequados. Por exemplo, o dispositivo de memória 604 pode incluir memória de acesso aleatório dinâmica (DRAM).
[0063] O dispositivo informático 600 também pode incluir uma unidade de processamento gráfico (GPU) 608. Tal como mostrado, a CPU 602 pode ser acoplada através do barramento 606 à GPU 608. A GPU 608 pode ser configurada para efetuar qualquer número de operações gráficas no dispositivo informático 600. Por exemplo, a GPU 608 pode ser configurada para apresentar ou manipular imagens gráficas, frames gráficos, vídeos, ou similares, para serem apresentadas em um usuário do dispositivo informático 600.
[0064] O dispositivo de memória 604 pode incluir memória de acesso aleatório (RAM), memória somente de leitura (ROM), memória flash, ou quaisquer outros sistemas de memória adequados. Por exemplo, o dispositivo de memória 604 pode incluir memória de acesso aleatório dinâmica (DRAM). O dispositivo de memória 604 pode incluir drivers de dispositivo 610 que são configurados para executar as instruções para gerar um diálogo baseado em uma pontuação de verificação de orador. Os drivers de dispositivo 610 podem ser software, um programa de aplicativo, código de aplicativo, ou similares.
[0065] A CPU 602 também pode ser conectada através do barramento 606 a uma interface de dispositivo de entrada/saída (l/O) 612 configurada para conectar o dispositivo informático 600 a um ou mais dispositivos l/O 614. Os dispositivos l/O 614 podem incluir, por exemplo, um teclado e um dispositivo apontador, em que o dispositivo apontador pode incluir um touchpad ou uma tela tátil, entre outros. Os
Petição 870180138577, de 08/10/2018, pág. 82/119
25/46 dispositivos Ι/Ο 614 podem ser componentes incorporados do dispositivo informático 600, ou podem ser dispositivos que são conectados externamente ao dispositivo informático 600. Em alguns exemplos, a memória 604 pode ser comunicativamente acoplada a dispositivos l/O 614 através de memória de acesso direto (DMA).
[0066] A CPU 602 também pode ser ligada através do barramento 606 a uma interface de apresentação 616 configurada para conectar o dispositivo informático 600 a um dispositivo de apresentação 618. O dispositivo de apresentação 618 pode incluir uma tela de apresentação que é um componente incorporado do dispositivo informático 600. O dispositivo de apresentação 618 também pode incluir um monitor de computador, televisão, ou projetor, entre outros, que é conectado interna ou externamente ao dispositivo informático 600.
[0067] O dispositivo informático 600 também inclui um dispositivo de armazenagem 620. O dispositivo de armazenagem 620 é uma memória física tal como um disco rígido, uma drive óptica, uma pen drive USB, um conjunto de drives, uma drive de estado sólido, ou quaisquer combinações dos mesmos. O dispositivo de armazenagem 620 também pode incluir drives de armazenagem remota.
[0068] O dispositivo informático 600 também pode incluir um controlador de interface de rede (NIC) 622. O NIC 622 pode ser configurado para conectar o dispositivo informático 600 através do barramento 606 a uma rede 624. A rede 624 pode ser uma rede de área ampla (WAN), rede de área local (LAN), ou a Internet, entre outras. Em alguns exemplos, o dispositivo pode comunicar com outros dispositivos através de uma tecnologia sem fios. Por exemplo, o dispositivo pode comunicar com outros dispositivos através de uma conexão de rede de área local sem fios. Em alguns exemplos, o dispositivo se pode conectar e comunicar com outros dispositivos através de Bluetooth® ou de uma tecnologia similar.
Petição 870180138577, de 08/10/2018, pág. 83/119
26/46 [0069] O dispositivo informático 600 inclui ainda um microfone 626. Por exemplo, o microfone 626 pode ser um único microfone ou uma série de microfones.
[0070] O dispositivo informático 600 inclui ainda um dispositivo de reconhecimento de orador de diálogo adaptativo 628. Por exemplo, o dispositivo de reconhecimento de orador de diálogo adaptativo 628 pode ser utilizado para gerar um diálogo para receber dados de áudio adicionais utilizados para detectar um orador. O dispositivo de reconhecimento de orador de diálogo adaptativo 628 pode incluir um receptor de áudio 630, um detector de frase chave 632, um marcador de orador 634, um marcador de qualidade de sinal 636, um gerador de pontuação de verificação 638, um detector de usuário 640, e um gerador de diálogo 642. Em alguns exemplos, cada um dos componentes 630-642 do dispositivo de reconhecimento de orador de diálogo adaptativo 628 pode ser um microcontrolador, processador integrado, ou módulo de software. O receptor de áudio 630 pode receber dados de áudio incluindo fala. Em alguns exemplos, a fala pode incluir uma frase chave, um comando, ou ambos. O detector de frase chave 632 pode detectar uma frase chave nos dados de áudio. O marcador de orador 634 pode gerar uma pontuação de verificação de orador baseada nos dados de áudio e em um modelo de orador. Por exemplo, o marcador de orador 634 pode calcular uma pontuação dependente de texto baseada na frase chave e uma pontuação independente de texto baseada em um comando nos dados de áudio, e combinar a pontuação dependente de texto e a pontuação independente de texto para gerar a pontuação de verificação de orador. O marcador de qualidade de sinal 636 pode gerar uma pontuação de qualidade de sinal baseada nos dados de áudio. Por exemplo, a pontuação de qualidade de sinal pode ser baseada em um nível de ruído de fundo, em um nível de sinal de entrada, em uma
Petição 870180138577, de 08/10/2018, pág. 84/119
27/46 relação sinal-ruído, em uma medição de reverberação, em uma duração da entrada, ou qualquer combinação dos mesmos. O gerador de pontuação de verificação 638 pode gerar uma pontuação de verificação baseada nos dados de áudio. Por exemplo, o gerador de pontuação de verificação 638 pode gerar a pontuação de verificação em resposta à detecção da frase chave. Em alguns exemplos, o gerador de pontuação de verificação pode gerar uma pontuação de verificação atualizada baseada nos dados de áudio adicionais. Por exemplo, os dados de áudio adicionais podem ser recebidos em resposta ao diálogo gerado pelo gerador de diálogo 642 abaixo. O detector de usuário 640 pode detectar que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior. Em alguns exemplos, o detector de usuário 640 pode detectar um usuário desconhecido em resposta à recepção de dados de áudio adicionais do usuário, e detectar que a pontuação de verificação atualizada excede um limiar inferior, mas não excede um limiar superior. Em alguns exemplos, o detector de usuário 640 pode detectar um usuário conhecido em resposta à detecção de que a pontuação de verificação excede a pontuação de limiar superior. Em alguns exemplos, o detector de usuário 640 pode detectar um usuário desconhecido em resposta à detecção de que a pontuação de verificação não excede a pontuação de limiar inferior. O gerador de diálogo 642 pode gerar um diálogo para solicitar dados de áudio adicionais para serem utilizados para gerar uma pontuação de verificação atualizada em resposta à detecção de que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior. Em alguns exemplos, o gerador de diálogo 642 pode gerar uma resposta aos dados de áudio baseada no usuário conhecido detectado. Por exemplo, a resposta pode incluir informações personalizadas, tais como filmes favoritos, jogos, notícias, shows, etc. Em alguns exemplos, o gerador de diálogo 642 pode gerar
Petição 870180138577, de 08/10/2018, pág. 85/119
28/46 uma resposta baseada em um usuário desconhecido detectado. Por exemplo, a resposta pode ser uma mensagem negando acesso a serviços restritos.
[0071] O diagrama de blocos da figura 6 não se destina a indicar que o dispositivo informático 600 deve incluir todos os componentes mostrados na figura 6. Em vez disso, o dispositivo informático 600 pode incluir menos componentes ou componentes adicionais não ilustrados na figura 6, tais como buffers adicionais, processadores adicionais, e similares. O dispositivo informático 600 pode incluir qualquer número de componentes adicionais não mostrados na figura 6, dependendo dos detalhes da implementação particular. Por exemplo, o dispositivo informático 600 também pode incluir um préprocessador para pré-processar os dados de áudio para eliminar ruído. Por exemplo, o pré-processador pode pré-processar os dados de áudio utilizando qualquer das técnicas descritas na figura 1 acima. Em alguns exemplos, o dispositivo informático 600 também pode incluir um extrator de recursos para extrair recursos dos dados de áudio. Por exemplo, o marcador de orador 634 pode gerar a pontuação de verificação de orador baseada nos recursos extraídos. Além disso, qualquer das funcionalidades do receptor de áudio 630, do detector de frase chave 632, do marcador de orador 634, do marcador de qualidade de sinal 636, do gerador de pontuação de verificação 638, do detector de usuário 640, e do gerador de diálogo 642, podem ser, total ou parcialmente, implementados em hardware e/ou no processador 602. Por exemplo, a funcionalidade pode ser implementada com um circuito integrado específico de aplicativo, em lógica implementada no processador 602, ou em qualquer outro dispositivo. Além disso, qualquer das funcionalidades de uma CPU 602 pode ser, total ou parcialmente, implementada em hardware e/ou em um processador. Por exemplo, a funcionalidade do dispositivo de
Petição 870180138577, de 08/10/2018, pág. 86/119
29/46 reconhecimento de orador de diálogo adaptativo 628 pode ser implementada com um circuito integrado específico de aplicativo, em lógica implementada em um processador, em lógica implementada em uma unidade de processamento de áudio especializada, ou em qualquer outro dispositivo.
[0072] A figura 7 é um diagrama de blocos mostrando meios legíveis por computador 700 que armazenam código para gerar um diálogo baseado em uma pontuação de verificação de orador. Os meios legíveis por computador 700 podem ser acessados por um processador 702 sobre um barramento de computador 704. Além disso, o meio legível por computador 700 pode incluir código configurado para direcionar o processador 702 para efetuar os métodos aqui descritos. Em algumas modalidades, os meios legíveis por computador 700 podem ser meios legíveis por computador não transitórios. Em alguns exemplos, os meios legíveis por computador 700 podem ser meios de armazenagem.
[0073] Os vários componentes de software aqui debatidos podem ser armazenados em um ou mais meios legíveis por computador 700, tal como indicado na figura 7. Por exemplo, um módulo de receptor de áudio 706 pode ser configurado para receber dados de áudio incluindo fala. O módulo de detector de frase chave 708 pode ser configurado para detectar uma frase chave nos dados de áudio. Um módulo de marcador de orador 710 pode ser configurado para gerar uma pontuação de verificação de orador baseada nos dados de áudio e em um modelo de orador. Por exemplo, o marcador de orador 710 pode ser configurado para calcular uma pontuação dependente de texto baseada na frase chave e uma pontuação independente de texto baseada em um comando nos dados de áudio, combinar a pontuação dependente de texto e a pontuação independente de texto para gerar uma pontuação de verificação de orador. Em alguns exemplos, o
Petição 870180138577, de 08/10/2018, pág. 87/119
30/46 módulo de marcador de orador 710 pode ser configurado para gerar a pontuação de verificação de orador em resposta à detecção da frase chave nos dados de áudio. Um módulo de marcador de qualidade de sinal 712 pode ser configurado para gerar uma pontuação de qualidade de sinal baseada nos dados de áudio. Por exemplo, o módulo de marcador de qualidade de sinal 712 pode ser configurado para gerar uma pontuação de qualidade de sinal baseada em um nível de ruído de fundo, em um nível de sinal de entrada, em uma relação sinal-ruído, em uma medição de reverberação, em uma duração da entrada, ou qualquer combinação dos mesmos. Um módulo de gerador de pontuação de verificação 714 pode ser configurado para gerar uma pontuação de verificação baseada nos dados de áudio em resposta à detecção da frase chave. Por exemplo, o módulo de gerador de pontuação de verificação 714 pode ser configurado para gerar a pontuação de verificação baseada na pontuação de verificação de orador, na pontuação de qualidade de sinal, ou em ambas. Um módulo de detector de usuário 716 pode ser configurado para detectar que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior. Em alguns exemplos, o módulo de detector de usuário 716 pode ser configurado para detectar um usuário desconhecido em resposta à recepção de dados de áudio adicionais do usuário e detectar que a pontuação de verificação atualizada excede um limiar inferior, mas não excede um limiar superior. Por exemplo, o módulo de gerador de pontuação de verificação 714 pode ser configurado para gerar uma pontuação de verificação atualizada baseada nos dados de áudio adicionais. Em alguns exemplos, o módulo de detector de usuário 716 pode ser configurado para detectar um usuário conhecido em resposta à detecção de que a pontuação de verificação excede a pontuação de limiar superior e gerar uma resposta aos dados de áudio baseada no usuário conhecido
Petição 870180138577, de 08/10/2018, pág. 88/119
31/46 detectado. Em alguns exemplos, o módulo de detector de usuário 716 pode ser configurado para detectar um usuário desconhecido em resposta à detecção de que a pontuação de verificação não excede a pontuação de limiar inferior. Um módulo de gerador de diálogo 718 pode ser configurado para gerar um diálogo para solicitar dados de áudio adicionais para serem utilizados para gerar uma pontuação de verificação atualizada em resposta à detecção de que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior. Por exemplo, o diálogo pode presumir que o usuário é um usuário desconhecido. Em alguns exemplos, o módulo de gerador de diálogo 718 pode ser configurado para gerar um diálogo baseado em um usuário conhecido. Por exemplo, o diálogo pode incluir informações personalizadas, tais como música, shows, locais favoritos, etc.
[0074] O diagrama de blocos da figura 7 não se destina a indicar que os meios legíveis por computador 700 devem incluir todos os componentes mostrados na figura 7. Além disso, os meios legíveis por computador 700 podem incluir qualquer número de componentes adicionais não mostrados na figura 7, dependendo dos detalhes da implementação particular. Por exemplo, os meios legíveis por computador 700 também podem incluir um módulo de pré-processador para pré-processar dados de áudio para eliminar ruído dos dados de áudio. Em alguns exemplos, os meios legíveis por computador 700 podem incluir um módulo de extrator de recursos para extrair recursos dos dados de áudio. Por exemplo, o marcador de orador 710 pode ser configurado para gerar a pontuação de verificação de orador baseada nos recursos extraídos. Em alguns exemplos, os meios legíveis por computador 700 podem incluir um módulo de compreensão de linguagem natural (NLU) para efetuar uma ou mais ações. Por exemplo, o módulo de NLU pode efetuar ações restringidas em
Petição 870180138577, de 08/10/2018, pág. 89/119
32/46 resposta à detecção de que o usuário é um usuário conhecido. Em alguns exemplos, o módulo de NLU pode retornar uma mensagem de acesso negado ao módulo de gerador de diálogo 718 em resposta à detecção de que um usuário desconhecido está a tentar pedir uma ação restringida. Por exemplo, as ações restringidas podem incluir acessar funcionalidades de um ou mais dispositivos inteligentes. EXEMPLOS [0075] O exemplo 1 é um aparelho para gerar um diálogo. O aparelho inclui um receptor de áudio para receber dados de áudio incluindo fala. O aparelho também inclui um gerador de pontuação de verificação para gerar uma pontuação de verificação baseada nos dados de áudio. O aparelho inclui ainda um detector de usuário para detectar que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior. O aparelho também inclui ainda um gerador de diálogo para gerar um diálogo para solicitar dados de áudio adicionais para serem utilizados para gerar uma pontuação de verificação atualizada em resposta à detecção de que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior.
[0076] O exemplo 2 inclui o aparelho do exemplo 1, incluindo ou excluindo recursos opcionais. Neste exemplo o aparelho inclui um detector de frase chave para detectar uma frase chave nos dados de áudio. O gerador de pontuação de verificação se destina a gerar uma pontuação de verificação baseada nos dados de áudio em resposta à detecção da frase chave.
[0077] O exemplo 3 inclui o aparelho de qualquer um dos exemplos 1 a 2, incluindo ou excluindo recursos opcionais. Neste exemplo, o aparelho inclui um marcador de orador para gerar uma pontuação de verificação de orador baseada nos dados de áudio e em um modelo de orador. A pontuação de verificação é, pelo menos, em
Petição 870180138577, de 08/10/2018, pág. 90/119
33/46 parte baseada na pontuação de verificação de orador.
[0078] O exemplo 4 inclui o aparelho de qualquer um dos exemplos 1 a 3, incluindo ou excluindo recursos opcionais. Neste exemplo, o aparelho inclui um marcador de orador para gerar uma pontuação de verificação de orador baseada nos dados de áudio e em um modelo de orador. O marcador de orador se destina a calcular uma pontuação dependente de texto baseada na frase chave e uma pontuação independente de texto baseada em um comando nos dados de áudio, e combinar a pontuação dependente de texto e a pontuação independente de texto para gerar a pontuação de verificação de orador. A pontuação de verificação é pelo menos em parte baseada na pontuação de verificação de orador.
[0079] O exemplo 5 inclui o aparelho de qualquer um dos exemplos 1 a 4, incluindo ou excluindo recursos opcionais. Neste exemplo, o aparelho inclui um marcador de qualidade de sinal para gerar uma pontuação de qualidade de sinal baseada nos dados de áudio. A pontuação de verificação é pelo menos em parte baseada na pontuação de qualidade de sinal.
[0080] O exemplo 6 inclui o aparelho de qualquer um dos exemplos 1 a 5, incluindo ou excluindo recursos opcionais. Neste exemplo, o aparelho inclui um marcador de qualidade de sinal para gerar uma pontuação de qualidade de sinal baseada nos dados de áudio. A pontuação de qualidade de sinal é baseada em um nível de ruído de fundo, em um nível de sinal de entrada, em uma relação sinal-ruído, em uma medição de reverberação, em uma duração da entrada, ou qualquer combinação dos mesmos. A pontuação de verificação é, pelo menos, em parte baseada na pontuação de qualidade de sinal.
[0081] O exemplo 7 inclui o aparelho de qualquer um dos exemplos 1 a 6, incluindo ou excluindo recursos opcionais. Neste
Petição 870180138577, de 08/10/2018, pág. 91/119
34/46 exemplo, o aparelho inclui um pré-processador para pré-processar os dados de áudio para eliminar ruído.
[0082] O exemplo 8 inclui o aparelho de qualquer um dos exemplos 1 a 7, incluindo ou excluindo recursos opcionais. Neste exemplo, o aparelho inclui um extrator de recursos para extrair recursos dos dados de áudio. Um marcador de orador se destina a gerar uma pontuação de verificação de orador baseada nos recursos extraídos e o gerador de pontuação de verificação se destina a gerar a pontuação de verificação baseada na pontuação de verificação de orador.
[0083] O exemplo 9 inclui o aparelho de qualquer um dos exemplos 1 a 8, incluindo ou excluindo recursos opcionais. Neste exemplo, o detector de usuário se destina a detectar um usuário desconhecido em resposta à recepção dos dados de áudio adicionais do usuário, e detectar que a pontuação de verificação atualizada excede um limiar inferior, mas não excede um limiar superior. O gerador de pontuação de verificação se destina a gerar uma pontuação de verificação atualizada baseada nos dados de áudio adicionais.
[0084] O exemplo 10 inclui o aparelho de qualquer um dos exemplos 1 a 9, incluindo ou excluindo recursos opcionais. Neste exemplo, o detector de usuário se destina a detectar um usuário conhecido em resposta à detecção de que a pontuação de verificação excede a pontuação de limiar superior, o gerador de diálogo para gerar uma resposta aos dados de áudio baseada no usuário conhecido detectado.
[0085] O exemplo 11 é um método para gerar um diálogo. O método inclui receber, através de um processador, dados de áudio incluindo fala. O método também inclui gerar, através do processador, uma pontuação de verificação baseada nos dados de áudio. O método
Petição 870180138577, de 08/10/2018, pág. 92/119
35/46 inclui ainda detectar, através do processador, que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior. O método também inclui ainda gerar, através do processador, um diálogo para solicitar dados de áudio adicionais para serem utilizados para gerar uma pontuação de verificação atualizada em resposta à detecção de que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior.
[0086] O exemplo 12 inclui o método do exemplo 11, incluindo ou excluindo recursos opcionais. Neste exemplo, o método inclui detectar, através do processador, uma frase chave nos dados de áudio. O gerar da pontuação de verificação é efetuado em resposta à detecção de uma frase chave.
[0087] O exemplo 13 inclui o método de qualquer um dos exemplos 11 a 12, incluindo ou excluindo recursos opcionais. Neste exemplo, gerar a pontuação de verificação inclui calcular uma pontuação dependente de texto baseada na frase chave e uma pontuação independente de texto baseada em um comando nos dados de áudio e combinar a pontuação dependente de texto e a pontuação independente de texto para gerar uma pontuação de verificação de orador e gerar a pontuação de verificação baseada na pontuação de verificação de orador.
[0088] O exemplo 14 inclui o método de qualquer um dos exemplos 11 a 13, incluindo ou excluindo recursos opcionais. Neste exemplo, gerar a pontuação de verificação inclui gerar uma pontuação de qualidade de sinal baseada nos dados de áudio e gerar a pontuação de verificação baseada na pontuação de qualidade de sinal. A pontuação de qualidade de sinal é baseada em um nível de ruído de fundo, em um nível de sinal de entrada, em uma relação sinal-ruído, em uma medição de reverberação, em uma duração da entrada, ou qualquer combinação dos mesmos.
Petição 870180138577, de 08/10/2018, pág. 93/119
36/46 [0089] O exemplo 15 inclui o método de qualquer um dos exemplos 11 a 14, incluindo ou excluindo recursos opcionais. Neste exemplo, gerar a pontuação de verificação inclui gerar uma pontuação de qualidade de sinal baseada nos dados de áudio, gerar uma pontuação de verificação de orador baseada nos dados de áudio e em um modelo de orador, e gerar a pontuação de verificação baseada na pontuação de qualidade de sinal e na pontuação de verificação de orador.
[0090] O exemplo 16 inclui o método de qualquer um dos exemplos 11 a 15, incluindo ou excluindo recursos opcionais. Neste exemplo, o método inclui pré-processar, através do processador, os dados de áudio para eliminar ruído dos dados de áudio.
[0091] O exemplo 17 inclui o método de qualquer um dos exemplos 11 a 16, incluindo ou excluindo recursos opcionais. Neste exemplo, o método inclui extrair, através do processador, recursos dos dados de áudio, gerar uma pontuação de verificação de orador baseada nos recursos extraídos, e gerar a pontuação de verificação baseada na pontuação de verificação de orador.
[0092] O exemplo 18 inclui o método de qualquer um dos exemplos 11 a 17, incluindo ou excluindo recursos opcionais. Neste exemplo, o método inclui detectar, através do processador, um usuário desconhecido em resposta à recepção de dados de áudio adicionais do usuário, gerar uma pontuação de verificação atualizada baseada nos dados de áudio adicionais, e detectar que a pontuação de verificação atualizada excede um limiar inferior, mas não excede um limiar superior.
[0093] O exemplo 19 inclui o método de qualquer um dos exemplos 11 a 18, incluindo ou excluindo recursos opcionais. Neste exemplo, o método inclui detectar, através do processador, um usuário conhecido em resposta à detecção de que a pontuação de verificação
Petição 870180138577, de 08/10/2018, pág. 94/119
37/46 excede a pontuação de limiar superior e gerar uma resposta aos dados de áudio baseada no usuário conhecido detectado.
[0094] O exemplo 20 inclui o método de qualquer um dos exemplos 11 a 19, incluindo ou excluindo recursos opcionais. Neste exemplo, o método inclui detectar, através do processador, um usuário desconhecido em resposta à detecção de que a pontuação de verificação não excede a pontuação de limiar inferior.
[0095] O exemplo 21 é, pelo menos, um meio legível por computador para gerar um diálogo tendo instruções nele armazenadas que direcionam o processador para receber dados de áudio incluindo fala. O meio legível por computador inclui instruções que direcionam o processador para gerar uma pontuação de verificação baseada nos dados de áudio. O meio legível por computador também inclui instruções que direcionam o processador para detectar que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior. O meio legível por computador inclui ainda instruções que direcionam o processador para gerar um diálogo para solicitar dados de áudio adicionais para serem utilizados para gerar uma pontuação de verificação atualizada em resposta à detecção de que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior.
[0096] O exemplo 22 inclui o meio legível por computador do exemplo 21, incluindo ou excluindo recursos opcionais. Neste exemplo, o meio legível por computador inclui instruções para detectar uma frase chave nos dados de áudio. A pontuação de verificação deve ser gerada em resposta à detecção de uma frase chave.
[0097] O exemplo 23 inclui o meio legível por computador de qualquer um dos exemplos 21 a 22, incluindo ou excluindo recursos opcionais. Neste exemplo, o meio legível por computador inclui instruções para calcular uma pontuação dependente de texto baseada
Petição 870180138577, de 08/10/2018, pág. 95/119
38/46 na frase chave e uma pontuação independente de texto baseada em um comando nos dados de áudio, combinar a pontuação dependente de texto e a pontuação independente de texto para gerar uma pontuação de verificação de orador, e gerar a pontuação de verificação baseada na pontuação de verificação de orador.
[0098] O exemplo 24 inclui o meio legível por computador de qualquer um dos exemplos 21 a 23, incluindo ou excluindo recursos opcionais. Neste exemplo, o meio legível por computador inclui instruções para gerar uma pontuação de qualidade de sinal baseada nos dados de áudio, e gerar a pontuação de verificação baseada na pontuação de qualidade de sinal. A pontuação de qualidade de sinal é baseada em um nível de ruído de fundo, em um nível de sinal de entrada, em uma relação sinal-ruído, em uma medição de reverberação, em uma duração da entrada, ou qualquer combinação dos mesmos.
[0099] O exemplo 25 inclui o meio legível por computador de qualquer um dos exemplos 21 a 24, incluindo ou excluindo recursos opcionais. Neste exemplo, o meio legível por computador inclui instruções para gerar uma pontuação de qualidade de sinal baseada nos dados de áudio, gerar uma pontuação de verificação de orador baseada nos dados de áudio e em um modelo de orador, e gerar a pontuação de verificação baseada na pontuação de qualidade de sinal e na pontuação de verificação de orador.
[0100] O exemplo 26 inclui o meio legível por computador de qualquer um dos exemplos 21 a 25, incluindo ou excluindo recursos opcionais. Neste exemplo, o meio legível por computador inclui instruções para pré-processar os dados de áudio para eliminar ruído dos dados de áudio.
[0101] O exemplo 27 inclui o meio legível por computador de qualquer um dos exemplos 21 a 26, incluindo ou excluindo recursos
Petição 870180138577, de 08/10/2018, pág. 96/119
39/46 opcionais. Neste exemplo, o meio legível por computador inclui instruções para extrair recursos dos dados de áudio, gerar uma pontuação de verificação de orador baseada nos recursos extraídos, e gerar a pontuação de verificação baseada na pontuação de verificação de orador.
[0102] O exemplo 28 inclui o meio legível por computador de qualquer um dos exemplos 21 a 27, incluindo ou excluindo recursos opcionais. Neste exemplo, o meio legível por computador inclui instruções para detectar um usuário desconhecido em resposta à recepção de dados de áudio adicionais do usuário, gerar uma pontuação de verificação atualizada baseada nos dados de áudio adicionais, e detectar que a pontuação de verificação atualizada excede um limiar inferior, mas não excede um limiar superior.
[0103] O exemplo 29 inclui o meio legível por computador de qualquer um dos exemplos 21 a 28, incluindo ou excluindo recursos opcionais. Neste exemplo, o meio legível por computador inclui instruções para detectar um usuário conhecido em resposta à detecção de que a pontuação de verificação excede a pontuação de limiar superior e gerar uma resposta aos dados de áudio baseada no usuário conhecido detectado.
[0104] O exemplo 30 inclui o meio legível por computador de qualquer um dos exemplos 21 a 29, incluindo ou excluindo recursos opcionais. Neste exemplo, o meio legível por computador inclui instruções para detectar um usuário desconhecido em resposta à detecção de que a pontuação de verificação não excede a pontuação de limiar inferior.
[0105] O exemplo 31 é um sistema para gerar um diálogo. O sistema inclui um receptor de áudio para receber dados de áudio incluindo fala. O sistema inclui um gerador de pontuação de verificação para gerar uma pontuação de verificação baseada nos
Petição 870180138577, de 08/10/2018, pág. 97/119
40/46 dados de áudio. O sistema também inclui um detector de usuário para detectar que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior. O sistema inclui ainda um gerador de diálogo para gerar um diálogo para solicitar dados de áudio adicionais para serem utilizados para gerar uma pontuação de verificação atualizada em resposta à detecção de que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior.
[0106] O exemplo 32 inclui o sistema do exemplo 31, incluindo ou excluindo recursos opcionais. Neste exemplo, o sistema inclui um detector de frase chave para detectar uma frase chave nos dados de áudio. O gerador de pontuação de verificação se destina a gerar uma pontuação de verificação baseada nos dados de áudio em resposta à detecção de uma frase chave.
[0107] O exemplo 33 inclui o sistema de qualquer um dos exemplos 31 a 32, incluindo ou excluindo recursos opcionais. Neste exemplo, o sistema inclui um marcador de orador para gerar uma pontuação de verificação de orador baseada nos dados de áudio e em um modelo de orador. A pontuação de verificação é pelo menos em parte baseada na pontuação de verificação de orador.
[0108] O exemplo 34 inclui o sistema de qualquer um dos exemplos 31 a 33, incluindo ou excluindo recursos opcionais. Neste exemplo, o sistema inclui um marcador de orador para gerar uma pontuação de verificação de orador baseada nos dados de áudio e em um modelo de orador. O marcador de orador se destina a calcular uma pontuação dependente de texto baseada em uma frase chave e em uma pontuação independente de texto baseada em um comando nos dados de áudio, e combinar a pontuação dependente de texto e a pontuação independente de texto para gerar a pontuação de verificação de orador. A pontuação de verificação é pelo menos em parte baseada na pontuação de verificação de orador.
Petição 870180138577, de 08/10/2018, pág. 98/119
41/46 [0109] O exemplo 35 inclui o sistema de qualquer um dos exemplos 31 a 34, incluindo ou excluindo recursos opcionais. Neste exemplo, o sistema inclui um marcador de qualidade de sinal para gerar uma pontuação de qualidade de sinal baseada nos dados de áudio. A pontuação de verificação é pelo menos em parte baseada na pontuação de qualidade de sinal.
[0110] O exemplo 36 inclui o sistema de qualquer um dos exemplos 31 a 35, incluindo ou excluindo recursos opcionais. Neste exemplo, o sistema inclui um marcador de qualidade de sinal para gerar uma pontuação de qualidade de sinal baseada nos dados de áudio. A pontuação de qualidade de sinal é baseada em um nível de ruído de fundo, em um nível de sinal de entrada, em uma relação sinal-ruído, em uma medição de reverberação, em uma duração da entrada, ou qualquer combinação dos mesmos. A pontuação de verificação é pelo menos em parte baseada na pontuação de qualidade de sinal.
[0111] O exemplo 37 inclui o sistema de qualquer um dos exemplos 31 a 36, incluindo ou excluindo recursos opcionais. Neste exemplo, o sistema inclui um pré-processador para pré-processar os dados de áudio para eliminar ruído.
[0112] O exemplo 38 inclui o sistema de qualquer um dos exemplos 31 a 37, incluindo ou excluindo recursos opcionais. Neste exemplo, o sistema inclui um extrator de recursos para extrair recursos dos dados de áudio. O sistema inclui um marcador de orador para gerar uma pontuação de verificação de orador baseada nos recursos extraídos e o gerador de pontuação de verificação se destina a gerar a pontuação de verificação baseada na pontuação de verificação de orador.
[0113] O exemplo 39 inclui o sistema de qualquer um dos exemplos 31 a 38, incluindo ou excluindo recursos opcionais. Neste
Petição 870180138577, de 08/10/2018, pág. 99/119
42/46 exemplo, o detector de usuário se destina a detectar um usuário desconhecido em resposta à recepção dos dados de áudio adicionais do usuário, e detectar que a pontuação de verificação atualizada excede um limiar inferior, mas não excede um limiar superior. O gerador de pontuação de verificação se destina a gerar uma pontuação de verificação atualizada baseada nos dados de áudio adicionais.
[0114] O exemplo 40 inclui o sistema de qualquer um dos exemplos 31 a 39, incluindo ou excluindo recursos opcionais. Neste exemplo, o detector de usuário se destina a detectar um usuário conhecido em resposta à detecção de que a pontuação de verificação excede a pontuação de limiar superior, o gerador de diálogo para gerar uma resposta aos dados de áudio baseada no usuário conhecido detectado.
[0115] O exemplo 41 é um sistema para gerar um diálogo. O sistema inclui meios para receber dados de áudio incluindo fala. O sistema também inclui meios para gerar uma pontuação de verificação baseada nos dados de áudio. O sistema inclui ainda meios para detectar que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior. O sistema inclui ainda meios para gerar um diálogo para solicitar dados de áudio adicionais para serem utilizados para gerar uma pontuação de verificação atualizada em resposta à detecção de que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior.
[0116] O exemplo 42 inclui o sistema do exemplo 41, incluindo ou excluindo recursos opcionais. Neste exemplo, o sistema inclui meios para detectar uma frase chave nos dados de áudio. Os meios para gerar a pontuação de verificação se destinam a gerar uma pontuação de verificação baseada nos dados de áudio em resposta à detecção de uma frase chave.
Petição 870180138577, de 08/10/2018, pág. 100/119
43/46 [0117] O exemplo 43 inclui o sistema de qualquer um dos exemplos 41 a 42, incluindo ou excluindo recursos opcionais. Neste exemplo, o sistema inclui meios para gerar uma pontuação de verificação de orador baseada nos dados de áudio e em um modelo de orador. A pontuação de verificação é, pelo menos, em parte baseada na pontuação de verificação de orador.
[0118] O exemplo 44 inclui o sistema de qualquer um dos exemplos 41 a 43, incluindo ou excluindo recursos opcionais. Neste exemplo, o sistema inclui meios para gerar uma pontuação de verificação de orador baseada nos dados de áudio e em um modelo de orador. Os meios para gerar a pontuação de verificação de orador se destinam a calcular uma pontuação dependente de texto baseada em uma frase chave e uma pontuação independente de texto baseada em um comando nos dados de áudio, e combinar a pontuação dependente de texto e a pontuação independente de texto para gerar a pontuação de verificação de orador. A pontuação de verificação é pelo menos em parte baseada na pontuação de verificação de orador.
[0119] O exemplo 45 inclui o sistema de qualquer um dos exemplos 41 a 44, incluindo ou excluindo recursos opcionais. Neste exemplo, o sistema inclui meios para gerar uma pontuação de qualidade de sinal baseada nos dados de áudio. A pontuação de verificação é pelo menos em parte baseada na pontuação de qualidade de sinal.
[0120] O exemplo 46 inclui o sistema de qualquer um dos exemplos 41 a 45, incluindo ou excluindo recursos opcionais. Neste exemplo, o sistema inclui meios para gerar uma pontuação de qualidade de sinal baseada nos dados de áudio. A pontuação de qualidade de sinal é baseada em um nível de ruído de fundo, em um nível de sinal de entrada, em uma relação sinal-ruído, em uma medição de reverberação, em uma duração da entrada, ou qualquer
Petição 870180138577, de 08/10/2018, pág. 101/119
44/46 combinação dos mesmos. A pontuação de verificação é pelo menos em parte baseada na pontuação de qualidade de sinal.
[0121] O exemplo 47 inclui o sistema de qualquer um dos exemplos 41 a 46, incluindo ou excluindo recursos opcionais. Neste exemplo, o sistema inclui meios para pré-processar os dados de áudio para eliminar ruído.
[0122] O exemplo 48 inclui o sistema de qualquer um dos exemplos 41 a 47, incluindo ou excluindo recursos opcionais. Neste exemplo, o sistema inclui meios para extrair recursos dos dados de áudio. Os meios para gerar uma pontuação de verificação de orador se destinam a gerar uma pontuação de verificação de orador baseada nos recursos extraídos e os meios para gerar a pontuação de verificação se destinam a gerar a pontuação de verificação baseada na pontuação de verificação de orador.
[0123] O exemplo 49 inclui o sistema de qualquer um dos exemplos 41 a 48, incluindo ou excluindo recursos opcionais. Neste exemplo, os meios para detectar que a pontuação de verificação excede o limiar inferior, mas não excede o limiar superior se destinam a detectar um usuário desconhecido em resposta à recepção dos dados de áudio adicionais do usuário, e detectar que a pontuação de verificação atualizada excede um limiar inferior, mas não excede um limiar superior. Os meios para gerar a pontuação de verificação se destinam a gerar uma pontuação de verificação atualizada baseada nos dados de áudio adicionais.
[0124] O exemplo 50 inclui o sistema de qualquer um dos exemplos 41 a 49, incluindo ou excluindo recursos opcionais. Neste exemplo, os meios para detectar que a pontuação de verificação excede o limiar inferior, mas não excede o limiar superior se destinam a detectar um usuário conhecido em resposta à detecção de que a pontuação de verificação excede a pontuação de limiar superior, os
Petição 870180138577, de 08/10/2018, pág. 102/119
45/46 meios para gerar o diálogo para gerar uma resposta aos dados de áudio baseada no usuário conhecido detectado.
[0125] Nem todos os componentes, recursos, estruturas, características, etc. aqui descritos e ilustrados têm de ser incluídos em um aspecto ou aspectos particulares. Se o relatório descritivo diz que um componente, recurso, estrutura, ou característica pode, poderia estar incluído, por exemplo, aquele componente, recurso, estrutura, ou característica particular não tem de estar incluído. Se o relatório descritivo ou as reivindicações referirem um elemento, isso não significa que é somente um dos elementos. Se o relatório descritivo ou as reivindicações referirem um elemento adicional, isso não exclui que haja mais do que um elemento adicional.
[0126] Se deve salientar que, embora alguns aspectos tenham sido descritos com referência a implementações particulares, são possíveis outras implementações de acordo com alguns aspectos. Além disso, o arranjo e/ou ordem de elementos de circuito ou outros recursos ilustrados nos desenhos e/ou aqui descritos não têm de ser dispostos na maneira particular ilustrada e descrita. São possíveis muitos outros arranjos de acordo com alguns aspectos.
[0127] Em cada sistema mostrado numa figura, cada um dos elementos pode, em alguns casos, ter um mesmo número de referência ou um número de referência diferente para sugerir que os elementos representados poderiam ser diferentes e/ou similares. No entanto, um elemento pode ser suficientemente flexível para ter implementações diferentes e funcionar com alguns ou todos os sistemas, tal como aqui mostrado ou descrito. Os vários elementos mostrados nas figuras podem ser os mesmos ou diferentes. Cada um deles é designado como um primeiro elemento e o que é designado como um segundo elemento é arbitrário.
[0128] Deve ser entendido que as especificidades nos exemplos
Petição 870180138577, de 08/10/2018, pág. 103/119
46/46 anteriormente mencionados podem ser utilizadas em qualquer parte em um ou mais aspectos. Por exemplo, todos os recursos opcionais do dispositivo informático acima descritos podem também ser implementados em relação a qualquer dos métodos ou do meio legível por computador aqui descrito. Além disso, embora possam ter sido aqui utilizados diagramas de fluxo e/ou diagramas de estado para descrever aspectos, as técnicas não estão limitadas a esses diagramas ou às descrições correspondentes aqui contidas. Por exemplo, o fluxo não tem de se mover através de cada caixa ou estado ilustrado ou exatamente na mesma ordem tal como aqui ilustrado e descrito.
[0129] As técnicas atuais não estão restringidas a detalhes particulares aqui indicados. Com efeito, os versados na técnica tendo o benefício desta divulgação apreciarão que podem ser feitas muitas outras variantes da descrição precedente e dos desenhos dentro do âmbito das técnicas atuais. Consequentemente, são as reivindicações que se seguem incluindo quaisquer alterações às mesmas que definem o âmbito das técnicas atuais.

Claims (25)

  1. REIVINDICAÇÕES
    1. Aparelho para gerar diálogo caracterizado pelo fato de que compreende:
    um receptor de áudio para receber dados de áudio compreendendo fala;
    um gerador de pontuação de verificação para gerar uma pontuação de verificação baseada nos dados de áudio;
    um detector de usuário para detectar que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior; e um gerador de diálogo para gerar um diálogo para solicitar dados de áudio adicionais para serem utilizados para gerar uma pontuação de verificação atualizada em resposta à detecção de que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior.
  2. 2. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende um detector de frase chave para detectar uma frase chave nos dados de áudio, em que o gerador de pontuação de verificação se destina a gerar uma pontuação de verificação baseada nos dados de áudio em resposta à detecção da frase chave.
  3. 3. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende um marcador de orador para gerar uma pontuação de verificação de orador baseada nos dados de áudio e em um modelo de orador, em que a pontuação de verificação é, pelo menos, em parte baseada na pontuação de verificação de orador.
  4. 4. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende um marcador de orador para gerar uma pontuação de verificação de orador baseada nos
    Petição 870180138577, de 08/10/2018, pág. 105/119
    2/7 dados de áudio e em um modelo de orador, em que o marcador de orador se destina a calcular uma pontuação dependente de texto baseada na frase chave e uma pontuação independente de texto baseada em um comando nos dados de áudio, e combinar a pontuação dependente de texto e a pontuação independente de texto para gerar a pontuação de verificação de orador, em que a pontuação de verificação é, pelo menos, em parte baseada na pontuação de verificação de orador.
  5. 5. Aparelho, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende um marcador de qualidade de sinal para gerar uma pontuação de qualidade de sinal baseada nos dados de áudio, em que a pontuação de verificação é, pelo menos, em parte baseada na pontuação de qualidade de sinal.
  6. 6. Aparelho, de acordo com qualquer uma das reivindicações 1 a 5, caracterizado pelo fato de que compreende um marcador de qualidade de sinal para gerar uma pontuação de qualidade de sinal baseada nos dados de áudio, em que a pontuação de qualidade de sinal é baseada em um nível de ruído de fundo, um nível de sinal de entrada, uma relação sinal-ruído, uma medição de reverberação, uma duração da entrada, ou qualquer combinação dos mesmos, e em que a pontuação de verificação é, pelo menos, em parte baseada na pontuação de qualidade de sinal.
  7. 7. Aparelho, de acordo com qualquer uma das reivindicações 1 a 5, caracterizado pelo fato de que compreende um pré-processador para pré-processar os dados de áudio para remover ruído.
  8. 8. Aparelho, de acordo com qualquer uma das reivindicações 1 a 5, caracterizado pelo fato de que compreende um extrator de recursos para extrair recursos dos dados de áudio, em que um marcador de orador se destina a gerar uma pontuação de
    Petição 870180138577, de 08/10/2018, pág. 106/119
    3/7 verificação de orador baseada nos recursos extraídos e o gerador de pontuação de verificação se destina a gerar a pontuação de verificação baseada na pontuação de verificação de orador.
  9. 9. Aparelho, de acordo com qualquer uma das reivindicações 1 a 5, caracterizado pelo fato de que o detector de usuário se destina a detectar um usuário desconhecido em resposta à recepção dos dados de áudio adicionais do usuário, e detectar que a pontuação de verificação atualizada excede um limiar inferior, mas não excede um limiar superior, em que o gerador de pontuação de verificação se destina a gerar uma pontuação de verificação atualizada baseada nos dados de áudio adicionais.
  10. 10. Aparelho, de acordo com qualquer uma das reivindicações 1 a 5, caracterizado pelo fato de que o detector de usuário se destina a detectar um usuário conhecido em resposta à detecção de que a pontuação de verificação excede a pontuação de limiar superior, sendo o gerador de diálogo para gerar uma resposta aos dados de áudio baseada no usuário conhecido detectado.
  11. 11. Método para gerar um diálogo caracterizado pelo fato de que compreende:
    receber, através de um processador, dados de áudio compreendendo fala;
    gerar, através do processador, uma pontuação de verificação baseada nos dados de áudio;
    detectar, através do processador, que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior; e gerar, através do processador, um diálogo para solicitar dados de áudio adicionais para serem utilizados para gerar uma pontuação de verificação atualizada em resposta à detecção de que a pontuação de verificação excede um limiar inferior, mas não excede
    Petição 870180138577, de 08/10/2018, pág. 107/119
    4/7 um limiar superior.
  12. 12. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que compreende detectar, através do processador, uma frase chave nos dados de áudio, em que gerar a pontuação de verificação é efetuada em resposta à detecção da frase chave.
  13. 13. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que gerar a pontuação de verificação compreende calcular uma pontuação dependente de texto baseada na frase chave e uma pontuação independente de texto baseada em um comando nos dados de áudio e combinar a pontuação dependente de texto e a pontuação independente de texto para gerar uma pontuação de verificação de orador e gerar a pontuação de verificação baseada na pontuação de verificação de orador.
  14. 14. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que gerar a pontuação de verificação compreende gerar uma pontuação de qualidade de sinal baseada nos dados de áudio e gerar a pontuação de verificação baseada na pontuação de qualidade de sinal, em que a pontuação de qualidade de sinal é baseada em um nível de ruído de fundo, um nível de sinal de entrada, uma relação sinal-ruído, uma medição de reverberação, uma duração da entrada, ou qualquer combinação dos mesmos.
  15. 15. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que gerar a pontuação de verificação compreende gerar uma pontuação de qualidade de sinal baseada nos dados de áudio, gerar uma pontuação de verificação de orador baseada nos dados de áudio e em um modelo de orador, e gerar a pontuação de verificação baseada na pontuação de qualidade de sinal e na pontuação de verificação de orador.
  16. 16. Método, de acordo com qualquer uma das
    Petição 870180138577, de 08/10/2018, pág. 108/119
    5/7 reivindicações 11 a 15, caracterizado pelo fato de que compreende pré-processar, através do processador, os dados de áudio para remover ruído dos dados de áudio.
  17. 17. Método, de acordo com qualquer uma das reivindicações 11 a 15, caracterizado pelo fato de que compreende extrair, através do processador, recursos dos dados de áudio, gerar uma pontuação de verificação de orador baseada nos recursos extraídos, e gerar a pontuação de verificação baseada na pontuação de verificação de orador.
  18. 18. Método, de acordo com qualquer uma das reivindicações 11 a 15, caracterizado pelo fato de que compreende detectar, através do processador, um usuário desconhecido em resposta à recepção de dados de áudio adicionais do usuário, gerar uma pontuação de verificação atualizada baseada nos dados de áudio adicionais, e detectar que a pontuação de verificação atualizada excede um limiar inferior, mas não excede um limiar superior.
  19. 19. Método, de acordo com qualquer uma das reivindicações 11 a 15, caracterizado pelo fato de que compreende detectar, através do processador, um usuário conhecido em resposta à detecção de que a pontuação de verificação excede a pontuação de limiar superior e gerar uma resposta aos dados de áudio baseada no usuário conhecido detectado.
  20. 20. Método, de acordo com qualquer uma das reivindicações 11 a 15, caracterizado pelo fato de que compreende detectar, através do processador, um usuário desconhecido em resposta à detecção de que a pontuação de verificação não excede a pontuação de limiar inferior.
  21. 21. Sistema para gerar um diálogo caracterizado pelo fato de que compreende:
    meios para receber dados de áudio compreendendo fala;
    Petição 870180138577, de 08/10/2018, pág. 109/119
    6/7 meios para gerar uma pontuação de verificação baseada nos dados de áudio;
    meios para detectar que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior; e meios para gerar um diálogo para solicitar dados de áudio adicionais para serem utilizados para gerar uma pontuação de verificação atualizada em resposta à detecção de que a pontuação de verificação excede um limiar inferior, mas não excede um limiar superior.
  22. 22. Sistema, de acordo com a reivindicação 21, caracterizado pelo fato de que compreende meios para detectar uma frase chave nos dados de áudio, em que os meios para gerar a pontuação de verificação se destinam a gerar uma pontuação de verificação baseada nos dados de áudio em resposta à detecção da frase chave.
  23. 23. Sistema, de acordo com a reivindicação 21, caracterizado pelo fato de que compreende meios para gerar uma pontuação de verificação de orador baseada nos dados de áudio e em um modelo de orador, em que a pontuação de verificação é, pelo menos, em parte baseada na pontuação de verificação de orador.
  24. 24. Sistema, de acordo com qualquer uma das reivindicações 21 a 23, caracterizado pelo fato de que compreende meios para gerar uma pontuação de verificação de orador baseada nos dados de áudio e em um modelo de orador, em que os meios para gerar a pontuação de verificação de orador se destinam a calcular uma pontuação dependente de texto baseada na frase chave e uma pontuação independente de texto baseada em um comando nos dados de áudio, e combinar a pontuação dependente de texto e a pontuação independente de texto para gerar a pontuação de verificação de orador, em que a pontuação de verificação é, pelo menos, em parte
    Petição 870180138577, de 08/10/2018, pág. 110/119
    7/7 baseada na pontuação de verificação de orador.
  25. 25. Sistema, de acordo com qualquer uma das reivindicações 21 a 23, caracterizado pelo fato de que compreende meios para gerar uma pontuação de qualidade de sinal baseada nos dados de áudio, em que a pontuação de verificação é, pelo menos, em parte baseada na pontuação de qualidade de sinal.
BR102018070673-0A 2017-11-08 2018-10-08 Gerar diálogo baseado em pontuações de verificação BR102018070673A2 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/806,667 2017-11-08
US15/806,667 US10515640B2 (en) 2017-11-08 2017-11-08 Generating dialogue based on verification scores

Publications (1)

Publication Number Publication Date
BR102018070673A2 true BR102018070673A2 (pt) 2019-06-04

Family

ID=65023137

Family Applications (1)

Application Number Title Priority Date Filing Date
BR102018070673-0A BR102018070673A2 (pt) 2017-11-08 2018-10-08 Gerar diálogo baseado em pontuações de verificação

Country Status (3)

Country Link
US (1) US10515640B2 (pt)
BR (1) BR102018070673A2 (pt)
DE (1) DE102018126133A1 (pt)

Families Citing this family (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN113470641B (zh) 2013-02-07 2023-12-15 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10468032B2 (en) 2017-04-10 2019-11-05 Intel Corporation Method and system of speaker recognition using context aware confidence modeling
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
WO2019002831A1 (en) 2017-06-27 2019-01-03 Cirrus Logic International Semiconductor Limited REPRODUCTIVE ATTACK DETECTION
GB2563953A (en) 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201713697D0 (en) 2017-06-28 2017-10-11 Cirrus Logic Int Semiconductor Ltd Magnetic detection of replay attack
GB201801532D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for audio playback
GB201801527D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801530D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801528D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801526D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801664D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801661D0 (en) 2017-10-13 2018-03-21 Cirrus Logic International Uk Ltd Detection of liveness
GB201801663D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB2567503A (en) 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
GB201804843D0 (en) 2017-11-14 2018-05-09 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801659D0 (en) 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of loudspeaker playback
TWI651714B (zh) * 2017-12-22 2019-02-21 隆宸星股份有限公司 語音選項選擇系統與方法以及使用其之智慧型機器人
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US11475899B2 (en) * 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10818296B2 (en) 2018-06-21 2020-10-27 Intel Corporation Method and system of robust speaker recognition activation
US10692490B2 (en) 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
US10915614B2 (en) 2018-08-31 2021-02-09 Cirrus Logic, Inc. Biometric authentication
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11238294B2 (en) * 2018-10-08 2022-02-01 Google Llc Enrollment with an automated assistant
EP4404190A3 (en) 2018-10-08 2024-10-23 Google Llc Selective enrollment with an automated assistant
CN111902865B (zh) * 2018-12-03 2024-07-12 谷歌有限责任公司 文本无关的说话者识别
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US10819522B1 (en) * 2020-01-03 2020-10-27 BlockGen Corp. Systems and methods of authentication using entropic threshold
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11315575B1 (en) * 2020-10-13 2022-04-26 Google Llc Automatic generation and/or use of text-dependent speaker verification features
US11837238B2 (en) * 2020-10-21 2023-12-05 Google Llc Assessing speaker recognition performance
CN116711005A (zh) * 2021-01-05 2023-09-05 松下电器(美国)知识产权公司 识别装置、识别方法以及程序
US11861521B2 (en) 2021-12-21 2024-01-02 PolyAI Limited System and method for identification and verification

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5913192A (en) * 1997-08-22 1999-06-15 At&T Corp Speaker identification with user-selected password phrases
US6401063B1 (en) * 1999-11-09 2002-06-04 Nortel Networks Limited Method and apparatus for use in speaker verification
US6813341B1 (en) * 2000-08-31 2004-11-02 Ivoice, Inc. Voice activated/voice responsive item locator
US6728679B1 (en) * 2000-10-30 2004-04-27 Koninklijke Philips Electronics N.V. Self-updating user interface/entertainment device that simulates personal interaction
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
TW518483B (en) * 2001-08-14 2003-01-21 Ind Tech Res Inst Phrase verification method using probability-oriented confidence tag
US20040186724A1 (en) * 2003-03-19 2004-09-23 Philippe Morin Hands-free speaker verification system relying on efficient management of accuracy risk and user convenience
GB0426347D0 (en) * 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
US8301757B2 (en) * 2007-06-11 2012-10-30 Enghouse Interactive Inc. System and method for obtaining in-use statistics for voice applications in interactive voice response systems
US8442824B2 (en) * 2008-11-26 2013-05-14 Nuance Communications, Inc. Device, system, and method of liveness detection utilizing voice biometrics
US10169339B2 (en) * 2011-10-31 2019-01-01 Elwha Llc Context-sensitive query enrichment
US20130226892A1 (en) * 2012-02-29 2013-08-29 Fluential, Llc Multimodal natural language interface for faceted search
WO2014112375A1 (ja) * 2013-01-17 2014-07-24 日本電気株式会社 話者識別装置、話者識別方法、および話者識別用プログラム
EP2797078B1 (en) * 2013-04-26 2016-10-12 Agnitio S.L. Estimation of reliability in speaker recognition
DK2994908T3 (da) * 2013-05-07 2019-09-23 Veveo Inc Grænseflade til inkrementel taleinput med realtidsfeedback
CN106462909B (zh) * 2013-12-20 2020-07-10 罗伯特·博世有限公司 用于启用对话的上下文相关的和以用户为中心的内容呈现的系统和方法
US9257120B1 (en) * 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US10884503B2 (en) * 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
US20180167678A1 (en) * 2016-12-14 2018-06-14 Echostar Technologies L.L.C. Interactive media system

Also Published As

Publication number Publication date
US10515640B2 (en) 2019-12-24
DE102018126133A1 (de) 2019-05-09
US20190027152A1 (en) 2019-01-24

Similar Documents

Publication Publication Date Title
BR102018070673A2 (pt) Gerar diálogo baseado em pontuações de verificação
US11295748B2 (en) Speaker identification with ultra-short speech segments for far and near field voice assistance applications
US10504511B2 (en) Customizable wake-up voice commands
US10490195B1 (en) Using system command utterances to generate a speaker profile
US20190051299A1 (en) Method and system of audio false keyphrase rejection using speaker recognition
US9711148B1 (en) Dual model speaker identification
US20170256270A1 (en) Voice Recognition Accuracy in High Noise Conditions
US20160266910A1 (en) Methods And Apparatus For Unsupervised Wakeup With Time-Correlated Acoustic Events
US20150302856A1 (en) Method and apparatus for performing function by speech input
US11568878B2 (en) Voice shortcut detection with speaker verification
JP2017536568A (ja) キーフレーズユーザ認識の増補
KR20160115944A (ko) 오디오 패스워드의 강도를 평가하는 시스템들 및 방법들
US9335966B2 (en) Methods and apparatus for unsupervised wakeup
JP2007133414A (ja) 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置
CN109272991A (zh) 语音交互的方法、装置、设备和计算机可读存储介质
JP2023553451A (ja) 検出のシーケンスに基づいたホットフレーズトリガ
KR20230116886A (ko) 페이크 오디오 검출을 위한 자기 지도형 음성 표현
JP2024510798A (ja) ハイブリッド多言語テキスト依存およびテキスト非依存の話者検証
US20190103110A1 (en) Information processing device, information processing method, and program
US12080276B2 (en) Adapting automated speech recognition parameters based on hotword properties
WO2016039847A1 (en) Methods and apparatus for unsupervised wakeup
JP2024538771A (ja) デジタル信号プロセッサベースの継続的な会話
US20240184867A1 (en) Adaptive Guest Mode for Portable Speakers

Legal Events

Date Code Title Description
B03A Publication of a patent application or of a certificate of addition of invention [chapter 3.1 patent gazette]