BR102014003975A2 - sistema para detecção de palavra chave no discurso e método associado - Google Patents
sistema para detecção de palavra chave no discurso e método associado Download PDFInfo
- Publication number
- BR102014003975A2 BR102014003975A2 BR102014003975A BR102014003975A BR102014003975A2 BR 102014003975 A2 BR102014003975 A2 BR 102014003975A2 BR 102014003975 A BR102014003975 A BR 102014003975A BR 102014003975 A BR102014003975 A BR 102014003975A BR 102014003975 A2 BR102014003975 A2 BR 102014003975A2
- Authority
- BR
- Brazil
- Prior art keywords
- activity
- keyword
- speech
- sequence
- list
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 106
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000000694 effects Effects 0.000 claims abstract description 257
- 230000008569 process Effects 0.000 claims abstract description 12
- 230000000875 corresponding effect Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000013075 data extraction Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
1/1 resumo sistema para detecção de palavra chave no discurso e método associado ainvençãoforneceumsistemaparadetecçãodepalavra 5 chavenodiscursoemétodoassociado.osistemaincluiumdetector depalavrachavenodiscurso,umprevisordeatividadeeumtomador de decisão. o previsor de atividade obtém dados do sensor fornecidos por uma pluralidade de sensores, e processa os dados do sensor para fornecer um resultado de previsão de atividade 10 indicandoumaprobabilidadedeseumusuárioestáprestesaemitir uma palavra chave por voz. o tomador de decisão processa o resultado de previsão de atividade e um resultado de detecção de palavra chave preliminar da detecção de palavra chave no discursoparafornecerumresultadodedetecçãodepalavrachave. 15
Description
SISTEMA PARA DETECÇÃO DE PALAVRA CHAVE NO DISCURSO E MÉTODO
ASSOCIADO
CAMPO DA INVENÇÃO
[0001] A invenção refere-se a um sistema para detecção de palavra chave no discurso e método associado, mais particularmente, a um sistema para melhorar a detecção de palavra chave no discurso pela exploração de sensores para detectar a atividade do usuário, e método associado.
FUNDAMENTO DA INVENÇÃO
[0002] Dispositivos eletrônicos com controle de voz e/ou capacidade de interação tornam-se cada vez mais populares, porque eles podem fornecer interface de usuário à mão livre. O reconhecimento de voz para identificar palavras chave, incluindo os comandos , na voz é essencial para implementar o controle de voz e/ou capacidade de interação.
SUMÁRIO DA INVENÇÃO
[ 0003 ] A invenção divulga um sistema para detecção de palavra chave no discurso, incluindo um detector de palavra chave no discurso, umprevisor de atividade, um tomador de decisão, uma base de dados de atividade e uma base de dados de palavra chave. A base de dados de atividade inclui um número de (uma ou mais) listas de atividade; cada lista de atividade é associada com um aplicativo alvo, e inclui um ou mais modelos de atividade . A base de dados de palavra chave inclui uma ou mais listas de palavra chave; cada lista de palavra chave é associada com um aplicativo alvo, e inclui um ou mais palavras chaves candidatas .
[0004] O previsor de atividade obtém dados do sensor fornecidos por um ou mais sensores, obtém a lista de atividade selecionada a partir da base de dados de atividade com o aplicativo alvo da atividade selecionada correspondendo a um aplicativo atualmente em execução do dispositivo, e dessa forma processando os dados do sensor para fornecer um resultado de previsão de atividade indicando uma probabilidade de se um usuário está prestes a emitir a palavra chave por voz . O previsor de atividade compara os dados do sensor com cada modelo da atividade da lista de atividade selecionada, e consequentemente, fornece um resultado correspondente de atividade para ser incluído no resultado de previsão de atividade . Alternativamente, o previsor de atividade obtém dados extraídos pelos recursos de extração dos dados do sensor, e então compara os dados extraídos com cada modelo da atividade da lista de atividade selecionada para fornecer consequentemente um resultado correspondente de atividade para ser incluído no resultado de previsão de atividade.
[0005] O detector de palavra chave no discurso obtém uma lista de palavra chave selecionada a partir da base de dados de palavra chave com o aplicativo alvo da lista de palavra chave selecionada correspondendo ao aplicativo atualmente em execução do dispositivo, e dessa forma fornecendo um resultado de detecção de palavra chave preliminar. De preferência, o detector de palavra chave no discurso compara o som que entra com cada palavra chave candidata da lista de palavra chave selecionada para dessa forma fornecer o resultado de detecção de palavra chave preliminar.
[0006] O tomador de decisão é acoplado ao previsor de atividade e o detector de palavra chave no discurso, e é capaz de processar o resultado de previsão de atividade e o resultado de detecção de palavra chave preliminar para fornecer um segundo (ex., um aprimorado) resultado de detecção de palavra chave. Por exemplo, o tomador de decisão pode adotar um algoritmo de fusão de probabilidade com base em, ex., teoria de Dempster-Shafer ou um algoritmo de aprendizagem de máquina com base em, ex., modelo de mistura Gaussiano para processar o resultado de previsão de atividade e o resultado de detecção de palavra chave preliminar, e assim fornecer o segundo resultado de detecção de palavra chave. Para outro exemplo, o tomador de decisão pode calcular uma combinação linear (ex., uma soma ponderada) do resultado de previsão de atividade e o resultado de detecção de palavra chave preliminar como o segundo resultado de detecção de palavra chave.
[0007] O sistema inclui ainda um detector de voz. O detector de voz é acoplado ao detector de palavra chave no discurso, e é capaz de avaliar a informatividade (ex., pela SNR, razão sinal para ruído) do som que entra, e dessa formar determinar quando ativar o detector de palavra chave no discurso. Quando a informatividade do som que entra é baixa (ex., abaixo de um limiar de inf ormatividade) , o detector de voz desativa o detector de palavra chave no discurso. Quando a informatividade do som que entra é alta (ex. , maior do que o limiar de inf ormatividade) , o detector de voz ativa o detector de palavra chave no discurso. Quando o detector de palavra chave no discurso é desativado, 0 previsor de atividade e/ou o tomador de decisão não tem que trabalhar, assim o previsor de atividade e/ou o tomador de decisão também pode ser desativado. Quando o detector de palavra chave no discurso é ativado, o previsor de atividade e/ou o tomador de decisão também pode ser ativado para cooperar com o detector de palavra chave no discurso.
[0008] O detector de voz inclui um primeiro estimador, um segundo estimador e um comparador acoplado ao primeiro estimador, o segundo estimador e o detector de palavra chave no discurso. O primeiro estimador gera uma amostra atual de uma primeira sequência como uma soma ponderada de um volume atual do som que entra e uma amostra anterior da primeira sequência; 1 . e . , computando a amostra atual da primeira sequência pela soma de um primeiro produto e um segundo produto, sendo que o primeiro produto é um resultado da multiplicação da amostra anterior da primeira sequência por um primeiro peso, e o segundo produto é um resultado da multiplicação da amostra atual do som que entra por um primeiro peso de complementaridade . O primeiro peso pode ser maior que 0 e menor que 1; o primeiro peso complementar pode ser igual a 1 menos o primeiro peso.
[0009] O segundo estimador gera uma amostra atual de uma segunda sequência como uma soma ponderada do volume atual do som que entra e uma amostra anterior da segunda sequência; i.e., computando a amostra atual da segunda sequência pela soma de um terceiro produto e um quarto produto, sendo que o terceiro produto é um resultado da multiplicação da amostra anterior da segunda sequência por um segundo peso, e o quarto produto é um resultado da multiplicação da amostra atual do som que entra por um segundo peso de complementaridade. O segundo peso pode ser maior que 0 e menor que 1; o segundo peso complementar pode ser igual a 1 menos o segundo peso.
[0010] De preferência, o primeiro peso é menor do que o segundo peso. Assim, a primeira sequência pode indicar sinal significativo (voz) contido no som que entra, e a segunda sequência pode indicar ruido no som. O comparador do detector de voz compara a primeira sequência e a segunda sequência para indicar a informatividade do som que entra. Por exemplo, se uma diferença absoluta entre a primeira e segunda sequência é maior do que um limiar de informatividade, então o detector de voz reflete uma alta informatividade para ativar o detector de palavra chave no discurso. Se a diferença absoluta é menor que o limiar de inf ormatividade, então o detector de voz pode refletir uma baixa informatividade para desativar o detector de palavra chave no discurso.
[0011] Os sensores que fornecem os dados do sensor incluem um ou mais do seguinte: um acelerômetro, um giroscópio, um magnetômetro, um barômetro um sensor de proximidade, sensor de luz, uma tela sensivel ao toque, um receptor de um sistema de posicionamento, um receptor sem fio e uma câmera.
[0012] A invenção ainda divulga um método para a detecção de palavra chave no discurso, incluindo: obter dados do sensor fornecidos por um ou mais sensores, dessa forma computar um resultado de previsão de atividade indicando uma probabilidade de se um usuário está prestes a emitir a palavra chave por voz, e computar um segundo resultado de detecção de palavra chave de acordo com os resultados de previsão de atividade e um resultado de detecção de palavra chave preliminar da detecção de palavra chave no discurso.
[0013] Vários objetos, características e vantagens da invenção serão facilmente aparentes mediante a leitura da seguinte descrição detalhada das modalidades da invenção considerada em conjunto com os desenhos anexos. No entanto, os desenhos aqui empregados são para efeitos de descrição e não devem ser considerados como limitantes.
BREVE DESCRIÇÃO DOS DESENHOS
[0014] Os objetos acima e as vantagens da invenção irão tornar-se mais prontamente aparentes para aqueles normalmente versados na técnica após a revisão da descrição detalhada a seguir e desenhos de acompanhamento, em que : [0015] FIG. 1 ilustra um sistema para detecção de palavra chave no discurso de acordo com uma modalidade da invenção;
[0016] FIG. 2 ilustra curvas de dados do sensor dos resultados detectados e resultados detectados extraídos;
[0017] FIG. 3 ilustra um fluxograma para detecção de palavra chave no discurso assistida por sensor de acordo com uma modalidade da invenção;
[0018] FIG. 4 aFIG. 7 ilustram exemplos de operação da detecção de palavra chave no discurso assistida por sensor de acordo com uma modalidade da invenção;
[0019] FIG. 8 ilustra um fluxograma para modificar a base de dados de atividade mostrada na FIG. 1;
[0020] FIG. 9 ilustra um sistema para detecção de palavra chave no discurso de acordo com uma modalidade da invenção;
[0021] FIG. 10 ilustra uma modalidade do detector de voz mostrada na FIG. 9; e [0022] FIG. 11 ilustra um fluxograma para detecção de palavra chave no discurso assistida por sensor de baixa energia.
DESCRIÇÃO DETALHADA DAS MODALIDADES PREFERIDAS
[0023] Para aumentar a conscientização e interatividade com o usuário e arredores, o dispositivo eletrônico moderno está equipado com um grande número de sensores . Por exemplo, os sensores de um dispositivo de comunicação, ex. , um telefone móvel inteligente, pode incluir um acelerômetro, um giroscópio, um magnetômetro, um barômetro, um sensor de proximidade, sensor de luz, uma tela sensível ao toque, um receptor de um sistema de posicionamento, um receptor sem fio e / or uma câmera, etc.
[0024] Dados do sensor fornecidos pelo sensor (es) de um dispositivo podem ser aproveitados para obter informações de atividade sobre a interação usuário-dispositivo, status do usuário e/ou do ambiente em torno do dispositivo. A informação de atividade sobre a interação usuário-dispositivo pode incluir : (a) se o dispositivo é elevado, abaixado, levantado, colocado no chão, virado, deixado cair, agitado, constantemente mantido, inclinado, mantido plano, aproximado a alguma coisa (ex., usuário), afastado de alguma coisa, e/ou colocado em ambiente escuro (ex., em uma bolsa ou mochila) ou ambiente iluminado, etc; (b) um evento de entrada que representa que o dispositivo precisa interagir com o usuário, ex., se o dispositivo recebe uma chamada, mensagem e/ou e-mail, e/ou se o dispositivo for alarmar em ummomento pré-def inido, tal como uma chamada de manhã, uma chamada para despertar, um alarme, um lembrete, uma pop-up da tela para entrada de item a fazer, reunião listada no calendário, agenda e/ou cronograma. A informação de atividade sobre o status do usuário pode incluir se o usuário está andando, correndo e/ou dirigindo, etc. A informação de atividade sobre o ambiente pode incluir: temperatura ambiente, ruido, luminosidade, localização, posição e/ou hora atual.
[0025] Nesta modalidade, a palavra chave por voz do usuário (comando) muitas vezes ocorre após (e / ou junto com) a atividade de padrão reconhecível. Tomando um telefone celular como um exemplo: o telefone toca para uma chamada recebida, a resposta natural do usuário é levantar primeiro o telefone para ver informações relacionadas, ex., a identificação de quem é a chamada, e, em seguida, decide como responder, ex., para responder ou ignorar/rejeitar a chamada. Assim, a atividade de captação é uma pista para sinalizar para o telefone esperar palavra chave atender por voz (comando). Alternativamente, quando o usuário deseja tirar uma foto pela função de câmera do telefone, a ação natural do usuário é primeiro manter o telefone fixo, e, em seguida, instruir o telefone a tirar a foto. Assim, a atividade de manter estável fornece informações sobre quando esperar uma palavra-chave disparar por voz.
[0026] De preferência, o dado do sensor é utilizado para indicar se a atividade do padrão conhecido ocorre, e aumenta de acordo com a detecção da palavra chave no discurso, pelo fornecimento de informações adicionais, ex., prevendo quando o usuário vai dizer a palavra chave por voz. Por exemplo, um palavra chave pode ser um comando, uma instrução, um termo para a consulta em mecanismos de pesquisa e/ou mecanismos de inteligência artificial, e/ou uma voz informativa, ex. , "Yee-Ha!", embora esta possa não ser um vocabulário oficial.
[0027] Por exemplo, quando o telefone toca para uma atividade de chamada recebida e a atividade de levantar o telefone é detectada, o telefone pode, por conseguinte prever que o usuário vai dizer a palavra chave por voz como "atender" ou "rejeitar", e, portanto, ajustar a sensibilidade da detecção da palavra chave no discurso para facilitar o reconhecimento da palavra chave para atender falada depois , ex., "atender" ou "rejeitar" Por exemplo, o telefone estiver ligado a função de câmera e a atividade de manter estável for detectada, o telefone pode esperar um palavra chave por voz para disparar , ex. , "xis", para tirar a foto, e em seguida, ajustar a sensibilidade da detecção da palavra chave no discurso para facilitar o reconhecimento da palavra chave disparar por voz.
[0028] Assim, detecção de palavra chave no discurso pode ser aprimorada de acordo com a previsão da invenção, sendo que a previsão de atividade é projetada para aproveitar dados do sensor e consequentemente detectar a ocorrência de atividades que indicam, o que acontece antes (ou quando) o usuário está prestes a dizer a palavra chave por voz . Além disso, detecção de palavra chave no discurso e previsão de atividade pode ser realizada no contexto de cenário de aplicação . Nesta modalidade, quando um telefone está executando um aplicativo de comunicação para tocar para uma chamada recebida, a previsão de atividade é arranjada para detectar a ocorrência de um primeiro conjunto de atividades indicativas relacionadas (ex., elevação do telefone), e detecção de palavra chave no discurso é arranjada para reconhecer um primeiro conjunto de palavras chaves por voz relacionadas, como palavras chaves para atender, ex., "atender" ou "rejeitar". Quando o telefone está executando um aplicativo de câmera, a previsão de atividade é arranjada para detectar a ocorrência de um segundo conjunto de atividades indicativas relacionadas (ex. , manter estável) , e detecção de palavra chave no discurso é arranjada para reconhecer um segundo conjunto de palavras chaves por voz relacionadas, ex., a palavra chave de disparo por voz como "xis".
[0029] Há dois tipos de erros para degradar o desempenho da detecção de palavra chave no discurso, incluindo erro de falta e erro de alarme falso. Erro de falta acontece quando o usuário diz a palavra chave por voz, mas a detecção de palavra chave no discurso falha em reconhecer a palavra chave por voz dita. Erro de alarme falso acontece quando o usuário não diz qualquer palavra chave por voz, mas a detecção de palavra chave no discurso erroneamente determina que uma palavra chave por voz foi dita.
[0030] Detecção de palavra chave no discurso tem uma sensibilidade ajustável (ou tendência de reconhecimento) para uma troca entre erro de falta e erro de alarme falso . Aumentar a sensibilidade faz a detecção de palavra chave no discurso tender a interpretar o som que entra da palavra chave por voz, mesmo quando o som que entra é menos provável de conter a palavra chave por voz. Consequentemente, aumentar a sensibilidade reduz a probabilidade de erro de falta enquanto a probabilidade de erro de alarme falso é aumentada. Por outro lado, diminuir a sensibilidade diminui a tendência para a detecção de palavra chave no discurso interpretar o som que entra da palavra chave por voz, mesmo quando o som que entra é muito susceptível de conter a palavra chave por voz. Por isso, a diminuição da sensibilidade aumenta a probabilidade do erro de falta, mas reduz a probabilidade de erro de alarme falso.
[0031] Nesta modalidade, a sensibilidade da detecção da palavra chave no discurso é adaptativamente e dinamicamente ajustada de acordo com a previsão de atividade, assim tanto o erro de falta quanto o erro de alarme falso pode ser suprimidos sem comprometer. Quando uma atividade indicativa é detectada, a sensibilidade de reconhecer a palavra chave por voz relacionada pode ser aumentada, assim o som que entra é mais susceptível a ser reconhecido como palavra chave por voz relacionada, mesmo que a palavra chave falada seja fraca, pouco clara e/ou ruidosa, daí, o erro de falta é suprimido. Por outro lado, durante a ausência de atividades indicativas, a sensibilidade da detecção de palavra chave no discurso pode ser reduzida, assim o erro de alarme falso pode ser suprimido porque o som que entra é menos susceptível de ser incorretamente reconhecido como palavra chave por voz.
[0032] Favor consultar a FIG. 1. FIG. 1 ilustra um dispositivo 10 integrado com um sistema 12 para melhorar um detector de palavra chave no discurso 14 de acordo com uma modalidade da invenção. O dispositivo 10 pode ser um eletrônico consumidor, como um dispositivo de comunicação (ex., um telefone móvel, um telefone celular, um smartphone), um computador de mão ou portátil , um dispositivo de cuidado pessoal acusticamente interativo e/ou controlável , brinquedo, dispositivo para vestir (ex., relógio) , televisão, reprodutor de mídia, gravador de mídia (ex., câmera digital ou filmadora), dispositivo navegador ou de posicionamento, etc. Em uma modalidade, o detector da palavra chave no discurso 14 é arranjado para manter automaticamente o monitoramento se som que entra contém a palavra chave por voz mesmo sem sugestão do usuário.
[0033] Para aprimorar o desempenho do detector de palavra chave no discurso 14, o sistema 12 inclui ainda uma base de dados de palavra chave 16, um previsor de atividade 18, uma base de dados de atividade 20 e um tomador de decisão 22. A base de dados de palavra chave 16 é acoplada ao detector de palavra chave no discurso 14, e inclui um número N2 (igual a ou maior que 1) das listas de palavra chave KL [ 1 ] a KL [N2 ] . De preferência, cada lista de palavra chave KL[j] (para j = 1 a N2) é associada com um aplicativo alvo app [ j ] , e inclui uma quantidade P { j } (igual a ou maior que 1) de palavras chaves candidatas kw[j,l] a kw [ j , P { j } ] . Diferentes listas de palavra chave podem se associar com diferentes aplicativos alvos, e podem ter diferentes quantidades de palavras chaves candidatas. Isto é, para índices jl não igual a j2, o aplicativo alvo app[jl] da lista de palavra chave KL[j1] pode diferir do aplicativo alvo app[j2] da lista de palavra chave KL[j2]; a quantidade P{j1} da lista de palavra chave KL [ j 1 ] pode diferir de ou ser igual a uma quantidade P { j 2 } da lista de palavra chave KL[j2].
[0034] A base de dados de atividade 20 é acoplada ao previsor de atividade 18, e inclui um número NI (igual a ou maior que 1) de listas de atividade AL [ 1 ] a AL[N1]; cada lista de atividade AL [i] (para i = 1 a Nl) é associada com um aplicativo alvo app[i] , e inclui uma quantidade Q {i } (igual a ou maior que 1) de modelos de atividade at[i,l] a at[i,Q{i}]. Diferentes listas de atividade podem se associar com diferentes aplicativos alvos, e podem ter diferentes quantidades de modelos de atividade.
[0035] O detector de palavra chave no discurso 14 recebe um sinal de som Snd. Por exemplo, o dispositivo 10 pode incluir microfone(s) e/ouconjunto(s) de microfone (não mostrado) para coletar o som, e dessa forma fornecer o sinal digital Snd pelo processamento (ex., conversão de analógico para digital) do som coletado. Alternativamente, a partir de outro aparelho remoto (ex. , um microfone sem fio, não mostrado) , o dispositivo 10 pode receber um sinal remotamente fornecido (não mostrado) que contém som codificado ou não codificado, e dessa forma fornecer o sinal de som Snd pelo processamento do sinal remotamente fornecido.
[0036] De acordo com um aplicativo atualmente em execução do dispositivo 10, o detector de palavra chave no discurso 14 também pode obter uma lista de palavra chave selecionada KL[jx] a partir das listas de palavra chave KL[1 ] a KL[N2] da base de dados de palavra chave 16, sendo que o aplicativo alvo app[jx] da lista de palavra chave selecionada KL[jx] corresponde ao aplicativo atualmente em execução do dispositivo 10. Por exemplo, a partir do dispositivo 10 e/ou um sistema operacional (OS) do dispositivo 10, o detector de palavra chave no discurso 14 e/ou a base de dados de palavra chave 16 pode acessar um status que indica o aplicativo atualmente em execução do dispositivo 10, e pode então achar (selecionar) a lista de palavra chave KL[jx] cujo aplicativo alvo app[jx] é igual ao aplicativo atualmente em execução do dispositivo 10 . Aplicativos executados pelo dispositivo 10 podem se referir a programas utilitários, serviços, procedimentos e/ou sub-rotinas executados sob o controle do OS. Um aplicativo atualmente em execução pode referir-se a um aplicativo ativo no momento, um aplicativo de primeiro plano, uma aplicação de fundo, e/ou um aplicativo em foco.
[0037] Pela seleção da lista de palavra chave correspondente ao aplicativo atualmente em execução, a detecção de palavra chave no discurso pode ser realizada com referência a um contexto adaptativamente. Por exemplo, a respeito de um aplicativo de comunicação que é responsável pela manipulação da chamada recebida, uma lista de palavra chave correspondente pode incluir candidatos a palavras chave para atender como "atender" e "rejeitar". Para um aplicativo de câmera, sua lista de palavra chave correspondente pode incluir candidatos de palavra chave para disparar como "xis".
[0038] Em resposta ao sinal Snd, o detector de palavra chave no discurso 14 pode fornecer um resultado de detecção de palavra chave preliminar Skw de acordo com a lista de palavra chave selecionada KL[jx]. Por exemplo, o detector de palavra chave no discurso 14 pode comparar o som que entra no sinal Snd com cada uma das palavras chaves candidatas kw [ j x, 1 ] a kw [ j x, P { j x} ] da lista de palavra chave selecionada KL [ j x] para fornecer o resultado de detecção de palavra chave preliminar S kw.
[0039] O previsor de atividade 18 recebe um sinal de dados do sensor Ssd fornecido pelo sensor (es) do dispositivo 10. Por exemplo, o dispositivo 10 pode incluir sensor (es) para detectar o movimento, aceleração, localização, posição, direção e/ou atitude angular (ex., sendo virado ou inclinado), volume circundante, brilho e/ou campo (s) de força exercido sobre o dispositivo 10 (ex., campo magnético, eletro-magnético e/ou de gravidade) como o sinal Ssd. Alternativamente, a partir de outro aparelho remoto (ex., sensor (es) remoto, não mostrado), o dispositivo 10 pode receber um sinal remotamente fornecido (não mostrado) que contém, incorpora, e/ou codificado com dados do sensor, e dessa forma fornecer o sinal Ssd pelo processamento do sinal remotamente fornecido.
[0040] De acordo com os aplicativo atualmente em execução do dispositivo 10, o previsor de atividade 18 obtém a lista de atividade selecionada AL[ix] a partir das listas de atividade AL [ 1 ] a AL[N1] da base de dados de atividade 20, sendo que o aplicativo alvo app[ix] da lista de atividade selecionada AL[ix] representa o aplicativo atualmente em execução do dispositivo 10. Por exemplo, a partir do dispositivo 10 e/ou OS do dispositivo 10, o previsor de atividade 18 e/ou a base de dados de atividade 20 obtém um status indicando o aplicativo atualmente em execução do dispositivo 10, e então seleciona a lista de atividade AL [ ix] associada com um aplicativo alvo app [ ix] indicando o aplicativo atualmente em execução do dispositivo 10. Pela seleção da lista de atividade associada com um aplicativo atualmente em execução, a previsão de atividade pode ser realizada de uma maneira adaptativa ao contexto. Por exemplo, a respeito de uma aplicação de comunicação responsável pela manipulação de chamada recebida, uma lista de atividade correspondente pode incluir um modelo de atividade da captação do telefone, para um aplicativo de câmera, a sua lista de atividades correspondente pode incluir um modelo de atividade para se manter constante.
[0041] De acordo com os lista de atividade selecionada AL[ix] , o previsor de atividade 18 processa o sinal Ssd para fornecer um resultado de previsão de atividade Sap indicando uma probabilidade de se um usuário estar prestes a emitir uma palavra chave por voz. Por exemplo, o previsor de atividade 18 compara o sinal Ssd com cada um dos modelos de atividade at[ix,l] a at[ix,Q{ix}] registrados na lista de atividade selecionada AL [ix] , e dessa forma fornece um resultado correspondente de atividade como o resultado de previsão de atividade Sap.
[0042] Em uma modalidade, cada modelo de atividade at[i,q] pode incluir resultado(s) padrão, tipico, representativo e/ou mais frequentemente detectado de uma atividade indicativa (movimento ou estado) que acontece antes ou quando o usuário está prestes a dizer a palavra chave por voz. Cada resultado detectado se associa com um sensor e é registrado como uma referência no modelo de atividade at[i,q]. Quando o previsor de atividade 18 gera o resultado Sap pela comparação dos dados do sensor Ssd com cada modelo de atividade at[ix,q] da lista de atividade selecionada AL[ix], para cada resultado detectado de um dado tipo de sensor incluído no sinal de dados do sensor Ssd, por exemplo, o previsor de atividade 18 checa se o modelo de atividade at[ix,q] inclui uma referência associada com um mesmo tipo de sensor; se verdadeiro, o previsor de atividade 18 compara o resultado detectado e a referência respectivamente incluída no sinal Ssd e o modelo de atividade at[ix,q] no mesmo tipo de sensor, e então reflete o resultado da comparação no sinal Sap.
[0043] Em uma modalidade, cada modelo de atividade at[i,q] inclui referências extraídas, cada referência extraída é associada com um sensor, e representa as feições extraídas de um resultado detectado de uma atividade indicativa. Quando o previsor de atividade 18 gera o resultado Sap pela comparação do sinal de dados do sensor Ssd com cada modelo de atividade at[ix,q] da lista de atividade selecionada AL[ix], o previsor de atividade 18 pode primeiro extrair as feições de cada resultado detectado incluído no sinal de dados do sensor Ssd para dessa forma gerar um resultado detectado extraído (não mostrado) ; para cada resultado detectado extraído de um dado tipo de sensor incluído no sinal Ssd, o previsor de atividade 18 pode então achar quando o modelo de atividade at [ ix, q] contém uma referência extraída para o mesmo tipo do sensor; se verdadeiro, o previsor de atividade 18 compara o resultado detectado extraído e a referência extraída respectivamente incluída no sinal Ssd e o modelo de atividade at[ix,q] no mesmo tipo de sensor, e então reflete o resultado da comparação no sinal Sap.
[0044] A extração das feições de um resultado detectado pode ser conseguida pela filtragem (ex., filtragem passa-baixa) do resultado detectado, cálculo das estatísticas do resultado detectado, e/ou transformação do resultado detectado em domínio de espectro. Favor consultar a FIG. 2 que ilustra exemplos dos resultados detectados e resultados detectados extraídos; os resultados detectados são detectados por um acelerômetro . Como mostrado na FIG. 2, as curvas de dados do sensor slx, sly e slz representam, respectivamente, eixo x, eixo y e eixo z da aceleração detectada durante uma atividade de inversão, e formam em conjunto um resultado detectado do acelerômetro . A extração das feições (ex., f iltragempassa baixa) das curvas slx, sly e slz pode respectivamente obter três curvas de dados do sensor extraídas elx, ely e elz para coletivamente formar um resultado detectado extraí do . Similarmente, as curvas de dados do sensor s2x, s2y e s2z representam, respectivamente, o eixo x, eixo y e eixo z da aceleração detectada durante uma atividade de manter estável. Pela extração dos recursos das curvas s2x, s2y e s2z, três curvas de dados do sensor extraídas e2x, e2yee2z podem ser obtidas respectivamente . Características de cada resultado detectado e resultado detectado extraído podem ser usadas para distinguir diferentes atividades. Por exemplo, uma transição a partir das amplitudes de +9,8 a -9,8 pode ser observada na curva slz ou a curva elz; portanto, características como a duração da transição (ex., intervalo Td ou Te), tempo de cruzamento zero e/ou diferença de amplitude da transição podem ser utilizadas para distinguir se o dispositivo é deixado cair ou virado pelo usuário.
[0045] Favor consultar a FIG. 1 novamente. O tomador de decisão 22 é acoplado ao previsor de atividade 18 e o detector de palavra chave no discurso 14 , e é capaz de processar o resultado de previsão de atividade Sap e o resultado de detecção de palavra chave preliminar Skw para fornecer um segundo resultado de detecção de palavra chave Sdm, assim o dispositivo 10 pode responder de acordo com o resultado Sdm. Porque o resultado Sdm é atingido pelo processamento do resultado de previsão de atividade Sap e o resultado de detecção de palavra chave do discurso original Skw, o resultado Sdm é mais confiável do que o resultado Skw, e assim a detecção de palavra chave no discurso do detector de palavra chave no discurso 14 é aprimorada.
[0046] Junto com a FIG. 1, favor consultar a FIG. 3 que ilustra um fluxograma 100 de acordo com uma modalidade da invenção. O sistema 10 na FIG. 1 pode adotar o fluxograma 100 para aprimorar o desempenho do detector de palavra chave no discurso 14. O fluxograma 100 inclui as etapas a seguir.
[0047] Etapa 102: identificar o aplicativo atualmente em execução do dispositivo 10. Como mencionado anteriormente, o sistema 12 pode acessar um status do dispositivo 10 para identificar o aplicativo atualmente em execução. Por exemplo, o status pode ser fornecido pelo OS do dispositivo 10, e/ou por um registro de uma CPU (unidade de processamento central, não mostrada) que controla o dispositivo 10.
[0048] Etapa 104: selecionar uma lista de atividade correspondente AL[ix] e uma lista de palavra chave correspondente KL [ jx] respectivamente a partir da base de dados de atividade 20 e a base de dados de palavra chave 16.
[0049] Etapa 106: pelo o detector de palavra chave no discurso 14, realizar uma detecção de palavra chave no discurso preliminar com base no sinal de som Snd e a lista de palavra chave selecionada KL[ix], de modo a fornecer o resultado de detecção de palavra chave preliminar Skw . Por exemplo, o detector de palavra chave no discurso 14 pode comparar o som no sinal Snd (FIG. 1) com as palavras chaves candidatas kw[jx,l] a kw[jx,P{jx}] para respectivamente obter resultados de comparação scr [ 1] a scr[P{jx}], cada resultado scr[p] (para p=l a P{jx}) quantitativamente indica a similaridade entre o sinal Snd e a palavra chave candidata kw[jx,p], e/ou indica a probabilidade ou a possibilidade de que o sinal Snd corresponda à palavra chave candidata kw[jx,p] . O detector de palavra chave no discurso 14 também pode obter um resultado de comparação adicional scr[P{jx}+l] para quantitativamente indicar a probabilidade ou possibilidade de que o sinal Snd falhe em corresponder a qualquer das palavras chaves candidatas kw[j x,1] a kw[jx,P{jx}], i.e., para indicar a probabilidade para o sinal Snd ser "palavra não-chave". Então o detector de palavra chave no discurso 14 pode encontrar uma máxima dos resultados scr[1] a scr [P{jx}+l] e assim fornecer o resultado Skw. Para conveniência da discussão, o máximo dos resultados scr[1] a scr[P{jx}+l] é denotado como o resultado scr[p_max] com indice p_max sendo um dos números 1 a (P{jx}+1), e a palavra chave candidata kw[jx,p_max] correspondendo ao resultado scr[p_max] é referida como uma palavra chave mais provável; se o indice p_max é igual a (P{jx}+1), a palavra chave mais provável kw[jx,p__max] refere-se à situação de "palavra não-chave".
[0050] Para obter os resultados scr[1] a scr[P{jx}+1], o detector de palavra chave no discurso 14 (FIG. 1) pode ser um mapeador de palavra chave que adota algoritmo(s) de processamento de discurso com base em, ex. , modelo de Markov escondido (HMM) , etc . Cada um dos resultados scr [1] a scr [P{ jx} + l] pode ser uma classificação linear ou uma probabilidade de logaritmo.
[0051] Etapal08: de acordo com a lis ta de atividade selecionada AL[ix] e dados do sensor no sinal de dados do sensor Ssd, compute o resultado de previsão de atividade Sap pelo previsor de atividade 18 (FIG. 1) para indicar uma probabilidade ou possibilidade para quando um usuário está prestes a emitir uma palavra chave por voz. Por exemplo, o previsor de atividade 18 compara o sinal Ssd com cada modelo de atividade at[ix,q] da lista de atividade selecionada AL[ix] (para q=l a Q{ix}), e dessa formar fornecer um resultado que corresponde a atividade acr[q] para quantitativamente indicar similaridade entre o modelo de atividade at[ix,q] e o sinal Ssd, e/ou probabilidade ou possibilidade de que o sinal Ssd corresponda ao modelo de atividade at[ix,q] . Os resultados acr[1] aacr[Q{ix}] são então coletados para formar o resultado Sap, ex . , o resultado Sap inclui os resultados acr [1] a acr[Q{ix}] . Porque o sinal de dados do sensor Ssd pode incluir os resultados detectados de diferentes sensores (ou pode fornecer resultados detectados extraídos de diferentes sensores), e cada modelo de atividade at[ix,q] pode incluir referências (ou referências extraídas) de diferentes sensores, o previsor de atividade 18 pode comparar cada resultado detectado (ou cada resultado detectado extraido) de um sensor com uma referência (ou uma referência extraida) do mesmo sensor para obter um resultado de comparação individual, e gerar o resultado correspondente acr[q] de acordo com os resultados de comparação de diferentes sensores.
[0052] Para obter os resultados acr[1] a acr[Q{ix}] , o previsor de atividade 18 pode adotar o algoritmo baseado em regras, ou algoritmo(s) mais sofisticado com base no modelo de mistura Gaussiano, modelo de Markov escondido, máquina de vetor de suporte e/ou rede neural, etc. Alternativamente, o previsor de atividade 18 pode adotar similarmente algoritmo(s) de medição com base no distorção de tempo dinâmica, etc. Observe que as etapas 106 e 108 pode ser executadas simultaneamente ou em ordem sequencial.
[0053] Etapa 110 : pelo tomador de decisão 22 (FIG. 1) , faça uma decisão final para fornecer o resultado de detecção de palavra chave Sdrrt de acordo com o resultado de detecção de palavra chave preliminar Skw e o resultado de previsão de atividade Sap. O resultado Sdm pode ser uma probabilidade, uma pontuaçãoand/or uma logaritmo medindo quantitativamente o quão provável a palavra chave mais provável kw[jx,p_max] da etapa 106 ser realmente dita no contexto do aplicativo atualmente em execução e atividade do usuário.
[0054] O dispositivo 10 pode periodicamente repetir o fluxograma 100 para realizar a detecção de palavra chave no discurso assistido por sensor. Alternativamente, o dispositivo 10 pode executar o fluxograma 100 quando necessário, ex., quando o usuário instrui.
[0055] Em uma modalidade, o resultado Sdm é obtido pela verificação se o resultado Skw satisfaz uma primeira condição e o resultado Sap satisfaz uma segunda condição. Por exemplo, a primeira condição pode ser satisfeita se o resultado Skw for maior do que o primeiro limiar, e a segunda condição pode ser satisfeita se cada um dos resultados acr [ 1 ] a acr[Q{ix}] no resultado Sap for maior do que um segundo limiar. Alternativamente, a segunda condição é: se uma soma (ou uma combinação linear) dos resultados acr[1] aacr[Q{ix}] for maior do que um segundo limiar. Alternativamente, a segunda condição é: se uma propriedade estatística (ex., máxima, mínima, média, etc.) dos resultados acr[1] a acr[Q{ix}] for maior do que um segundo limiar. De preferência, quando tanto a primeira quanto a segunda condição são satisfeitas, o tomador de decisão 22 (FIG. 1) pode determinar que a palavra chave mais provável kw [ j x, p_max] é dita e reflete a afirmativa com o resultado Sdm, assim o dispositivo 10 pode, portanto, responder, ex., realizar operações associadas com uma palavra chave kw[jx,p_max]. Por outro lado, se uma das primeira e segunda condição não é satisfeita (ou a determinada palavra chave kw [ j x, p_max] representa "palavra não-chave") , então o tomador de decisão 22 pode refletir a negação com o resultado Sdm, assim a operação do dispositivo 10 não será afetada.
[0056] Em uma modalidade, o resultado Sdm é obtido pela computação de uma combinação linear dos resultados acr[1] aacr[Q{ix}] e Skw, e comparação se a combinação linear for maior do que um limiar predefinido; se verdadeiro, o tomador de decisão 22 determina que a palavra chave mais provável kw[jx,p_max] é ouvida, caso contrário o tomador de decisão 22 determina que a palavra chave kw[jx,p_max] não é reconhecida.
[0057] Em outras modalidades , o tomador de decisão 22 pode adotar um algoritmo de fusão de probabilidade com base em, ex. , teoria de Dempster-Shafer, ou um algoritmo de aprendizagem de máquina com base em, ex., modelo de mistura Gaussiano, para processar os resultados Skw e acr [ 1 ] aacr[Q{ix}] e dessa forma atingir um resultado mais confiável Sdm. Os algoritmos sofisticados acima mencionados podem aplicar número arbitrário de probabilidades como entradas e consequentemente proporcionar uma probabilidade conclusiva como uma saída, por isso oferece uma solução flexível para integrar a informação respectivamente fornecida pelos resultados Skw e acr[1] a acr [Q{ix}] , já que o número Q { ix } pode ser diferente sob contextos de aplicação diferentes. Alternativamente, diferentes algoritmos podem ser combinados para gerar o resultado Sdm. Por exemplo, o tomador de decisão 22 adota um primeiro algoritmo para processar os resultados acr [ 1 ] aacr[Q{ix}] para dessa forma obter um primeiro resultado, e adota um segundo algoritmo para processar o primeiro resultado e o resultado Skw para assim obter o resultado Sdm.
[0058] Junto com a FIG. 1, favor consultar a FIG. 4 a FIG. 7 que ilustram exemplos de operação do dispositivo 10 (FIG. 1) . Assuma que o dispositivo 10 é um telefone móvel inteligente para a FIG. 4 a FIG. 7 . A FIG. 4 demonstra um cenário de tirar foto. Quando o usuário quer tirar uma foto com o dispositivo 10, uma sequência natural, conveniente e ação intuitiva para o usuário é: ativar o aplicativo de câmera do dispositivo 10 , manter o dispositivo 10 estável, e dizer a palavra chave disparar por voz, ex., "xis". Assim, para implementar um disparo de foto por controle de voz assistido por sensor, uma lista de atividade (FIG. 1) correspondente ao aplicativo de câmera pode incluir um modelo de atividade que representa a atividade indicativa de manter estável, e a lista de palavra chave correspondente ao aplicativo de câmera pode incluir a palavra(s) chave de disparo por voz candidata .
[0059] O disparo de foto por controle de voz assistido por sensor funciona como segue. Quando o usuário ativa o aplicativo de câmera do dispositivo 10 para preparar para disparar a foto, oprevisor de atividade 18 (FIG. 1) do dispositivo 10 aproveita dados do sensor para detectar quando a atividade indicativa de manter estável ocorre. Quando o usuário está mantendo o dispositivo 10 estável, o previsor de atividade 18 refletirá a ocorrência da atividade indicativa, assim o dispositivo 10 pode prever que o usuário vai falar a palavra chave de disparo por voz para disparar a captação da foto, e o dispositivo 10 permite que a palavra chave de disparo por voz seja reconhecida mais facilmente. Por exemplo, o tomador de decisão 22 (FIG. 1) aumenta a sensibilidade da identificação da palavra chave de disparo por voz, daqui a palavra chave de disparo por voz pode ser reconhecida mesmo quando é dita fracamente ou em ambientes ruidosos. Uma vez que o tomador de decisão 22 reflete que a palavra chave de disparo por voz é reconhecida, o dispositivo 10 pode responder tirando a foto.
De modo contrário, quando a atividade indicativa de manter estável não é detectada, é improvável que o usuário diga a palavra chave de disparo por voz, assim o dispositivo 10 pode evitar o reconhecimento errôneo da palavra chave de disparo por voz . Por exemplo, o tomador de decisão 22 diminui a sensibilidade da identificação da palavra chave de disparo por voz .
[0060] FIG. 5 demonstra um cenário de atender uma chamada recebida. Quando o dispositivo 10 recebe uma chamada recebida e toda para chamar a atenção do usuário, uma sequência de ação natural e amigável para o usuário é: elevar o dispositivo 10 para ver a informação sobre a chamada recebida (ex., quem está ligando) , determinar como responder (ex., atender a chamada, rejeitá-la ou ignorá-la) , e consequentemente dizer uma palavra chave para atender por voz, ex., "atender," "rejeitar," "ignorar," ou "mudo." Nesta modalidade, para implementar uma resposta à chamada por controle de voz assistido por sensor, uma lista de atividade correspondente a um aplicativo de comunicação responsável por gerenciar a chamada recebida pode incluir um modelo de atividade que grava a atividade indicativa de levantar o telefone, e a lista de palavra chave correspondente ao aplicativo de comunicação pode incluir as palavras chaves candidatas para atender por voz ex., "atender," "rejeitar," "ignorar," ou "mudo." Por exemplo, quando o usuário está em uma reunião e mesmo fazendo um discurso, ele pode dizer "mudo" para silenciar o dispositivo 10 rapidamente durante toda a reunião.
[0061] A resposta à chamada por controle de voz assistido por sensor funciona como segue. Quando o aplicativo que gerencia a chamada recebida recebe uma chamada recebida, o previsor de atividade 18 é instruído para detectar quando a atividade indicativa de elevar o telefone ocorre. Quando o usuário não eleva o dispositivo 10, o previsor de atividade 18 reflete a ocorrência da atividade indicativa, assim o dispositivo 10 pode prever que o usuário vai falar a palavra chave para atender por voz, e permitir que as palavras chaves para atender por voz sejam reconhecidas mais facilmente. Por exemplo, o tomador de decisão 22 reduz um limiar para confirmar o reconhecimento positivo da palavra chave para atender por voz, assim a palavra chave para atender por voz pode ser reconhecida mesmo quando é dita fracamente ou em ambientes ruidosos . Uma vez que o tomador de decisão 22 reflete que a palavra chave para atender por voz é reconhecida, o dispositivo 10 pode reagir adequadamente, ex. , aceitar, rejeitar, ignorar ou silenciar a chamada. De modo contrário, quando a atividade indicativa de elevar o telefone não é detectada, é improvável que o usuário diga a palavra chave para atender por voz, assim o dispositivo 10 pode evitar o reconhecimento errôneo da palavra chave para atender por voz . Por exemplo, o tomador de decisão 22 aumenta o limiar para confirmar o reconhecimento das palavras chaves para atender por voz .
[0062] FIG. 6 demonstra um cenário de fazer uma chamada transmitida. Quando o usuário quer fazer uma chamada transmitida, uma sequência de ação intuitiva e conveniente é: elevar o dispositivo 10 para o lado da orelha, e dizer um nome de quem se quer chamar, ex . , "ligar para Mary" . Para implementar uma chamada de telefone por controle de voz assistida por sensor, uma lista de atividade correspondente a um aplicativo de comunicação responsável por gerenciar chamada transmitida pode incluir um modelo de atividade que grava a atividade indicativa de elevar o telefone para o lado da orelha, e a lista de palavra chave correspondente ao aplicativo de comunicação pode incluir as palavras chaves de chamada de voz candidatas relacionadas aos nomes dos possíveis objetos de chamada, ex. , nomes listados na agenda e/ou lista de contatos.
[0063] A chamada por controle de voz assistida por sensor funciona como segue. Quando o usuário ativa o aplicativo de comunicação para se preparar para fazer uma chamada transmitida ou quando o dispositivo 10 está executando automaticamente o aplicativo de comunicação como um aplicativo padrão executado quando nenhum outro aplicativo está funcionando, o previsor de atividade 18 é informado para detectar quando a atividade indicativa de elevar o telefone ocorre. Quando o usuário não eleva o dispositivo 10 para o lado da orelha, o previsor de atividade 18 reflete a ocorrência da atividade indicativa, assim o dispositivo 10 pode prever que o usuário vai falar uma palavra chave de chamada de voz, e portanto permite que a palavra chave de chamada de voz seja reconhecida mais facilmente. Por exemplo, o tomador de decisão 22 aumenta a tendência a admitir o reconhecimento positivo da palavra chave para atender por voz, assim a palavra chave de chamada de voz pode ser reconhecida mesmo quando é dita fracamente ou em ambientes ruidosos. Uma vez que o tomador de decisão 22 reflete que uma palavra chave de chamada de voz é reconhecida, o dispositivo 10 faz a chamada de acordo com a palavra chave de chamada de voz. Por outro lado, quando a atividade indicativa não é detectada, é improvável que o usuário diga uma palavra chave de chamada de voz, assim o dispositivo 10 pode evitar o reconhecimento errôneo duma palavra chave de chamada de voz; equivalentemente, o tomador de decisão 22 pode reduzir a tendência a admitir o reconhecimento da palavra chave para atender por voz.
[0064] FIG. 7 demonstra um cenário de acordar um telefone inativo e/ou destravar um telefone bloqueado. Para economizar energia, smartphones modernos entram em um modo de repouso em que apenas as funções básicas são mantidas, e outras funções (ex., exibição de tela) são desligadas. Para maior comodidade do usuário, é desejado despertar um telefone do modo de repouso simplesmente pela voz do usuário, em vez de tocar a tela ou o botão de empurrar. Assim, o usuário pode despertar o telefone do repouso dizendo uma palavra chave, ex, "acordar". Para implementar consequentemente um despertar do telefone por controle de voz assistido por sensor, uma lista de atividade correspondente a um aplicativo de espera responsável pela manipulação do despertar do telefone pode incluir modelo (s) de atividade que grava um estado (s ) indicativo no qual o dispositivo 10 é mantido estável, quieto e estando a mão, e a lista de palavra chave correspondente ao aplicativo de esperapode incluir palavra chave de despertar por voz candidata como "acordar." [0065] O despertar do telefone por controle de voz assistido por sensor funciona como segue. Quando o dispositivo 10 vai para um modo de repouso e o aplicativo de espera está funcionando, o previsor de atividade 18 é informado para detectar quando qualquer dos estados indicativos ocorre. Quando o dispositivo lOnãoentra em um dos estados indicativos, o previsor de atividade 18 reflete a entrada do estado indicativo, assim o dispositivo 10 pode esperar a palavra chave de despertar por voz, e portanto permite que a palavra chave de despertar por voz seja reconhecida mais facilmente. Por exemplo, o tomador de decisão 2 2 tende aaceitaro reconhecimento positivo da palavra chave de despertar por voz, assim a palavra chave de despertar por voz pode ser reconhecida mesmo quando é dita fracamente ou em ambientes ruidosos . Uma vez que o tomador de decisão 22 reflete que a palavra chave de despertar por voz é reconhecida, o dispositivo 10 pode sair do modo de repouso. Por outro lado, quando nenhum dos estados indicativos é detectado, ex. , quando o dispositivo 10 é carregado em uma mochila, é improvável que o usuário diga a palavra chave de despertar por voz, assim o dispositivo 10 pode evitar o reconhecimento errôneo da palavra chave de despertar por voz; de modo equivalente, o tomador de decisão 2 2 tende a rejeitar ou ignorar o reconhecimento da palavra chave de despertar por voz.
[0066] Apesar de as FIG. 4 a FIG. 7 apenas ilustrarem um número limite de exemplos, deve-se notar que a detecção da palavra chave no discurso assistido por sensor da invenção pode realmente fornecer uma, função de controle de voz e intuitiva, amigável, precisa e função de controle de voz natural, conveniente, intuitiva, amigável, precisa e confiável facilmente na vida diária do usuário. Por exemplo, o usuário pode acordar o dispositivo pela voz (Fig. 7) e, em seguida, tirar foto pela voz (Fig. 4), fazer chamadas transmitidas por voz (Figura 6) e/ou atender chamadas recebidas por voz (Fig. 5) .
[0067] A lista(s) de atividade e modelo(s) de atividade correspondente em uma base de dados de atividade 20 (FIG. 1) pode ser preestabelecida por um fabricante ou um projetista do dispositivo 10. Além disso, a base de dados de atividade 20 pode ser modificada de acordo com a necessidade individual do usuário. Por exemplo, o sistema 12 pode permitir que o usuário adicione, apague, edite, mova e/ou substitua o modelo de atividade e lista de atividade. Junto com a FIG. 1, favor consultar a FIG. 8 que ilustra um fluxograma 200 de acordo com uma modalidade da invenção. O dispositivo 10 pode adotar o fluxograma 200 para atualizar a base de dados de atividade 20 pela adição de um novo modelo de atividade ou modificação de um modelo de atividade existente por um novo. O fluxograma 200 inclui as etapas a seguir.
[0068] Etapa 202: pelo dispositivo 10, entrar em um modo de treinamento para se preparar para a modificação do usuário quando o usuário quer atualizar manualmente a base de dados de atividade 20. O dispositivo 10 pode, então, pedir ao usuário para especificar um elemento (ex., uma lista de atividade e/ou um modelo de atividade) a ser modificado, e como o elemento vai ser modificado (ex., por adição ou substituição). Quando o dispositivo 10 entra no modo de treinamento, o dispositivo 10 pode primeiro parar o fluxograma 100 (FIG. 3).
[0069] Etapa 204: pelo dispositivo 10, coletar dados do sensor quando o usuário realiza uma nova atividade destinada a ser adicionada à base de dados de atividade 20 como um novo modelo de atividade, ou destinada a substituir um modelo de atividade existente. Em uma modalidade, o dispositivo 10 pode extrair recursos dos dados do sensor, ex., pelo previsor de atividade 18 a partir do sinal de dados do sensor Ssd.
[0070] Etapa 206: para estabelecer um modelo de atividade estatisticamente confiável, o dispositivo 10 sugere ao usuário repetir a nova atividade várias vezes; cada vez quando o usuário repete a nova atividade, o dispositivo 10 repete a etapa 204. Quando o dispositivo 10 coleta dados do sensor suficientes para construir um novo modelo de atividade confiável, o dispositivo 10 prossegue para a etapa 208 . Se os dados coletados não são satisfatórios, o fluxograma 200 repete a etapa 204.
[0071] Etapa 208: pelo dispositivo 10, atualizar a base de dados de atividade, ex., adicionar o new modelo de atividade ou substituir um modelo de atividade existente por um novo modelo de atividade, de acordo com os dados do sensor coletados.
[0072] Etapa 210: sair do modo de treinamento, então o dispositivo 10 pode restaurar o fluxograma suspenso 100 (etapa 202), ou entrar em outro modo.
[0073] Além da base de dados de atividade 20, a base de dados de palavra chave 16 também pode ser modificada pelo usuário de acordo com um fluxograma similar ao fluxograma 200 .
[0074] Porque a detecção de palavra chave no discurso é esperada para monitorar a palavra chave a qualquer momento sem sugestão do usuário, o consumo de energia é ainda considerado, especialmente para dispositivos móveis que dependem da batería para fonte de energia. A detecção de voz pode ser aplicada para avaliar como o som que entra informativo é, de modo a ativar a detecção de palavra chave no discurso quando o som que entra parece ser informativo, e de outra forma desativar a detecção de palavra chave no discurso para economia de energia .
[0075] Junto com a FIG. 1, favor consultar a FIG. 9 que ilustra a detecção de palavra chave no discurso assistida por sensor do sistema de baixa energia 32 integrado em um dispositivo 30. Similar ao sistema 12 da FIG. 1, o sistema 32 na FIG. 9 inclui um detector de palavra chave no discurso 44, uma base de dados de palavra chave 46, um previsor de atividade 48, uma base de dados de atividade 50 e um tomador de decisão 52. Além disso, o sistema 32 inclui um detector de voz 34.0 dispositivo 30 inclui a multiplexador 36, um conversor de analógico para digital (ADC) 38 e dois terminais 40a e 40b. Se o dispositivo 30 é equipado com microfone(s) analógico (não mostrado), o microfone(s) analógico pode ser conectado ao terminal 40a, assim um sinal de som analógico (não mostrado) fornecido pelo microfone(s) analógico pode ser retransmitido para o ADC 38 para ser convertido em um sinal de som digital (não mostrado), que é então é então conduzido para se tornar um sinal de som digital Snd pelo multiplexador 36. Por outro lado, se o dispositivo 30 é equipado com microfone (s) digital (não mostrado), o microfone (s) digital pode ser conectado ao terminal 40b, assim um sinal de som digital (não mostrado) fornecido pelo microfone (s) digital pode ser conduzido para se tornar o sinal Snd pelo multiplexador 36. O sistema 32 também recebe um sinal de dados do sensor Ssd fornecido pelo sensor (s) do dispositivo 30.
[0076] O funcionamento do detector de palavra chave no discurso 44, o previsor de atividade 48 e o tomador de decisão 52 são similares àquele do detector de palavra chave no discurso 14, o previsor de atividade 18 e o tomador de decisão 22 (FIG. 1). Com o funcionamento do detector de palavra chave no discurso 44, o previsor de atividade 48 e o tomador de decisão 52 assim como as bases de dados 4 6 e 50 podem implementar a detecção de palavra chave no discurso assistida por sensor da invenção pelo seguinte fluxograma 100 (FIG. 3).
[0077] Δ base de dados de palavra chave 46 é acoplada ao detector de palavra chave no discurso 44, e inclui um número N2 de listas de palavra chave KL[1] a KL[N2]. Cada lista de palavra chave KL[j] (para j = 1 a N2) é associada com um aplicativo alvo app[j]incluindo uma quantidade P {j } de palavras chaves candidatas kw[j,l] a kw[j,P{j}].
[0078] A base de dados de atividade 50 é acoplada ao previsor de atividade 48, e inclui um número NI de listas de atividade AL [ 1 ] a AL[N1] ; cada lista de atividade AL[i] (para i = 1 a Nl) é associada com um aplicativo alvo app[i] incluindo uma quantidade Q { i } de modelos de atividade at [ i, 1 ] aat[i,Q{i}] .
[0079] O detector de palavra chave no discurso 44 obtém uma lista de palavra chave selecionada KL[jx] a partir das listas de palavra chave KL [ 1] a KL[N2] da base de dados de palavra chave 46, sendo que o aplicativo alvo app[jx] da lista de palavra chave selecionada KL[jx] corresponde a um aplicativo atualmente em operação do dispositivo 30. Em resposta ao sinal Snd, o detector de palavra chave no discurso 44 fornece um resultado de detecção de palavra chave preliminar Skw de acordo com os lista de palavra chave selecionada KL[jx].
[0080] O previsor de atividade 48 obtém a lista de atividade selecionada AL [ix] a partir das listas de atividade AL[1] a AL[Nl] da base de dados de atividade 50, sendo que o aplicativo alvo app [ ix] da lista de atividade selecionada AL [ ix] corresponde ao aplicativo atualmente em execução do dispositivo 30 . Com base na lista de atividade selecionada AL [ ix] , o previsor de atividade 48 pode processar o sinal Ssd para fornecer um resultado de previsão de atividade Sap indicando uma probabilidade de se um usuário está prestes a emitir a palavra chave por voz.
[0081] O tomador de decisão 52 é acoplado ao previsor de atividade 48 e o detector de palavra chave no discurso 4 4, para processar os resultados Sap e Skw para fornecer um segundo resultado de detecção de palavra chave Sdm, assim o dispositivo 30 pode reagir de acordo com o resultado Sdm.
[0082] O detector de voz 34 é acoplado ao detector de palavra chave no discurso 44, e é capaz de avaliar a informatividade com base em, ex., SNR, do sinal de som Snd, e dessa formar determinar quando ativar o detector de palavra chave no discurso 44. Por exemplo, se a informatividade do sinal Snd for baixa (ex., abaixo de um limiar de informatividade, não mostrado), o detector de voz 34 pode desabilitar (inativar) o detector de palavra chave no discurso 34, por exemplo, manter o detector de palavra chave no discurso 44 em um modo de baixa energia (ocioso) . Por outro lado, se a informatividade do sinal Snd é alta (ex., maior do que o limiar de inf ormatividade) , o detector de voz 34 pode habilitar (ativar) o detector de palavra chave no discurso 44 , por exemplo, despertar o detector de palavra chave no discurso 44 para funcionar um modo (totalmente funcional) normal. Como mostrado na FIG. 9, o detector de voz 34 fornece um sinal Svd para seletivamente ativar o detector de palavra chave no discurso 44.
[0083] Quando o detector de palavra chave no discurso 44 é desativado, o previsor de atividade 48 e o tomador de decisão 52 são de preferência desabilitados assim como as bases de dados 46 e 50. Quando o detector de palavra chave no discurso 44 é ativado, o previsor de atividade 48 e o tomador de decisão 52 (assim como as bases de dados 4 6 e 50 ) são habilitados a cooperar com o detector de palavra chave no discurso 44 para a detecção de palavra chave no discurso assistida por sensor. Alternativamente, o previsor de atividade 48 e o tomador de decisão 52 também recebem o sinal Svd a ser habilitado ou desabilitado.
[0084] Favor consultar a FIG. 10 que ilustra uma modalidade do detector de voz 34. O detector de voz 34 inclui um estimador de discurso 56a, um estimador de ruido 56b e um comparador 58 acoplado ao estimador de discurso 56a e o estimador de ruido 56b. O estimador de discurso 56a é capaz de fornecer uma sequência S[.] em resposta ao volume do sinal Snd; já que cada amostra do sinal Snd é denotada por um valor x[n], volume do sinal Snd pode ser denotado por um valor absoluto |x[n] | . O estimador de ruido 56b é capaz de fornecer uma sequência N[ . ] também em resposta ao volume do sinal Snd.
[0085] Como mostrado na equação eql da FIG. 10, o estimador de discurso 56a é capaz de computar uma amostra atual S [n] da sequência S [ . ] como uma soma ponderada de um volume atual |x[n] | do sinal Snd e uma amostra anterior S[n-1] da sequência S [ . ] , i.e., computar a amostra atual S [n] da sequência S [ . ] pela soma de um produto aO*S [n-1] e um produto (l-a0)*|x[n] | , sendo que o produto aO*S [n-1] é um resultado da multiplicação da amostra anterior S [ n-1 ] com um peso aO, e o produto (l-a0)*|x[n]| é um resultado da multiplicação do volume atual |x[n]| por um peso complementar (1-aO) . Em uma modalidade, o peso aO pode ser maior que 0 e menor que 1.
[0086] Como mostrado na equação eq2 da FIG. 10, o estimador de ruido 56b é capaz de computar uma amostra atual N[n] da sequência N[.] como uma soma ponderada do valor atual |x[n] | e uma amostra anterior N[n-1] da sequência N[.], i.e., computando a amostra atual N[n] da sequência N[.] pela soma de um produto b0*N[n-1] e um produto (l-b0)*|x[n]|, sendo que o produto b0*S[n-l] é um resultado da multiplicação da amostra anterior N [ n-1 ] com um peso bO, e o produto (l-b0)*|x[n]| é um resultado da multiplicação do volume atual |x[n]| por um peso complementar (1-bO) . Em uma modalidade, o peso bO pode ser maior que 0 e ser menor que 1.
[0087] Em uma modalidade, o peso aO é menor que o peso bO . Assim, a sequência S [ .] tende refletir o volume atual do som que entra, e a sequência N[.] tenta refletir o volume médio passado do som que entra. Assim, a sequência S[.] indica o sinal informativo, ex., voz, contida no sinal Snd enquanto a sequência N [ . ] indica ruido de fundo no sinal Snd. O comparador 58 compara S [ . ] e N[.] para indicar a inf ormat ividade do sinal Snd, e assim fornecer o sinal Svd para controlar o detector de palavra chave no discurso 44. Por exemplo, se uma diferença absoluta | S [η] -N [n] | é maior do que um limiar de inf ormat ividade (não mostrado) , então o comparador 5 8 do detector de voz 34 reflete a alta informatividade no sinal Svd para ativar o detector de palavra chave no discurso 44. De modo contrário, se a diferença absoluta |S[n]-N[n]| é menor que o limiar de informatividade, então o comparador 58 do detector de voz 34 reflete uma baixa informatividade no sinal Svd para desabilitar o detector de palavra chave no discurso 44 porque a execução da detecção de palavra chave no discurso em som ruidoso só leva a erro.
[0088] Junto com a FIG. 9, favor consultar a FIG. 11 que ilustra um fluxograma 300 de detecção seletiva de palavra chave no discurso de acordo com uma modalidade da invenção. Com o detector de voz 34 , o sistema 32 (FIG . 9) pode adotar o fluxograma 300 para economia de energia sem comprometer a função esperada da detecção de palavra chave no discurso. As maiores etapas do fluxograma 300 podem ser descritas como segue.
[0089] Etapa 302 : pelo detector de voz 34 , detectar a voz no som; ex., avaliar a informatividade do sinal Snd.
[0090] Etapa 304: se a voz é detectada (informatividade é alta), prosseguir para a etapa 306, caso contrário prosseguir para a etapa 308.
[0091] Etapa 306: realizar a detecção de palavra chave no discurso, ex. , a detecção de palavra chave no discurso assistida por sensor do fluxograma 100 (FIG . 3) . Embora o detector de voz 34 seja utilizado junto com detecção de palavra chave no discurso assistida por sensor do detector de palavra chave no discurso 44, o previsor de atividade 48 e o tomador de decisão 52 como mostrado na FIG. 9, o detector de voz 34 também pode ser usado junto com uma detecção de palavra chave no discurso mais simples que é implementado somente por um detector de palavra chave no discurso preliminar (ex., o detector de palavra chave no discurso 4 4) sem assistência dos dados do sensor. Tal detecção de palavra chave no discurso mais simples também pode adotar o fluxograma 300, e a detecção de palavra chave do discurso habilitada na etapa 306 é implementada pela operação do detector de palavra chave no discurso preliminar. Após a etapa 306, o fluxograma 300 pode repetir a etapa 302.
[0092] Etapa 308: desabilitar a detecção de palavra chave no discurso, ex . , parar o funcionamento do detector de palavra chave no discurso 44 (FIG. 9). O funcionamento do previsor de atividade 48 e o tomador de decisão 52, assim como a base de dados de palavra chave 46 e a base de dados de atividade 50, também pode ser interrompido. Após a etapa 308, o fluxograma 300 pode repetir a etapa 302.
[0093] Em uma modalidade, o detector de voz 34 na FIG. 10 pode ser implementado por um hardware dedicado, ex., circuito. O detector de palavra chave no discurso 44, o previsor de atividade 48 e/ou o tomador de decisão 52 (FIG. 9) também pode ser implementado pelo hardware dedicado, ou por um processador de sinal digital (DSP) . 0 DSP pode executar software e/ou firmware para implementar as funções do detector de palavra chave no discurso 44, o previsor de atividade 48 e/ou o tomador de decisão 52. A base de dados de palavra chave 46 e a base de dados de atividade 50 podem ser implementadas pela memória não volátil programável. Um dispositivo moderno pode incluir uma CPU e um DSP . A CPU é responsável pela execução do OS e aplicativos, e o DSP é responsável pelo processamento multimídia (ex., codificação e / ou decodificação de áudio e/ou vídeo ) . Sob tal arquitetura, os componentes do sistema de detecção de palavra chave no discurso assistida por sensor podem ser implementados no DSP, de modo que a detecção de palavra chave no discurso assistida por sensor possa funcionar sem envolvimento da CPU, e dessa formar reduzir o consumo de energia da detecção de palavra chave no discurso assistida por sensor. Alternativamente, só o detector de voz 34 pelo hardware dedicado é arranjado para funcionar na maioria do tempo para seletivamente ativar o circuito necessário. Por exemplo, quando um smartphone aumenta para uma sensibilidade de detecção de voz como divulgado pela invenção, o smartphone pode solicitar ao usuário por um LED com cor diferente, ex. , laranja, que complete uma operação desejada pelo controle de voz sob a tela escura. Alternativamente, a tela pode mostrar um logotipo indicativo dentro de uma área parcial de uma tela cheia para solicitar ao usuário. Alternativamente, apenas um sensor giroscópio é arranjado para sempre ou periodicamente funcionar para seletivamente ativar circuito necessário uma vez que o giroscópio consome muito pouca energia . De acordo com uma pluralidade de operações definidas pela base de dados de atividade e a base de dados de palavra chave, o smartphone pode operar sob a tela escura ou não requerer a iluminação completada tela. Assim, o consumo de energia pode ser insignificante ou até reduzido ao realizar o conceito divulgado pela invenção.
[0094] Em suma, a invenção aproveita dados do sensor fornecido pelo sensor (s) do dispositivo para obter a informação adicional para melhorar a detecção de palavra chave no discurso, de modo a implementar um controle de voz mais conveniente, amigável, confiável e preciso. Pessoas versadas na técnica podem fazer modificações possíveis, sem se afastar do escopo revelado pela invenção. Por exemplo, o controle de toque da tela escura pode ser incorporado com a invenção para aumentar ainda mais a conveniência do dispositivo de controle.
[0095] Enquanto a invenção foi descrita em termos do que é atualmente considerado como as modalidades mais práticas e preferidas, deve ser entendido que a invenção não precisa ser limitada à modalidade descrita. Pelo contrário, pretende-se cobrir várias modificações e arranjos semelhantes incluídos dentro do espirito e escopo das reivindicações anexas, que devem ser reconhecidas com a interpretação mais ampla de modo a abranger todas essas modificações e estruturas semelhantes.
REIVINDICAÇÕES
Claims (24)
1. Um sistema para detecção de palavra chave no discurso de um dispositivo, compreendendo: um previsor de atividade capaz de obter dados do sensor fornecidos por uma pluralidade de sensores, e capaz de processar os dados do sensor para fornecer um resultado de previsão de atividade indicando uma probabilidade para se um usuário está prestes a emitir uma palavra chave por voz; um detector de palavra chave no discurso para gerar um resultado de detecção de palavra chave preliminar; e um tomador de decisão acoplado ao previsor de atividade e o detector de palavra chave no discurso, e capaz de processar os resultado de previsão de atividade e o resultado de detecção de palavra chave preliminar para fornecer um resultado de detecção de palavra chave.
2. O sistema, de acordo com a reivindicação 1, compreendendo ainda: uma base de dados de atividade compreendendo uma pluralidade de listas de atividade; cada lista de atividade sendo associada comum aplicativo alvo, e compreendendo uma pluralidade de modelos de atividade, sendo que o previsor de atividade é capaz de: obter uma selecionada das listas de atividade, sendo que o aplicativo alvo associado com a lista de atividade selecionada corresponde a um aplicativo atualmente em operação do dispositivo; e comparar os dados do sensor com cada modelo da atividade da lista de atividade selecionada para fornecer o resultado de previsão de atividade.
3. O sistema, de acordo com a reivindicação 1 compreendendo ainda: uma base de dados de atividade compreendendo uma pluralidade de listas de atividade; cada lista de atividade sendo associada comum aplicativo alvo, e compreendendo uma pluralidade de modelos de atividade, sendo que o previsor de atividade é capaz de: obter uma selecionada das listas de atividade, sendo que o aplicativo alvo associado com a lista de atividade selecionada corresponde a um aplicativo atualmente em operação do dispositivo; fornecer dados extraídos pelos recursos de extração dos dados do sensor; e comparar os dados extraídos com cada modelo da atividade da lista de atividade selecionada para fornecer o resultado de previsão de atividade.
4. O sistema, de acordo com a reivindicação 1 compreendendo ainda: uma base de dados de palavra chave compreendendo uma pluralidade de listas de palavra chave; cada lista de palavra chave sendo associada com um aplicativo alvo, e compreendendo uma pluralidade de palavras chaves candidatas, sendo que o detector de palavra chave no discurso é capaz de: obter uma selecionada das listas de palavra chave, sendo que o aplicativo alvo associado com uma lista de palavra chave selecionada corresponde a um aplicativo atualmente em operação do dispositivo; e comparar o som que entra com cada palavra chave candidata da lista de palavra chave para fornecer o resultado de detecção de palavra chave preliminar.
5. O sistema, de acordo com a reivindicação 1 compreendendo ainda: um detector de voz capaz de avaliar informatividade do som que entra para seletivamente ativar o detector de palavra chave no discurso.
6. O sistema, de acordo com a reivindicação 5, sendo que o detector de voz compreende: um primeiro estimador capaz de computar uma amostra atual de uma primeira sequência como uma soma ponderada de um volume atual do som que entra e uma amostra anterior da primeira sequência; um segundo estimador capaz de computar uma amostra atual de uma segunda sequência como uma soma ponderada de um volume atual do som que entra e uma amostra anterior da segunda sequência; e um comparador, acoplado ao primeiro estimador e o segundo estimador, comparando a primeira sequência e a segunda sequência para indicar a informatividade do som que entra.
7. O sistema, de acordo com a reivindicação 5, sendo que o detector de voz compreende: um primeiro estimador capaz de computar uma amostra atual de uma primeira sequência pela soma de um primeiro produto e um segundo produto, o primeiro produto multiplicando uma amostra anterior da primeira sequência por um primeiro peso, e o segundo produto multiplicando um volume atual do som que entra por um primeiro peso de complementaridade; um segundo estimador capaz de computar uma amostra atual de uma segunda sequência pela soma de um terceiro produto e uma quarto produto, o terceiro produto multiplicando uma amostra anterior da segunda sequência por um segundo peso, e o quarto produto multiplicando um volume atual do som que entra por um segundo peso de complementaridade; e um comparador, acoplado ao primeiro estimador e o segundo estimador, comparando a primeira sequência e a segunda sequência para indicar a informatividade do som que entra.
8. O sistema, de acordo com a reivindicação 7, sendo que o primeiro peso é menor do que o segundo peso.
9. O sistema, de acordo com a reivindicação 1, sendo que o tomador de decisão aplica um algoritmo de fusão de probabilidadeparaprocessar o resultado de previsão de atividade e o resultado de detecção de palavra chave preliminar para fornecer o resultado de detecção de palavra chave.
10. O sistema, de acordo com a reivindicação 1, sendo que o tomador de decisão é capaz de adotar um algoritmo de aprendizagem de máquina para processar o resultado de previsão de atividade e o resultado de detecção de palavra chave preliminar para provar o resultado de detecção de palavra chave.
11. O sistema, de acordo com a reivindicação 1, sendo que o tomador de decisão calcula uma combinação linear do resultado de previsão de atividade e o resultado de detecção de palavra chave preliminar como o resultado de detecção de palavra chave.
12 . O sistema, de acordo com a reivindicação 1, sendo que os sensores incluem pelo menos um do seguinte : um acelerômetro, um giroscópio, um magnetômetro, um barômetro um sensor de proximidade, sensor de luz, uma tela sensivel ao toque, um receptor de um sistema de posicionamento, um receptor sem fio e uma câmera.
13. Um método para a detecção de palavra chave no discurso, compreendendo: obter dados do sensor fornecidos por uma pluralidade de sensores; de acordo com os dados do sensor, computar um resultado de previsão de atividade indicando uma probabilidade de se um usuário está prestes a emitir a palavra chave por voz; e computar um resultado de detecção de palavra chave de acordo com os resultado de previsão de atividade e um resultado de detecção de palavra chave preliminar da detecção de palavra chave no discurso.
14 . O método, de acordo com a reivindicação 13 compreendendo ainda: fornecer uma base de dados de atividade a qual compreende uma pluralidade de listas de atividade; cada lista de atividade sendo associada com um aplicativo alvo, e compreendendo uma pluralidade de modelos de atividade; identificar o aplicativo atualmente em execução do dispositivo; selecionar uma das listas de atividades pela comparação do aplicativo atualmente em execução com cada aplicativo alvo de cada lista de atividade; e comparar os dados do sensor com cada modelo da atividade da lista de atividade selecionada para fornecer o resultado de previsão de atividade.
15. O método, de acordo com a reivindicação 13 compreendendo ainda: fornecer uma base de dados de atividade que compreende uma pluralidade de listas de atividade; cada lista de atividade sendo associada com um aplicativo alvo, e compreendendo uma pluralidade de modelos de atividade; identificar o aplicativo atualmente em execução do dispositivo; pela comparação do aplicativo atualmente emexecução com cada aplicativo alvo de cada lista de atividade, selecionando uma das listas de atividade; fornecer dados extraídos pelos recursos de extração dos dados do sensor; comparar os dados extraídos com cada modelo da atividade da lista de atividade selecionada e consequentemente fornecer um resultado correspondente de atividade para ser incluído no resultado de previsão de atividade.
16. O método, de acordo com a reivindicação 13 compreendendo ainda: fornecer uma base de dados de palavra chave que compreende uma pluralidade de listas de palavra chave; cada lista de palavra chave sendo associada com um aplicativo alvo, e compreendendo uma pluralidade de palavras chaves candidatas; identificar o aplicativo atualmente em execução do dispositivo; selecionar uma das listas de palavra chave pela comparação dos aplicativo atualmente em execução com cada aplicativo alvo de cada lista de palavra chave; e fornecer o resultado de detecção de palavra chave preliminar pela comparação do som que entra com cada palavra chave candidata da lista de palavra chave selecionada.
17. O método, de acordo com a reivindicação 13 compreendendo ainda: realizar uma detecção de voz através da avaliação da informatividade do som que entra para seletivamente ativar a detecção de palavra chave do discurso.
18. O método, de acordo coma reivindicação 17, sendo que a etapa de realizar a detecção de voz compreende: computar uma amostra atual de uma primeira sequência como uma soma ponderada de um volume atual do som que entra e uma amostra anterior da primeira sequência; computar uma amostra atual de uma segunda sequência como uma soma ponderada de um volume atual do som que entra e uma amostra anterior da segunda sequência; e comparar a primeira sequência e a segunda sequência para indicar a informatividade do som que entra.
19. O método, de acordo coma reivindicação 17, sendo que a etapa de realizar a detecção de voz compreende: computar uma amostra atual de uma primeira sequência pela soma de um primeiro produto e um segundo produto, o primeiro produto multiplicando uma amostra anterior da primeira sequência por um primeiro peso, e o segundo produto multiplicando um volume atual do som que entra por um primeiro peso de complementaridade; computar uma amostra atual de uma segunda sequência pela soma de um terceiro produto e um quarto produto, o terceiro produto multiplicando uma amostra anterior da segunda sequência por um segundo peso, e o quarto produto multiplicando um volume atual do som que entra por um segundo peso de complementaridade; e comparar a amostra atual da primeira sequência e a amostra atual da segunda sequência para indicar a informatividade do som que entra.
20. O método, de acordo coma reivindicação 19, sendo que o primeiro peso é menor do que o segundo peso.
21. O método, de acordo coma reivindicação 13, sendo que computar o resultado de detecção de palavra chave compreende : adotar um algoritmo de fusão de probabilidade para processar o resultado de previsão de atividade e o resultado de detecção de palavra chave preliminar.
22. O método, de acordo coma reivindicação 13, sendo que computar o resultado de detecção de palavra chave compreende : adotar um algoritmo de aprendizagem de máquina para processar o resultado de previsão de atividade e o resultado de detecção de palavra chave preliminar.
23. O método, de acordo coma reivindicação 13, sendo que a etapa de computar o resultado de detecção de palavra chave calcula uma combinação linear do resultado de previsão de atividade e o resultado de detecção de palavra chave preliminar como o resultado de detecção da palavra chave.
24 . O método, de acordo com a reivindicação 13, sendo que os sensores incluem pelo menos um do seguinte: um acelerômetro, um giroscópio, um magnetômetro, um barômetro um sensor de proximidade, sensor de luz, uma tela sensível ao toque, um receptor de um sistema de posicionamento, um receptor sem fio e uma câmera.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310659840.4 | 2013-09-12 | ||
CN201310659840.4A CN104700832B (zh) | 2013-12-09 | 2013-12-09 | 语音关键字检测系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
BR102014003975A2 true BR102014003975A2 (pt) | 2016-01-26 |
BR102014003975B1 BR102014003975B1 (pt) | 2022-03-03 |
Family
ID=51893939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR102014003975-9A BR102014003975B1 (pt) | 2013-09-12 | 2014-02-20 | Sistema e método para detecção de palavra-chave em discurso de um dispositivo |
Country Status (5)
Country | Link |
---|---|
US (1) | US9747894B2 (pt) |
EP (1) | EP2881939B1 (pt) |
CN (1) | CN104700832B (pt) |
BR (1) | BR102014003975B1 (pt) |
IN (1) | IN2014CH00781A (pt) |
Families Citing this family (163)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9711166B2 (en) | 2013-05-23 | 2017-07-18 | Knowles Electronics, Llc | Decimation synchronization in a microphone |
KR20160010606A (ko) | 2013-05-23 | 2016-01-27 | 노우레스 일렉트로닉스, 엘엘시 | Vad 탐지 마이크로폰 및 그 마이크로폰을 동작시키는 방법 |
US10020008B2 (en) | 2013-05-23 | 2018-07-10 | Knowles Electronics, Llc | Microphone and corresponding digital interface |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9502028B2 (en) | 2013-10-18 | 2016-11-22 | Knowles Electronics, Llc | Acoustic activity detection apparatus and method |
US9147397B2 (en) | 2013-10-29 | 2015-09-29 | Knowles Electronics, Llc | VAD detection apparatus and method of operating the same |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9953632B2 (en) * | 2014-04-17 | 2018-04-24 | Qualcomm Incorporated | Keyword model generation for detecting user-defined keyword |
US10770075B2 (en) * | 2014-04-21 | 2020-09-08 | Qualcomm Incorporated | Method and apparatus for activating application by speech input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9697828B1 (en) * | 2014-06-20 | 2017-07-04 | Amazon Technologies, Inc. | Keyword detection modeling using contextual and environmental information |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
TW201640322A (zh) | 2015-01-21 | 2016-11-16 | 諾爾斯電子公司 | 用於聲音設備之低功率語音觸發及方法 |
US9613626B2 (en) * | 2015-02-06 | 2017-04-04 | Fortemedia, Inc. | Audio device for recognizing key phrases and method thereof |
US10121472B2 (en) | 2015-02-13 | 2018-11-06 | Knowles Electronics, Llc | Audio buffer catch-up apparatus and method with two microphones |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) * | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
CN104978960A (zh) * | 2015-07-01 | 2015-10-14 | 陈包容 | 一种基于语音识别拍照的方法及装置 |
US9478234B1 (en) | 2015-07-13 | 2016-10-25 | Knowles Electronics, Llc | Microphone apparatus and method with catch-up buffer |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
WO2017042906A1 (ja) * | 2015-09-09 | 2017-03-16 | 三菱電機株式会社 | 車載用音声認識装置および車載機器 |
US10372755B2 (en) | 2015-09-23 | 2019-08-06 | Motorola Solutions, Inc. | Apparatus, system, and method for responding to a user-initiated query with a context-based response |
US11868354B2 (en) | 2015-09-23 | 2024-01-09 | Motorola Solutions, Inc. | Apparatus, system, and method for responding to a user-initiated query with a context-based response |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
CN106098063B (zh) * | 2016-07-01 | 2020-05-22 | 海信集团有限公司 | 一种语音控制方法、终端设备和服务器 |
CN107767861B (zh) * | 2016-08-22 | 2021-07-02 | 科大讯飞股份有限公司 | 语音唤醒方法、系统及智能终端 |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
CA3036778C (en) * | 2016-09-21 | 2022-02-01 | Motorola Solutions, Inc. | Method and system for optimizing voice recognition and information searching based on talkgroup activities |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10186265B1 (en) * | 2016-12-06 | 2019-01-22 | Amazon Technologies, Inc. | Multi-layer keyword detection to avoid detection of keywords in output audio |
US10079015B1 (en) * | 2016-12-06 | 2018-09-18 | Amazon Technologies, Inc. | Multi-layer keyword detection |
WO2018118744A1 (en) * | 2016-12-19 | 2018-06-28 | Knowles Electronics, Llc | Methods and systems for reducing false alarms in keyword detection |
US10269352B2 (en) * | 2016-12-23 | 2019-04-23 | Nice Ltd. | System and method for detecting phonetically similar imposter phrases |
US10593328B1 (en) * | 2016-12-27 | 2020-03-17 | Amazon Technologies, Inc. | Voice control of remote device |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
CN108702411B (zh) * | 2017-03-21 | 2021-12-14 | 华为技术有限公司 | 一种控制通话的方法、终端及计算机可读存储介质 |
US10121494B1 (en) * | 2017-03-30 | 2018-11-06 | Amazon Technologies, Inc. | User presence detection |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US20190019505A1 (en) * | 2017-07-12 | 2019-01-17 | Lenovo (Singapore) Pte. Ltd. | Sustaining conversational session |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US20190095813A1 (en) * | 2017-09-25 | 2019-03-28 | Intel Corporation | Event importance estimation |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
CN112037774B (zh) * | 2017-10-24 | 2024-04-26 | 北京嘀嘀无限科技发展有限公司 | 用于关键短语识别的系统和方法 |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US20190311710A1 (en) * | 2018-04-06 | 2019-10-10 | Flex Ltd. | Device and system for accessing multiple virtual assistant services |
WO2019216996A1 (en) * | 2018-05-07 | 2019-11-14 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US20200168317A1 (en) | 2018-08-22 | 2020-05-28 | Centre For Addiction And Mental Health | Tool for assisting individuals experiencing auditory hallucinations to differentiate between hallucinations and ambient sounds |
JP7001029B2 (ja) * | 2018-09-11 | 2022-01-19 | 日本電信電話株式会社 | キーワード検出装置、キーワード検出方法、およびプログラム |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
CN109584879B (zh) * | 2018-11-23 | 2021-07-06 | 华为技术有限公司 | 一种语音控制方法及电子设备 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
CN109979440B (zh) * | 2019-03-13 | 2021-05-11 | 广州市网星信息技术有限公司 | 关键词样本确定方法、语音识别方法、装置、设备和介质 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11443734B2 (en) | 2019-08-26 | 2022-09-13 | Nice Ltd. | System and method for combining phonetic and automatic speech recognition search |
CN110534099B (zh) * | 2019-09-03 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 语音唤醒处理方法、装置、存储介质及电子设备 |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11948556B2 (en) * | 2019-10-15 | 2024-04-02 | Google Llc | Detection and/or enrollment of hot commands to trigger responsive action by automated assistant |
CN110827806B (zh) * | 2019-10-17 | 2022-01-28 | 清华大学深圳国际研究生院 | 一种语音关键词检测方法及系统 |
CN111028828A (zh) * | 2019-12-20 | 2020-04-17 | 京东方科技集团股份有限公司 | 一种基于画屏的语音交互方法、画屏及存储介质 |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11810578B2 (en) | 2020-05-11 | 2023-11-07 | Apple Inc. | Device arbitration for digital assistant-based intercom systems |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11620999B2 (en) | 2020-09-18 | 2023-04-04 | Apple Inc. | Reducing device processing of unintended audio |
CN115019834A (zh) * | 2022-05-23 | 2022-09-06 | 北京声智科技有限公司 | 语音端点的检测方法、装置、电子设备、存储介质及产品 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3430235A (en) * | 1964-05-01 | 1969-02-25 | Avco Corp | Automatic signal discriminator and threshold adjustment circuit for range-gated radar detection systems |
US4366378A (en) * | 1980-01-23 | 1982-12-28 | Itek Corporation | Laser light detection system |
US5194847A (en) * | 1991-07-29 | 1993-03-16 | Texas A & M University System | Apparatus and method for fiber optic intrusion sensing |
US5850627A (en) * | 1992-11-13 | 1998-12-15 | Dragon Systems, Inc. | Apparatuses and methods for training and operating speech recognition systems |
US5629520A (en) * | 1995-11-20 | 1997-05-13 | The United States Of America As Represented By The Secretary Of The Army | Laser threat status detection |
US6389881B1 (en) * | 1999-05-27 | 2002-05-21 | Acoustic Systems, Inc. | Method and apparatus for pattern match filtering for real time acoustic pipeline leak detection and location |
TWI245259B (en) | 2002-12-20 | 2005-12-11 | Ibm | Sensor based speech recognizer selection, adaptation and combination |
FR2853126A1 (fr) * | 2003-03-25 | 2004-10-01 | France Telecom | Procede de reconnaissance de parole distribuee |
US7904300B2 (en) * | 2005-08-10 | 2011-03-08 | Nuance Communications, Inc. | Supporting multiple speech enabled user interface consoles within a motor vehicle |
US7633076B2 (en) * | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US20090265671A1 (en) * | 2008-04-21 | 2009-10-22 | Invensense | Mobile devices with motion gesture recognition |
WO2009045861A1 (en) * | 2007-10-05 | 2009-04-09 | Sensory, Incorporated | Systems and methods of performing speech recognition using gestures |
US9123341B2 (en) | 2009-03-18 | 2015-09-01 | Robert Bosch Gmbh | System and method for multi-modal input synchronization and disambiguation |
KR101581883B1 (ko) * | 2009-04-30 | 2016-01-11 | 삼성전자주식회사 | 모션 정보를 이용하는 음성 검출 장치 및 방법 |
JP2012211932A (ja) | 2011-03-30 | 2012-11-01 | Toshiba Corp | 音声認識装置及び音声認識方法 |
US8860942B1 (en) * | 2011-04-29 | 2014-10-14 | The United States Of America As Represented By The Secretary Of The Air Force | Apparatus for multi-spectral imaging of point event detection |
-
2013
- 2013-12-09 CN CN201310659840.4A patent/CN104700832B/zh active Active
-
2014
- 2014-01-29 US US14/166,881 patent/US9747894B2/en active Active
- 2014-02-18 IN IN781CH2014 patent/IN2014CH00781A/en unknown
- 2014-02-20 BR BR102014003975-9A patent/BR102014003975B1/pt active IP Right Grant
- 2014-11-14 EP EP14193255.8A patent/EP2881939B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP2881939B1 (en) | 2017-01-11 |
CN104700832A (zh) | 2015-06-10 |
CN104700832B (zh) | 2018-05-25 |
IN2014CH00781A (pt) | 2015-06-12 |
US9747894B2 (en) | 2017-08-29 |
EP2881939A1 (en) | 2015-06-10 |
US20150161989A1 (en) | 2015-06-11 |
BR102014003975B1 (pt) | 2022-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BR102014003975A2 (pt) | sistema para detecção de palavra chave no discurso e método associado | |
US20220358924A1 (en) | Methods and apparatus for detecting a voice command | |
US10332524B2 (en) | Speech recognition wake-up of a handheld portable electronic device | |
US10978048B2 (en) | Electronic apparatus for recognizing keyword included in your utterance to change to operating state and controlling method thereof | |
CN110199350B (zh) | 用于感测语音结束的方法和实现该方法的电子设备 | |
CN108735209B (zh) | 唤醒词绑定方法、智能设备及存储介质 | |
AU2014200407B2 (en) | Method for Voice Activation of a Software Agent from Standby Mode | |
US9361885B2 (en) | Methods and apparatus for detecting a voice command | |
BR112015018905B1 (pt) | Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico | |
KR102343084B1 (ko) | 전자 장치 및 전자 장치의 기능 실행 방법 | |
KR20160127117A (ko) | 개인 존재와 연관된 동작 수행 | |
EP4010833B1 (en) | Machine learning based privacy processing | |
US11178280B2 (en) | Input during conversational session | |
KR102563817B1 (ko) | 사용자 음성 입력 처리 방법 및 이를 지원하는 전자 장치 | |
KR20190109916A (ko) | 전자 장치 및 상기 전자 장치로부터 수신된 데이터를 처리하는 서버 | |
US20200075008A1 (en) | Voice data processing method and electronic device for supporting same | |
CN108848264A (zh) | 麦克风的控制方法、装置、存储介质及电子设备 | |
KR20190106269A (ko) | 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법 | |
US20220392448A1 (en) | Device for processing user voice input | |
KR20190096308A (ko) | 전자기기 | |
JP7250900B2 (ja) | ホットワード認識および受動的支援 | |
CN108573704B (zh) | 对永不熄屏通知使能基于场境的语音响应的方法和装置 | |
US11416213B2 (en) | Electronic device for obtaining and entering lacking parameter | |
KR102551856B1 (ko) | 딥러닝 기반의 예측 모델에 기반하여 보조 보행 장치를 이용하는 피보호자의 감정 상태를 예측하는 전자 장치 및 그 동작 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B03A | Publication of a patent application or of a certificate of addition of invention [chapter 3.1 patent gazette] | ||
B06F | Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette] | ||
B06U | Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette] | ||
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 20/02/2014, OBSERVADAS AS CONDICOES LEGAIS. |