BR102014003975A2 - sistema para detecção de palavra chave no discurso e método associado - Google Patents

sistema para detecção de palavra chave no discurso e método associado Download PDF

Info

Publication number
BR102014003975A2
BR102014003975A2 BR102014003975A BR102014003975A BR102014003975A2 BR 102014003975 A2 BR102014003975 A2 BR 102014003975A2 BR 102014003975 A BR102014003975 A BR 102014003975A BR 102014003975 A BR102014003975 A BR 102014003975A BR 102014003975 A2 BR102014003975 A2 BR 102014003975A2
Authority
BR
Brazil
Prior art keywords
activity
keyword
speech
sequence
list
Prior art date
Application number
BR102014003975A
Other languages
English (en)
Other versions
BR102014003975B1 (pt
Inventor
Chao-Ling Hsu
Liang-Che Sun
Yiou-Wen Cheng
Yuanyuan Wang
Original Assignee
Mediatek Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mediatek Inc filed Critical Mediatek Inc
Publication of BR102014003975A2 publication Critical patent/BR102014003975A2/pt
Publication of BR102014003975B1 publication Critical patent/BR102014003975B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

1/1 resumo “sistema para detecção de palavra chave no discurso e método associado” ainvençãoforneceumsistemaparadetecçãodepalavra 5 chavenodiscursoemétodoassociado.osistemaincluiumdetector depalavrachavenodiscurso,umprevisordeatividadeeumtomador de decisão. o previsor de atividade obtém dados do sensor fornecidos por uma pluralidade de sensores, e processa os dados do sensor para fornecer um resultado de previsão de atividade 10 indicandoumaprobabilidadedeseumusuárioestáprestesaemitir uma palavra chave por voz. o tomador de decisão processa o resultado de previsão de atividade e um resultado de detecção de palavra chave preliminar da detecção de palavra chave no discursoparafornecerumresultadodedetecçãodepalavrachave. 15

Description

SISTEMA PARA DETECÇÃO DE PALAVRA CHAVE NO DISCURSO E MÉTODO
ASSOCIADO
CAMPO DA INVENÇÃO
[0001] A invenção refere-se a um sistema para detecção de palavra chave no discurso e método associado, mais particularmente, a um sistema para melhorar a detecção de palavra chave no discurso pela exploração de sensores para detectar a atividade do usuário, e método associado.
FUNDAMENTO DA INVENÇÃO
[0002] Dispositivos eletrônicos com controle de voz e/ou capacidade de interação tornam-se cada vez mais populares, porque eles podem fornecer interface de usuário à mão livre. O reconhecimento de voz para identificar palavras chave, incluindo os comandos , na voz é essencial para implementar o controle de voz e/ou capacidade de interação.
SUMÁRIO DA INVENÇÃO
[ 0003 ] A invenção divulga um sistema para detecção de palavra chave no discurso, incluindo um detector de palavra chave no discurso, umprevisor de atividade, um tomador de decisão, uma base de dados de atividade e uma base de dados de palavra chave. A base de dados de atividade inclui um número de (uma ou mais) listas de atividade; cada lista de atividade é associada com um aplicativo alvo, e inclui um ou mais modelos de atividade . A base de dados de palavra chave inclui uma ou mais listas de palavra chave; cada lista de palavra chave é associada com um aplicativo alvo, e inclui um ou mais palavras chaves candidatas .
[0004] O previsor de atividade obtém dados do sensor fornecidos por um ou mais sensores, obtém a lista de atividade selecionada a partir da base de dados de atividade com o aplicativo alvo da atividade selecionada correspondendo a um aplicativo atualmente em execução do dispositivo, e dessa forma processando os dados do sensor para fornecer um resultado de previsão de atividade indicando uma probabilidade de se um usuário está prestes a emitir a palavra chave por voz . O previsor de atividade compara os dados do sensor com cada modelo da atividade da lista de atividade selecionada, e consequentemente, fornece um resultado correspondente de atividade para ser incluído no resultado de previsão de atividade . Alternativamente, o previsor de atividade obtém dados extraídos pelos recursos de extração dos dados do sensor, e então compara os dados extraídos com cada modelo da atividade da lista de atividade selecionada para fornecer consequentemente um resultado correspondente de atividade para ser incluído no resultado de previsão de atividade.
[0005] O detector de palavra chave no discurso obtém uma lista de palavra chave selecionada a partir da base de dados de palavra chave com o aplicativo alvo da lista de palavra chave selecionada correspondendo ao aplicativo atualmente em execução do dispositivo, e dessa forma fornecendo um resultado de detecção de palavra chave preliminar. De preferência, o detector de palavra chave no discurso compara o som que entra com cada palavra chave candidata da lista de palavra chave selecionada para dessa forma fornecer o resultado de detecção de palavra chave preliminar.
[0006] O tomador de decisão é acoplado ao previsor de atividade e o detector de palavra chave no discurso, e é capaz de processar o resultado de previsão de atividade e o resultado de detecção de palavra chave preliminar para fornecer um segundo (ex., um aprimorado) resultado de detecção de palavra chave. Por exemplo, o tomador de decisão pode adotar um algoritmo de fusão de probabilidade com base em, ex., teoria de Dempster-Shafer ou um algoritmo de aprendizagem de máquina com base em, ex., modelo de mistura Gaussiano para processar o resultado de previsão de atividade e o resultado de detecção de palavra chave preliminar, e assim fornecer o segundo resultado de detecção de palavra chave. Para outro exemplo, o tomador de decisão pode calcular uma combinação linear (ex., uma soma ponderada) do resultado de previsão de atividade e o resultado de detecção de palavra chave preliminar como o segundo resultado de detecção de palavra chave.
[0007] O sistema inclui ainda um detector de voz. O detector de voz é acoplado ao detector de palavra chave no discurso, e é capaz de avaliar a informatividade (ex., pela SNR, razão sinal para ruído) do som que entra, e dessa formar determinar quando ativar o detector de palavra chave no discurso. Quando a informatividade do som que entra é baixa (ex., abaixo de um limiar de inf ormatividade) , o detector de voz desativa o detector de palavra chave no discurso. Quando a informatividade do som que entra é alta (ex. , maior do que o limiar de inf ormatividade) , o detector de voz ativa o detector de palavra chave no discurso. Quando o detector de palavra chave no discurso é desativado, 0 previsor de atividade e/ou o tomador de decisão não tem que trabalhar, assim o previsor de atividade e/ou o tomador de decisão também pode ser desativado. Quando o detector de palavra chave no discurso é ativado, o previsor de atividade e/ou o tomador de decisão também pode ser ativado para cooperar com o detector de palavra chave no discurso.
[0008] O detector de voz inclui um primeiro estimador, um segundo estimador e um comparador acoplado ao primeiro estimador, o segundo estimador e o detector de palavra chave no discurso. O primeiro estimador gera uma amostra atual de uma primeira sequência como uma soma ponderada de um volume atual do som que entra e uma amostra anterior da primeira sequência; 1 . e . , computando a amostra atual da primeira sequência pela soma de um primeiro produto e um segundo produto, sendo que o primeiro produto é um resultado da multiplicação da amostra anterior da primeira sequência por um primeiro peso, e o segundo produto é um resultado da multiplicação da amostra atual do som que entra por um primeiro peso de complementaridade . O primeiro peso pode ser maior que 0 e menor que 1; o primeiro peso complementar pode ser igual a 1 menos o primeiro peso.
[0009] O segundo estimador gera uma amostra atual de uma segunda sequência como uma soma ponderada do volume atual do som que entra e uma amostra anterior da segunda sequência; i.e., computando a amostra atual da segunda sequência pela soma de um terceiro produto e um quarto produto, sendo que o terceiro produto é um resultado da multiplicação da amostra anterior da segunda sequência por um segundo peso, e o quarto produto é um resultado da multiplicação da amostra atual do som que entra por um segundo peso de complementaridade. O segundo peso pode ser maior que 0 e menor que 1; o segundo peso complementar pode ser igual a 1 menos o segundo peso.
[0010] De preferência, o primeiro peso é menor do que o segundo peso. Assim, a primeira sequência pode indicar sinal significativo (voz) contido no som que entra, e a segunda sequência pode indicar ruido no som. O comparador do detector de voz compara a primeira sequência e a segunda sequência para indicar a informatividade do som que entra. Por exemplo, se uma diferença absoluta entre a primeira e segunda sequência é maior do que um limiar de informatividade, então o detector de voz reflete uma alta informatividade para ativar o detector de palavra chave no discurso. Se a diferença absoluta é menor que o limiar de inf ormatividade, então o detector de voz pode refletir uma baixa informatividade para desativar o detector de palavra chave no discurso.
[0011] Os sensores que fornecem os dados do sensor incluem um ou mais do seguinte: um acelerômetro, um giroscópio, um magnetômetro, um barômetro um sensor de proximidade, sensor de luz, uma tela sensivel ao toque, um receptor de um sistema de posicionamento, um receptor sem fio e uma câmera.
[0012] A invenção ainda divulga um método para a detecção de palavra chave no discurso, incluindo: obter dados do sensor fornecidos por um ou mais sensores, dessa forma computar um resultado de previsão de atividade indicando uma probabilidade de se um usuário está prestes a emitir a palavra chave por voz, e computar um segundo resultado de detecção de palavra chave de acordo com os resultados de previsão de atividade e um resultado de detecção de palavra chave preliminar da detecção de palavra chave no discurso.
[0013] Vários objetos, características e vantagens da invenção serão facilmente aparentes mediante a leitura da seguinte descrição detalhada das modalidades da invenção considerada em conjunto com os desenhos anexos. No entanto, os desenhos aqui empregados são para efeitos de descrição e não devem ser considerados como limitantes.
BREVE DESCRIÇÃO DOS DESENHOS
[0014] Os objetos acima e as vantagens da invenção irão tornar-se mais prontamente aparentes para aqueles normalmente versados na técnica após a revisão da descrição detalhada a seguir e desenhos de acompanhamento, em que : [0015] FIG. 1 ilustra um sistema para detecção de palavra chave no discurso de acordo com uma modalidade da invenção;
[0016] FIG. 2 ilustra curvas de dados do sensor dos resultados detectados e resultados detectados extraídos;
[0017] FIG. 3 ilustra um fluxograma para detecção de palavra chave no discurso assistida por sensor de acordo com uma modalidade da invenção;
[0018] FIG. 4 aFIG. 7 ilustram exemplos de operação da detecção de palavra chave no discurso assistida por sensor de acordo com uma modalidade da invenção;
[0019] FIG. 8 ilustra um fluxograma para modificar a base de dados de atividade mostrada na FIG. 1;
[0020] FIG. 9 ilustra um sistema para detecção de palavra chave no discurso de acordo com uma modalidade da invenção;
[0021] FIG. 10 ilustra uma modalidade do detector de voz mostrada na FIG. 9; e [0022] FIG. 11 ilustra um fluxograma para detecção de palavra chave no discurso assistida por sensor de baixa energia.
DESCRIÇÃO DETALHADA DAS MODALIDADES PREFERIDAS
[0023] Para aumentar a conscientização e interatividade com o usuário e arredores, o dispositivo eletrônico moderno está equipado com um grande número de sensores . Por exemplo, os sensores de um dispositivo de comunicação, ex. , um telefone móvel inteligente, pode incluir um acelerômetro, um giroscópio, um magnetômetro, um barômetro, um sensor de proximidade, sensor de luz, uma tela sensível ao toque, um receptor de um sistema de posicionamento, um receptor sem fio e / or uma câmera, etc.
[0024] Dados do sensor fornecidos pelo sensor (es) de um dispositivo podem ser aproveitados para obter informações de atividade sobre a interação usuário-dispositivo, status do usuário e/ou do ambiente em torno do dispositivo. A informação de atividade sobre a interação usuário-dispositivo pode incluir : (a) se o dispositivo é elevado, abaixado, levantado, colocado no chão, virado, deixado cair, agitado, constantemente mantido, inclinado, mantido plano, aproximado a alguma coisa (ex., usuário), afastado de alguma coisa, e/ou colocado em ambiente escuro (ex., em uma bolsa ou mochila) ou ambiente iluminado, etc; (b) um evento de entrada que representa que o dispositivo precisa interagir com o usuário, ex., se o dispositivo recebe uma chamada, mensagem e/ou e-mail, e/ou se o dispositivo for alarmar em ummomento pré-def inido, tal como uma chamada de manhã, uma chamada para despertar, um alarme, um lembrete, uma pop-up da tela para entrada de item a fazer, reunião listada no calendário, agenda e/ou cronograma. A informação de atividade sobre o status do usuário pode incluir se o usuário está andando, correndo e/ou dirigindo, etc. A informação de atividade sobre o ambiente pode incluir: temperatura ambiente, ruido, luminosidade, localização, posição e/ou hora atual.
[0025] Nesta modalidade, a palavra chave por voz do usuário (comando) muitas vezes ocorre após (e / ou junto com) a atividade de padrão reconhecível. Tomando um telefone celular como um exemplo: o telefone toca para uma chamada recebida, a resposta natural do usuário é levantar primeiro o telefone para ver informações relacionadas, ex., a identificação de quem é a chamada, e, em seguida, decide como responder, ex., para responder ou ignorar/rejeitar a chamada. Assim, a atividade de captação é uma pista para sinalizar para o telefone esperar palavra chave atender por voz (comando). Alternativamente, quando o usuário deseja tirar uma foto pela função de câmera do telefone, a ação natural do usuário é primeiro manter o telefone fixo, e, em seguida, instruir o telefone a tirar a foto. Assim, a atividade de manter estável fornece informações sobre quando esperar uma palavra-chave disparar por voz.
[0026] De preferência, o dado do sensor é utilizado para indicar se a atividade do padrão conhecido ocorre, e aumenta de acordo com a detecção da palavra chave no discurso, pelo fornecimento de informações adicionais, ex., prevendo quando o usuário vai dizer a palavra chave por voz. Por exemplo, um palavra chave pode ser um comando, uma instrução, um termo para a consulta em mecanismos de pesquisa e/ou mecanismos de inteligência artificial, e/ou uma voz informativa, ex. , "Yee-Ha!", embora esta possa não ser um vocabulário oficial.
[0027] Por exemplo, quando o telefone toca para uma atividade de chamada recebida e a atividade de levantar o telefone é detectada, o telefone pode, por conseguinte prever que o usuário vai dizer a palavra chave por voz como "atender" ou "rejeitar", e, portanto, ajustar a sensibilidade da detecção da palavra chave no discurso para facilitar o reconhecimento da palavra chave para atender falada depois , ex., "atender" ou "rejeitar" Por exemplo, o telefone estiver ligado a função de câmera e a atividade de manter estável for detectada, o telefone pode esperar um palavra chave por voz para disparar , ex. , "xis", para tirar a foto, e em seguida, ajustar a sensibilidade da detecção da palavra chave no discurso para facilitar o reconhecimento da palavra chave disparar por voz.
[0028] Assim, detecção de palavra chave no discurso pode ser aprimorada de acordo com a previsão da invenção, sendo que a previsão de atividade é projetada para aproveitar dados do sensor e consequentemente detectar a ocorrência de atividades que indicam, o que acontece antes (ou quando) o usuário está prestes a dizer a palavra chave por voz . Além disso, detecção de palavra chave no discurso e previsão de atividade pode ser realizada no contexto de cenário de aplicação . Nesta modalidade, quando um telefone está executando um aplicativo de comunicação para tocar para uma chamada recebida, a previsão de atividade é arranjada para detectar a ocorrência de um primeiro conjunto de atividades indicativas relacionadas (ex., elevação do telefone), e detecção de palavra chave no discurso é arranjada para reconhecer um primeiro conjunto de palavras chaves por voz relacionadas, como palavras chaves para atender, ex., "atender" ou "rejeitar". Quando o telefone está executando um aplicativo de câmera, a previsão de atividade é arranjada para detectar a ocorrência de um segundo conjunto de atividades indicativas relacionadas (ex. , manter estável) , e detecção de palavra chave no discurso é arranjada para reconhecer um segundo conjunto de palavras chaves por voz relacionadas, ex., a palavra chave de disparo por voz como "xis".
[0029] Há dois tipos de erros para degradar o desempenho da detecção de palavra chave no discurso, incluindo erro de falta e erro de alarme falso. Erro de falta acontece quando o usuário diz a palavra chave por voz, mas a detecção de palavra chave no discurso falha em reconhecer a palavra chave por voz dita. Erro de alarme falso acontece quando o usuário não diz qualquer palavra chave por voz, mas a detecção de palavra chave no discurso erroneamente determina que uma palavra chave por voz foi dita.
[0030] Detecção de palavra chave no discurso tem uma sensibilidade ajustável (ou tendência de reconhecimento) para uma troca entre erro de falta e erro de alarme falso . Aumentar a sensibilidade faz a detecção de palavra chave no discurso tender a interpretar o som que entra da palavra chave por voz, mesmo quando o som que entra é menos provável de conter a palavra chave por voz. Consequentemente, aumentar a sensibilidade reduz a probabilidade de erro de falta enquanto a probabilidade de erro de alarme falso é aumentada. Por outro lado, diminuir a sensibilidade diminui a tendência para a detecção de palavra chave no discurso interpretar o som que entra da palavra chave por voz, mesmo quando o som que entra é muito susceptível de conter a palavra chave por voz. Por isso, a diminuição da sensibilidade aumenta a probabilidade do erro de falta, mas reduz a probabilidade de erro de alarme falso.
[0031] Nesta modalidade, a sensibilidade da detecção da palavra chave no discurso é adaptativamente e dinamicamente ajustada de acordo com a previsão de atividade, assim tanto o erro de falta quanto o erro de alarme falso pode ser suprimidos sem comprometer. Quando uma atividade indicativa é detectada, a sensibilidade de reconhecer a palavra chave por voz relacionada pode ser aumentada, assim o som que entra é mais susceptível a ser reconhecido como palavra chave por voz relacionada, mesmo que a palavra chave falada seja fraca, pouco clara e/ou ruidosa, daí, o erro de falta é suprimido. Por outro lado, durante a ausência de atividades indicativas, a sensibilidade da detecção de palavra chave no discurso pode ser reduzida, assim o erro de alarme falso pode ser suprimido porque o som que entra é menos susceptível de ser incorretamente reconhecido como palavra chave por voz.
[0032] Favor consultar a FIG. 1. FIG. 1 ilustra um dispositivo 10 integrado com um sistema 12 para melhorar um detector de palavra chave no discurso 14 de acordo com uma modalidade da invenção. O dispositivo 10 pode ser um eletrônico consumidor, como um dispositivo de comunicação (ex., um telefone móvel, um telefone celular, um smartphone), um computador de mão ou portátil , um dispositivo de cuidado pessoal acusticamente interativo e/ou controlável , brinquedo, dispositivo para vestir (ex., relógio) , televisão, reprodutor de mídia, gravador de mídia (ex., câmera digital ou filmadora), dispositivo navegador ou de posicionamento, etc. Em uma modalidade, o detector da palavra chave no discurso 14 é arranjado para manter automaticamente o monitoramento se som que entra contém a palavra chave por voz mesmo sem sugestão do usuário.
[0033] Para aprimorar o desempenho do detector de palavra chave no discurso 14, o sistema 12 inclui ainda uma base de dados de palavra chave 16, um previsor de atividade 18, uma base de dados de atividade 20 e um tomador de decisão 22. A base de dados de palavra chave 16 é acoplada ao detector de palavra chave no discurso 14, e inclui um número N2 (igual a ou maior que 1) das listas de palavra chave KL [ 1 ] a KL [N2 ] . De preferência, cada lista de palavra chave KL[j] (para j = 1 a N2) é associada com um aplicativo alvo app [ j ] , e inclui uma quantidade P { j } (igual a ou maior que 1) de palavras chaves candidatas kw[j,l] a kw [ j , P { j } ] . Diferentes listas de palavra chave podem se associar com diferentes aplicativos alvos, e podem ter diferentes quantidades de palavras chaves candidatas. Isto é, para índices jl não igual a j2, o aplicativo alvo app[jl] da lista de palavra chave KL[j1] pode diferir do aplicativo alvo app[j2] da lista de palavra chave KL[j2]; a quantidade P{j1} da lista de palavra chave KL [ j 1 ] pode diferir de ou ser igual a uma quantidade P { j 2 } da lista de palavra chave KL[j2].
[0034] A base de dados de atividade 20 é acoplada ao previsor de atividade 18, e inclui um número NI (igual a ou maior que 1) de listas de atividade AL [ 1 ] a AL[N1]; cada lista de atividade AL [i] (para i = 1 a Nl) é associada com um aplicativo alvo app[i] , e inclui uma quantidade Q {i } (igual a ou maior que 1) de modelos de atividade at[i,l] a at[i,Q{i}]. Diferentes listas de atividade podem se associar com diferentes aplicativos alvos, e podem ter diferentes quantidades de modelos de atividade.
[0035] O detector de palavra chave no discurso 14 recebe um sinal de som Snd. Por exemplo, o dispositivo 10 pode incluir microfone(s) e/ouconjunto(s) de microfone (não mostrado) para coletar o som, e dessa forma fornecer o sinal digital Snd pelo processamento (ex., conversão de analógico para digital) do som coletado. Alternativamente, a partir de outro aparelho remoto (ex. , um microfone sem fio, não mostrado) , o dispositivo 10 pode receber um sinal remotamente fornecido (não mostrado) que contém som codificado ou não codificado, e dessa forma fornecer o sinal de som Snd pelo processamento do sinal remotamente fornecido.
[0036] De acordo com um aplicativo atualmente em execução do dispositivo 10, o detector de palavra chave no discurso 14 também pode obter uma lista de palavra chave selecionada KL[jx] a partir das listas de palavra chave KL[1 ] a KL[N2] da base de dados de palavra chave 16, sendo que o aplicativo alvo app[jx] da lista de palavra chave selecionada KL[jx] corresponde ao aplicativo atualmente em execução do dispositivo 10. Por exemplo, a partir do dispositivo 10 e/ou um sistema operacional (OS) do dispositivo 10, o detector de palavra chave no discurso 14 e/ou a base de dados de palavra chave 16 pode acessar um status que indica o aplicativo atualmente em execução do dispositivo 10, e pode então achar (selecionar) a lista de palavra chave KL[jx] cujo aplicativo alvo app[jx] é igual ao aplicativo atualmente em execução do dispositivo 10 . Aplicativos executados pelo dispositivo 10 podem se referir a programas utilitários, serviços, procedimentos e/ou sub-rotinas executados sob o controle do OS. Um aplicativo atualmente em execução pode referir-se a um aplicativo ativo no momento, um aplicativo de primeiro plano, uma aplicação de fundo, e/ou um aplicativo em foco.
[0037] Pela seleção da lista de palavra chave correspondente ao aplicativo atualmente em execução, a detecção de palavra chave no discurso pode ser realizada com referência a um contexto adaptativamente. Por exemplo, a respeito de um aplicativo de comunicação que é responsável pela manipulação da chamada recebida, uma lista de palavra chave correspondente pode incluir candidatos a palavras chave para atender como "atender" e "rejeitar". Para um aplicativo de câmera, sua lista de palavra chave correspondente pode incluir candidatos de palavra chave para disparar como "xis".
[0038] Em resposta ao sinal Snd, o detector de palavra chave no discurso 14 pode fornecer um resultado de detecção de palavra chave preliminar Skw de acordo com a lista de palavra chave selecionada KL[jx]. Por exemplo, o detector de palavra chave no discurso 14 pode comparar o som que entra no sinal Snd com cada uma das palavras chaves candidatas kw [ j x, 1 ] a kw [ j x, P { j x} ] da lista de palavra chave selecionada KL [ j x] para fornecer o resultado de detecção de palavra chave preliminar S kw.
[0039] O previsor de atividade 18 recebe um sinal de dados do sensor Ssd fornecido pelo sensor (es) do dispositivo 10. Por exemplo, o dispositivo 10 pode incluir sensor (es) para detectar o movimento, aceleração, localização, posição, direção e/ou atitude angular (ex., sendo virado ou inclinado), volume circundante, brilho e/ou campo (s) de força exercido sobre o dispositivo 10 (ex., campo magnético, eletro-magnético e/ou de gravidade) como o sinal Ssd. Alternativamente, a partir de outro aparelho remoto (ex., sensor (es) remoto, não mostrado), o dispositivo 10 pode receber um sinal remotamente fornecido (não mostrado) que contém, incorpora, e/ou codificado com dados do sensor, e dessa forma fornecer o sinal Ssd pelo processamento do sinal remotamente fornecido.
[0040] De acordo com os aplicativo atualmente em execução do dispositivo 10, o previsor de atividade 18 obtém a lista de atividade selecionada AL[ix] a partir das listas de atividade AL [ 1 ] a AL[N1] da base de dados de atividade 20, sendo que o aplicativo alvo app[ix] da lista de atividade selecionada AL[ix] representa o aplicativo atualmente em execução do dispositivo 10. Por exemplo, a partir do dispositivo 10 e/ou OS do dispositivo 10, o previsor de atividade 18 e/ou a base de dados de atividade 20 obtém um status indicando o aplicativo atualmente em execução do dispositivo 10, e então seleciona a lista de atividade AL [ ix] associada com um aplicativo alvo app [ ix] indicando o aplicativo atualmente em execução do dispositivo 10. Pela seleção da lista de atividade associada com um aplicativo atualmente em execução, a previsão de atividade pode ser realizada de uma maneira adaptativa ao contexto. Por exemplo, a respeito de uma aplicação de comunicação responsável pela manipulação de chamada recebida, uma lista de atividade correspondente pode incluir um modelo de atividade da captação do telefone, para um aplicativo de câmera, a sua lista de atividades correspondente pode incluir um modelo de atividade para se manter constante.
[0041] De acordo com os lista de atividade selecionada AL[ix] , o previsor de atividade 18 processa o sinal Ssd para fornecer um resultado de previsão de atividade Sap indicando uma probabilidade de se um usuário estar prestes a emitir uma palavra chave por voz. Por exemplo, o previsor de atividade 18 compara o sinal Ssd com cada um dos modelos de atividade at[ix,l] a at[ix,Q{ix}] registrados na lista de atividade selecionada AL [ix] , e dessa forma fornece um resultado correspondente de atividade como o resultado de previsão de atividade Sap.
[0042] Em uma modalidade, cada modelo de atividade at[i,q] pode incluir resultado(s) padrão, tipico, representativo e/ou mais frequentemente detectado de uma atividade indicativa (movimento ou estado) que acontece antes ou quando o usuário está prestes a dizer a palavra chave por voz. Cada resultado detectado se associa com um sensor e é registrado como uma referência no modelo de atividade at[i,q]. Quando o previsor de atividade 18 gera o resultado Sap pela comparação dos dados do sensor Ssd com cada modelo de atividade at[ix,q] da lista de atividade selecionada AL[ix], para cada resultado detectado de um dado tipo de sensor incluído no sinal de dados do sensor Ssd, por exemplo, o previsor de atividade 18 checa se o modelo de atividade at[ix,q] inclui uma referência associada com um mesmo tipo de sensor; se verdadeiro, o previsor de atividade 18 compara o resultado detectado e a referência respectivamente incluída no sinal Ssd e o modelo de atividade at[ix,q] no mesmo tipo de sensor, e então reflete o resultado da comparação no sinal Sap.
[0043] Em uma modalidade, cada modelo de atividade at[i,q] inclui referências extraídas, cada referência extraída é associada com um sensor, e representa as feições extraídas de um resultado detectado de uma atividade indicativa. Quando o previsor de atividade 18 gera o resultado Sap pela comparação do sinal de dados do sensor Ssd com cada modelo de atividade at[ix,q] da lista de atividade selecionada AL[ix], o previsor de atividade 18 pode primeiro extrair as feições de cada resultado detectado incluído no sinal de dados do sensor Ssd para dessa forma gerar um resultado detectado extraído (não mostrado) ; para cada resultado detectado extraído de um dado tipo de sensor incluído no sinal Ssd, o previsor de atividade 18 pode então achar quando o modelo de atividade at [ ix, q] contém uma referência extraída para o mesmo tipo do sensor; se verdadeiro, o previsor de atividade 18 compara o resultado detectado extraído e a referência extraída respectivamente incluída no sinal Ssd e o modelo de atividade at[ix,q] no mesmo tipo de sensor, e então reflete o resultado da comparação no sinal Sap.
[0044] A extração das feições de um resultado detectado pode ser conseguida pela filtragem (ex., filtragem passa-baixa) do resultado detectado, cálculo das estatísticas do resultado detectado, e/ou transformação do resultado detectado em domínio de espectro. Favor consultar a FIG. 2 que ilustra exemplos dos resultados detectados e resultados detectados extraídos; os resultados detectados são detectados por um acelerômetro . Como mostrado na FIG. 2, as curvas de dados do sensor slx, sly e slz representam, respectivamente, eixo x, eixo y e eixo z da aceleração detectada durante uma atividade de inversão, e formam em conjunto um resultado detectado do acelerômetro . A extração das feições (ex., f iltragempassa baixa) das curvas slx, sly e slz pode respectivamente obter três curvas de dados do sensor extraídas elx, ely e elz para coletivamente formar um resultado detectado extraí do . Similarmente, as curvas de dados do sensor s2x, s2y e s2z representam, respectivamente, o eixo x, eixo y e eixo z da aceleração detectada durante uma atividade de manter estável. Pela extração dos recursos das curvas s2x, s2y e s2z, três curvas de dados do sensor extraídas e2x, e2yee2z podem ser obtidas respectivamente . Características de cada resultado detectado e resultado detectado extraído podem ser usadas para distinguir diferentes atividades. Por exemplo, uma transição a partir das amplitudes de +9,8 a -9,8 pode ser observada na curva slz ou a curva elz; portanto, características como a duração da transição (ex., intervalo Td ou Te), tempo de cruzamento zero e/ou diferença de amplitude da transição podem ser utilizadas para distinguir se o dispositivo é deixado cair ou virado pelo usuário.
[0045] Favor consultar a FIG. 1 novamente. O tomador de decisão 22 é acoplado ao previsor de atividade 18 e o detector de palavra chave no discurso 14 , e é capaz de processar o resultado de previsão de atividade Sap e o resultado de detecção de palavra chave preliminar Skw para fornecer um segundo resultado de detecção de palavra chave Sdm, assim o dispositivo 10 pode responder de acordo com o resultado Sdm. Porque o resultado Sdm é atingido pelo processamento do resultado de previsão de atividade Sap e o resultado de detecção de palavra chave do discurso original Skw, o resultado Sdm é mais confiável do que o resultado Skw, e assim a detecção de palavra chave no discurso do detector de palavra chave no discurso 14 é aprimorada.
[0046] Junto com a FIG. 1, favor consultar a FIG. 3 que ilustra um fluxograma 100 de acordo com uma modalidade da invenção. O sistema 10 na FIG. 1 pode adotar o fluxograma 100 para aprimorar o desempenho do detector de palavra chave no discurso 14. O fluxograma 100 inclui as etapas a seguir.
[0047] Etapa 102: identificar o aplicativo atualmente em execução do dispositivo 10. Como mencionado anteriormente, o sistema 12 pode acessar um status do dispositivo 10 para identificar o aplicativo atualmente em execução. Por exemplo, o status pode ser fornecido pelo OS do dispositivo 10, e/ou por um registro de uma CPU (unidade de processamento central, não mostrada) que controla o dispositivo 10.
[0048] Etapa 104: selecionar uma lista de atividade correspondente AL[ix] e uma lista de palavra chave correspondente KL [ jx] respectivamente a partir da base de dados de atividade 20 e a base de dados de palavra chave 16.
[0049] Etapa 106: pelo o detector de palavra chave no discurso 14, realizar uma detecção de palavra chave no discurso preliminar com base no sinal de som Snd e a lista de palavra chave selecionada KL[ix], de modo a fornecer o resultado de detecção de palavra chave preliminar Skw . Por exemplo, o detector de palavra chave no discurso 14 pode comparar o som no sinal Snd (FIG. 1) com as palavras chaves candidatas kw[jx,l] a kw[jx,P{jx}] para respectivamente obter resultados de comparação scr [ 1] a scr[P{jx}], cada resultado scr[p] (para p=l a P{jx}) quantitativamente indica a similaridade entre o sinal Snd e a palavra chave candidata kw[jx,p], e/ou indica a probabilidade ou a possibilidade de que o sinal Snd corresponda à palavra chave candidata kw[jx,p] . O detector de palavra chave no discurso 14 também pode obter um resultado de comparação adicional scr[P{jx}+l] para quantitativamente indicar a probabilidade ou possibilidade de que o sinal Snd falhe em corresponder a qualquer das palavras chaves candidatas kw[j x,1] a kw[jx,P{jx}], i.e., para indicar a probabilidade para o sinal Snd ser "palavra não-chave". Então o detector de palavra chave no discurso 14 pode encontrar uma máxima dos resultados scr[1] a scr [P{jx}+l] e assim fornecer o resultado Skw. Para conveniência da discussão, o máximo dos resultados scr[1] a scr[P{jx}+l] é denotado como o resultado scr[p_max] com indice p_max sendo um dos números 1 a (P{jx}+1), e a palavra chave candidata kw[jx,p_max] correspondendo ao resultado scr[p_max] é referida como uma palavra chave mais provável; se o indice p_max é igual a (P{jx}+1), a palavra chave mais provável kw[jx,p__max] refere-se à situação de "palavra não-chave".
[0050] Para obter os resultados scr[1] a scr[P{jx}+1], o detector de palavra chave no discurso 14 (FIG. 1) pode ser um mapeador de palavra chave que adota algoritmo(s) de processamento de discurso com base em, ex. , modelo de Markov escondido (HMM) , etc . Cada um dos resultados scr [1] a scr [P{ jx} + l] pode ser uma classificação linear ou uma probabilidade de logaritmo.
[0051] Etapal08: de acordo com a lis ta de atividade selecionada AL[ix] e dados do sensor no sinal de dados do sensor Ssd, compute o resultado de previsão de atividade Sap pelo previsor de atividade 18 (FIG. 1) para indicar uma probabilidade ou possibilidade para quando um usuário está prestes a emitir uma palavra chave por voz. Por exemplo, o previsor de atividade 18 compara o sinal Ssd com cada modelo de atividade at[ix,q] da lista de atividade selecionada AL[ix] (para q=l a Q{ix}), e dessa formar fornecer um resultado que corresponde a atividade acr[q] para quantitativamente indicar similaridade entre o modelo de atividade at[ix,q] e o sinal Ssd, e/ou probabilidade ou possibilidade de que o sinal Ssd corresponda ao modelo de atividade at[ix,q] . Os resultados acr[1] aacr[Q{ix}] são então coletados para formar o resultado Sap, ex . , o resultado Sap inclui os resultados acr [1] a acr[Q{ix}] . Porque o sinal de dados do sensor Ssd pode incluir os resultados detectados de diferentes sensores (ou pode fornecer resultados detectados extraídos de diferentes sensores), e cada modelo de atividade at[ix,q] pode incluir referências (ou referências extraídas) de diferentes sensores, o previsor de atividade 18 pode comparar cada resultado detectado (ou cada resultado detectado extraido) de um sensor com uma referência (ou uma referência extraida) do mesmo sensor para obter um resultado de comparação individual, e gerar o resultado correspondente acr[q] de acordo com os resultados de comparação de diferentes sensores.
[0052] Para obter os resultados acr[1] a acr[Q{ix}] , o previsor de atividade 18 pode adotar o algoritmo baseado em regras, ou algoritmo(s) mais sofisticado com base no modelo de mistura Gaussiano, modelo de Markov escondido, máquina de vetor de suporte e/ou rede neural, etc. Alternativamente, o previsor de atividade 18 pode adotar similarmente algoritmo(s) de medição com base no distorção de tempo dinâmica, etc. Observe que as etapas 106 e 108 pode ser executadas simultaneamente ou em ordem sequencial.
[0053] Etapa 110 : pelo tomador de decisão 22 (FIG. 1) , faça uma decisão final para fornecer o resultado de detecção de palavra chave Sdrrt de acordo com o resultado de detecção de palavra chave preliminar Skw e o resultado de previsão de atividade Sap. O resultado Sdm pode ser uma probabilidade, uma pontuaçãoand/or uma logaritmo medindo quantitativamente o quão provável a palavra chave mais provável kw[jx,p_max] da etapa 106 ser realmente dita no contexto do aplicativo atualmente em execução e atividade do usuário.
[0054] O dispositivo 10 pode periodicamente repetir o fluxograma 100 para realizar a detecção de palavra chave no discurso assistido por sensor. Alternativamente, o dispositivo 10 pode executar o fluxograma 100 quando necessário, ex., quando o usuário instrui.
[0055] Em uma modalidade, o resultado Sdm é obtido pela verificação se o resultado Skw satisfaz uma primeira condição e o resultado Sap satisfaz uma segunda condição. Por exemplo, a primeira condição pode ser satisfeita se o resultado Skw for maior do que o primeiro limiar, e a segunda condição pode ser satisfeita se cada um dos resultados acr [ 1 ] a acr[Q{ix}] no resultado Sap for maior do que um segundo limiar. Alternativamente, a segunda condição é: se uma soma (ou uma combinação linear) dos resultados acr[1] aacr[Q{ix}] for maior do que um segundo limiar. Alternativamente, a segunda condição é: se uma propriedade estatística (ex., máxima, mínima, média, etc.) dos resultados acr[1] a acr[Q{ix}] for maior do que um segundo limiar. De preferência, quando tanto a primeira quanto a segunda condição são satisfeitas, o tomador de decisão 22 (FIG. 1) pode determinar que a palavra chave mais provável kw [ j x, p_max] é dita e reflete a afirmativa com o resultado Sdm, assim o dispositivo 10 pode, portanto, responder, ex., realizar operações associadas com uma palavra chave kw[jx,p_max]. Por outro lado, se uma das primeira e segunda condição não é satisfeita (ou a determinada palavra chave kw [ j x, p_max] representa "palavra não-chave") , então o tomador de decisão 22 pode refletir a negação com o resultado Sdm, assim a operação do dispositivo 10 não será afetada.
[0056] Em uma modalidade, o resultado Sdm é obtido pela computação de uma combinação linear dos resultados acr[1] aacr[Q{ix}] e Skw, e comparação se a combinação linear for maior do que um limiar predefinido; se verdadeiro, o tomador de decisão 22 determina que a palavra chave mais provável kw[jx,p_max] é ouvida, caso contrário o tomador de decisão 22 determina que a palavra chave kw[jx,p_max] não é reconhecida.
[0057] Em outras modalidades , o tomador de decisão 22 pode adotar um algoritmo de fusão de probabilidade com base em, ex. , teoria de Dempster-Shafer, ou um algoritmo de aprendizagem de máquina com base em, ex., modelo de mistura Gaussiano, para processar os resultados Skw e acr [ 1 ] aacr[Q{ix}] e dessa forma atingir um resultado mais confiável Sdm. Os algoritmos sofisticados acima mencionados podem aplicar número arbitrário de probabilidades como entradas e consequentemente proporcionar uma probabilidade conclusiva como uma saída, por isso oferece uma solução flexível para integrar a informação respectivamente fornecida pelos resultados Skw e acr[1] a acr [Q{ix}] , já que o número Q { ix } pode ser diferente sob contextos de aplicação diferentes. Alternativamente, diferentes algoritmos podem ser combinados para gerar o resultado Sdm. Por exemplo, o tomador de decisão 22 adota um primeiro algoritmo para processar os resultados acr [ 1 ] aacr[Q{ix}] para dessa forma obter um primeiro resultado, e adota um segundo algoritmo para processar o primeiro resultado e o resultado Skw para assim obter o resultado Sdm.
[0058] Junto com a FIG. 1, favor consultar a FIG. 4 a FIG. 7 que ilustram exemplos de operação do dispositivo 10 (FIG. 1) . Assuma que o dispositivo 10 é um telefone móvel inteligente para a FIG. 4 a FIG. 7 . A FIG. 4 demonstra um cenário de tirar foto. Quando o usuário quer tirar uma foto com o dispositivo 10, uma sequência natural, conveniente e ação intuitiva para o usuário é: ativar o aplicativo de câmera do dispositivo 10 , manter o dispositivo 10 estável, e dizer a palavra chave disparar por voz, ex., "xis". Assim, para implementar um disparo de foto por controle de voz assistido por sensor, uma lista de atividade (FIG. 1) correspondente ao aplicativo de câmera pode incluir um modelo de atividade que representa a atividade indicativa de manter estável, e a lista de palavra chave correspondente ao aplicativo de câmera pode incluir a palavra(s) chave de disparo por voz candidata .
[0059] O disparo de foto por controle de voz assistido por sensor funciona como segue. Quando o usuário ativa o aplicativo de câmera do dispositivo 10 para preparar para disparar a foto, oprevisor de atividade 18 (FIG. 1) do dispositivo 10 aproveita dados do sensor para detectar quando a atividade indicativa de manter estável ocorre. Quando o usuário está mantendo o dispositivo 10 estável, o previsor de atividade 18 refletirá a ocorrência da atividade indicativa, assim o dispositivo 10 pode prever que o usuário vai falar a palavra chave de disparo por voz para disparar a captação da foto, e o dispositivo 10 permite que a palavra chave de disparo por voz seja reconhecida mais facilmente. Por exemplo, o tomador de decisão 22 (FIG. 1) aumenta a sensibilidade da identificação da palavra chave de disparo por voz, daqui a palavra chave de disparo por voz pode ser reconhecida mesmo quando é dita fracamente ou em ambientes ruidosos. Uma vez que o tomador de decisão 22 reflete que a palavra chave de disparo por voz é reconhecida, o dispositivo 10 pode responder tirando a foto.
De modo contrário, quando a atividade indicativa de manter estável não é detectada, é improvável que o usuário diga a palavra chave de disparo por voz, assim o dispositivo 10 pode evitar o reconhecimento errôneo da palavra chave de disparo por voz . Por exemplo, o tomador de decisão 22 diminui a sensibilidade da identificação da palavra chave de disparo por voz .
[0060] FIG. 5 demonstra um cenário de atender uma chamada recebida. Quando o dispositivo 10 recebe uma chamada recebida e toda para chamar a atenção do usuário, uma sequência de ação natural e amigável para o usuário é: elevar o dispositivo 10 para ver a informação sobre a chamada recebida (ex., quem está ligando) , determinar como responder (ex., atender a chamada, rejeitá-la ou ignorá-la) , e consequentemente dizer uma palavra chave para atender por voz, ex., "atender," "rejeitar," "ignorar," ou "mudo." Nesta modalidade, para implementar uma resposta à chamada por controle de voz assistido por sensor, uma lista de atividade correspondente a um aplicativo de comunicação responsável por gerenciar a chamada recebida pode incluir um modelo de atividade que grava a atividade indicativa de levantar o telefone, e a lista de palavra chave correspondente ao aplicativo de comunicação pode incluir as palavras chaves candidatas para atender por voz ex., "atender," "rejeitar," "ignorar," ou "mudo." Por exemplo, quando o usuário está em uma reunião e mesmo fazendo um discurso, ele pode dizer "mudo" para silenciar o dispositivo 10 rapidamente durante toda a reunião.
[0061] A resposta à chamada por controle de voz assistido por sensor funciona como segue. Quando o aplicativo que gerencia a chamada recebida recebe uma chamada recebida, o previsor de atividade 18 é instruído para detectar quando a atividade indicativa de elevar o telefone ocorre. Quando o usuário não eleva o dispositivo 10, o previsor de atividade 18 reflete a ocorrência da atividade indicativa, assim o dispositivo 10 pode prever que o usuário vai falar a palavra chave para atender por voz, e permitir que as palavras chaves para atender por voz sejam reconhecidas mais facilmente. Por exemplo, o tomador de decisão 22 reduz um limiar para confirmar o reconhecimento positivo da palavra chave para atender por voz, assim a palavra chave para atender por voz pode ser reconhecida mesmo quando é dita fracamente ou em ambientes ruidosos . Uma vez que o tomador de decisão 22 reflete que a palavra chave para atender por voz é reconhecida, o dispositivo 10 pode reagir adequadamente, ex. , aceitar, rejeitar, ignorar ou silenciar a chamada. De modo contrário, quando a atividade indicativa de elevar o telefone não é detectada, é improvável que o usuário diga a palavra chave para atender por voz, assim o dispositivo 10 pode evitar o reconhecimento errôneo da palavra chave para atender por voz . Por exemplo, o tomador de decisão 22 aumenta o limiar para confirmar o reconhecimento das palavras chaves para atender por voz .
[0062] FIG. 6 demonstra um cenário de fazer uma chamada transmitida. Quando o usuário quer fazer uma chamada transmitida, uma sequência de ação intuitiva e conveniente é: elevar o dispositivo 10 para o lado da orelha, e dizer um nome de quem se quer chamar, ex . , "ligar para Mary" . Para implementar uma chamada de telefone por controle de voz assistida por sensor, uma lista de atividade correspondente a um aplicativo de comunicação responsável por gerenciar chamada transmitida pode incluir um modelo de atividade que grava a atividade indicativa de elevar o telefone para o lado da orelha, e a lista de palavra chave correspondente ao aplicativo de comunicação pode incluir as palavras chaves de chamada de voz candidatas relacionadas aos nomes dos possíveis objetos de chamada, ex. , nomes listados na agenda e/ou lista de contatos.
[0063] A chamada por controle de voz assistida por sensor funciona como segue. Quando o usuário ativa o aplicativo de comunicação para se preparar para fazer uma chamada transmitida ou quando o dispositivo 10 está executando automaticamente o aplicativo de comunicação como um aplicativo padrão executado quando nenhum outro aplicativo está funcionando, o previsor de atividade 18 é informado para detectar quando a atividade indicativa de elevar o telefone ocorre. Quando o usuário não eleva o dispositivo 10 para o lado da orelha, o previsor de atividade 18 reflete a ocorrência da atividade indicativa, assim o dispositivo 10 pode prever que o usuário vai falar uma palavra chave de chamada de voz, e portanto permite que a palavra chave de chamada de voz seja reconhecida mais facilmente. Por exemplo, o tomador de decisão 22 aumenta a tendência a admitir o reconhecimento positivo da palavra chave para atender por voz, assim a palavra chave de chamada de voz pode ser reconhecida mesmo quando é dita fracamente ou em ambientes ruidosos. Uma vez que o tomador de decisão 22 reflete que uma palavra chave de chamada de voz é reconhecida, o dispositivo 10 faz a chamada de acordo com a palavra chave de chamada de voz. Por outro lado, quando a atividade indicativa não é detectada, é improvável que o usuário diga uma palavra chave de chamada de voz, assim o dispositivo 10 pode evitar o reconhecimento errôneo duma palavra chave de chamada de voz; equivalentemente, o tomador de decisão 22 pode reduzir a tendência a admitir o reconhecimento da palavra chave para atender por voz.
[0064] FIG. 7 demonstra um cenário de acordar um telefone inativo e/ou destravar um telefone bloqueado. Para economizar energia, smartphones modernos entram em um modo de repouso em que apenas as funções básicas são mantidas, e outras funções (ex., exibição de tela) são desligadas. Para maior comodidade do usuário, é desejado despertar um telefone do modo de repouso simplesmente pela voz do usuário, em vez de tocar a tela ou o botão de empurrar. Assim, o usuário pode despertar o telefone do repouso dizendo uma palavra chave, ex, "acordar". Para implementar consequentemente um despertar do telefone por controle de voz assistido por sensor, uma lista de atividade correspondente a um aplicativo de espera responsável pela manipulação do despertar do telefone pode incluir modelo (s) de atividade que grava um estado (s ) indicativo no qual o dispositivo 10 é mantido estável, quieto e estando a mão, e a lista de palavra chave correspondente ao aplicativo de esperapode incluir palavra chave de despertar por voz candidata como "acordar." [0065] O despertar do telefone por controle de voz assistido por sensor funciona como segue. Quando o dispositivo 10 vai para um modo de repouso e o aplicativo de espera está funcionando, o previsor de atividade 18 é informado para detectar quando qualquer dos estados indicativos ocorre. Quando o dispositivo lOnãoentra em um dos estados indicativos, o previsor de atividade 18 reflete a entrada do estado indicativo, assim o dispositivo 10 pode esperar a palavra chave de despertar por voz, e portanto permite que a palavra chave de despertar por voz seja reconhecida mais facilmente. Por exemplo, o tomador de decisão 2 2 tende aaceitaro reconhecimento positivo da palavra chave de despertar por voz, assim a palavra chave de despertar por voz pode ser reconhecida mesmo quando é dita fracamente ou em ambientes ruidosos . Uma vez que o tomador de decisão 22 reflete que a palavra chave de despertar por voz é reconhecida, o dispositivo 10 pode sair do modo de repouso. Por outro lado, quando nenhum dos estados indicativos é detectado, ex. , quando o dispositivo 10 é carregado em uma mochila, é improvável que o usuário diga a palavra chave de despertar por voz, assim o dispositivo 10 pode evitar o reconhecimento errôneo da palavra chave de despertar por voz; de modo equivalente, o tomador de decisão 2 2 tende a rejeitar ou ignorar o reconhecimento da palavra chave de despertar por voz.
[0066] Apesar de as FIG. 4 a FIG. 7 apenas ilustrarem um número limite de exemplos, deve-se notar que a detecção da palavra chave no discurso assistido por sensor da invenção pode realmente fornecer uma, função de controle de voz e intuitiva, amigável, precisa e função de controle de voz natural, conveniente, intuitiva, amigável, precisa e confiável facilmente na vida diária do usuário. Por exemplo, o usuário pode acordar o dispositivo pela voz (Fig. 7) e, em seguida, tirar foto pela voz (Fig. 4), fazer chamadas transmitidas por voz (Figura 6) e/ou atender chamadas recebidas por voz (Fig. 5) .
[0067] A lista(s) de atividade e modelo(s) de atividade correspondente em uma base de dados de atividade 20 (FIG. 1) pode ser preestabelecida por um fabricante ou um projetista do dispositivo 10. Além disso, a base de dados de atividade 20 pode ser modificada de acordo com a necessidade individual do usuário. Por exemplo, o sistema 12 pode permitir que o usuário adicione, apague, edite, mova e/ou substitua o modelo de atividade e lista de atividade. Junto com a FIG. 1, favor consultar a FIG. 8 que ilustra um fluxograma 200 de acordo com uma modalidade da invenção. O dispositivo 10 pode adotar o fluxograma 200 para atualizar a base de dados de atividade 20 pela adição de um novo modelo de atividade ou modificação de um modelo de atividade existente por um novo. O fluxograma 200 inclui as etapas a seguir.
[0068] Etapa 202: pelo dispositivo 10, entrar em um modo de treinamento para se preparar para a modificação do usuário quando o usuário quer atualizar manualmente a base de dados de atividade 20. O dispositivo 10 pode, então, pedir ao usuário para especificar um elemento (ex., uma lista de atividade e/ou um modelo de atividade) a ser modificado, e como o elemento vai ser modificado (ex., por adição ou substituição). Quando o dispositivo 10 entra no modo de treinamento, o dispositivo 10 pode primeiro parar o fluxograma 100 (FIG. 3).
[0069] Etapa 204: pelo dispositivo 10, coletar dados do sensor quando o usuário realiza uma nova atividade destinada a ser adicionada à base de dados de atividade 20 como um novo modelo de atividade, ou destinada a substituir um modelo de atividade existente. Em uma modalidade, o dispositivo 10 pode extrair recursos dos dados do sensor, ex., pelo previsor de atividade 18 a partir do sinal de dados do sensor Ssd.
[0070] Etapa 206: para estabelecer um modelo de atividade estatisticamente confiável, o dispositivo 10 sugere ao usuário repetir a nova atividade várias vezes; cada vez quando o usuário repete a nova atividade, o dispositivo 10 repete a etapa 204. Quando o dispositivo 10 coleta dados do sensor suficientes para construir um novo modelo de atividade confiável, o dispositivo 10 prossegue para a etapa 208 . Se os dados coletados não são satisfatórios, o fluxograma 200 repete a etapa 204.
[0071] Etapa 208: pelo dispositivo 10, atualizar a base de dados de atividade, ex., adicionar o new modelo de atividade ou substituir um modelo de atividade existente por um novo modelo de atividade, de acordo com os dados do sensor coletados.
[0072] Etapa 210: sair do modo de treinamento, então o dispositivo 10 pode restaurar o fluxograma suspenso 100 (etapa 202), ou entrar em outro modo.
[0073] Além da base de dados de atividade 20, a base de dados de palavra chave 16 também pode ser modificada pelo usuário de acordo com um fluxograma similar ao fluxograma 200 .
[0074] Porque a detecção de palavra chave no discurso é esperada para monitorar a palavra chave a qualquer momento sem sugestão do usuário, o consumo de energia é ainda considerado, especialmente para dispositivos móveis que dependem da batería para fonte de energia. A detecção de voz pode ser aplicada para avaliar como o som que entra informativo é, de modo a ativar a detecção de palavra chave no discurso quando o som que entra parece ser informativo, e de outra forma desativar a detecção de palavra chave no discurso para economia de energia .
[0075] Junto com a FIG. 1, favor consultar a FIG. 9 que ilustra a detecção de palavra chave no discurso assistida por sensor do sistema de baixa energia 32 integrado em um dispositivo 30. Similar ao sistema 12 da FIG. 1, o sistema 32 na FIG. 9 inclui um detector de palavra chave no discurso 44, uma base de dados de palavra chave 46, um previsor de atividade 48, uma base de dados de atividade 50 e um tomador de decisão 52. Além disso, o sistema 32 inclui um detector de voz 34.0 dispositivo 30 inclui a multiplexador 36, um conversor de analógico para digital (ADC) 38 e dois terminais 40a e 40b. Se o dispositivo 30 é equipado com microfone(s) analógico (não mostrado), o microfone(s) analógico pode ser conectado ao terminal 40a, assim um sinal de som analógico (não mostrado) fornecido pelo microfone(s) analógico pode ser retransmitido para o ADC 38 para ser convertido em um sinal de som digital (não mostrado), que é então é então conduzido para se tornar um sinal de som digital Snd pelo multiplexador 36. Por outro lado, se o dispositivo 30 é equipado com microfone (s) digital (não mostrado), o microfone (s) digital pode ser conectado ao terminal 40b, assim um sinal de som digital (não mostrado) fornecido pelo microfone (s) digital pode ser conduzido para se tornar o sinal Snd pelo multiplexador 36. O sistema 32 também recebe um sinal de dados do sensor Ssd fornecido pelo sensor (s) do dispositivo 30.
[0076] O funcionamento do detector de palavra chave no discurso 44, o previsor de atividade 48 e o tomador de decisão 52 são similares àquele do detector de palavra chave no discurso 14, o previsor de atividade 18 e o tomador de decisão 22 (FIG. 1). Com o funcionamento do detector de palavra chave no discurso 44, o previsor de atividade 48 e o tomador de decisão 52 assim como as bases de dados 4 6 e 50 podem implementar a detecção de palavra chave no discurso assistida por sensor da invenção pelo seguinte fluxograma 100 (FIG. 3).
[0077] Δ base de dados de palavra chave 46 é acoplada ao detector de palavra chave no discurso 44, e inclui um número N2 de listas de palavra chave KL[1] a KL[N2]. Cada lista de palavra chave KL[j] (para j = 1 a N2) é associada com um aplicativo alvo app[j]incluindo uma quantidade P {j } de palavras chaves candidatas kw[j,l] a kw[j,P{j}].
[0078] A base de dados de atividade 50 é acoplada ao previsor de atividade 48, e inclui um número NI de listas de atividade AL [ 1 ] a AL[N1] ; cada lista de atividade AL[i] (para i = 1 a Nl) é associada com um aplicativo alvo app[i] incluindo uma quantidade Q { i } de modelos de atividade at [ i, 1 ] aat[i,Q{i}] .
[0079] O detector de palavra chave no discurso 44 obtém uma lista de palavra chave selecionada KL[jx] a partir das listas de palavra chave KL [ 1] a KL[N2] da base de dados de palavra chave 46, sendo que o aplicativo alvo app[jx] da lista de palavra chave selecionada KL[jx] corresponde a um aplicativo atualmente em operação do dispositivo 30. Em resposta ao sinal Snd, o detector de palavra chave no discurso 44 fornece um resultado de detecção de palavra chave preliminar Skw de acordo com os lista de palavra chave selecionada KL[jx].
[0080] O previsor de atividade 48 obtém a lista de atividade selecionada AL [ix] a partir das listas de atividade AL[1] a AL[Nl] da base de dados de atividade 50, sendo que o aplicativo alvo app [ ix] da lista de atividade selecionada AL [ ix] corresponde ao aplicativo atualmente em execução do dispositivo 30 . Com base na lista de atividade selecionada AL [ ix] , o previsor de atividade 48 pode processar o sinal Ssd para fornecer um resultado de previsão de atividade Sap indicando uma probabilidade de se um usuário está prestes a emitir a palavra chave por voz.
[0081] O tomador de decisão 52 é acoplado ao previsor de atividade 48 e o detector de palavra chave no discurso 4 4, para processar os resultados Sap e Skw para fornecer um segundo resultado de detecção de palavra chave Sdm, assim o dispositivo 30 pode reagir de acordo com o resultado Sdm.
[0082] O detector de voz 34 é acoplado ao detector de palavra chave no discurso 44, e é capaz de avaliar a informatividade com base em, ex., SNR, do sinal de som Snd, e dessa formar determinar quando ativar o detector de palavra chave no discurso 44. Por exemplo, se a informatividade do sinal Snd for baixa (ex., abaixo de um limiar de informatividade, não mostrado), o detector de voz 34 pode desabilitar (inativar) o detector de palavra chave no discurso 34, por exemplo, manter o detector de palavra chave no discurso 44 em um modo de baixa energia (ocioso) . Por outro lado, se a informatividade do sinal Snd é alta (ex., maior do que o limiar de inf ormatividade) , o detector de voz 34 pode habilitar (ativar) o detector de palavra chave no discurso 44 , por exemplo, despertar o detector de palavra chave no discurso 44 para funcionar um modo (totalmente funcional) normal. Como mostrado na FIG. 9, o detector de voz 34 fornece um sinal Svd para seletivamente ativar o detector de palavra chave no discurso 44.
[0083] Quando o detector de palavra chave no discurso 44 é desativado, o previsor de atividade 48 e o tomador de decisão 52 são de preferência desabilitados assim como as bases de dados 46 e 50. Quando o detector de palavra chave no discurso 44 é ativado, o previsor de atividade 48 e o tomador de decisão 52 (assim como as bases de dados 4 6 e 50 ) são habilitados a cooperar com o detector de palavra chave no discurso 44 para a detecção de palavra chave no discurso assistida por sensor. Alternativamente, o previsor de atividade 48 e o tomador de decisão 52 também recebem o sinal Svd a ser habilitado ou desabilitado.
[0084] Favor consultar a FIG. 10 que ilustra uma modalidade do detector de voz 34. O detector de voz 34 inclui um estimador de discurso 56a, um estimador de ruido 56b e um comparador 58 acoplado ao estimador de discurso 56a e o estimador de ruido 56b. O estimador de discurso 56a é capaz de fornecer uma sequência S[.] em resposta ao volume do sinal Snd; já que cada amostra do sinal Snd é denotada por um valor x[n], volume do sinal Snd pode ser denotado por um valor absoluto |x[n] | . O estimador de ruido 56b é capaz de fornecer uma sequência N[ . ] também em resposta ao volume do sinal Snd.
[0085] Como mostrado na equação eql da FIG. 10, o estimador de discurso 56a é capaz de computar uma amostra atual S [n] da sequência S [ . ] como uma soma ponderada de um volume atual |x[n] | do sinal Snd e uma amostra anterior S[n-1] da sequência S [ . ] , i.e., computar a amostra atual S [n] da sequência S [ . ] pela soma de um produto aO*S [n-1] e um produto (l-a0)*|x[n] | , sendo que o produto aO*S [n-1] é um resultado da multiplicação da amostra anterior S [ n-1 ] com um peso aO, e o produto (l-a0)*|x[n]| é um resultado da multiplicação do volume atual |x[n]| por um peso complementar (1-aO) . Em uma modalidade, o peso aO pode ser maior que 0 e menor que 1.
[0086] Como mostrado na equação eq2 da FIG. 10, o estimador de ruido 56b é capaz de computar uma amostra atual N[n] da sequência N[.] como uma soma ponderada do valor atual |x[n] | e uma amostra anterior N[n-1] da sequência N[.], i.e., computando a amostra atual N[n] da sequência N[.] pela soma de um produto b0*N[n-1] e um produto (l-b0)*|x[n]|, sendo que o produto b0*S[n-l] é um resultado da multiplicação da amostra anterior N [ n-1 ] com um peso bO, e o produto (l-b0)*|x[n]| é um resultado da multiplicação do volume atual |x[n]| por um peso complementar (1-bO) . Em uma modalidade, o peso bO pode ser maior que 0 e ser menor que 1.
[0087] Em uma modalidade, o peso aO é menor que o peso bO . Assim, a sequência S [ .] tende refletir o volume atual do som que entra, e a sequência N[.] tenta refletir o volume médio passado do som que entra. Assim, a sequência S[.] indica o sinal informativo, ex., voz, contida no sinal Snd enquanto a sequência N [ . ] indica ruido de fundo no sinal Snd. O comparador 58 compara S [ . ] e N[.] para indicar a inf ormat ividade do sinal Snd, e assim fornecer o sinal Svd para controlar o detector de palavra chave no discurso 44. Por exemplo, se uma diferença absoluta | S [η] -N [n] | é maior do que um limiar de inf ormat ividade (não mostrado) , então o comparador 5 8 do detector de voz 34 reflete a alta informatividade no sinal Svd para ativar o detector de palavra chave no discurso 44. De modo contrário, se a diferença absoluta |S[n]-N[n]| é menor que o limiar de informatividade, então o comparador 58 do detector de voz 34 reflete uma baixa informatividade no sinal Svd para desabilitar o detector de palavra chave no discurso 44 porque a execução da detecção de palavra chave no discurso em som ruidoso só leva a erro.
[0088] Junto com a FIG. 9, favor consultar a FIG. 11 que ilustra um fluxograma 300 de detecção seletiva de palavra chave no discurso de acordo com uma modalidade da invenção. Com o detector de voz 34 , o sistema 32 (FIG . 9) pode adotar o fluxograma 300 para economia de energia sem comprometer a função esperada da detecção de palavra chave no discurso. As maiores etapas do fluxograma 300 podem ser descritas como segue.
[0089] Etapa 302 : pelo detector de voz 34 , detectar a voz no som; ex., avaliar a informatividade do sinal Snd.
[0090] Etapa 304: se a voz é detectada (informatividade é alta), prosseguir para a etapa 306, caso contrário prosseguir para a etapa 308.
[0091] Etapa 306: realizar a detecção de palavra chave no discurso, ex. , a detecção de palavra chave no discurso assistida por sensor do fluxograma 100 (FIG . 3) . Embora o detector de voz 34 seja utilizado junto com detecção de palavra chave no discurso assistida por sensor do detector de palavra chave no discurso 44, o previsor de atividade 48 e o tomador de decisão 52 como mostrado na FIG. 9, o detector de voz 34 também pode ser usado junto com uma detecção de palavra chave no discurso mais simples que é implementado somente por um detector de palavra chave no discurso preliminar (ex., o detector de palavra chave no discurso 4 4) sem assistência dos dados do sensor. Tal detecção de palavra chave no discurso mais simples também pode adotar o fluxograma 300, e a detecção de palavra chave do discurso habilitada na etapa 306 é implementada pela operação do detector de palavra chave no discurso preliminar. Após a etapa 306, o fluxograma 300 pode repetir a etapa 302.
[0092] Etapa 308: desabilitar a detecção de palavra chave no discurso, ex . , parar o funcionamento do detector de palavra chave no discurso 44 (FIG. 9). O funcionamento do previsor de atividade 48 e o tomador de decisão 52, assim como a base de dados de palavra chave 46 e a base de dados de atividade 50, também pode ser interrompido. Após a etapa 308, o fluxograma 300 pode repetir a etapa 302.
[0093] Em uma modalidade, o detector de voz 34 na FIG. 10 pode ser implementado por um hardware dedicado, ex., circuito. O detector de palavra chave no discurso 44, o previsor de atividade 48 e/ou o tomador de decisão 52 (FIG. 9) também pode ser implementado pelo hardware dedicado, ou por um processador de sinal digital (DSP) . 0 DSP pode executar software e/ou firmware para implementar as funções do detector de palavra chave no discurso 44, o previsor de atividade 48 e/ou o tomador de decisão 52. A base de dados de palavra chave 46 e a base de dados de atividade 50 podem ser implementadas pela memória não volátil programável. Um dispositivo moderno pode incluir uma CPU e um DSP . A CPU é responsável pela execução do OS e aplicativos, e o DSP é responsável pelo processamento multimídia (ex., codificação e / ou decodificação de áudio e/ou vídeo ) . Sob tal arquitetura, os componentes do sistema de detecção de palavra chave no discurso assistida por sensor podem ser implementados no DSP, de modo que a detecção de palavra chave no discurso assistida por sensor possa funcionar sem envolvimento da CPU, e dessa formar reduzir o consumo de energia da detecção de palavra chave no discurso assistida por sensor. Alternativamente, só o detector de voz 34 pelo hardware dedicado é arranjado para funcionar na maioria do tempo para seletivamente ativar o circuito necessário. Por exemplo, quando um smartphone aumenta para uma sensibilidade de detecção de voz como divulgado pela invenção, o smartphone pode solicitar ao usuário por um LED com cor diferente, ex. , laranja, que complete uma operação desejada pelo controle de voz sob a tela escura. Alternativamente, a tela pode mostrar um logotipo indicativo dentro de uma área parcial de uma tela cheia para solicitar ao usuário. Alternativamente, apenas um sensor giroscópio é arranjado para sempre ou periodicamente funcionar para seletivamente ativar circuito necessário uma vez que o giroscópio consome muito pouca energia . De acordo com uma pluralidade de operações definidas pela base de dados de atividade e a base de dados de palavra chave, o smartphone pode operar sob a tela escura ou não requerer a iluminação completada tela. Assim, o consumo de energia pode ser insignificante ou até reduzido ao realizar o conceito divulgado pela invenção.
[0094] Em suma, a invenção aproveita dados do sensor fornecido pelo sensor (s) do dispositivo para obter a informação adicional para melhorar a detecção de palavra chave no discurso, de modo a implementar um controle de voz mais conveniente, amigável, confiável e preciso. Pessoas versadas na técnica podem fazer modificações possíveis, sem se afastar do escopo revelado pela invenção. Por exemplo, o controle de toque da tela escura pode ser incorporado com a invenção para aumentar ainda mais a conveniência do dispositivo de controle.
[0095] Enquanto a invenção foi descrita em termos do que é atualmente considerado como as modalidades mais práticas e preferidas, deve ser entendido que a invenção não precisa ser limitada à modalidade descrita. Pelo contrário, pretende-se cobrir várias modificações e arranjos semelhantes incluídos dentro do espirito e escopo das reivindicações anexas, que devem ser reconhecidas com a interpretação mais ampla de modo a abranger todas essas modificações e estruturas semelhantes.
REIVINDICAÇÕES

Claims (24)

1. Um sistema para detecção de palavra chave no discurso de um dispositivo, compreendendo: um previsor de atividade capaz de obter dados do sensor fornecidos por uma pluralidade de sensores, e capaz de processar os dados do sensor para fornecer um resultado de previsão de atividade indicando uma probabilidade para se um usuário está prestes a emitir uma palavra chave por voz; um detector de palavra chave no discurso para gerar um resultado de detecção de palavra chave preliminar; e um tomador de decisão acoplado ao previsor de atividade e o detector de palavra chave no discurso, e capaz de processar os resultado de previsão de atividade e o resultado de detecção de palavra chave preliminar para fornecer um resultado de detecção de palavra chave.
2. O sistema, de acordo com a reivindicação 1, compreendendo ainda: uma base de dados de atividade compreendendo uma pluralidade de listas de atividade; cada lista de atividade sendo associada comum aplicativo alvo, e compreendendo uma pluralidade de modelos de atividade, sendo que o previsor de atividade é capaz de: obter uma selecionada das listas de atividade, sendo que o aplicativo alvo associado com a lista de atividade selecionada corresponde a um aplicativo atualmente em operação do dispositivo; e comparar os dados do sensor com cada modelo da atividade da lista de atividade selecionada para fornecer o resultado de previsão de atividade.
3. O sistema, de acordo com a reivindicação 1 compreendendo ainda: uma base de dados de atividade compreendendo uma pluralidade de listas de atividade; cada lista de atividade sendo associada comum aplicativo alvo, e compreendendo uma pluralidade de modelos de atividade, sendo que o previsor de atividade é capaz de: obter uma selecionada das listas de atividade, sendo que o aplicativo alvo associado com a lista de atividade selecionada corresponde a um aplicativo atualmente em operação do dispositivo; fornecer dados extraídos pelos recursos de extração dos dados do sensor; e comparar os dados extraídos com cada modelo da atividade da lista de atividade selecionada para fornecer o resultado de previsão de atividade.
4. O sistema, de acordo com a reivindicação 1 compreendendo ainda: uma base de dados de palavra chave compreendendo uma pluralidade de listas de palavra chave; cada lista de palavra chave sendo associada com um aplicativo alvo, e compreendendo uma pluralidade de palavras chaves candidatas, sendo que o detector de palavra chave no discurso é capaz de: obter uma selecionada das listas de palavra chave, sendo que o aplicativo alvo associado com uma lista de palavra chave selecionada corresponde a um aplicativo atualmente em operação do dispositivo; e comparar o som que entra com cada palavra chave candidata da lista de palavra chave para fornecer o resultado de detecção de palavra chave preliminar.
5. O sistema, de acordo com a reivindicação 1 compreendendo ainda: um detector de voz capaz de avaliar informatividade do som que entra para seletivamente ativar o detector de palavra chave no discurso.
6. O sistema, de acordo com a reivindicação 5, sendo que o detector de voz compreende: um primeiro estimador capaz de computar uma amostra atual de uma primeira sequência como uma soma ponderada de um volume atual do som que entra e uma amostra anterior da primeira sequência; um segundo estimador capaz de computar uma amostra atual de uma segunda sequência como uma soma ponderada de um volume atual do som que entra e uma amostra anterior da segunda sequência; e um comparador, acoplado ao primeiro estimador e o segundo estimador, comparando a primeira sequência e a segunda sequência para indicar a informatividade do som que entra.
7. O sistema, de acordo com a reivindicação 5, sendo que o detector de voz compreende: um primeiro estimador capaz de computar uma amostra atual de uma primeira sequência pela soma de um primeiro produto e um segundo produto, o primeiro produto multiplicando uma amostra anterior da primeira sequência por um primeiro peso, e o segundo produto multiplicando um volume atual do som que entra por um primeiro peso de complementaridade; um segundo estimador capaz de computar uma amostra atual de uma segunda sequência pela soma de um terceiro produto e uma quarto produto, o terceiro produto multiplicando uma amostra anterior da segunda sequência por um segundo peso, e o quarto produto multiplicando um volume atual do som que entra por um segundo peso de complementaridade; e um comparador, acoplado ao primeiro estimador e o segundo estimador, comparando a primeira sequência e a segunda sequência para indicar a informatividade do som que entra.
8. O sistema, de acordo com a reivindicação 7, sendo que o primeiro peso é menor do que o segundo peso.
9. O sistema, de acordo com a reivindicação 1, sendo que o tomador de decisão aplica um algoritmo de fusão de probabilidadeparaprocessar o resultado de previsão de atividade e o resultado de detecção de palavra chave preliminar para fornecer o resultado de detecção de palavra chave.
10. O sistema, de acordo com a reivindicação 1, sendo que o tomador de decisão é capaz de adotar um algoritmo de aprendizagem de máquina para processar o resultado de previsão de atividade e o resultado de detecção de palavra chave preliminar para provar o resultado de detecção de palavra chave.
11. O sistema, de acordo com a reivindicação 1, sendo que o tomador de decisão calcula uma combinação linear do resultado de previsão de atividade e o resultado de detecção de palavra chave preliminar como o resultado de detecção de palavra chave.
12 . O sistema, de acordo com a reivindicação 1, sendo que os sensores incluem pelo menos um do seguinte : um acelerômetro, um giroscópio, um magnetômetro, um barômetro um sensor de proximidade, sensor de luz, uma tela sensivel ao toque, um receptor de um sistema de posicionamento, um receptor sem fio e uma câmera.
13. Um método para a detecção de palavra chave no discurso, compreendendo: obter dados do sensor fornecidos por uma pluralidade de sensores; de acordo com os dados do sensor, computar um resultado de previsão de atividade indicando uma probabilidade de se um usuário está prestes a emitir a palavra chave por voz; e computar um resultado de detecção de palavra chave de acordo com os resultado de previsão de atividade e um resultado de detecção de palavra chave preliminar da detecção de palavra chave no discurso.
14 . O método, de acordo com a reivindicação 13 compreendendo ainda: fornecer uma base de dados de atividade a qual compreende uma pluralidade de listas de atividade; cada lista de atividade sendo associada com um aplicativo alvo, e compreendendo uma pluralidade de modelos de atividade; identificar o aplicativo atualmente em execução do dispositivo; selecionar uma das listas de atividades pela comparação do aplicativo atualmente em execução com cada aplicativo alvo de cada lista de atividade; e comparar os dados do sensor com cada modelo da atividade da lista de atividade selecionada para fornecer o resultado de previsão de atividade.
15. O método, de acordo com a reivindicação 13 compreendendo ainda: fornecer uma base de dados de atividade que compreende uma pluralidade de listas de atividade; cada lista de atividade sendo associada com um aplicativo alvo, e compreendendo uma pluralidade de modelos de atividade; identificar o aplicativo atualmente em execução do dispositivo; pela comparação do aplicativo atualmente emexecução com cada aplicativo alvo de cada lista de atividade, selecionando uma das listas de atividade; fornecer dados extraídos pelos recursos de extração dos dados do sensor; comparar os dados extraídos com cada modelo da atividade da lista de atividade selecionada e consequentemente fornecer um resultado correspondente de atividade para ser incluído no resultado de previsão de atividade.
16. O método, de acordo com a reivindicação 13 compreendendo ainda: fornecer uma base de dados de palavra chave que compreende uma pluralidade de listas de palavra chave; cada lista de palavra chave sendo associada com um aplicativo alvo, e compreendendo uma pluralidade de palavras chaves candidatas; identificar o aplicativo atualmente em execução do dispositivo; selecionar uma das listas de palavra chave pela comparação dos aplicativo atualmente em execução com cada aplicativo alvo de cada lista de palavra chave; e fornecer o resultado de detecção de palavra chave preliminar pela comparação do som que entra com cada palavra chave candidata da lista de palavra chave selecionada.
17. O método, de acordo com a reivindicação 13 compreendendo ainda: realizar uma detecção de voz através da avaliação da informatividade do som que entra para seletivamente ativar a detecção de palavra chave do discurso.
18. O método, de acordo coma reivindicação 17, sendo que a etapa de realizar a detecção de voz compreende: computar uma amostra atual de uma primeira sequência como uma soma ponderada de um volume atual do som que entra e uma amostra anterior da primeira sequência; computar uma amostra atual de uma segunda sequência como uma soma ponderada de um volume atual do som que entra e uma amostra anterior da segunda sequência; e comparar a primeira sequência e a segunda sequência para indicar a informatividade do som que entra.
19. O método, de acordo coma reivindicação 17, sendo que a etapa de realizar a detecção de voz compreende: computar uma amostra atual de uma primeira sequência pela soma de um primeiro produto e um segundo produto, o primeiro produto multiplicando uma amostra anterior da primeira sequência por um primeiro peso, e o segundo produto multiplicando um volume atual do som que entra por um primeiro peso de complementaridade; computar uma amostra atual de uma segunda sequência pela soma de um terceiro produto e um quarto produto, o terceiro produto multiplicando uma amostra anterior da segunda sequência por um segundo peso, e o quarto produto multiplicando um volume atual do som que entra por um segundo peso de complementaridade; e comparar a amostra atual da primeira sequência e a amostra atual da segunda sequência para indicar a informatividade do som que entra.
20. O método, de acordo coma reivindicação 19, sendo que o primeiro peso é menor do que o segundo peso.
21. O método, de acordo coma reivindicação 13, sendo que computar o resultado de detecção de palavra chave compreende : adotar um algoritmo de fusão de probabilidade para processar o resultado de previsão de atividade e o resultado de detecção de palavra chave preliminar.
22. O método, de acordo coma reivindicação 13, sendo que computar o resultado de detecção de palavra chave compreende : adotar um algoritmo de aprendizagem de máquina para processar o resultado de previsão de atividade e o resultado de detecção de palavra chave preliminar.
23. O método, de acordo coma reivindicação 13, sendo que a etapa de computar o resultado de detecção de palavra chave calcula uma combinação linear do resultado de previsão de atividade e o resultado de detecção de palavra chave preliminar como o resultado de detecção da palavra chave.
24 . O método, de acordo com a reivindicação 13, sendo que os sensores incluem pelo menos um do seguinte: um acelerômetro, um giroscópio, um magnetômetro, um barômetro um sensor de proximidade, sensor de luz, uma tela sensível ao toque, um receptor de um sistema de posicionamento, um receptor sem fio e uma câmera.
BR102014003975-9A 2013-09-12 2014-02-20 Sistema e método para detecção de palavra-chave em discurso de um dispositivo BR102014003975B1 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310659840.4 2013-12-09
CN201310659840.4A CN104700832B (zh) 2013-12-09 2013-12-09 语音关键字检测系统及方法

Publications (2)

Publication Number Publication Date
BR102014003975A2 true BR102014003975A2 (pt) 2016-01-26
BR102014003975B1 BR102014003975B1 (pt) 2022-03-03

Family

ID=51893939

Family Applications (1)

Application Number Title Priority Date Filing Date
BR102014003975-9A BR102014003975B1 (pt) 2013-09-12 2014-02-20 Sistema e método para detecção de palavra-chave em discurso de um dispositivo

Country Status (5)

Country Link
US (1) US9747894B2 (pt)
EP (1) EP2881939B1 (pt)
CN (1) CN104700832B (pt)
BR (1) BR102014003975B1 (pt)
IN (1) IN2014CH00781A (pt)

Families Citing this family (158)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9711166B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc Decimation synchronization in a microphone
CN105379308B (zh) 2013-05-23 2019-06-25 美商楼氏电子有限公司 麦克风、麦克风系统及操作麦克风的方法
US10020008B2 (en) 2013-05-23 2018-07-10 Knowles Electronics, Llc Microphone and corresponding digital interface
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9502028B2 (en) 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
US9147397B2 (en) 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9953632B2 (en) * 2014-04-17 2018-04-24 Qualcomm Incorporated Keyword model generation for detecting user-defined keyword
US10770075B2 (en) * 2014-04-21 2020-09-08 Qualcomm Incorporated Method and apparatus for activating application by speech input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
TW201640322A (zh) 2015-01-21 2016-11-16 諾爾斯電子公司 用於聲音設備之低功率語音觸發及方法
US9613626B2 (en) * 2015-02-06 2017-04-04 Fortemedia, Inc. Audio device for recognizing key phrases and method thereof
US10121472B2 (en) 2015-02-13 2018-11-06 Knowles Electronics, Llc Audio buffer catch-up apparatus and method with two microphones
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) * 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN104978960A (zh) * 2015-07-01 2015-10-14 陈包容 一种基于语音识别拍照的方法及装置
US9478234B1 (en) 2015-07-13 2016-10-25 Knowles Electronics, Llc Microphone apparatus and method with catch-up buffer
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
JP6227209B2 (ja) * 2015-09-09 2017-11-08 三菱電機株式会社 車載用音声認識装置および車載機器
US11868354B2 (en) 2015-09-23 2024-01-09 Motorola Solutions, Inc. Apparatus, system, and method for responding to a user-initiated query with a context-based response
US10372755B2 (en) 2015-09-23 2019-08-06 Motorola Solutions, Inc. Apparatus, system, and method for responding to a user-initiated query with a context-based response
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
CN106098063B (zh) * 2016-07-01 2020-05-22 海信集团有限公司 一种语音控制方法、终端设备和服务器
CN107767861B (zh) * 2016-08-22 2021-07-02 科大讯飞股份有限公司 语音唤醒方法、系统及智能终端
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
DE112016007250B4 (de) 2016-09-21 2021-10-07 Motorola Solutions, Inc. Verfahren und System zum Optimieren von Spracherkennung und Informationssuche basierend auf Gesprächsgruppenaktivitäten
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10186265B1 (en) * 2016-12-06 2019-01-22 Amazon Technologies, Inc. Multi-layer keyword detection to avoid detection of keywords in output audio
US10079015B1 (en) * 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
WO2018118744A1 (en) * 2016-12-19 2018-06-28 Knowles Electronics, Llc Methods and systems for reducing false alarms in keyword detection
US10269352B2 (en) * 2016-12-23 2019-04-23 Nice Ltd. System and method for detecting phonetically similar imposter phrases
US10593328B1 (en) * 2016-12-27 2020-03-17 Amazon Technologies, Inc. Voice control of remote device
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10938978B2 (en) * 2017-03-21 2021-03-02 Huawei Technologies Co., Ltd. Call control method and apparatus
US10121494B1 (en) * 2017-03-30 2018-11-06 Amazon Technologies, Inc. User presence detection
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US20190019505A1 (en) * 2017-07-12 2019-01-17 Lenovo (Singapore) Pte. Ltd. Sustaining conversational session
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
CN109964270B (zh) * 2017-10-24 2020-09-25 北京嘀嘀无限科技发展有限公司 用于关键短语识别的系统和方法
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
WO2019193378A1 (en) * 2018-04-06 2019-10-10 Flex Ltd. Device and system for accessing multiple virtual assistant services
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DE112019000018T5 (de) * 2018-05-07 2020-01-09 Apple Inc. Anheben, um zu sprechen
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US20200168317A1 (en) 2018-08-22 2020-05-28 Centre For Addiction And Mental Health Tool for assisting individuals experiencing auditory hallucinations to differentiate between hallucinations and ambient sounds
JP7001029B2 (ja) * 2018-09-11 2022-01-19 日本電信電話株式会社 キーワード検出装置、キーワード検出方法、およびプログラム
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN113794800B (zh) * 2018-11-23 2022-08-26 华为技术有限公司 一种语音控制方法及电子设备
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN109979440B (zh) * 2019-03-13 2021-05-11 广州市网星信息技术有限公司 关键词样本确定方法、语音识别方法、装置、设备和介质
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11443734B2 (en) * 2019-08-26 2022-09-13 Nice Ltd. System and method for combining phonetic and automatic speech recognition search
CN110534099B (zh) * 2019-09-03 2021-12-14 腾讯科技(深圳)有限公司 语音唤醒处理方法、装置、存储介质及电子设备
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
WO2021076164A1 (en) * 2019-10-15 2021-04-22 Google Llc Detection and/or enrollment of hot commands to trigger responsive action by automated assistant
CN110827806B (zh) * 2019-10-17 2022-01-28 清华大学深圳国际研究生院 一种语音关键词检测方法及系统
CN111028828A (zh) * 2019-12-20 2020-04-17 京东方科技集团股份有限公司 一种基于画屏的语音交互方法、画屏及存储介质
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11620999B2 (en) 2020-09-18 2023-04-04 Apple Inc. Reducing device processing of unintended audio

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3430235A (en) * 1964-05-01 1969-02-25 Avco Corp Automatic signal discriminator and threshold adjustment circuit for range-gated radar detection systems
US4366378A (en) * 1980-01-23 1982-12-28 Itek Corporation Laser light detection system
US5194847A (en) * 1991-07-29 1993-03-16 Texas A & M University System Apparatus and method for fiber optic intrusion sensing
US6101468A (en) * 1992-11-13 2000-08-08 Dragon Systems, Inc. Apparatuses and methods for training and operating speech recognition systems
US5629520A (en) * 1995-11-20 1997-05-13 The United States Of America As Represented By The Secretary Of The Army Laser threat status detection
US6389881B1 (en) * 1999-05-27 2002-05-21 Acoustic Systems, Inc. Method and apparatus for pattern match filtering for real time acoustic pipeline leak detection and location
TWI245259B (en) 2002-12-20 2005-12-11 Ibm Sensor based speech recognizer selection, adaptation and combination
FR2853126A1 (fr) * 2003-03-25 2004-10-01 France Telecom Procede de reconnaissance de parole distribuee
US7904300B2 (en) * 2005-08-10 2011-03-08 Nuance Communications, Inc. Supporting multiple speech enabled user interface consoles within a motor vehicle
US7633076B2 (en) * 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US20090265671A1 (en) * 2008-04-21 2009-10-22 Invensense Mobile devices with motion gesture recognition
US8321219B2 (en) * 2007-10-05 2012-11-27 Sensory, Inc. Systems and methods of performing speech recognition using gestures
US9123341B2 (en) * 2009-03-18 2015-09-01 Robert Bosch Gmbh System and method for multi-modal input synchronization and disambiguation
KR101581883B1 (ko) * 2009-04-30 2016-01-11 삼성전자주식회사 모션 정보를 이용하는 음성 검출 장치 및 방법
JP2012211932A (ja) 2011-03-30 2012-11-01 Toshiba Corp 音声認識装置及び音声認識方法
US8860942B1 (en) * 2011-04-29 2014-10-14 The United States Of America As Represented By The Secretary Of The Air Force Apparatus for multi-spectral imaging of point event detection

Also Published As

Publication number Publication date
CN104700832B (zh) 2018-05-25
US9747894B2 (en) 2017-08-29
BR102014003975B1 (pt) 2022-03-03
IN2014CH00781A (pt) 2015-06-12
EP2881939B1 (en) 2017-01-11
EP2881939A1 (en) 2015-06-10
CN104700832A (zh) 2015-06-10
US20150161989A1 (en) 2015-06-11

Similar Documents

Publication Publication Date Title
BR102014003975A2 (pt) sistema para detecção de palavra chave no discurso e método associado
US20220358924A1 (en) Methods and apparatus for detecting a voice command
US10332524B2 (en) Speech recognition wake-up of a handheld portable electronic device
CN110199350B (zh) 用于感测语音结束的方法和实现该方法的电子设备
US10978048B2 (en) Electronic apparatus for recognizing keyword included in your utterance to change to operating state and controlling method thereof
AU2014200407B2 (en) Method for Voice Activation of a Software Agent from Standby Mode
US9361885B2 (en) Methods and apparatus for detecting a voice command
BR112015018905B1 (pt) Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
KR20160127117A (ko) 개인 존재와 연관된 동작 수행
KR102343084B1 (ko) 전자 장치 및 전자 장치의 기능 실행 방법
US11178280B2 (en) Input during conversational session
KR102563817B1 (ko) 사용자 음성 입력 처리 방법 및 이를 지원하는 전자 장치
US20200075008A1 (en) Voice data processing method and electronic device for supporting same
US20220335945A1 (en) Machine learning based privacy processing
KR20190109916A (ko) 전자 장치 및 상기 전자 장치로부터 수신된 데이터를 처리하는 서버
CN108848264A (zh) 麦克风的控制方法、装置、存储介质及电子设备
KR20190096308A (ko) 전자기기
US11915700B2 (en) Device for processing user voice input
JP7250900B2 (ja) ホットワード認識および受動的支援
KR20190106269A (ko) 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법
CN108573704B (zh) 对永不熄屏通知使能基于场境的语音响应的方法和装置
US11416213B2 (en) Electronic device for obtaining and entering lacking parameter
KR102551856B1 (ko) 딥러닝 기반의 예측 모델에 기반하여 보조 보행 장치를 이용하는 피보호자의 감정 상태를 예측하는 전자 장치 및 그 동작 방법

Legal Events

Date Code Title Description
B03A Publication of a patent application or of a certificate of addition of invention [chapter 3.1 patent gazette]
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 20/02/2014, OBSERVADAS AS CONDICOES LEGAIS.