BR102015031137B1 - Dispositivo e método de detecção de despertar por voz para um produto eletrônico - Google Patents
Dispositivo e método de detecção de despertar por voz para um produto eletrônico Download PDFInfo
- Publication number
- BR102015031137B1 BR102015031137B1 BR102015031137-0A BR102015031137A BR102015031137B1 BR 102015031137 B1 BR102015031137 B1 BR 102015031137B1 BR 102015031137 A BR102015031137 A BR 102015031137A BR 102015031137 B1 BR102015031137 B1 BR 102015031137B1
- Authority
- BR
- Brazil
- Prior art keywords
- signal
- speech
- keyword
- voice
- sub
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 182
- 238000000034 method Methods 0.000 title claims description 19
- 230000004044 response Effects 0.000 claims abstract description 11
- 102100024061 Integrator complex subunit 1 Human genes 0.000 claims description 25
- 101710092857 Integrator complex subunit 1 Proteins 0.000 claims description 25
- 102100028043 Fibroblast growth factor 3 Human genes 0.000 claims description 15
- 108050002021 Integrator complex subunit 2 Proteins 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 9
- 230000006978 adaptation Effects 0.000 claims description 8
- 230000003595 spectral effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72418—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting emergency services
- H04M1/72421—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting emergency services with automatic activation of emergency service functions, e.g. upon sensing an alarm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/3287—Power saving characterised by the action undertaken by switching off individual functional units in the computer system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/4401—Bootstrapping
- G06F9/4418—Suspend and resume; Hibernate and awake
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72448—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Business, Economics & Management (AREA)
- Emergency Management (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephone Function (AREA)
- Electric Clocks (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
DISPOSITIVO E MÉTODO DE DETECÇÃO DE DESPERTAR POR VOZ. Um dispositivo de detecção de despertar por voz para um produto eletrônico inclui um circuito de detecção frontal, um processador de reconhecimento de voz e um processador principal. 0 circuito de detecção frontal julga se um sinal de voz contém uma subpalavra-chave de acordo com parâmetros de modelo de subpalavra-chave. Se o circuito de detecção frontal confirmar que o sinal de voz contém a subpalavra- chave, então gera um primeiro sinal de interrupção. Em resposta ao primeiro sinal de interrupção, o processador de reconhecimento de voz é habilitado para julgar se o sinal de voz contém uma palavra-chave de acordo com parâmetros de modelo de palavra-chave. Se o processador de reconhecimento de voz confirmar que o sinal de voz contém a palavra-chave, então gera um segundo sinal de interrupção. Em resposta ao segundo sinal de interrupção, o processador principal é habilitado. Consequentemente, o produto eletrônico é desperto de um estado inativo para um estado de funcionamento normal
Description
[001] Este pedido de patente reivindica o benefício do pedido de patente provisório US No. de Séries 62/090.614, depositado em 11 de dezembro de 2014, e o benefício do pedido de patente provisório US No. de Série 62/117.109, depositado em 17 de fevereiro de 2015, cujos assuntos estão incorporados neste documento por referência.
[002] A invenção refere-se a um dispositivo de detecção e a um método de controle daquele, e mais especificamente a um dispositivo de detecção de despertar por voz e a um método de detecção de detecção de despertar por voz.
[003] Atualmente, as funções de telefones inteligentes são muito diversificadas. Por exemplo, os telefones inteligentes com uma função de despertar por voz são preferidos por muitos consumidores. Por exemplo, quando o telefone inteligente em um estado inativo recebe uma voz de uma palavra-chave de um usuário, o telefone inteligente começa o reconhecimento da palavra-chave. Se a palavra-chave é autenticada, o telefone inteligente é comutado do estado inativo para um estado de funcionamento normal. Em outras palavras, o usuário pode despertar o telefone inteligente ou outros dispositivos eletrônicos sem a necessidade de pressionar qualquer tecla de função do telefone inteligente.
[004] A FIG. 1 é um diagrama de blocos funcional esquemático que ilustra um dispositivo de detecção de despertar por voz de um produto eletrônico de acordo com o estado da técnica. O dispositivo de detecção de despertar por voz 100 compreende um circuito de detecção frontal 110, um processador de reconhecimento de voz 120 e um processador principal 130. O circuito de detecção frontal 110 compreende um microfone 102 e um detector de evento 104. Em um estado inativo, o circuito de detecção frontal 110 está ainda alimentado, e o microfone 102 e o detector de evento 104 estão operacionais. Geralmente, o processo de despertar o produto eletrônico compreende as seguintes três fases de detecção.
[005] O detector de evento 104 executa detecção acústica de evento. O microfone 102 gera um sinal de voz Sa para o detector de evento 104. O detector de evento 104 detecta a amplitude, a razão entre sinal e ruído (SNR) ou o SNR de sub-banda do sinal de voz Sa.
[006] Quando o produto eletrônico está no estado inativo e o dispositivo de detecção de despertar por voz 100 está em uma primeira fase de detecção, o microfone 102 recebe a voz ambiente e converte a voz ambiente no sinal de voz Sa. O sinal de voz Sa é transmitido para o detector de evento 104. Se a amplitude do sinal de voz Sa for maior que um valor limiar, o detector de evento 104 gera um primeiro sinal de interrupção INT1 para o processador de reconhecimento de voz 120.
[007] Alternativamente, o detector de evento 104 pode detectar a razão entre sinal e ruído (SNR) ou o SNR de sub-banda do sinal de voz Sa. Por exemplo, se o SNR ou o SNR de sub-banda do sinal de voz Sa for maior que um valor limiar, o detector de evento 104 gera o primeiro sinal de interrupção INT1 para o processador de reconhecimento de voz 120.
[008] Um exemplo do processador de reconhecimento de voz 120 é um processador digital de sinais (DSP), o qual é também denominado de processador minúsculo. O processador de reconhecimento de voz 120 executa um reconhecimento de voz sobre o sinal de voz Sa. Se o primeiro sinal de interrupção não for asseverado, o processador de reconhecimento de voz 120 não é alimentado e, portanto, está desabilitado. Entretanto, o dispositivo de detecção de despertar por voz 100 está na primeira fase de detecção. Enquanto que, se o primeiro sinal de interrupção INT1 for asseverado, o processador de reconhecimento de voz 120 está habilitado. Consequentemente, a fase de detecção do dispositivo de detecção de despertar por voz 100 é mudada da primeira fase de detecção para uma segunda fase de detecção de modo a executar o reconhecimento de voz de reconhecer a palavra- chave do sinal de voz Sa.
[009] Na segunda fase de detecção, o processador de reconhecimento de voz 120 julga se o sinal de voz Sa é a voz da palavra-chave. Se o processador de reconhecimento de voz 120 confirmar que o sinal de voz Sa é a voz da palavra-chave, o processador de reconhecimento de voz 120 gera um segundo sinal de interrupção INT2 para o processador principal 130. Após o processador principal 130 receber o segundo sinal de interrupção INT2, a fase de detecção do dispositivo de detecção de despertar por voz 100 é mudada da segunda fase de detecção para uma terceira fase de detecção.
[0010] Enquanto que, se o processador de reconhecimento de voz 120 decidir que o sinal de voz Sa não é a voz da palavra-chave, o processador de reconhecimento de voz 120 não gera o segundo sinal de interrupção INT2 para o processador principal 130 e o processador de reconhecimento de voz 120 é novamente desabilitado. Entretanto, a fase de detecção do dispositivo de detecção de despertar por voz 100 é mudada da segunda fase de detecção para a terceira fase de detecção. Na primeira fase de detecção, o circuito de detecção frontal 110 detecta se o primeiro sinal de interrupção INT1 é asseverado.
[0011] Na terceira fase de detecção, o processador principal 130 está habilitado e, portanto, o telefone inteligente está no estado de funcionamento normal.
[0012] A partir das discussões acima, o circuito de detecção frontal 110 do telefone celular na primeira fase de detecção apenas julga o evento de voz do sinal de voz Sa, mas não reconhece a palavra-chave do sinal de voz Sa. Na segunda fase de detecção, o processador de reconhecimento de voz 120 é iniciado para reconhecer a palavra-chave do sinal de voz Sa.
[0013] Uma vez que o circuito de detecção frontal 110 do dispositivo de detecção de despertar por voz 100 está habilitado apenas na primeira fase de detecção, o consumo de potência é o mínimo (por exemplo, aproximadamente 1 mA). Uma vez que o circuito de detecção frontal 110 e o processador de reconhecimento de voz 120 estão ambos habilitados na segunda fase de detecção, o consumo de potência é aumentado (por exemplo, 6 mA).
[0014] Contudo, o dispositivo de detecção de despertar por voz 100 ainda tem alguns inconvenientes. Por exemplo, no caso em que o telefone inteligente no estado inativo é colocado em um ambiente ruidoso, o microfone 102 recebe continuamente a voz de não-palavra-chave. Isto é, o circuito de detecção frontal 110 pode frequentemente asseverar o primeiro sinal de interrupção INT1 devido a desencadeamento de ruído. Consequentemente, a fase de detecção do dispositivo convencional de detecção de despertar por voz 100 é frequentemente comutado entre a primeira fase de detecção e a segunda fase de detecção. Em outras palavras, o modo de utilização de consumo de potência em um dia é muito elevado. SUMÁRIO DA INVENÇÃO
[0015] A invenção fornece um dispositivo de detecção de despertar por voz e um método de detecção de despertar por voz para um produto eletrônico. Quando o produto eletrônico está em um estado inativo, o dispositivo de detecção de despertar por voz pode reconhecer o sinal de voz com mais precisão na primeira fase de detecção. Consequentemente, o número de vezes que o dispositivo de detecção de despertar por voz executa a segunda fase de detecção é efetivamente reduzida. Em outras palavras, o modo de utilização de consumo de potência em um dia é reduzido.
[0016] Uma modalidade da invenção fornece um dispositivo de detecção de despertar por voz para um produto eletrônico. O dispositivo de detecção de despertar por voz inclui um circuito de detecção frontal para controlar um primeiro sinal de interrupção que julga se um sinal de voz contém uma subpalavra-chave; um processador de reconhecimento de voz, seletivamente habilitado em resposta ao primeiro sinal de interrupção, para controlar um segundo sinal de interrupção que julga se o sinal de voz contém uma palavra-chave; e um processador principal, seletivamente habilitado em resposta ao segundo sinal de interrupção, de modo que o produto eletrônico seja desperto de um estado inativo para um estado de funcionamento normal.
[0017] Outra modalidade da invenção fornece um método de detecção de despertar por voz para um produto eletrônico. O método de detecção de despertar por voz inclui as etapas de fornecer um circuito de detecção frontal para receber um sinal de voz e reconhecer o sinal de voz; se o sinal de voz contém uma voz de uma subpalavra-chave, seletivamente habilitar um processador de reconhecimento de voz para reconhecer o sinal de voz; e se o sinal de voz contém uma voz de uma palavra-chave, seletivamente habilitar um processador principal para despertar o produto eletrônico de um estado inativo para um estado de funcionamento normal.
[0018] Diversos objetivos, características e vantagens da invenção serão facilmente evidentes a partir de uma leitura da descrição detalhada a seguir das modalidades da invenção quando considerada em conjunto com os desenhos anexos. Contudo, os desenhos utilizados neste documento são para fins de descrição e não devem ser considerados como limitativos.
[0019] Os objetivos e vantagens acima da invenção tornar- se-ão mais facilmente evidentes para aqueles versados na técnica após análise da descrição detalhada a seguir e desenhos anexos, nos quais:
[0020] a FIG. 1 (estado da técnica) é um diagrama de blocos que ilustra um dispositivo de detecção de despertar por voz de um produto eletrônico de acordo com o estado da técnica;
[0021] as FIGS. 2A e 2B são diagramas de blocos queilustram um dispositivo de detecção de despertar por voz de um produto eletrônico no estado de funcionamento normal e no estado inativo de acordo com uma modalidade da invenção;
[0022] a FIG. 3 é um diagrama de blocos que ilustra umprimeiro dispositivo exemplificativo de detecção de despertar por voz do produto eletrônico de acordo com a modalidade da invenção;
[0023] a FIG. 4 é um diagrama de blocos que ilustra umsegundo dispositivo exemplificativo de detecção de despertar por voz do produto eletrônico de acordo com a modalidade da invenção;
[0024] as FIGS. 5A e 5B ilustram esquematicamente ocircuito de julgamento de subpalavra-chave do dispositivo dedetecção de despertar por voz de acordo com a modalidade dainvenção; e
[0025] a FIG. 6 é um fluxograma que ilustra um método dedetecção de despertar por voz para um dispositivo eletrônicode acordo com uma modalidade da invenção.
[0026] A invenção fornece um dispositivo de detecção dedespertar por voz dependente de alto-falante e um método decontrole daquele. De acordo com a invenção, é executada umaação de treinamento para criar parâmetros de modelo de subpalavra-chave e parâmetros de modelo de palavra-chave. Os parâmetros de modelo de subpalavra-chave e os parâmetros demodelo de palavra-chave são aplicados a uma primeira fase dedetecção e a uma segunda fase de detecção, respectivamente.
[0027] As FIGS. 2A e 2B são diagramas de blocos queilustram o conceito de implementação de um dispositivo de detecção de despertar por voz de um produto eletrônico de acordo com uma modalidade da invenção. O dispositivo de detecção de despertar por voz compreende um circuito de detecção frontal 210, um processador de reconhecimento de voz 220 e um processador principal (não mostrado). Quando o produto eletrônico está em um estado de funcionamento normal, o processador principal pode ser usado para gerar parâmetros de modelo de palavra-chave 232 e parâmetros de modelo de subpalavra-chave 234. Quando o produto eletrônico está em um estado inativo, os parâmetros de modelo de subpalavra-chave são aplicados à primeira fase de detecção e os parâmetros de modelo de palavra-chave são aplicados à segunda fase de detecção.
[0028] Como mostrado na FIG. 2A, quando o produto eletrônico está no estado de funcionamento normal, o processador principal pode ser ativado para executar a ação de treinamento para receber um sinal de voz Sa da palavra- chave. As modalidades a seguir serão ilustradas considerando a palavra-chave "Hi-Patent" e a subpalavra-chave "Hi" como exemplos.
[0029] Durante o processo de execução da ação de treinamento, uma unidade de estimação de parâmetros de modelo 230 do processador principal primeiramente recebe o sinal de voz Sa correspondente à palavra-chave "Hi-Patent" de um usuário, e em seguida a unidade de estimação de parâmetros de modelo 230 executa uma ação de extração de recursos para extrair recursos de voz do sinal de voz Sa. Por exemplo, os recursos de voz incluem frequência, volume de som, ruído ... etc. Em seguida, a unidade de estimação de parâmetros de modelo 230 cria os parâmetros de modelo de palavra-chave 232 do sinal de voz Sa de acordo com um modelo de reconhecimento de voz especificado. Por exemplo, o modelo de reconhecimento de voz especificado é um modelo oculto de Markov (abreviado HMM). É observado que o exemplo do modelo de reconhecimento de voz especificado não é restrito. Outro exemplo do modelo de reconhecimento de voz especificado inclui um modelo de mistura Gaussiano (abreviado GMM), uma máquina vetorial de suporte (SVM) ou um modelo de rede neural, mas não se limita a estes.
[0030] Para criar os parâmetros de modelo de subpalavra-chave 234, a unidade de estimação de parâmetros de modelo 230 executa uma operação de segmentação sobre a palavra- chave "Hi-Patent". A operação de segmentação é baseada no HMM da palavra-chave "Hi-Patent" pela aplicação de um algoritmo de decodificação de Viterbi para separar "Hi" e "Patent" da palavra-chave "Hi-Patent".
[0031] Após o término da operação de segmentação, aunidade de estimação de parâmetros de modelo 230 adquire asubpalavra-chave "Hi" e então cria os parâmetros de modelode subpalavra-chave 234 de acordo com HMM. É observado quea operação de segmentação não é restrita para separar a palavra-chave "Hi-Patent" em "Hi" e "Patent".Alternativamente, a palavra-chave "Hi-Patent"é separada em "Hi-Pa" e "tent"após o término da operação de segmentação.
[0032] Como mostrado na FIG. 2B, quando o produtoeletrônico está no estado inativo e o dispositivo de detecção de despertar por voz está na primeira fase de detecção, o circuito de detecção frontal 210 julga se o sinal de voz Sacontém a voz da subpalavra-chave "Hi" de acordo com os parâmetros de modelo de subpalavra-chave 234. Se o circuito de detecção frontal 210 confirmar que o sinal de voz Sa contém a voz da subpalavra-chave "Hi", o circuito de detecção frontal 210 gera um primeiro sinal de interrupção INT1 para o processador de reconhecimento de voz 220.
[0033] Um exemplo do processador de reconhecimento de voz 220 é um processador digital de sinais (DSP), o qual é também denominado de processador minúsculo. O processador de reconhecimento de voz 220 executa reconhecimento de voz no sinal de voz Sa. Se o primeiro sinal de interrupção INT1 não for asseverado, o processador de reconhecimento de voz 220 não é alimentado e, portanto, está desabilitado. Entretanto, o dispositivo de detecção de despertar de voz está na primeira fase de detecção. Enquanto que, se o primeiro sinal de interrupção INT1 for asseverado, o processador de reconhecimento de voz 220 está habilitado. Consequentemente, a fase de detecção do dispositivo de detecção de despertar de voz é mudada da primeira fase de detecção para uma segunda fase de detecção.
[0034] Na segunda fase de detecção, o processador de reconhecimento de voz 220 julga se o sinal de voz Sa é a voz da palavra-chave "Hi-Patent", de acordo com os parâmetros de modelo de palavra-chave 232. Se o processador de reconhecimento de voz 220 confirmar que o sinal de voz Sa é a voz da palavra-chave "Hi-Patent", o processador de reconhecimento de voz 220 gera um segundo sinal de interrupção INT2 para o processador principal. Após o processador principal receber o segundo sinal de interrupção INT2, a fase de detecção do dispositivo de detecção de despertar por voz é mudada da segunda fase de detecção para uma terceira fase de detecção.
[0035] Enquanto que, se o processador de reconhecimento de voz 220 julgar que o sinal de voz Sa não é a voz da palavra-chave "Hi-Patent", o processador de reconhecimento de voz 220 não assevera o segundo sinal de interrupção INT2 para o processador principal e o processador de reconhecimento de voz 220 é novamente desabilitado. Entretanto, a fase de detecção do dispositivo de detecção de despertar por voz é mudada da segunda fase de detecção para a terceira fase de detecção. Na primeira fase de detecção, o circuito de detecção frontal 210 detecta se o primeiro sinal de interrupção INT1 é gerado.
[0036] A partir das descrições acima, a subpalavra-chave do sinal de voz Sa é primeiramente reconhecida na primeira fase de detecção. Consequentemente, o número de vezes que o dispositivo de detecção de despertar por voz executa a segunda fase de detecção é efetivamente reduzido. Em outras palavras, o modo de utilização de consumo de potência em um dia é reduzido.
[0037] A FIG. 3 é um diagrama de blocos que ilustra um primeiro dispositivo exemplificativo de detecção de despertar por voz do produto eletrônico de acordo com a modalidade da invenção. O dispositivo de detecção de despertar por voz 300 compreende um circuito de detecção frontal 310, um processador de reconhecimento de voz 320 e um processador principal 330. O circuito de detecção frontal 310 compreende um microfone 312, um codificador/decodificador de áudio 314 e um circuito de julgamento de subpalavra-chave 316. O microfone 312 gera um sinal analógico de voz para o codificador/decodificador de áudio 314. Pelo codificador/decodificador de áudio 314, um sinal analógico de voz proveniente do microfone 312 é convertido em um sinal digital de voz Sa.
[0038] O processador principal 330 está conectado a uma unidade de memória principal 334. O processador de reconhecimento de voz 320 está conectado a uma unidade de submemória 322. O circuito de julgamento de subpalavra-chave 316 tem uma memória embarcada (não mostrada). É observado que as relações entre estes componentes e as unidades de memória correspondentes não são restritas. Por exemplo, em outra modalidade, a unidade de memória principal 334 é uma memória embarcada do processador principal 330, a unidade de submemória 322 é uma memória embarcada do processador de reconhecimento de voz 320, e o circuito de julgamento de subpalavra-chave 316 está conectado a uma unidade externa de memória.
[0039] Quando o produto eletrônico está em um estado de funcionamento normal, o usuário pode operar o processador principal 330 para executar uma ação de treinamento. Durante o processo de execução da ação de treinamento, uma unidade de estimação de parâmetros de modelo 332 do processador principal 330 primeiramente recebe o sinal de voz Sa correspondente à palavra-chave "Hi-Patent" do usuário, e em seguida a unidade de estimação de parâmetros de modelo 332 cria parâmetros de modelo de palavra-chave e parâmetros de modelo de subpalavra-chave do sinal de voz Sa de acordo com um modelo HMM. Após o término da ação de treinamento, os parâmetros de modelo de palavra-chave e os parâmetros de modelo de subpalavra-chave são armazenados na unidade de memória principal 334. Por exemplo, a unidade de memória principal 334 é uma unidade não-volátil.
[0040] Quando o produto eletrônico está prestes a entrar em um estado inativo, os parâmetros de modelo de palavra- chave e os parâmetros de modelo de subpalavra-chave são lidos da unidade de memória principal 334 e armazenados na unidade de submemória 322. Além disso, o processador de reconhecimento de voz 320 pode modificar os parâmetros de modelo de subpalavra-chave de acordo com os fatores ambientais. Por exemplo, o processador de reconhecimento de voz 320 pode adquirir a razão entre sinal e ruído (SNR), o tipo de ruído ou outros fatores do ambiente do sinal de voz Sa. Consequentemente, os parâmetros de modelo de subpalavra- chave são modificados em parâmetros de modelo de subpalavra- chave modificados pelo processador de reconhecimento de voz 320. Em seguida, os parâmetros de modelo de subpalavra-chave modificados são transmitidos para o circuito de julgamento de subpalavra-chave 316.
[0041] Quando o produto eletrônico está no estado inativo, o circuito de detecção frontal 310 está alimentado. Consequentemente, o microfone 312, o codificador/decodificador de áudio 314 e o circuito de julgamento de subpalavra-chave 316 estão habilitados. Em uma modalidade, o processo de despertar o produto eletrônico do estado inativo compreende as seguintes três fases de detecção.
[0042] No estado inativo, o circuito de detecção frontal 310 está em uma primeira fase de detecção para julgar se o sinal de voz Sa contém a voz da subpalavra-chave "Hi" de acordo com os parâmetros de modelo de subpalavra-chave modificados. Se o circuito de detecção frontal 310 confirmar que o sinal de voz Sa contém a voz da subpalavra-chave "Hi", o circuito de detecção frontal 310 gera um primeiro sinal de interrupção INT1 para o processador de reconhecimento de voz 320.
[0043] Isto é, na primeira fase de detecção, o circuito de julgamento de subpalavra-chave 316 julga se o sinal de voz Sa contém a voz da subpalavra-chave "Hi" de acordo com os parâmetros de modelo de subpalavra-chave modificados. Se o circuito de julgamento de subpalavra-chave 316 confirmar que o sinal de voz Sa contém a voz da subpalavra-chave "Hi", o circuito de julgamento de subpalavra-chave 316 gera o primeiro sinal de interrupção INT1 para o processador de reconhecimento de voz 320. Em resposta ao primeiro sinal de interrupção INT1, o processador de reconhecimento de voz 320 entra em uma segunda fase de detecção. Entretanto, se o circuito de julgamento de subpalavra-chave 316 julgar que o sinal de voz Sa não contém a voz da subpalavra-chave "Hi", o circuito de detecção frontal 310 é mantido na primeira fase de detecção. Um exemplo do processador de reconhecimento de voz 320 é um processador digital de sinais (DSP), o qual é também denominado de processador minúsculo. O processador de reconhecimento de voz 320 executa reconhecimento de voz do sinal de voz Sa. Se o primeiro sinal de interrupção INT1 não for asseverado, o processador de reconhecimento de voz 320 não é alimentado e está, portanto, desabilitado. Entretanto, o dispositivo de detecção de despertar por voz está na primeira fase de detecção. Enquanto que, se o primeiro sinal de interrupção INT1 for asseverado, o processador de reconhecimento de voz 320 está habilitado. Consequentemente, a fase de detecção do dispositivo de detecção de despertar por voz é mudada da primeira fase de detecção para a segunda fase de detecção.
[0044] Na segunda fase de detecção, o processador de reconhecimento de voz 320 julga se o sinal de voz Sa é a voz da palavra-chave "Hi-Patent" de acordo com os parâmetros de modelo de palavra-chave. Se o processador de reconhecimento de voz 320 confirmar que o sinal de voz Sa é a voz da palavra- chave "Hi-Patent", o processador de reconhecimento de voz 320 gera um segundo sinal de interrupção INT2 para o processador principal 330. Após o processador principal 330 receber o segundo sinal de interrupção INT2, a fase de detecção do dispositivo de detecção de despertar por voz é mudada da segunda fase de detecção para a terceira fase de detecção.
[0045] Enquanto que, se o processador de reconhecimento de voz 320 julgar que o sinal de voz Sa não é a voz da palavra-chave "Hi-Patent", o processador de reconhecimento de voz 320 não gera o segundo sinal de interrupção INT2 para o processador principal 330 e o processador de reconhecimento de voz 320 é novamente desabilitado. Entretanto, a fase de detecção do dispositivo de detecção de despertar por voz é mudada da segunda fase de detecção para a primeira fase de detecção. Na primeira fase de detecção, o circuito de detecção frontal 310 detecta se o primeiro sinal de interrupção INT1 é gerado.
[0046] Na terceira fase de detecção, o processador principal 330 está habilitado e, portanto, o produto eletrônico está no estado de funcionamento normal.
[0047] A FIG. 4 é um diagrama de blocos que ilustra um segundo dispositivo exemplificativo de detecção de despertar por voz do produto eletrônico de acordo com a modalidade da invenção. O dispositivo de detecção de despertar por voz 400 compreende um circuito de detecção frontal 410, um processador de reconhecimento de voz 420 e um processador principal 430. O circuito de detecção frontal 410 compreende um microfone 412, um codificador/decodificador de áudio 414 e um circuito de julgamento de subpalavra-chave 416.
[0048] O processador principal 430 está conectado a umaunidade de memória principal 434. O processador de reconhecimento de voz 420 está conectado a uma unidade de submemória 422. O circuito de julgamento de subpalavra-chave 416 tem uma memória embarcada (não mostrada).
[0049] Em comparação com a primeira modalidade, ospercursos de armazenamento dos parâmetros de modelo de palavra-chave e dos parâmetros de modelo de subpalavra-chave são diferenciados.
[0050] Quando o produto eletrônico está prestes a entrarem um estado inativo, os parâmetros de modelo de palavra- chave e os parâmetros de modelo de subpalavra-chave são lidos da unidade de memória principal 434, e os parâmetros de modelo de palavra-chave e os parâmetros de modelo de subpalavra-chave são respectivamente armazenados na unidade de submemória 422 e na memória embarcada do circuito de julgamento de subpalavra-chave 416.
[0051] Em outras palavras, os parâmetros de modelo desubpalavra-chave são transmitidos diretamente da unidade de memória principal 434 para a memória embarcada do circuito de julgamento de subpalavra-chave 416 sem serem modificados.
[0052] Em uma modalidade, o processo de despertar doproduto eletrônico do estado inativo compreende as seguintes três fases de detecção. Em uma primeira fase de detecção, o circuito de detecção frontal 410 julga se o sinal de voz Sa contém a voz da subpalavra-chave "Hi" de acordo com os parâmetros de modelo de subpalavra-chave. Se o circuito de detecção frontal 410 confirmar que o sinal de voz Sa contém a voz da subpalavra-chave "Hi", o circuito de detecção frontal 410 gera um primeiro sinal de interrupção INT1 para o processador de reconhecimento de voz 420. Enquanto que, se o circuito de detecção frontal 410 julgar que o sinal de voz Sa não contém a voz da subpalavra-chave "Hi", o circuito de detecção frontal 410 não gera o primeiro sinal de interrupção INT1 para o processador de reconhecimento de voz 420.
[0053] A segunda fase de detecção e a terceira fase de detecção desta modalidade são similares àquelas da primeira modalidade e não são redundantemente descritas neste documento.
[0054] As FIGS. 5A e 5B ilustram esquematicamente o circuito de julgamento de subpalavra-chave do dispositivo de detecção de despertar por voz de acordo com a modalidade da invenção.
[0055] Como mostrado na FIG. 5A, o circuito de julgamento de subpalavra-chave 500 compreende um detector de sinal 510, um extrator de recursos 520 e um circuito de adaptação 530. O extrator de recursos 520 compreende um analisador espectral 522 e um normalizador de recursos 524.
[0056] O detector de sinal 510 recebe o sinal de voz Sa e detecta a amplitude, a razão entre sinal e ruído (SNR) ou a SNR de sub-banda do sinal de voz Sa. Por exemplo, se a amplitude do sinal de voz Sa é maior que um valor limiar, o detector de sinal 510 gera um sinal de habilitação EN para habilitar o extrator de recursos 520.
[0057] Após o extrator de recursos 520 estar habilitado, o analisador espectral 522 extrai as informações do sinal de voz Sa e converte as informações do sinal de voz Sa em um sinal de recurso de voz Ve. O sinal de recurso de voz Ve representa o recurso de voz do sinal de voz Sa. Em seguida, o normalizador de recursos 524 normaliza o sinal de recurso de voz Ve em um sinal de recurso de voz normalizado Vn. O sinal de recurso de voz normalizado Vn é transmitido para o circuito de adaptação 530.
[0058] O circuito de adaptação 530 julga se o sinal de recurso de voz normalizado Vn contém a voz da subpalavra- chave "Hi" de acordo com os parâmetros de modelo de subpalavra-chave, os quais foram previamente armazenados na memória. Se o circuito de adaptação 530 determinar que o sinal de recurso de voz normalizado Vn contém a voz da subpalavra-chave "Hi", o circuito de adaptação 530 gera o primeiro sinal de interrupção INT1. Entretanto, se o circuito de adaptação 530 julgar que o sinal de recurso de voz normalizado Vn não contém a voz da subpalavra-chave "Hi", o circuito de adaptação 530 não gera o primeiro sinal de interrupção INT1.
[0059] Geralmente, o circuito de adaptação 530 julga se o sinal de recurso de voz normalizado Vn contém a voz da subpalavra-chave "Hi" por um algoritmo de adaptação. Por exemplo, o algoritmo de adaptação é um algoritmo de adaptação dinâmico ou um algoritmo de decodificação de Viterbi, mas não está limitado a estes.
[0060] Como mostrado na FIG. 5B, o analisador espectral 522 utiliza uma tecnologia de análise de sub-banda para extrair as informações do sinal de voz Sa e, portanto, produz vetores plurais v1, v2 e v3. Estes vetores v1, v2 e v3 constituem o sinal de recurso de voz Ve.
[0061] Em seguida, o normalizador de recursos 524 normaliza o volume de som, o efeito de canal e o ambiente de ruído dos vetores v1, v2 e v3 nos vetores normalizados vn1, vn2 e vn3. Estes vetores vn1, vn2 e vn3 constituem o sinal de recurso de voz normalizado Vn.
[0062] O circuito de adaptação 530 julga se o sinal de recurso de voz normalizado Vn contém a voz da subpalavra- chave "Hi" por um algoritmo de adaptação que utiliza o sinal de recurso de voz normalizado Vn e os parâmetros de modelo de subpalavra-chave previamente armazenados.
[0063] A FIG. 6 é um fluxograma que ilustra um método de detecção de despertar por voz para um dispositivo eletrônico de acordo com uma modalidade da invenção. Quando o produto eletrônico está em um estado inativo (Etapa S610), o dispositivo de detecção de despertar por voz está em uma primeira fase de detecção. Entretanto, o circuito de detecção frontal recebe um sinal de voz e reconhece o sinal de voz de acordo com os parâmetros de modelo de subpalavra-chave (Etapa S612). Em seguida, é executada a etapa S614 para julgar se o sinal de voz contém a voz da subpalavra-chave. Se o sinal de voz não contém a voz da subpalavra-chave na etapa S614, a etapa S612 é executada repetidamente.
[0064] Se o sinal de voz contém a voz da subpalavra-chave na etapa S614, o dispositivo de detecção de despertar por voz está em uma segunda fase de detecção. Entretanto, o processador de reconhecimento de voz está habilitado para reconhecer o sinal de voz de acordo com os parâmetros de modelo de subpalavra-chave (Etapa S616). Em seguida, é executada uma etapa S618 para julgar se o sinal de voz contém a voz da palavra-chave. Se o sinal de voz não contém a voz da palavra-chave na etapa S618, a etapa S612 é executada repetidamente.
[0065] Se o sinal de voz contém a voz da palavra-chave na etapa S618, o processador principal é habilitado para despertar o produto eletrônico (Etapa S620). Após o produto eletrônico ser desperto, o produto eletrônico está no estado de funcionamento normal.
[0066] Nas modalidades acima, o usuário pode executar uma ação de treinamento para fornecer uma voz de uma palavra- chave ao produto eletrônico quando o produto eletrônico está no estado de funcionamento normal. Após o processador principal receber o sinal de voz da palavra-chave do usuário, são criados parâmetros de modelo de palavra-chave e parâmetros de modelo de subpalavra-chave.
[0067] Antes do produto eletrônico entrar no estado inativo, os parâmetros de modelo de palavra-chave são armazenados na unidade de submemória para serem reconhecidos pelo processador de reconhecimento de voz, e os parâmetros de modelo de subpalavra-chave (ou os parâmetros de modelo de subpalavra-chave modificados) são armazenados no circuito de detecção frontal para serem reconhecidos pelo circuito de julgamento de subpalavra-chave. Consequentemente, quando o produto eletrônico está no estado inativo, é executado o método de detecção de despertar por voz da FIG. 6.
[0068] A partir das descrições acima, a invenção fornece um dispositivo de detecção de despertar por voz e um método de detecção de despertar por voz. Na primeira fase de detecção, é reconhecida a subpalavra-chave do sinal de voz. Se o dispositivo de detecção de despertar por voz confirmar que o sinal de voz Sa contém a voz da subpalavra-chave, o dispositivo de detecção de despertar por voz está na segunda fase de detecção. Consequentemente, o número de vezes que o dispositivo de detecção de despertar por voz executa a segunda fase de detecção é efetivamente reduzido. Em outras palavras, o modo de utilização de consumo de potência em um dia é reduzido.
[0069] Embora a invenção tenha sido descrita em termos do que é atualmente considerado como sendo as modalidades mais práticas e preferidas, deve ser entendido que a invenção não necessita ser limitada à modalidade revelada. Pelo contrário, pretende-se cobrir diversas modificações e arranjos similares incluídos dentro do espírito e âmbito das reivindicações apensas que devem ser reconhecidas com a mais ampla interpretação de modo a englobar todas tais modificações e estruturas similares.
Claims (20)
1. Dispositivo de detecção (400) de despertar por voz para um produto eletrônico, o dispositivo de detecção de despertar por voz caracterizadopor compreender: um circuito de detecção frontal (310, 410) para controlar um primeiro sinal de interrupção INT1 que julga se um sinal de voz contém uma subpalavra-chave, em que se o circuito de detecção frontal confirmar que o sinal de voz Sa contém a voz da subpalavra-chave, o circuito de detecção frontal (310, 410) assevera o primeiro sinal de interrupção INT1; um processador de reconhecimento de voz (320, 420), seletivamente habilitado em resposta ao primeiro sinal de interrupção, para controlar um segundo sinal de interrupção INT2 que julga se o sinal de voz contém uma palavra-chave, em que se o processador de reconhecimento de voz (320, 420) confirmar que o sinal de voz contém a palavra-chave, processador de reconhecimento de voz (320, 420) assevera o segundo sinal de interrupção INT2; e um processador principal (430), habilitado em resposta ao segundo sinal de interrupção INT2, de modo que o produto eletrônico seja desperto de um estado inativo para um estado de funcionamento normal; em que o processador de reconhecimento de voz (320, 420) não é alimentado e desabilitado quando o primeiro sinal de interrupção não for asseverado, e o processador de reconhecimento de voz (320, 420) é desabilitado se processador de reconhecimento de voz (320, 420) confirmar que o sinal de voz não contém a palavra-chave.
2. Dispositivo (400), de acordo com a reivindicação 1, caracterizadopelo fato de, se o circuito de detecção frontal (310, 410) confirmar que o sinal de voz contém a subpalavra-chave de acordo com os parâmetros de modelo de subpalavra-chave, o circuito de detecção frontal asseverar o primeiro sinal de interrupção INT1.
3. Dispositivo (400), de acordo com a reivindicação 2, caracterizadopelo fato de, se o processador de reconhecimento de voz (320, 420) confirmar que o sinal de voz contém a palavra-chave de acordo com os parâmetros de modelo de palavra-chave, o processador de reconhecimento de voz asseverar um segundo sinal de interrupção INT2.
4. Dispositivo (400), de acordo com a reivindicação 3, caracterizadopelo fato do circuito de detecção frontal (310, 410) compreender: um microfone (312, 412) para receber uma voz e converter a voz em um sinal analógico de voz; um codificador/decodificador de áudio (314, 414) para converter o sinal analógico de voz em um sinal digital de voz; e um circuito de julgamento de subpalavra-chave (316, 416) para julgar se o sinal digital de voz contém a subpalavra-chave de acordo com os parâmetros de modelo de subpalavra-chave, onde, se o circuito de julgamento de subpalavra-chave (316, 416) confirmar que o sinal digital de voz contém a subpalavra-chave, o circuito de julgamento de subpalavra-chave gera o primeiro sinal de interrupção INT1.
5. Dispositivo (400), de acordo com a reivindicação 4, caracterizadopelo fato do circuito de julgamento de subpalavra-chave compreender: um detector de sinal (510) para detectar uma amplitude, uma razão entre sinal e ruído ou uma razão entre sinal e ruído de sub-banda do sinal digital de voz, gerando deste modo um sinal de habilitação; um extrator de recursos (520), onde em resposta ao sinal de habilitação, o extrator de recursos (520) é habilitado para extrair informações do sinal digital de voz e gerar um sinal de recurso de voz normalizado; e um circuito de adaptação (530) para julgar se o sinal de recurso de voz normalizado contém a subpalavra-chave de acordo com os parâmetros de modelo de subpalavra-chave, onde, se o circuito de adaptação confirmar que o sinal de recurso de voz normalizado contém a subpalavra-chave, o circuito de adaptação gera o primeiro sinal de interrupção INT1.
6. Dispositivo (400), de acordo com a reivindicação 5, caracterizadopelo fato de, se a amplitude do sinal digital de voz for maior que um primeiro valor limiar, ou se a razão entre sinal e ruído do sinal digital de voz for maior que um segundo valor limiar, ou se a razão entre sinal e ruído de sub-banda do sinal digital de voz for maior que um terceiro valor limiar, o detector de sinal (510) gerar o sinal de habilitação.
7. Dispositivo (400), de acordo com a reivindicação 5, caracterizadopelo fato do extrator de recursos (520) compreender: um analisador espectral (522) para extrair as informações do sinal digital de voz e gerar vetores plurais, onde os vetores plurais constituem um sinal de recurso de voz; e um normalizador de recursos (524) para normalizar os vetores do sinal de recurso de voz, gerando deste modo o sinal de recurso de voz normalizado.
8. Dispositivo (400), de acordo com a reivindicação 3, caracterizadopelo fato do dispositivo de detecção de despertar por voz compreender ainda uma unidade de memória principal (334, 434) e a unidade de memória principal estar conectada ao processador principal (330), onde, quando o produto eletrônico está no estado de funcionamento normal e o processador principal (330) executa uma ação de treinamento, uma unidade de estimação de parâmetros de modelo do processador principal (330) recebe o sinal de voz correspondente à palavra-chave de um usuário e cria os parâmetros de modelo de palavra-chave e os parâmetros de modelo de subpalavra-chave, onde os parâmetros de modelo de palavra-chave e os parâmetros de modelo de subpalavra-chave são subsequentemente armazenados na unidade de memória principal.
9. Dispositivo, de acordo com a reivindicação 8, caracterizadopelo fato do dispositivo de detecção de despertar por voz compreender ainda uma unidade de submemória, e a unidade de submemória estar conectada ao processador de reconhecimento de voz para armazenar os parâmetros de modelo de palavra-chave e os parâmetros de modelo de subpalavra-chave, onde os parâmetros de modelo de subpalavra-chave são modificados para parâmetros de modelo de subpalavra-chave modificados pelo processador de reconhecimento de voz, e os parâmetros de modelo de subpalavra-chave modificados são transmitidos para o circuito de detecção frontal.
10. Dispositivo, de acordo com a reivindicação 8, caracterizadopelo fato do dispositivo de detecção de despertar por voz compreender ainda uma unidade de submemória, a unidade de submemória estar conectada ao processador de reconhecimento de voz, e o circuito de detecção frontal compreender uma memória embarcada, onde os parâmetros de modelo de subpalavra-chave são armazenados na unidade de submemória e os parâmetros de modelo de palavra- chave são armazenados na memória embarcada.
11. Método de detecção de despertar por voz para um produto eletrônico, o método de detecção de despertar por voz caracterizadopor compreender as etapas de: fornecer um circuito de detecção frontal (310, 410) para receber um sinal de voz e reconhecer o sinal de voz; se o sinal de voz contiver uma voz de uma subpalavra- chave (S-614), asseverando um primeiro sinal de interrupção para habilitar (S616) um processador de reconhecimento de voz (320, 420) para reconhecer o sinal de voz, em que o processador de reconhecimento de voz (320, 420) não é alimentado e desabilitado quando o primeiro sinal de interrupção não for asseverado; se o sinal de voz contiver uma voz de uma palavra-chave (S618), asseverando um segundo sinal de interrupção para habilitar, habilitando (S620) um processador principal (330, 430) para despertar o produto eletrônico de um estado inativo para um estado de funcionamento normal; e se o sinal de voz não contiver a voz da palavra-chave, o processador de reconhecimento de voz (320, 420) é desabilitado.
12. Método, de acordo com a reivindicação 11, caracterizadopelo fato de, se o sinal de voz contiver uma voz de uma subpalavra-chave de acordo com parâmetros de modelo de subpalavra-chave, habilitar o processador de reconhecimento de voz para reconhecer o sinal de voz.
13. Método, de acordo com a reivindicação 12, caracterizadopelo fato de, se o sinal de voz contiver uma voz de uma palavra-chave de acordo com parâmetros de modelo de palavra-chave, habilitar o processador principal para despertar o produto eletrônico do estado inativo para o estado de funcionamento normal.
14. Método, de acordo com a reivindicação 13, caracterizadopelo fato de, se o sinal de voz contiver a voz da subpalavra-chave, o circuito de detecção frontal (310, 410) gerar um primeiro sinal de interrupção para o processador de reconhecimento de voz (320, 420), onde o processador de reconhecimento de voz (320, 420) é habilitado em resposta ao primeiro sinal de interrupção INT1.
15. Método, de acordo com a reivindicação 14, caracterizadopelo fato de, se o sinal de voz contiver a voz da palavra-chave, o processador de reconhecimento de voz (320, 420) gerar um segundo sinal de interrupção INT2 para o processador principal (330, 430), onde o processador principal (330, 430) é habilitado em resposta ao segundo sinal de interrupção INT2.
16. Método, de acordo com a reivindicação 13, caracterizadopelo fato de após o circuito de detecção frontal (310, 410) receber o sinal de voz, o circuito de detecção frontal (310, 410) executar as etapas de: detectar uma amplitude, uma razão entre sinal e ruído ou uma razão entre sinal e ruído de sub-banda do sinal de voz, gerando deste modo um sinal de habilitação; extrair informações do sinal de voz e gerar um sinal de recurso de voz normalizado em resposta ao sinal de habilitação; e julgar se o sinal de recurso de voz normalizado contém a subpalavra-chave de acordo com os parâmetros de modelo de subpalavra-chave.
17. Método, de acordo com a reivindicação 16, caracterizadopelo fato de, se a amplitude do sinal digital de voz for maior que um primeiro valor limiar, ou se a razão entre sinal e ruído do sinal digital de voz for maior que um segundo valor limiar, ou se a razão entre sinal e ruído de sub-banda do sinal digital de voz for maior que um terceiro valor limiar, o detector de sinal gerar o sinal de habilitação.
18. Método, de acordo com a reivindicação 16, caracterizadopor compreender ainda: extrair as informações do sinal de voz e gerar vetores plurais, onde os vetores plurais constituem um sinal de recurso de voz; e normalizar os vetores do sinal de recurso de voz, gerando deste modo o sinal de recurso de voz normalizado.
19. Método, de acordo com a reivindicação 13, caracterizadopelo fato de quando o produto eletrônico estiver no estado de funcionamento normal e uma unidade de estimação de parâmetros de modelo do processador principal receber o sinal de voz correspondente à palavra-chave de um usuário, a unidade de estimação de parâmetros de modelo cria os parâmetros de modelo de palavra-chave e os parâmetros de modelo de subpalavra-chave.
20. Método, de acordo com a reivindicação 13, caracterizadopelo fato de os parâmetros de modelo de subpalavra-chave serem parâmetros de modelo de subpalavra- chave modificados.
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462090614P | 2014-12-11 | 2014-12-11 | |
US62/090,614 | 2014-12-11 | ||
US201562117109P | 2015-02-17 | 2015-02-17 | |
US62/117,109 | 2015-02-17 | ||
US14/872,207 | 2015-10-01 | ||
US14/872,207 US9779725B2 (en) | 2014-12-11 | 2015-10-01 | Voice wakeup detecting device and method |
Publications (2)
Publication Number | Publication Date |
---|---|
BR102015031137A2 BR102015031137A2 (pt) | 2016-11-08 |
BR102015031137B1 true BR102015031137B1 (pt) | 2022-05-17 |
Family
ID=54705098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR102015031137-0A BR102015031137B1 (pt) | 2014-12-11 | 2015-12-11 | Dispositivo e método de detecção de despertar por voz para um produto eletrônico |
Country Status (4)
Country | Link |
---|---|
US (1) | US9779725B2 (pt) |
EP (1) | EP3032535A1 (pt) |
CN (1) | CN105704298A (pt) |
BR (1) | BR102015031137B1 (pt) |
Families Citing this family (79)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105376389B (zh) * | 2014-08-19 | 2020-02-14 | 中兴通讯股份有限公司 | 一种语音唤醒方法及设备 |
US9652017B2 (en) * | 2014-12-17 | 2017-05-16 | Qualcomm Incorporated | System and method of analyzing audio data samples associated with speech recognition |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9820039B2 (en) | 2016-02-22 | 2017-11-14 | Sonos, Inc. | Default playback devices |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
CN106228979B (zh) * | 2016-08-16 | 2020-01-10 | 重庆大学 | 一种公共场所异常声音特征提取及识别方法 |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10079015B1 (en) * | 2016-12-06 | 2018-09-18 | Amazon Technologies, Inc. | Multi-layer keyword detection |
US10593328B1 (en) * | 2016-12-27 | 2020-03-17 | Amazon Technologies, Inc. | Voice control of remote device |
US10672387B2 (en) * | 2017-01-11 | 2020-06-02 | Google Llc | Systems and methods for recognizing user speech |
US10311876B2 (en) * | 2017-02-14 | 2019-06-04 | Google Llc | Server side hotwording |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
TWI655624B (zh) * | 2017-08-03 | 2019-04-01 | 晨星半導體股份有限公司 | 聲控裝置及相關的聲音訊號處理方法 |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
CN107613111A (zh) * | 2017-09-01 | 2018-01-19 | 江西冠中图像科技有限责任公司 | 具有声控唤醒的智能手机 |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
KR102417899B1 (ko) * | 2017-11-16 | 2022-07-07 | 현대자동차주식회사 | 차량의 음성인식 시스템 및 방법 |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
US10672380B2 (en) * | 2017-12-27 | 2020-06-02 | Intel IP Corporation | Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
CN110277094A (zh) * | 2018-03-14 | 2019-09-24 | 阿里巴巴集团控股有限公司 | 设备的唤醒方法、装置及电子设备 |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US11726324B2 (en) * | 2018-08-31 | 2023-08-15 | Apple Inc. | Display system |
US10878811B2 (en) * | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
CN111176618B (zh) * | 2019-12-10 | 2023-09-01 | 武汉学子明灯科技有限责任公司 | 一种语音唤醒开发程序的方法及系统 |
US11341954B2 (en) * | 2019-12-17 | 2022-05-24 | Google Llc | Training keyword spotters |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
CN112002320A (zh) * | 2020-08-10 | 2020-11-27 | 北京小米移动软件有限公司 | 语音唤醒方法、装置、电子设备和存储介质 |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
CN112948006A (zh) * | 2021-02-02 | 2021-06-11 | 深圳市江元科技(集团)有限公司 | 终端设备唤醒方法、装置、终端设备和存储介质 |
CN115881118B (zh) * | 2022-11-04 | 2023-12-22 | 荣耀终端有限公司 | 一种语音交互方法及相关电子设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003026158A1 (en) | 2001-09-14 | 2003-03-27 | Roke Manor Research Limited | Single frequency duplex fm transceiver with digital ssb demulator |
KR100744301B1 (ko) * | 2006-06-01 | 2007-07-30 | 삼성전자주식회사 | 음성 인식을 이용하여 동작 모드를 전환하는 휴대 단말기및 그 방법 |
US20110288860A1 (en) | 2010-05-20 | 2011-11-24 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair |
US9921803B2 (en) | 2010-08-23 | 2018-03-20 | Nokia Technologies Oy | Audio user interface apparatus and method |
CN103543814B (zh) * | 2012-07-16 | 2016-12-07 | 瑞昱半导体股份有限公司 | 信号处理装置以及信号处理方法 |
US9959865B2 (en) * | 2012-11-13 | 2018-05-01 | Beijing Lenovo Software Ltd. | Information processing method with voice recognition |
US10395651B2 (en) | 2013-02-28 | 2019-08-27 | Sony Corporation | Device and method for activating with voice input |
CN110244833B (zh) * | 2013-05-23 | 2023-05-12 | 美商楼氏电子有限公司 | 麦克风组件 |
KR102060661B1 (ko) * | 2013-07-19 | 2020-02-11 | 삼성전자주식회사 | 통신 방법 및 이를 위한 디바이스 |
US20150112690A1 (en) | 2013-10-22 | 2015-04-23 | Nvidia Corporation | Low power always-on voice trigger architecture |
US8768712B1 (en) | 2013-12-04 | 2014-07-01 | Google Inc. | Initiating actions based on partial hotwords |
-
2015
- 2015-10-01 US US14/872,207 patent/US9779725B2/en active Active
- 2015-11-23 CN CN201510814699.XA patent/CN105704298A/zh not_active Withdrawn
- 2015-11-25 EP EP15196351.9A patent/EP3032535A1/en not_active Withdrawn
- 2015-12-11 BR BR102015031137-0A patent/BR102015031137B1/pt active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
US9779725B2 (en) | 2017-10-03 |
US20160171975A1 (en) | 2016-06-16 |
BR102015031137A2 (pt) | 2016-11-08 |
EP3032535A1 (en) | 2016-06-15 |
CN105704298A (zh) | 2016-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BR102015031137B1 (pt) | Dispositivo e método de detecção de despertar por voz para um produto eletrônico | |
US9775113B2 (en) | Voice wakeup detecting device with digital microphone and associated method | |
JP6801095B2 (ja) | 音声制御システム及びそのウェイクアップ方法、ウェイクアップ装置、並びに家電製品、コプロセッサ | |
CN107622770B (zh) | 语音唤醒方法及装置 | |
WO2021093449A1 (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
US9153232B2 (en) | Voice control device and voice control method | |
US10719115B2 (en) | Isolated word training and detection using generated phoneme concatenation models of audio inputs | |
US20170256270A1 (en) | Voice Recognition Accuracy in High Noise Conditions | |
TWI474317B (zh) | 訊號處理裝置以及訊號處理方法 | |
WO2017114201A1 (zh) | 一种设定操作的执行方法及装置 | |
BR102018070673A2 (pt) | Gerar diálogo baseado em pontuações de verificação | |
CN109272991B (zh) | 语音交互的方法、装置、设备和计算机可读存储介质 | |
US20140200890A1 (en) | Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon | |
US20200380971A1 (en) | Method of activating voice assistant and electronic device with voice assistant | |
US9335966B2 (en) | Methods and apparatus for unsupervised wakeup | |
WO2019233228A1 (zh) | 电子设备及设备控制方法 | |
US10861447B2 (en) | Device for recognizing speeches and method for speech recognition | |
WO2021169711A1 (zh) | 指令执行方法、装置、存储介质及电子设备 | |
EP4244853A1 (en) | Fake audio detection | |
US10726829B2 (en) | Performing speaker change detection and speaker recognition on a trigger phrase | |
EP3195314B1 (en) | Methods and apparatus for unsupervised wakeup | |
WO2017221516A1 (ja) | 情報処理装置及び情報処理方法 | |
JP2003241787A (ja) | 音声認識装置および方法、並びにプログラム | |
TW202046061A (zh) | 啟動語音助理的方法及具有語音助理的電子裝置 | |
US20210350798A1 (en) | Two stage user customizable wake word detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B03A | Publication of a patent application or of a certificate of addition of invention [chapter 3.1 patent gazette] | ||
B06F | Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette] | ||
B06U | Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette] | ||
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 11/12/2015, OBSERVADAS AS CONDICOES LEGAIS |