BR112020012323A2

BR112020012323A2 - dispositivo e processo de assistência vocal

Info

Publication number: BR112020012323A2
Application number: BR112020012323-4A
Authority: BR
Inventors: Gilles Bourgoin
Original assignee: Sagemcom Broadband Sas
Priority date: 2017-12-19
Filing date: 2018-12-04
Publication date: 2020-11-24
Also published as: WO2019120984A1; US11295744B2; CN111512363B; EP3729420B1; FR3075442A1; CN111512363A; EP3729420A1; FR3075442B1; US20200380988A1

Abstract

Um aspecto da invenção refere-se a um dispositivo de assistência vocal (10) compreendendo um microfone (M) que capta e transmite um primeiro sinal (SigM) a uma unidade de detecção (UDe); a unidade de detecção (UDe) encaminha, em caso de detecção da palavra-chave no primeiro sinal (SigM), o dito primeiro sinal (SiM) para uma unidade de análise (UAn); a unidade de análise (UAn) trata o primeiro sinal(SigM) e gera um sinal de saída (SigS); a unidade de detecção (UDe) compreende: um primeiro módulo (Md1) que detecta a palavra-chave no primeiro sinal (SigM), um segundo módulo (Md2) que detecta a palavra-chave em um segundo sinal (SigX) recebido de pelo menos uma fonte áudio externa (SAx) e um módulo de comando (K) que encaminha o primeiro sinal (SiM) para a unidade de análise (UAn) quando a palavra-chave é detectada unicamente pelo primeiro módulo(Md1 da unidade de detecção (UDe).

Description

Relatório Descritivo da Patente de Invenção para "DISPOSITIVO E PROCESSO DE ASSISTÊNCIA VOCAL".

CAMPO TÉCNICO DA INVENÇÃO

[001] O campo técnico da invenção é o de assistência vocal. A presente invenção refere-se a um dispositivo e a um processo de assistência vocal.

ANTECEDENTES TÉCNICOS DA INVENÇÃO

[002] Um dispositivo de assistência vocal, ou assistente vocal, funciona classicamente da seguinte maneira: um microfone capta um ambiente em forma de um sinal e transmite esse sinal a uma unidade de detecção de uma palavra-chave (wakeword em inglês). O sinal consecutivo à palavra-chave, é considerado como uma solicitação de um usuário. Em caso de detecção da palavra-chave, a unidade de detecção encaminha o sinal vindo do microfone a uma unidade de análise que o trata a fim de interpretar a solicitação que ela contém e gerar um sinal de resposta à dita solicitação. A unidade de análise transmite então o sinal de resposta a um alto-falante que o difunde. O usuário obtém assim uma resposta à sua solicitação.

[003] Um inconveniente dos assistentes vocais conhecidos é que eles não fazem diferença entre um sinal proveniente diretamente de um usuário humano e um sinal proveniente de uma gravação. Se o microfone capta, por exemplo, uma gravação vinda de um equipamento de televisão ou rádio e um jornalista pronuncia na antena a palavra- chave, o assistente vocal interpreta o que segue como uma solicitação e se esforça para responder. Tal disfunção é desagradável e até prejudicial ao usuário: o assistente vocal vai, por exemplo, responder a uma pergunta que o usuário não fez ou mesmo passar pedido de um objeto de maneira inoportuna.

[004] Uma técnica contínua de anulação do eco acústico permitiria suprimir do sinal captado pelo microfone do assistente vocal o sinal vindo de um alto-falante de uma fonte de áudio externa, tal como uma televisão ou um rádio. Essa técnica requer, porém, um módulo de tratamento do sinal complexo e, para ser eficaz, precisa conhecer com precisão a distância entre o microfone e o assistente vocal e o alto- falante da fonte de áudio externa. Além de sua complexidade e, portanto, de seu custo, um inconveniente desta solução é que o microfone do assistente vocal deve permanecer a uma distância fixa da fonte de áudio externa.

[005] Outra técnica conhecida de realização em forma de feixe (beam forming” em inglês) permitiria localizar a fonte de áudio externa e identificar sua direção em relação ao microfone a fim de ignorar qualquer sinal vindo dessa direção. Um inconveniente dessa técnica é a pessoa fica completamente privada de uma zona do espaço utilizável: com essa técnica, um usuário que se encontre entre sua televisão e seu assistente vocal será ignorado pelo o assistente vocal.

SUMÁRIO DA INVENÇÃO

[006] A invenção oferece uma solução para os problemas mencionados anteriormente, propondo um assistente vocal que permite diferenciar um sinal vindo diretamente de um usuário humano de um sinal vindo de uma gravação de uma fonte de áudio externa, sem restringir a distância entre o assistente vocal e a fonte da gravação nem o posicionamento do usuário em relação ao assistente vocal e a fonte da gravação.

[007] Um primeiro aspecto da invenção refere-se a um dispositivo de assistência vocal compreendendo: - um microfone e - uma unidade de detecção de uma palavra-chave, o microfone estando configurado para captar um ambiente sonoro em forma de um primeiro sinal e transmitir o primeiro sinal a uma unidade de detecção; a unidade de detecção estando configurada para encaminhar, em caso de detecção da palavra-chave no primeiro sinal, o dito primeiro sinal para uma unidade de análise; a dita unidade de análise estando configurada para tratar o primeiro sinal e gerar um sinal de saída; a unidade de detecção compreendendo: - um primeiro módulo configurado para receber do microfone o primeiro sinal e detectar a palavra-chave no dito primeiro sinal, - um segundo módulo configurado para receber de pelo menos uma fonte áudio externa um segundo sinal e detectar a palavra- chave no dito segundo sinal e - um módulo de comando configurado para encaminhar o primeiro sinal para a unidade de análise quando a palavra-chave é detectada unicamente pelo primeiro módulo da unidade de detecção.

[008] Um segundo aspecto da invenção refere-se a um processo de assistência vocal compreendendo as seguintes etapas: - um microfone capta um ambiente sonoro em forma de um primeiro sinal e transmite o primeiro sinal a uma unidade de detecção compreendendo: o um primeiro módulo de detecção de uma palavra- chave no primeiro sinal, o um segundo módulo de detecção da palavra-chave em um segundo sinal transmitido por pelo menos uma fonte áudio externa, e o um módulo de comando; - o módulo de comando encaminha o primeiro sinal para uma unidade de análise quando a palavra-chave é detectada unicamente pelo primeiro módulo da unidade de detecção; - a unidade de análise trata o primeiro sinal transmitido pelo módulo de comando e gera um sinal de saída.

[009] Graças à invenção, a unidade de detecção detecta a palavra- chave simultaneamente no primeiro sinal do microfone via o primeiro módulo e no segundo sinal de pelo menos uma fonte áudio externa via o segundo módulo. Em caso de detecção da palavra-chave, a unidade de detecção encaminha, via seu módulo de comando, o primeiro sinal para a unidade de análise em função da atividade do primeiro e do segundo módulos de detecção: - se a palavra-chave foi detectada unicamente pelo primeiro módulo, o módulo de comando encaminha o primeiro sinal para a unidade de análise; - se a palavra-chave foi detectada unicamente pelo segundo módulo ou simultaneamente pelos primeiro e segundo módulos, o módulo de comando não encaminha o primeiro sinal para a unidade de análise.

[0010] A unidade de detecção diferencia o primeiro sinal do segundo sinal graças a seu primeiro e seu segundo módulos de detecção; a unidade de detecção adapta o encaminhamento do primeiro sinal em função da atividade do primeiro e do segundo módulos graças ao seu módulo de comando. Assim, o dispositivo de assistência vocal de acordo com o primeiro aspecto da invenção e o processo de assistência vocal de acordo com o segundo aspecto da invenção tratam unicamente o primeiro sinal sem qualquer restrição sobre o posicionamento do microfone em relação ao usuário ou de uma fonte áudio externa.

[0011] Além das características que acabam de ser mencionadas nos parágrafos precedentes, o dispositivo de assistência vocal de acordo com o primeiro aspecto da invenção e o processo de assistência vocal de acordo com o segundo aspecto da invenção podem apresentar uma ou várias características complementares dentre as seguintes, consideradas individualmente ou de acordo com todas as combinações tecnicamente possíveis.

[0012] O dispositivo de assistência vocal compreende uma interface de saída configurada para ser ativada em função do sinal de saída gerado pela unidade de análise, a interface de saída preferivelmente compreendendo um indicador luminoso e/ou uma tela e/ou um alto- falante. A interface de saída permite, vantajosamente, informar um usuário do dispositivo de assistência vocal que emitiu uma solicitação sobre o estado do tratamento dessa solicitação.

[0013] A unidade de análise interpreta preferivelmente dois tipos de solicitações no primeiro sinal: - um primeiro tipo de solicitação que é uma pergunta: nesse caso, a unidade de análise gera um primeiro tipo de sinal de saída; - um segundo tipo de solicitação que é um comando de um equipamento externo: nesse caso, a unidade de análise gera um segundo tipo de sinal de saída.

[0014] A interface de saída do dispositivo de assistência vocal compreende vantajosamente: - uma tela e/ou um alto-falante configurada (o) (s) para ser (serem) ativada (o) (s) por um sinal de saída do primeiro tipo; - um indicador luminoso configurado para ser ativado por um sinal de saída do segundo tipo.

[0015] Assim, a interface de saída permite, vantajosamente, informar um usuário que emitiu uma solicitação, de maneira adaptada em função do tipo da solicitação.

[0016] De acordo com uma forma de realização preferida: - o primeiro módulo ativa um primeiro evento lógico quando ele detecta a palavra-chave no primeiro sinal; - o segundo módulo ativa um segundo evento lógico quando ele detecta a palavra-chave no segundo sinal; - o módulo de comando apresenta:

o um primeiro estado lógico, no qual ele não encaminha o primeiro sinal para a unidade de análise e o um segundo estado lógico, no qual ele encaminha o primeiro sinal para a unidade de análise; - o módulo de comando está por padrão em seu primeiro estado lógico e - o módulo de comando bascula para seu segundo estado lógico quando o primeiro evento lógico está ativado sem que o segundo evento logico esteja ativado.

[0017] Esta forma de realização preferida permite, vantajosamente, só encaminhar o primeiro sinal para a unidade de análise quando uma condição positiva é realizada, a saber: o primeiro evento lógico está ativado e o segundo evento lógico não está ativado. Privilegia-se assim a robustez do dispositivo, garantindo que o primeiro sinal não seja encaminhado para a unidade de análise por engano.

[0018] De acordo com a forma de realização preferida, cada segundo evento lógico permanece vantajosamente ativado durante um período predefinido, preferivelmente compreendido entre 0,1 segundo e 1 segundo. Assim, leva-se em conta um período que pode ocorrer entre uma detecção de um a ocorrência da palavra-chave no segundo sinal pelo segundo módulo, e uma detecção dessa mesma ocorrência da palavra-chave no primeiro sinal pelo primeiro módulo, por exemplo, por causa de: - um tempo de transmissão do segundo sinal no seio da fonte áudio externa antes de difusão efetiva pela fonte áudio externa de uma onda acústica a partir do segundo sinal; -um tempo de propagação da onda acústica entre a fonte áudio externa e o microfone; - um tempo de tratamento da onda acústica pelo microfone, depois do primeiro sinal pelo primeiro módulo de detecção.

[0019] No caso em que uma ocorrência da palavra-chave provém de uma fonte áudio externa antes de ser captada pelo microfone, permite-se que a ativação do segundo evento lógico para essa ocorrência da palavra-chave dure até a ativação do primeiro evento lógico para essa mesma ocorrência da palavra-chave.

[0020] De acordo com a forma de realização preferida, o módulo de comando, tendo basculhado para seu segundo estado lógico, volta para seu primeiro estado lógico: - por comando da unidade de análise após o tratamento do primeiro sinal ou - automaticamente após um período preferivelmente compreendido entre 0,5 segundo e 5 segundos, mais preferivelmente compreendido entre 0,5 segundo e 3 segundos.

[0021] Um terceiro aspecto da invenção refere-se a um decodificador de televisão digital compreendendo um dispositivo de assistência vocal de acordo com o primeiro aspecto da invenção.

[0022] Um quarto aspecto da invenção refere-se a um produto programa de computador compreendendo as instruções que, quando o programa é executado por um computador, conduzem este a realizar as etapas do processo de assistência vocal de acordo cm o segundo aspecto da invenção.

[0023] Um quinto aspecto da invenção refere-se a um suporte de gravação legível por um computador, no qual está gravado o programa de computador de acordo com o quarto aspecto da invenção.

[0024] A invenção e suas diferentes aplicações serão melhor compreendidas na leitura da seguinte descrição e no exame das figuras anexas.

BREVE DESCRIÇÃO DAS FIGURAS

[0025] As figuras são apresentadas a título indicativo e não limitativo da invenção.

- A figura 1 mostra uma representação esquemática de um dispositivo de assistência vocal de acordo com o primeiro aspecto da invenção; - a figura 2 mostra um diagrama esquemático das etapas de um processo de assistência vocal de acordo com o segundo aspecto da invenção.

DESCRIÇÃO DETALHADA DE PELO MENOS UMA FORMA DE REALIZAÇÃO DA INVENÇÃO

[0026] Salvo informação em contrário, um mesmo elemento que apareça em figuras diferentes apresenta um único número de referência.

[0027] A figura 1 representa esquematicamente um dispositivo de assistência vocal 100 de acordo com o primeiro aspecto da invenção. O dispositivo de assistência vocal 100 compreende: - um microfone M e -uma unidade de detecção UDe de uma palavra-chave. Preferivelmente o dispositivo de assistência vocal 100 compreende igualmente uma interface de saída IntS. A interface de saída IntS compreende preferivelmente: - um indicador luminoso e/ou - uma tela e/ou - um alto-falante.

[0028] O microfone M está configurado para captar um ambiente sonoro em forma de um primeiro sinal SigM. O microfone M pode ser analógico, caso em que ele produz um primeiro sinal SigM analógico, ou digital, caso em que ele produz um primeiro sinal SigM digital. Se o microfone M for analógico, o dispositivo de assistência vocal 100 compreende preferivelmente ainda um conversor analógico-digital disposto entre o microfone M analógico e a unidade de detecção UDe, de maneira a converter o primeiro sinal SigM analógico em um primeiro sinal SigM digital.

A unidade de detecção UDe compreende: - um primeiro módulo Md1, - um segundo módulo Md2 e - um módulo de comando K.

[0029] O primeiro módulo Md1 está configurado para receber do microfone M o primeiro sinal SigM, preferivelmente digital, e detectar uma palavra-chave (ou “Wake word” em inglês) no dito primeiro sinal SigM. De acordo com uma forma de realização preferida, o primeiro móduloMd1 ativa um primeiro evento lógico Ev1 quando ele detecta a palavra-chave.

[0030] O segundo módulo Md2 está configurado para receber de pelo menos uma fonte áudio externa Sax um segundo sinal SigX, preferivelmente digital, e detectar a palavra-chave no dito segundo sinal SigX. De acordo com a forma de realização preferida, o segundo módulo Md2 ativa um segundo evento lógico Ev2 quando ele detecta a palavra- chave. A figura 1 representa uma única fonte áudio externa Sax, mas o segundo módulo Md2 pode, vantajosamente, receber uma pluralidade de segundos sinais SigX de uma pluralidade de fontes de áudio externas SAx. Exemplos de fontes de áudio externas SAx são: uma televisão, um rádio, um telefone, um computador pessoal. Cada fonte áudio externa SAx é preferivelmente um equipamento digital; no caso contrário, o dispositivo de assistência vocal 100 compreende preferivelmente ainda um conversor analógico-digital disposto entre o ou os equipamentos analógicos e a unidade de detecção UDe de maneira a converter cada segundo sinal SigX analógico em um segundo sinal SigX digital.

[0031] O módulo de comando K está configurado para encaminhar o primeiro sinal SigM para uma unidade de análise UAn quando a palavra-chave é detectada unicamente pelo primeiro módulo Md1. De acordo com a forma de realização preferida, o módulo de comando K apresenta:

- um primeiro estado lógico, no qual ele não encaminha o primeiro sinal SigM para a unidade de análise UAn e - um segundo estado lógico, no qual ele encaminha o primeiro sinal SigM para a unidade de análise UA.

[0032] Ainda de acordo com a forma de realização preferida, o módulo de comando K está, por padrão, em seu primeiro estado lógico e bascula para seu segundo estado lógico quando o primeiro eventológicoEv1 está ativado sem que o segundo evento lógico Ev2 esteja ativado. Em particular, a figura 1 mostra esquematicamente a função do encaminhamento comandado pelo módulo de comando K por meio de um interruptor In: - quando o módulo de comando K está em seu primeiro estado lógico, ele mantém o interruptor In aberto a fim de não encaminhar o primeiro sinal SigM para a unidade de análise UAn; - quando o modo de comando K está em seu segundo estado lógico, ele fecha o interruptor a fim de encaminhar o primeiro sinal SigM para a unidade de análise UAn.

[0033] O primeiro sinal SigM e o segundo sinal SiX são sinais áudio representados pelas setas duplas na figura 1. O primeiro evento lógicoEv1, o segundo evento lógicoEv2 e o sinal de comando de saída do módulo de comando K são sinais lógicos representados por flechas simples na figura 1.

[0034] A unidade de análise UAn está hospedada geralmente em uma infraestrutura informática, compreendendo, por exemplo, um ou vários servidores, acessível à distância, igualmente chamada de “nuvem informática” ou “cloud” em inglês. Portanto, a unidade de análise UAn não está localizada fisicamente no mesmo lugar que o dispositivo de assistência vocal 100. Ao receber o primeiro sinal SigM, a unidade de análise UAn o trata a fim de gerar um sinal de saída SigS adaptado. A unidade de análise UAn tipicamente realiza uma técnica de compreensão da linguagem natural (“natural language understanding” ou “LU” em inglês) a fim de tratar cada primeiro sinal SigM que ela recebe.

[0035] Um usuário pode emitir tipicamente dois tipos de solicitação: - um primeiro tipo de solicitação que é uma pergunta, um pedido de informação; - um segundo tipo de solicitação que é um comando de um equipamento externo.

[0036] O sinal de saída SigS gerado pela unidade de análise UAn é vantajosamente adaptado ao tipo de solicitação interpretado pela unidade de análise UAn e a interface de saída IntS, por sua vez, está adaptada ao sinal de saída SigS.

[0037] O equipamento externo é, por exemplo, um equipamento demótico como um termostato, uma iluminação, uma persiana de rolo: o comando é, então, uma regulagem de temperatura ou de luminosidade (acender ou apagar uma lâmpada, abrir ou fechar uma persiana de rolo). O equipamento externo pode ser também um telefone inteligente (“smartphone” em inglês) a fim de comandar uma chamada telefônica, enviar uma mensagem ou adicionar um evento em uma agenda pessoal... De modo geral, qualquer equipamento apto a estar conectado com seu ambiente, isto é, a comunicar com seu ambiente, pode ser comandado pelo sinal de saída SigS da unidade de análise UAn.

[0038] Se a unidade de análise UAn interpreta o primeiro sinal SigM recebido como sendo uma solicitação do primeiroi tipo, a unidade de análise UAn gera preferivelmente um primeiro tipo de sinal de saída SigS que apresenta a informação solicitada na tela da interface de saída IntS e/ou difunde a informação solicitada via o alto-falante da interface de saída IntS. Se a unidade de análise UAn interpreta o primeiro sinal recebido como sendo uma solicitação do segundo tipo, a unidade de análise UAn gera preferivelmente um segundo tipo de sinal de saída SigS que comanda o equipamento externo desejado e ativa o indicador luminoso da interface de saída IntS.

[0039] A unidade de detecção UDe pode estar notadamente integrada no seio de um decodificador de televisão digital. O microfone M pode estar integrado com a unidade de detecção UDe, se necessário no seio de um decodificador de televisão digital. Alternativamente o microfone M e a unidade de detecção UDe podem formar duas partes fisicamente distintas, podendo ser deslocadas uma em relação à outra. A interface de saída IntS preferivelmente está integrada com o microfone M, no seio de um mesmo bloco físico.

[0040] A figura 2 mostra um diagrama esquemático das etapas de um processo de assistência vocal 100 de acordo com o segundo aspecto da invenção: - de acordo com uma primeira etapa 101, o microfone M capta um ambiente sonoro em forma do primeiro sinal SigM; - de acordo com uma segunda etapa 102, o microfone M transmite o primeiro sinal SigM à unidade de detecção UDe; - de acordo com uma terceira etapa 103, o módulo de comando K da unidade de detecção UDe encaminha o primeiro sinal SigM para a unidade de análise UAn quando a palavra-chave é detectada unicamente pelo primeiro módulo Md1 da unidade de detecção UDe; - de acordo com uma quarta etapa 104, a unidade de análise UAn trata o primeiro sinal SigM transmitido pelo módulo de comando e gera um sinal de saída SigE.

Claims

REIVINDICAÇÕES

1. Dispositivo de assistência vocal (100) compreendendo: - um microfone (M) e - uma unidade de detecção (UDe) de uma palavra-chave, o microfone (M) estando configurado para captar um ambiente sonoro em forma de um primeiro sinal (SigM) e transmitir o primeiro sinal (SigM) à unidade de detecção (UDe); a unidade de detecção (UDe estando configurada para encaminhar, em caso de detecção da palavra-chave no primeiro sinal (SigM), o dito primeiro sinal (SigM) para uma unidade de análise (UAn); a dita unidade de análise (UAn) estando configurada para tratar o primeiro sinal (SigM) e gerar um sinal de saída (SigS); o dispositivo de assistência vocal (10) sendo caracterizado pelo fato de que a unidade de detecção (UDe) compreende: - um primeiro módulo (md1) configurado para receber do microfone (M) o primeiro sinal (SigM) e detectar a palavra-chave no dito primeiro sinal (SigM), - um segundo módulo (Md2) configurado para receber de pelo menos uma fonte áudio externa (SAx) um segundo sinal (SigX) e detectar a palavra-chave no dito segundo sinal (sigX) e - um módulo de comando (K) configurado para encaminhar o primeiro sinal (SigM) para a unidade de análise (UAn) quando a palavra-chave é detectada unicamente pelo primeiro módulo (Md1) da unidade de detecção UDe).

2. Dispositivo de assistência vocal (10) de acordo com a reivindicação precedente, caracterizado pelo fato de que: - o primeiro módulo (Md1) ativa um primeiro evento lógico (Ev1) quando ele detecta a palavra-chave no primeiro sinal (SigM); - o segundo módulo (Md2) ativa um segundo evento lógico (Ev2) quando ele detecta a palavra-chave no segundo sinal (SigX);

- o módulo de comando (K) apresenta: o um primeiro estado lógico, no qual ele não encaminha o primeiro sinal (SigM) para a unidade de análise (UAn) e o um segundo estado lógico, no qual ele encaminha o primeiro sinal (SigM) para a unidade de análise (UAn), o módulo de comando (K) estando, por padrão, em seu primeiro estado lógico; - o módulo de comando (K) bascula para seu segundo estado lógico quando o primeiro evento lógico (Ev1) está ativado sem que o segundo evento lógico (Ev2) esteja ativado.

3. Dispositivo de assistência vocal (10) de acordo coma reivindicação precedente, caracterizado pelo fato de que cada segundo evento (Ev2) permanece ativado durante um período predefinido, preferivelmente compreendido entre 0,1 segundo e 1 segundo.

4. Dispositivo de assistência vocal (10) de acordo com qualquer uma das reivindicações 2 ou 3, caracterizado pelo fato de que o módulo de comando (K), tendo basculhado para seu segundo estado lógico, retorna ao seu primeiro estado lógico: - por comando da unidade de análise (UAn) no fim do tratamento do primeiro sinal (SigM) ou - automaticamente após um período predefinido, preferivelmente compreendido entre 0,5 segundo e 5 segundos.

5. Dispositivo de assistência vocal (10) de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo fato de que ele compreende uma interface de saída (INtS) configurada para ser ativada em função do sinal de saída (SigS) gerado pela unidade de saída (UAn), a interface de saída (IntS) compreendendo preferivelmente um indicador luminoso e/ou uma tela e/ou um alto-falante.

6. Decodificador de televisão digital caracterizado pelo fato de que compreende um dispositivo de assistência vocal (10) como definido em qualquer uma das reivindicações 1 a 5.

7. Processo de assistência vocal (100) caracterizado pelo fato de que compreende as seguintes etapas: - um microfone (M) capta (101) um ambiente sonoro em forma de um primeiro sinal (SigM) e transmite (102) o primeiro sinal (SigM) a uma unidade de detecção (UDe) compreendendo: o um primeiro módulo (md1) de detecção de uma palavra-chave no primeiro sinal (SigM), o um segundo modulo (Md2) de detecção da palavra- chave no segundo sinal (SigX) transmitido por pelo menos uma fonte áudio externa (SAx), et o um módulo de comando (K); - o módulo de comando (K) encaminha (103) o primeiro sinal (SigM) para uma unidade de análise (UAn) quando a palavra-chave é detectada unicamente pelo primeiro módulo (Md1) da unidade de detecção (UDe); - a unidade de análise (UAn) trata (104) o primeiro sinal (SigM) transmitido pelo módulo de comando (K) e gera (105) um sinal de saída (SigS).

8. Produto programa de computador caracterizado pelo fato de que compreende as instruções que, quando o programa é executado por um computador, levam este a realizar as etapas do processo de assistência vocal (100) como definido na reivindicação precedente.

9. Suporte de gravação legível por um computador, caracterizado pelo fato de que está gravado o produto programa de computador como definido na reivindicação precedente.