BR112020012323A2 - dispositivo e processo de assistência vocal - Google Patents

dispositivo e processo de assistência vocal Download PDF

Info

Publication number
BR112020012323A2
BR112020012323A2 BR112020012323-4A BR112020012323A BR112020012323A2 BR 112020012323 A2 BR112020012323 A2 BR 112020012323A2 BR 112020012323 A BR112020012323 A BR 112020012323A BR 112020012323 A2 BR112020012323 A2 BR 112020012323A2
Authority
BR
Brazil
Prior art keywords
signal
sigm
module
keyword
uan
Prior art date
Application number
BR112020012323-4A
Other languages
English (en)
Inventor
Gilles Bourgoin
Original Assignee
Sagemcom Broadband Sas
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sagemcom Broadband Sas filed Critical Sagemcom Broadband Sas
Publication of BR112020012323A2 publication Critical patent/BR112020012323A2/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Um aspecto da invenção refere-se a um dispositivo de assistência vocal (10) compreendendo um microfone (M) que capta e transmite um primeiro sinal (SigM) a uma unidade de detecção (UDe); a unidade de detecção (UDe) encaminha, em caso de detecção da palavra-chave no primeiro sinal (SigM), o dito primeiro sinal (SiM) para uma unidade de análise (UAn); a unidade de análise (UAn) trata o primeiro sinal(SigM) e gera um sinal de saída (SigS); a unidade de detecção (UDe) compreende: um primeiro módulo (Md1) que detecta a palavra-chave no primeiro sinal (SigM), um segundo módulo (Md2) que detecta a palavra-chave em um segundo sinal (SigX) recebido de pelo menos uma fonte áudio externa (SAx) e um módulo de comando (K) que encaminha o primeiro sinal (SiM) para a unidade de análise (UAn) quando a palavra-chave é detectada unicamente pelo primeiro módulo(Md1 da unidade de detecção (UDe).

Description

Relatório Descritivo da Patente de Invenção para "DISPOSITIVO E PROCESSO DE ASSISTÊNCIA VOCAL".
CAMPO TÉCNICO DA INVENÇÃO
[001] O campo técnico da invenção é o de assistência vocal. A presente invenção refere-se a um dispositivo e a um processo de assistência vocal.
ANTECEDENTES TÉCNICOS DA INVENÇÃO
[002] Um dispositivo de assistência vocal, ou assistente vocal, funciona classicamente da seguinte maneira: um microfone capta um ambiente em forma de um sinal e transmite esse sinal a uma unidade de detecção de uma palavra-chave (wakeword em inglês). O sinal consecutivo à palavra-chave, é considerado como uma solicitação de um usuário. Em caso de detecção da palavra-chave, a unidade de detecção encaminha o sinal vindo do microfone a uma unidade de análise que o trata a fim de interpretar a solicitação que ela contém e gerar um sinal de resposta à dita solicitação. A unidade de análise transmite então o sinal de resposta a um alto-falante que o difunde. O usuário obtém assim uma resposta à sua solicitação.
[003] Um inconveniente dos assistentes vocais conhecidos é que eles não fazem diferença entre um sinal proveniente diretamente de um usuário humano e um sinal proveniente de uma gravação. Se o microfone capta, por exemplo, uma gravação vinda de um equipamento de televisão ou rádio e um jornalista pronuncia na antena a palavra- chave, o assistente vocal interpreta o que segue como uma solicitação e se esforça para responder. Tal disfunção é desagradável e até prejudicial ao usuário: o assistente vocal vai, por exemplo, responder a uma pergunta que o usuário não fez ou mesmo passar pedido de um objeto de maneira inoportuna.
[004] Uma técnica contínua de anulação do eco acústico permitiria suprimir do sinal captado pelo microfone do assistente vocal o sinal vindo de um alto-falante de uma fonte de áudio externa, tal como uma televisão ou um rádio. Essa técnica requer, porém, um módulo de tratamento do sinal complexo e, para ser eficaz, precisa conhecer com precisão a distância entre o microfone e o assistente vocal e o alto- falante da fonte de áudio externa. Além de sua complexidade e, portanto, de seu custo, um inconveniente desta solução é que o microfone do assistente vocal deve permanecer a uma distância fixa da fonte de áudio externa.
[005] Outra técnica conhecida de realização em forma de feixe (beam forming” em inglês) permitiria localizar a fonte de áudio externa e identificar sua direção em relação ao microfone a fim de ignorar qualquer sinal vindo dessa direção. Um inconveniente dessa técnica é a pessoa fica completamente privada de uma zona do espaço utilizável: com essa técnica, um usuário que se encontre entre sua televisão e seu assistente vocal será ignorado pelo o assistente vocal.
SUMÁRIO DA INVENÇÃO
[006] A invenção oferece uma solução para os problemas mencionados anteriormente, propondo um assistente vocal que permite diferenciar um sinal vindo diretamente de um usuário humano de um sinal vindo de uma gravação de uma fonte de áudio externa, sem restringir a distância entre o assistente vocal e a fonte da gravação nem o posicionamento do usuário em relação ao assistente vocal e a fonte da gravação.
[007] Um primeiro aspecto da invenção refere-se a um dispositivo de assistência vocal compreendendo: - um microfone e - uma unidade de detecção de uma palavra-chave, o microfone estando configurado para captar um ambiente sonoro em forma de um primeiro sinal e transmitir o primeiro sinal a uma unidade de detecção; a unidade de detecção estando configurada para encaminhar, em caso de detecção da palavra-chave no primeiro sinal, o dito primeiro sinal para uma unidade de análise; a dita unidade de análise estando configurada para tratar o primeiro sinal e gerar um sinal de saída; a unidade de detecção compreendendo: - um primeiro módulo configurado para receber do microfone o primeiro sinal e detectar a palavra-chave no dito primeiro sinal, - um segundo módulo configurado para receber de pelo menos uma fonte áudio externa um segundo sinal e detectar a palavra- chave no dito segundo sinal e - um módulo de comando configurado para encaminhar o primeiro sinal para a unidade de análise quando a palavra-chave é detectada unicamente pelo primeiro módulo da unidade de detecção.
[008] Um segundo aspecto da invenção refere-se a um processo de assistência vocal compreendendo as seguintes etapas: - um microfone capta um ambiente sonoro em forma de um primeiro sinal e transmite o primeiro sinal a uma unidade de detecção compreendendo: o um primeiro módulo de detecção de uma palavra- chave no primeiro sinal, o um segundo módulo de detecção da palavra-chave em um segundo sinal transmitido por pelo menos uma fonte áudio externa, e o um módulo de comando; - o módulo de comando encaminha o primeiro sinal para uma unidade de análise quando a palavra-chave é detectada unicamente pelo primeiro módulo da unidade de detecção; - a unidade de análise trata o primeiro sinal transmitido pelo módulo de comando e gera um sinal de saída.
[009] Graças à invenção, a unidade de detecção detecta a palavra- chave simultaneamente no primeiro sinal do microfone via o primeiro módulo e no segundo sinal de pelo menos uma fonte áudio externa via o segundo módulo. Em caso de detecção da palavra-chave, a unidade de detecção encaminha, via seu módulo de comando, o primeiro sinal para a unidade de análise em função da atividade do primeiro e do segundo módulos de detecção: - se a palavra-chave foi detectada unicamente pelo primeiro módulo, o módulo de comando encaminha o primeiro sinal para a unidade de análise; - se a palavra-chave foi detectada unicamente pelo segundo módulo ou simultaneamente pelos primeiro e segundo módulos, o módulo de comando não encaminha o primeiro sinal para a unidade de análise.
[0010] A unidade de detecção diferencia o primeiro sinal do segundo sinal graças a seu primeiro e seu segundo módulos de detecção; a unidade de detecção adapta o encaminhamento do primeiro sinal em função da atividade do primeiro e do segundo módulos graças ao seu módulo de comando. Assim, o dispositivo de assistência vocal de acordo com o primeiro aspecto da invenção e o processo de assistência vocal de acordo com o segundo aspecto da invenção tratam unicamente o primeiro sinal sem qualquer restrição sobre o posicionamento do microfone em relação ao usuário ou de uma fonte áudio externa.
[0011] Além das características que acabam de ser mencionadas nos parágrafos precedentes, o dispositivo de assistência vocal de acordo com o primeiro aspecto da invenção e o processo de assistência vocal de acordo com o segundo aspecto da invenção podem apresentar uma ou várias características complementares dentre as seguintes, consideradas individualmente ou de acordo com todas as combinações tecnicamente possíveis.
[0012] O dispositivo de assistência vocal compreende uma interface de saída configurada para ser ativada em função do sinal de saída gerado pela unidade de análise, a interface de saída preferivelmente compreendendo um indicador luminoso e/ou uma tela e/ou um alto- falante. A interface de saída permite, vantajosamente, informar um usuário do dispositivo de assistência vocal que emitiu uma solicitação sobre o estado do tratamento dessa solicitação.
[0013] A unidade de análise interpreta preferivelmente dois tipos de solicitações no primeiro sinal: - um primeiro tipo de solicitação que é uma pergunta: nesse caso, a unidade de análise gera um primeiro tipo de sinal de saída; - um segundo tipo de solicitação que é um comando de um equipamento externo: nesse caso, a unidade de análise gera um segundo tipo de sinal de saída.
[0014] A interface de saída do dispositivo de assistência vocal compreende vantajosamente: - uma tela e/ou um alto-falante configurada (o) (s) para ser (serem) ativada (o) (s) por um sinal de saída do primeiro tipo; - um indicador luminoso configurado para ser ativado por um sinal de saída do segundo tipo.
[0015] Assim, a interface de saída permite, vantajosamente, informar um usuário que emitiu uma solicitação, de maneira adaptada em função do tipo da solicitação.
[0016] De acordo com uma forma de realização preferida: - o primeiro módulo ativa um primeiro evento lógico quando ele detecta a palavra-chave no primeiro sinal; - o segundo módulo ativa um segundo evento lógico quando ele detecta a palavra-chave no segundo sinal; - o módulo de comando apresenta:
o um primeiro estado lógico, no qual ele não encaminha o primeiro sinal para a unidade de análise e o um segundo estado lógico, no qual ele encaminha o primeiro sinal para a unidade de análise; - o módulo de comando está por padrão em seu primeiro estado lógico e - o módulo de comando bascula para seu segundo estado lógico quando o primeiro evento lógico está ativado sem que o segundo evento logico esteja ativado.
[0017] Esta forma de realização preferida permite, vantajosamente, só encaminhar o primeiro sinal para a unidade de análise quando uma condição positiva é realizada, a saber: o primeiro evento lógico está ativado e o segundo evento lógico não está ativado. Privilegia-se assim a robustez do dispositivo, garantindo que o primeiro sinal não seja encaminhado para a unidade de análise por engano.
[0018] De acordo com a forma de realização preferida, cada segundo evento lógico permanece vantajosamente ativado durante um período predefinido, preferivelmente compreendido entre 0,1 segundo e 1 segundo. Assim, leva-se em conta um período que pode ocorrer entre uma detecção de um a ocorrência da palavra-chave no segundo sinal pelo segundo módulo, e uma detecção dessa mesma ocorrência da palavra-chave no primeiro sinal pelo primeiro módulo, por exemplo, por causa de: - um tempo de transmissão do segundo sinal no seio da fonte áudio externa antes de difusão efetiva pela fonte áudio externa de uma onda acústica a partir do segundo sinal; -um tempo de propagação da onda acústica entre a fonte áudio externa e o microfone; - um tempo de tratamento da onda acústica pelo microfone, depois do primeiro sinal pelo primeiro módulo de detecção.
[0019] No caso em que uma ocorrência da palavra-chave provém de uma fonte áudio externa antes de ser captada pelo microfone, permite-se que a ativação do segundo evento lógico para essa ocorrência da palavra-chave dure até a ativação do primeiro evento lógico para essa mesma ocorrência da palavra-chave.
[0020] De acordo com a forma de realização preferida, o módulo de comando, tendo basculhado para seu segundo estado lógico, volta para seu primeiro estado lógico: - por comando da unidade de análise após o tratamento do primeiro sinal ou - automaticamente após um período preferivelmente compreendido entre 0,5 segundo e 5 segundos, mais preferivelmente compreendido entre 0,5 segundo e 3 segundos.
[0021] Um terceiro aspecto da invenção refere-se a um decodificador de televisão digital compreendendo um dispositivo de assistência vocal de acordo com o primeiro aspecto da invenção.
[0022] Um quarto aspecto da invenção refere-se a um produto programa de computador compreendendo as instruções que, quando o programa é executado por um computador, conduzem este a realizar as etapas do processo de assistência vocal de acordo cm o segundo aspecto da invenção.
[0023] Um quinto aspecto da invenção refere-se a um suporte de gravação legível por um computador, no qual está gravado o programa de computador de acordo com o quarto aspecto da invenção.
[0024] A invenção e suas diferentes aplicações serão melhor compreendidas na leitura da seguinte descrição e no exame das figuras anexas.
BREVE DESCRIÇÃO DAS FIGURAS
[0025] As figuras são apresentadas a título indicativo e não limitativo da invenção.
- A figura 1 mostra uma representação esquemática de um dispositivo de assistência vocal de acordo com o primeiro aspecto da invenção; - a figura 2 mostra um diagrama esquemático das etapas de um processo de assistência vocal de acordo com o segundo aspecto da invenção.
DESCRIÇÃO DETALHADA DE PELO MENOS UMA FORMA DE REALIZAÇÃO DA INVENÇÃO
[0026] Salvo informação em contrário, um mesmo elemento que apareça em figuras diferentes apresenta um único número de referência.
[0027] A figura 1 representa esquematicamente um dispositivo de assistência vocal 100 de acordo com o primeiro aspecto da invenção. O dispositivo de assistência vocal 100 compreende: - um microfone M e -uma unidade de detecção UDe de uma palavra-chave. Preferivelmente o dispositivo de assistência vocal 100 compreende igualmente uma interface de saída IntS. A interface de saída IntS compreende preferivelmente: - um indicador luminoso e/ou - uma tela e/ou - um alto-falante.
[0028] O microfone M está configurado para captar um ambiente sonoro em forma de um primeiro sinal SigM. O microfone M pode ser analógico, caso em que ele produz um primeiro sinal SigM analógico, ou digital, caso em que ele produz um primeiro sinal SigM digital. Se o microfone M for analógico, o dispositivo de assistência vocal 100 compreende preferivelmente ainda um conversor analógico-digital disposto entre o microfone M analógico e a unidade de detecção UDe, de maneira a converter o primeiro sinal SigM analógico em um primeiro sinal SigM digital.
A unidade de detecção UDe compreende: - um primeiro módulo Md1, - um segundo módulo Md2 e - um módulo de comando K.
[0029] O primeiro módulo Md1 está configurado para receber do microfone M o primeiro sinal SigM, preferivelmente digital, e detectar uma palavra-chave (ou “Wake word” em inglês) no dito primeiro sinal SigM. De acordo com uma forma de realização preferida, o primeiro móduloMd1 ativa um primeiro evento lógico Ev1 quando ele detecta a palavra-chave.
[0030] O segundo módulo Md2 está configurado para receber de pelo menos uma fonte áudio externa Sax um segundo sinal SigX, preferivelmente digital, e detectar a palavra-chave no dito segundo sinal SigX. De acordo com a forma de realização preferida, o segundo módulo Md2 ativa um segundo evento lógico Ev2 quando ele detecta a palavra- chave. A figura 1 representa uma única fonte áudio externa Sax, mas o segundo módulo Md2 pode, vantajosamente, receber uma pluralidade de segundos sinais SigX de uma pluralidade de fontes de áudio externas SAx. Exemplos de fontes de áudio externas SAx são: uma televisão, um rádio, um telefone, um computador pessoal. Cada fonte áudio externa SAx é preferivelmente um equipamento digital; no caso contrário, o dispositivo de assistência vocal 100 compreende preferivelmente ainda um conversor analógico-digital disposto entre o ou os equipamentos analógicos e a unidade de detecção UDe de maneira a converter cada segundo sinal SigX analógico em um segundo sinal SigX digital.
[0031] O módulo de comando K está configurado para encaminhar o primeiro sinal SigM para uma unidade de análise UAn quando a palavra-chave é detectada unicamente pelo primeiro módulo Md1. De acordo com a forma de realização preferida, o módulo de comando K apresenta:
- um primeiro estado lógico, no qual ele não encaminha o primeiro sinal SigM para a unidade de análise UAn e - um segundo estado lógico, no qual ele encaminha o primeiro sinal SigM para a unidade de análise UA.
[0032] Ainda de acordo com a forma de realização preferida, o módulo de comando K está, por padrão, em seu primeiro estado lógico e bascula para seu segundo estado lógico quando o primeiro eventológicoEv1 está ativado sem que o segundo evento lógico Ev2 esteja ativado. Em particular, a figura 1 mostra esquematicamente a função do encaminhamento comandado pelo módulo de comando K por meio de um interruptor In: - quando o módulo de comando K está em seu primeiro estado lógico, ele mantém o interruptor In aberto a fim de não encaminhar o primeiro sinal SigM para a unidade de análise UAn; - quando o modo de comando K está em seu segundo estado lógico, ele fecha o interruptor a fim de encaminhar o primeiro sinal SigM para a unidade de análise UAn.
[0033] O primeiro sinal SigM e o segundo sinal SiX são sinais áudio representados pelas setas duplas na figura 1. O primeiro evento lógicoEv1, o segundo evento lógicoEv2 e o sinal de comando de saída do módulo de comando K são sinais lógicos representados por flechas simples na figura 1.
[0034] A unidade de análise UAn está hospedada geralmente em uma infraestrutura informática, compreendendo, por exemplo, um ou vários servidores, acessível à distância, igualmente chamada de “nuvem informática” ou “cloud” em inglês. Portanto, a unidade de análise UAn não está localizada fisicamente no mesmo lugar que o dispositivo de assistência vocal 100. Ao receber o primeiro sinal SigM, a unidade de análise UAn o trata a fim de gerar um sinal de saída SigS adaptado. A unidade de análise UAn tipicamente realiza uma técnica de compreensão da linguagem natural (“natural language understanding” ou “LU” em inglês) a fim de tratar cada primeiro sinal SigM que ela recebe.
[0035] Um usuário pode emitir tipicamente dois tipos de solicitação: - um primeiro tipo de solicitação que é uma pergunta, um pedido de informação; - um segundo tipo de solicitação que é um comando de um equipamento externo.
[0036] O sinal de saída SigS gerado pela unidade de análise UAn é vantajosamente adaptado ao tipo de solicitação interpretado pela unidade de análise UAn e a interface de saída IntS, por sua vez, está adaptada ao sinal de saída SigS.
[0037] O equipamento externo é, por exemplo, um equipamento demótico como um termostato, uma iluminação, uma persiana de rolo: o comando é, então, uma regulagem de temperatura ou de luminosidade (acender ou apagar uma lâmpada, abrir ou fechar uma persiana de rolo). O equipamento externo pode ser também um telefone inteligente (“smartphone” em inglês) a fim de comandar uma chamada telefônica, enviar uma mensagem ou adicionar um evento em uma agenda pessoal... De modo geral, qualquer equipamento apto a estar conectado com seu ambiente, isto é, a comunicar com seu ambiente, pode ser comandado pelo sinal de saída SigS da unidade de análise UAn.
[0038] Se a unidade de análise UAn interpreta o primeiro sinal SigM recebido como sendo uma solicitação do primeiroi tipo, a unidade de análise UAn gera preferivelmente um primeiro tipo de sinal de saída SigS que apresenta a informação solicitada na tela da interface de saída IntS e/ou difunde a informação solicitada via o alto-falante da interface de saída IntS. Se a unidade de análise UAn interpreta o primeiro sinal recebido como sendo uma solicitação do segundo tipo, a unidade de análise UAn gera preferivelmente um segundo tipo de sinal de saída SigS que comanda o equipamento externo desejado e ativa o indicador luminoso da interface de saída IntS.
[0039] A unidade de detecção UDe pode estar notadamente integrada no seio de um decodificador de televisão digital. O microfone M pode estar integrado com a unidade de detecção UDe, se necessário no seio de um decodificador de televisão digital. Alternativamente o microfone M e a unidade de detecção UDe podem formar duas partes fisicamente distintas, podendo ser deslocadas uma em relação à outra. A interface de saída IntS preferivelmente está integrada com o microfone M, no seio de um mesmo bloco físico.
[0040] A figura 2 mostra um diagrama esquemático das etapas de um processo de assistência vocal 100 de acordo com o segundo aspecto da invenção: - de acordo com uma primeira etapa 101, o microfone M capta um ambiente sonoro em forma do primeiro sinal SigM; - de acordo com uma segunda etapa 102, o microfone M transmite o primeiro sinal SigM à unidade de detecção UDe; - de acordo com uma terceira etapa 103, o módulo de comando K da unidade de detecção UDe encaminha o primeiro sinal SigM para a unidade de análise UAn quando a palavra-chave é detectada unicamente pelo primeiro módulo Md1 da unidade de detecção UDe; - de acordo com uma quarta etapa 104, a unidade de análise UAn trata o primeiro sinal SigM transmitido pelo módulo de comando e gera um sinal de saída SigE.

Claims (9)

REIVINDICAÇÕES
1. Dispositivo de assistência vocal (100) compreendendo: - um microfone (M) e - uma unidade de detecção (UDe) de uma palavra-chave, o microfone (M) estando configurado para captar um ambiente sonoro em forma de um primeiro sinal (SigM) e transmitir o primeiro sinal (SigM) à unidade de detecção (UDe); a unidade de detecção (UDe estando configurada para encaminhar, em caso de detecção da palavra-chave no primeiro sinal (SigM), o dito primeiro sinal (SigM) para uma unidade de análise (UAn); a dita unidade de análise (UAn) estando configurada para tratar o primeiro sinal (SigM) e gerar um sinal de saída (SigS); o dispositivo de assistência vocal (10) sendo caracterizado pelo fato de que a unidade de detecção (UDe) compreende: - um primeiro módulo (md1) configurado para receber do microfone (M) o primeiro sinal (SigM) e detectar a palavra-chave no dito primeiro sinal (SigM), - um segundo módulo (Md2) configurado para receber de pelo menos uma fonte áudio externa (SAx) um segundo sinal (SigX) e detectar a palavra-chave no dito segundo sinal (sigX) e - um módulo de comando (K) configurado para encaminhar o primeiro sinal (SigM) para a unidade de análise (UAn) quando a palavra-chave é detectada unicamente pelo primeiro módulo (Md1) da unidade de detecção UDe).
2. Dispositivo de assistência vocal (10) de acordo com a reivindicação precedente, caracterizado pelo fato de que: - o primeiro módulo (Md1) ativa um primeiro evento lógico (Ev1) quando ele detecta a palavra-chave no primeiro sinal (SigM); - o segundo módulo (Md2) ativa um segundo evento lógico (Ev2) quando ele detecta a palavra-chave no segundo sinal (SigX);
- o módulo de comando (K) apresenta: o um primeiro estado lógico, no qual ele não encaminha o primeiro sinal (SigM) para a unidade de análise (UAn) e o um segundo estado lógico, no qual ele encaminha o primeiro sinal (SigM) para a unidade de análise (UAn), o módulo de comando (K) estando, por padrão, em seu primeiro estado lógico; - o módulo de comando (K) bascula para seu segundo estado lógico quando o primeiro evento lógico (Ev1) está ativado sem que o segundo evento lógico (Ev2) esteja ativado.
3. Dispositivo de assistência vocal (10) de acordo coma reivindicação precedente, caracterizado pelo fato de que cada segundo evento (Ev2) permanece ativado durante um período predefinido, preferivelmente compreendido entre 0,1 segundo e 1 segundo.
4. Dispositivo de assistência vocal (10) de acordo com qualquer uma das reivindicações 2 ou 3, caracterizado pelo fato de que o módulo de comando (K), tendo basculhado para seu segundo estado lógico, retorna ao seu primeiro estado lógico: - por comando da unidade de análise (UAn) no fim do tratamento do primeiro sinal (SigM) ou - automaticamente após um período predefinido, preferivelmente compreendido entre 0,5 segundo e 5 segundos.
5. Dispositivo de assistência vocal (10) de acordo com qualquer uma das reivindicações precedentes, caracterizado pelo fato de que ele compreende uma interface de saída (INtS) configurada para ser ativada em função do sinal de saída (SigS) gerado pela unidade de saída (UAn), a interface de saída (IntS) compreendendo preferivelmente um indicador luminoso e/ou uma tela e/ou um alto-falante.
6. Decodificador de televisão digital caracterizado pelo fato de que compreende um dispositivo de assistência vocal (10) como definido em qualquer uma das reivindicações 1 a 5.
7. Processo de assistência vocal (100) caracterizado pelo fato de que compreende as seguintes etapas: - um microfone (M) capta (101) um ambiente sonoro em forma de um primeiro sinal (SigM) e transmite (102) o primeiro sinal (SigM) a uma unidade de detecção (UDe) compreendendo: o um primeiro módulo (md1) de detecção de uma palavra-chave no primeiro sinal (SigM), o um segundo modulo (Md2) de detecção da palavra- chave no segundo sinal (SigX) transmitido por pelo menos uma fonte áudio externa (SAx), et o um módulo de comando (K); - o módulo de comando (K) encaminha (103) o primeiro sinal (SigM) para uma unidade de análise (UAn) quando a palavra-chave é detectada unicamente pelo primeiro módulo (Md1) da unidade de detecção (UDe); - a unidade de análise (UAn) trata (104) o primeiro sinal (SigM) transmitido pelo módulo de comando (K) e gera (105) um sinal de saída (SigS).
8. Produto programa de computador caracterizado pelo fato de que compreende as instruções que, quando o programa é executado por um computador, levam este a realizar as etapas do processo de assistência vocal (100) como definido na reivindicação precedente.
9. Suporte de gravação legível por um computador, caracterizado pelo fato de que está gravado o produto programa de computador como definido na reivindicação precedente.
BR112020012323-4A 2017-12-19 2018-12-04 dispositivo e processo de assistência vocal BR112020012323A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FRFR1762493 2017-12-19
FR1762493A FR3075442B1 (fr) 2017-12-19 2017-12-19 Dispositif et procede d'assistance vocale
PCT/EP2018/083477 WO2019120984A1 (fr) 2017-12-19 2018-12-04 Dispositif et procede d'assistance vocale

Publications (1)

Publication Number Publication Date
BR112020012323A2 true BR112020012323A2 (pt) 2020-11-24

Family

ID=62017393

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112020012323-4A BR112020012323A2 (pt) 2017-12-19 2018-12-04 dispositivo e processo de assistência vocal

Country Status (6)

Country Link
US (1) US11295744B2 (pt)
EP (1) EP3729420B1 (pt)
CN (1) CN111512363B (pt)
BR (1) BR112020012323A2 (pt)
FR (1) FR3075442B1 (pt)
WO (1) WO2019120984A1 (pt)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3866157B1 (de) * 2020-02-13 2024-04-03 Deutsche Telekom AG Elektronische assistenzvorrichtung und betriebsverfahren
CN113497959A (zh) * 2020-04-03 2021-10-12 海信视像科技股份有限公司 显示系统及语音唤醒开机方法
KR20210123633A (ko) * 2020-04-03 2021-10-14 삼성전자주식회사 음성 명령에 대응하는 태스크를 수행하는 전자 장치 및 그 동작 방법

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104956436B (zh) * 2012-12-28 2018-05-29 株式会社索思未来 带有语音识别功能的设备以及语音识别方法
CN105376389B (zh) * 2014-08-19 2020-02-14 中兴通讯股份有限公司 一种语音唤醒方法及设备
US9548053B1 (en) * 2014-09-19 2017-01-17 Amazon Technologies, Inc. Audible command filtering
CN105632493A (zh) * 2016-02-05 2016-06-01 深圳前海勇艺达机器人有限公司 一种通过语音控制和唤醒机器人的方法
US10264030B2 (en) * 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9728188B1 (en) * 2016-06-28 2017-08-08 Amazon Technologies, Inc. Methods and devices for ignoring similar audio being received by a system
US11164570B2 (en) * 2017-01-17 2021-11-02 Ford Global Technologies, Llc Voice assistant tracking and activation
US10789949B2 (en) * 2017-06-20 2020-09-29 Bose Corporation Audio device with wakeup word detection
US10475449B2 (en) * 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression

Also Published As

Publication number Publication date
WO2019120984A1 (fr) 2019-06-27
US11295744B2 (en) 2022-04-05
CN111512363B (zh) 2022-02-25
EP3729420B1 (fr) 2022-02-09
FR3075442A1 (fr) 2019-06-21
CN111512363A (zh) 2020-08-07
EP3729420A1 (fr) 2020-10-28
FR3075442B1 (fr) 2019-11-22
US20200380988A1 (en) 2020-12-03

Similar Documents

Publication Publication Date Title
BR112020012323A2 (pt) dispositivo e processo de assistência vocal
EP3480817B1 (en) Voice interactive device and method for controlling voice interactive device
US11217230B2 (en) Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user
US20160343376A1 (en) Voice Recognition System of a Robot System and Method Thereof
US9507772B2 (en) Instant translation system
US20170365257A1 (en) Voice control system and method thereof
IE86422B1 (en) Method for voice activation of a software agent from standby mode
US9582983B2 (en) Low power voice trigger for finding mobile devices
US20190279624A1 (en) Voice Command Processing Without a Wake Word
KR102193629B1 (ko) 호출 구문 검출에서 노이즈 감소 기술의 선택적 적응 및 활용
JP7173049B2 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JPWO2020160683A5 (pt)
CN107077844B (zh) 语音联合协助的实现方法、装置及机器人
US11507759B2 (en) Speech translation device, speech translation method, and recording medium
US20170083584A1 (en) Apparatus, system, and method for responding to a user-initiated query with a context-based response
CN106887228B (zh) 机器人的语音控制方法、装置及机器人
ES2675734T3 (es) Procedimiento de sincronización entre una operación de procesamiento de reconocimiento vocal y una acción de activación de dicho procesamiento
KR20190056115A (ko) 차량의 음성인식 시스템 및 방법
KR20170007223A (ko) 확장 음성 인식 서비스를 제공하는 포터블 디바이스 및 도킹 스테이션
JP6462291B2 (ja) 通訳サービスシステム及び通訳サービス方法
KR101714881B1 (ko) 확장 음성 인식 서비스를 제공하는 포터블 디바이스 및 도킹 스테이션
JP7465700B2 (ja) 車載装置および車載装置における音声処理方法
KR102011697B1 (ko) 음성인식 인공지능 알고리즘을 실행하는 음성인식 모듈을 포함하는 조난 신호 발생장치와 이를 이용한 구조방법
JP2014092627A (ja) 音声認識装置、音声認識方法、及びそのためのプログラム
KR20190065199A (ko) 음성 인식을 위한 음성 입출력 장치 및 그 방법

Legal Events

Date Code Title Description
B350 Update of information on the portal [chapter 15.35 patent gazette]