BRPI0621897B1

BRPI0621897B1 - sistema de vigilância utilizando reconhecimento de vídeo e áudio, método de vigilância e dispositivo de armazenamento legível por uma máquina

Info

Publication number: BRPI0621897B1
Application number: BRPI0621897-0A
Authority: BR
Inventors: G. Kienzle Martin; Sheinin Vadim
Original assignee: International Business Machines Corporation
Priority date: 2006-08-03
Filing date: 2006-08-03
Publication date: 2018-03-20
Also published as: BRPI0621897A2; WO2008016360A1; MX2009001254A; CA2656268A1; JP2009545911A; JP5043940B2; CN101501564A; CN101501564B

Abstract

sistema de vigilancia de video e metodo com reconhecimento de audio e video come inado. a presente invenção, de modo geral, refere-se a sistemas de vigilância e métodos para proporcionar segurança e, mais particularmente, a um novo sistema de reconhecimento de video e áudio on-line (tempo real) e processo para sistemas de vigilância.

Description

(54) Título: SISTEMA DE VIGILÂNCIA UTILIZANDO RECONHECIMENTO DE VÍDEO E ÁUDIO, MÉTODO DE VIGILÂNCIA E DISPOSITIVO DE ARMAZENAMENTO LEGÍVEL POR UMA MÁQUINA (51) Int.CI.: G03B 17/00; G08B 23/00; H04N 7/18 (73) Titular(es): INTERNATIONAL BUSINESS MACHINES CORPORATION (72) Inventor(es): MARTIN G. KIENZLE; VADIM SHEININ “SISTEMA DE VIGILÂNCIA UTILIZANDO RECONHECIMENTO DE VÍDEO E

ÁUDIO, MÉTODO DE VIGILÂNCIA E DISPOSITIVO DE ARMAZENAMENTO LEGÍVEL POR UMA MÁQUINA”.

Fundamentos Da Invenção

Campo da Invenção

A presente invenção, de modo geral, refere-se a sistemas de vigilância e métodos para proporcionar segurança e, mais particularmente, a um novo sistema de reconhecimento de vídeo e áudio on-line (tempo real) e processo para sistemas de vigilância.

Descrição da Técnica Anterior

Os sistemas de vigilância de vídeo convencionais normalmente não incluem qualquer funcionalidade ou disposição para monitoração de áudio, ou seja, sistemas de vigilância não incluem entradas de áudio em tudo. Na melhor das hipóteses, os sistemas de vigilância de vídeo típicos, como descrito no documento de Patente no 6,724,421 e

6,175,382 fornece a gravação simultânea de informações visuais e de áudio. Em ambos os tipos de sistemas de vídeo vigilância descritos nestas referências, os dados de vídeo estão sendo analisados pelos mecanismos de vigilância inteligente e são compactados para armazenamento digital.

Estes mecanismos implementam vários algoritmos de reconhecimento, como reconhecimento facial, detecção de

Petição 870170084571, de 01/11/2017, pág. 10/17 movimento, detecção de pânico, detecção de movimento de esfaqueamento etc. Uma situação alarmante, por exemplo, quando do acompanhamento de uma entrada de um edifício alto, envolve um movimento rápido repentino de uma pessoa em direção à outra, o que implica em um roubo potencial, bateria, ou atividade similar. Um mecanismo de vigilância inteligente, neste caso, reconhece (com algum nível de sucesso que é inferior a 100%), movimentos rápidos e repentinos e gerar um alarme na central de monitoramento.

As forças policiais podem ser despachadas para o local monitorado, como consequência de um tal alarme. Obviamente, o movimento rápido súbito poderia ter sido gerado por uma criança correndo em direção a seu pai/ amigo e, neste caso, o alarme gerado torna-se um alarme falso, que fará uma expedição cara da força policial. Outro resultado da má detecção inteligente do mecanismo de vigilância é a ausência de geração de alarmes em caso de uma emergência real. Este caso pode ocorrer, por exemplo, quando houver mais de uma pessoa na cena do crime. Não enviar uma força policial, quando a situação de emergência está ocorrendo de verdade é ainda outro inconveniente dos sistemas de vigilância em curso.

O sistema de vídeo vigilância somente da técnica anterior só mostrado na Figura 1. Uma matriz de câmara 100 /3 alimenta informações de vídeo em um mecanismo de compressão de vídeo 12 através do link de vídeo 11. A informação de vídeo é comprimida e enviada através de conexão 16 para um dispositivo de armazenamento 14 para um armazenamento de longo prazo. A informação de vídeo é adicionalmente alimentada no mecanismo de reconhecimento de vídeo 13, através do mesmo link de vídeo 11. 0 mecanismo de reconhecimento de vídeo 13 executa tarefas de reconhecimento de vídeo, como reconhecimento facial, detecção de movimento e outros, e gera os eventos e alarmes que são enviados através do link 17 a uma base de dados de eventos 15 e a estação de monitoramento 18. A estação de monitoramento 18 de pode inclui uma estação de monitoramento tripulada através do qual um operador realiza monitoramento visual em tempo real de uma determinada quantidade de câmeras. Quando uma situação de emergência ocorre, tal como interpretada pelo operador, é sua decisão se deve ou não enviar uma força policial ou equipe de resposta a outra de emergência para a área monitorada. É evidente a partir da descrição acima que não há utilização de informações de áudio, embora essas informações, muitas vezes, estejam disponíveis na área monitorada.

sistema de vídeo vigilância da técnica anterior com gravação de áudio é mostrado na Figura 2. A matriz de câmera 20 alimenta informações de vídeo no vídeo e o mecanismo de compressão de áudio 22 através do link de vídeo 21. Simultaneamente, a informação de áudio é alimentada a partir da matriz de microfone 29 e através do link de áudio 30 para o mecanismo de compressão de vídeo e áudio 22. A informação de vídeo e áudio é comprimida e enviada através do link 26 para um dispositivo de armazenamento 24 para um armazenamento de longo prazo. A informação vídeo é igualmente alimentada com o mecanismo de reconhecimento de vídeo 23 através do mesmo link de vídeo

21. O mecanismo de reconhecimento de vídeo 23 executa tarefas de reconhecimento de vídeo, como reconhecimento facial, detecção de movimento e outros, e gera os eventos e alarmes que são enviados através do link 27 para um banco de dados 2 5 e estação de monitoramento 28. A estação de monitoramento 28 é uma estação de monitoramento tripulada através da qual um operador realiza o acompanhamento visual de uma determinada quantidade de câmeras. Quando uma situação de emergência ocorre, tal como interpretada pelo operador, é sua decisão se deve ou não enviar uma força policial ou outras respostas da equipe de emergência para a área monitorada. É evidente a partir da descrição acima que não há extração de informações úteis a partir das entradas de áudio, apesar de tais intormações, muitas vezes, estarem disponíveis em sinais de áudio obtidos na área monitorada.

Como descrito acima, um segundo tipo de sistema de vigilância, ao mesmo tempo, registra informações de áudio e 5 vídeo, bem como implementa mecanismos de vigilância inteligente para várias tarefas de reconhecimento de vídeo.

Hoje, nesses sistemas, as informações de áudio são compactadas e gravadas sem serem analisadas.

Os sistemas de vigilância atuais simplesmente não utilizam informações de áudio bastante preciosas quando se analisa a entrada de vídeo. Obviamente, essa informação de áudio está disponível e em muitos cenários de vigilância podem ser usadas muito amplamente.

Assim, seria altamente desejável incorporar o uso de informações de áudio em sistemas de vídeo vigilância com a expectativa de que o uso de informações de áudio irá diminuir o número de falsos alarmes gerados pelo sistema de vigilância, bem como aumentar o percentual de alarmes verdadeiros detectados, enquanto, ao mesmo tempo, fornece mais informações para a pessoa avaliar um alarme. Além disso, alguns eventos podem ser detectados através de informações de áudio e vídeo em oposição a tais eventos serem detectados usando as informações de vídeo apenas.

Sumário da Invenção

É, portanto, nm objetivo da presente invenção fornecer um sistema de video vigilância e um método que incorpora o uso de informações de vídeo juntamente com a informação de áudio obtida a partir da área sob vigilância.

O sistema de vigilância da invenção inclui entradas de sinal de vídeo e áudio. Entradas de vídeo são provenientes de câmeras digitais ou analógicas e entradas de áudio são recebidas de microfones instalados em uma área monitorada.

Informação de vídeo e áudio é comprimida e enviada para um dispositivo de armazenamento digital. A compressão do vídeo e informação de áudio é o preferida para salvar espaço de armazenamento digital necessário para todas as câmaras e os microfones implementados.

Em simultâneo com a gravação, as entradas de áudio e vídeo são alimentadas em um mecanismo de reconhecimento inteligente que realiza o reconhecimento de vídeo, o reconhecimento de áudio e executa correlação instantânea dos resultados de reconhecimento de áudio / de vídeo para a detecção / reconhecimento de um conjunto específico de eventos, indicativo de uma situação de pânico, por exemplo, vozes gritando em tom alto, explosões, tiros, etc. Alarmes gerados pelo mecanismo de reconhecimento inteligente podem ser enviados para uma estação de monitoramento, onde um operador humano decide se enviará uma equipe de emergência ou a polícia para uma área monitorada.

De acordo com um aspecto da invenção, o mecanismo de reconhecimento inteligente executa algoritmos de ” reconhecimento de vídeo disponíveis, tais como reconhecimento facial, detecção de movimento, etc, bem como algoritmos de reconhecimento de áudio / de voz para reconhecimento de fala de um vocabulário específico (ajuda, roubo etc.) 0 mecanismo de reconhecimento de áudio pode ser treinado para reconhecer sinais de áudio especiais, tais como tiros, explosões, etc, bem como voz alta e outras assinaturas de voz indicativas de um alarme ou situação de emergência.

Usando matrizes de microfones colocados nas orientações, nomeadamente, indicações de sons podem ser determinadas. As informações de áudio direcional podem, então, ser emitidas para uma unidade de controle da câmera, para dirigir uma câmera / câmeras na direção de interesse.

Além disso, o reconhecimento de vídeo / áudio pode ser realizado com maior eficiência. Assim, por exemplo, um som de explosão pode ser detectado pelo mecanismo de reconhecimento de áudio usando uma matriz de microfones em uma área monitorada. Como conseqüência, as câmeras serão direcionadas em direção à explosão e ações de

S

acompanhamento ocorrerão no mecanismo de reconhecimento de video - a partir de alarmante da estação de monitoramento ate a cena do reconhecimento / compreensão. O uso instantâneo dos resultados de reconhecimento de video e áudio para dirigir a avaliação adicional do áudio gravado e vídeo, e para direcionar a gravação melhorada de novos vídeos e entradas de áudio, com vantagem, melhorando a precisão da detecção, reduz o tempo necessário para determinar a natureza de um alarme, e fornece mais informações a um operador humano que avalia a situação.

As saídas do mecanismo de reconhecimento de vídeo e do mecanismo de reconhecimento áudio são analisadas pelo mecanismo de reconhecimento mútuo e, como conseqüência, alarmes finais são gerados e transmitidos para a central de monitoramento.

Para manter estes e outros ob j etivos, de acordo com um aspecto preferido da invenção, é fornecido um sistema de vigilância e método e o produto programa de computador, em que o sistema compreende: meio para gerar, em tempo real, sinais de vídeo compreendendo informação de vídeo tomadas de uma zona sob vigilância; meio para a obtenção, em tempo real, de sinais de áudio com informações de áudio a partir da área sob vigilância, meio para simultaneamente receber os sinais de vídeo e os sinais de áudio, determinando a s informações de reconhecimento de áudio e vídeo relevantes dos mesmos, e mutuamente correlacionar a informação em tempo real de áudio e vídeo para determinar a probabilidade de ocorrência de um evento particular, e,meio para gerar uma condição de alarme baseado na ocorrência do evento particular.

Breve Descrição dos Desenhos

Outras características, aspectos e as vantagens das estruturas e métodos da presente invenção serão melhor compreendidas com relação à descrição que se segue, reivindicações anexas e os desenhos anexos, em que:

A figura 1 ilustra um sistema de vigilância de vídeo somente de acordo com a técnica anterior.

A figura 2 ilustra um sistema de vigilância de vídeo com capacidade de gravação de áudio de acordo com a técnica anterior.

Figura 3 mostra um sistema de vigilância de vídeo com reconhecimento de vídeo e áudio de acordo com a invenção.

A Figura 4 mostra detalhes do mecanismo de

Reconhecimento inteligente de acordo com a invenção.

Descrição Detalhada das Modalidades Preferidas

A Figura 3 mostra um sistema de vigilância de vídeo com reconhecimento vídeo e de áudio de acordo com a invenção. Conforme mostrado na Figura 3, a matriz de câmara que .inclui ainda uma ou mais câmaras de vídeo eletrônicas ou estáticas, por exemplo, câmeras CCD ou CMOS, em cores ou em preto e branco ou com uma combinação equivalente de componentes que capturam uma área sob vigdlancia alimenta sinais de vídeo em um mecanismo de compressão de áudio e vídeo digital 42 através de um link de comunicação de vídeo 41. 0 movimento e funcionamento de cada dispositivo da câmera da matriz câmera 40 pode ser controlado por sinais de controle recebidos, por exemplo, sob controle de computador e/ou software. Além disso, os parâmetros operacionais de cada câmera na matriz de câmera40, incluindo espelho de pan / tilt, sistema de lentes, mecanismo de foco, mecanismo de pan, e controle de mecanismo de inclinação são controlados por sinais de controle recebidos, como será explicado em mais detalhes aqui. Antes de liberar os sinais de vídeo digitais, muitas técnicas de processamento de sinais podem ser aplicadas para reduzir o ruído ou fornecer técnicas de filtragem/ aprimoramento de imagem, por exemplo.

Ao mesmo tempo, um microfone 49 compreendendo dispositivos sensor microfone (omnidirecional e/ou microfones altamente direcionais) que podem converter a pressão acústica em sinais elétricos são fornecidos para alimentar as informações de áudio para o mecanismo de compressão de vídeo digital e áudio 42através do link de comunicações de áudio 50. Como é conhecido por pessoas qualificadas, um nivel de diretividade da matriz de microfones varia com relação às freqüências de som para que o número de microfones e a distância entre os microfones pode ser determinada levando em consideração uma gama de frequências necessárias para poder fornecer qualquer grau de diretividade. Os microfones implementados na matriz pode

mser controlados,	sob	controle	do	software,	por exemplo,
10 para realizar	esses	fins,	e	incluem	transdutores
conf igurados para	ter	um padrão	de	pick-up	que podem ser
claramente polarizado	para	diferentes	recepções de

freqüência, por exemplo, no intervalo do discurso humano, explosões, tiros, etc. Deste modo, a matriz de microfone é assegurada para ser receptiva para responder a um campo de som do evento acústico com um alto grau de precisão. Outras técnicas de condicionamento de sinal de áudio podem ser aplicadas para a digitalização de sinais de áudio analógicos obtidos utilizando um conversor A/D, por exemplo, e para proporcionar controle de ganho, redução / filtragem de ruido, por exemplo. Informações de vídeo e de áudio digital digitalizadas são comprimidas e enviadas através de link 46 a um dispositivo de armazenamento de memória 44para armazenamento de longo prazo, por exemplo,

L·

V.' um banco de dados, uma unidade de disco rígido, mídias magnéticas ou ópticas, incluindo, mas não limitados a: um

CD- ROM, DVD, fita, pia t ter, matriz de disco, ou algo parecido. A saída de cada câmara da matriz câmera 40 é armazenada na mídia de armazenamento em um formato compactado, como MPEG1, MPEG2, etc. Além disso, a saída de cada câmara da matriz pode ser armazenada em um local especial no meio de armazenamento associado com essa câmera, ou é armazenado com uma indicação para qual câmera cada saída armazenada corresponde.

Como ainda mostrado na Figura 3, as mesmas informações vídeo e informações de áudio são, ao mesmo tempo, adicionalmente alimentadas em um mecanismo de reconhecimento inteligente 43 através dos respectivos link de vídeo 41 e link de áudio 50. Entende-se que as ligações de comunicação 41 e 50 entre a respectiva matriz de câmara e matriz de microfone de áudio e mecanismo de compressão de vídeo e áudio 42 e mecanismo de reconhecimento inteligente pode ser cabeado, ou um link sem fios pode ser empregado. Além disso, está no escopo da presente invenção estas ligações de comunicação assumirem a forma de cabo, satélite, RF, transmissão de microondas, fibras ópticas e similares.

Como será descrito em mais detalhes aqui, como ainda representado na Figura 4, o mecanismo de reconhecimento inteligente 43 compreende um mecanismo de reconhecimento de vídeo 62, mecanismo de reconhecimento de áudio 63, um mecanismo de reconhecimento mútuo e um módulo de geração de alarmes 64. O mecanismo de reconhecimento inteligente 43 implementa software para controlar um dispositivo de computador para executar os métodos e processos para a execução de algoritmos de reconhecimento de vídeo e algoritmos de reconhecimento facial. Estes podem ser executados com e em conjunto com algoritmos de detecção de movimento (por exemplo, a correlação de patch conhecidos ou algoritmos de rastreamento que monitora pontos individuais) para estimar o movimento das características no fluxo de imagens), etc O mecanismo de reconhecimento inteligente 43 adicionalmente implementa software para controlar um dispositivo de computador para executar os métodos e processos para a execução de reconhecimento de áudio e algoritmos de reconhecimento de fala. Algoritmos de reconhecimento de fala implementados como instruções legíveis por computador, estruturas de dados, módulos de programa, etc, podem ser utilizados para o reconhecimento de palavras particulares que podem ser potencialmente indicativas de uma situação de emergência ou situação digna de alarme (Ajuda, roubo, etc.)

Um mecanismo de reconhecimento de áudio 63, que inclui instruções legíveis por computador, estruturas de dados módulos, programas ou outros dados, pode ser treinado para reconhecer sinais de áudio especiais, como tiros, explosões, etc, bem como sons de alta intensidade, por exemplo, gritos, berros e outros sons e assinaturas de voz associadas com alarme potencial conhecido por provocar eventos. Entende-se, contudo, que diversos algoritmos de reconhecimento podem ser empregados de acordo com a invenção, que não requerem treinamento prévio.

O dispositivos de computação (s) executado inclui um dispositivo computador de uso geral, como um computador pessoal, dispositivo portátil, celular e similares, tendo componentes, incluindo, mas não limitado a uma unidade de processamento, memória de sistema e barramento de sistema que acopla diferentes componentes do sistema, incluindo a memória do sistema à unidade de processamento. O dispositivo que implementa estes componentes de computador para executar o mecanismo de reconhecimento inteligente e o mecanismo de reconhecimento de áudio que são armazenados em uma mídia legível por computador bem conhecida compreendendo todos os meios disponíveis que podem ser acessados pelo dispositivo de computador, incluindo tanto removíveis, como não removíveis, voláteis e meios de comunicação não-voláteis. A gravação legível por computador pode ser centralizada em um único local ou descentralizada sobre sistemas de computadores conectados via rede, por exemplo, algoritmos de reconhecimento legível pelo computador podem ser armazenados em meio de gravação legível em computador e serem executados de forma descentralizada.

Retornando para a figura 3, usando a matriz de microfones 49 em orientações específicas, a direção dos sons são determináveis. As informações direcionais sobre um evento de áudio detectado é entregue ao módulo de controle do microfone/ câmera 52 através de um link de comunicação com ou sem fio 53. O módulo de controle de câmera / microfone 52 inclui todo o software necessário para implementar o mecanismo de controle de posição para dirigir câmera / câmeras da matriz 40 e controlar as posições do

microfone	49	na direção de	interesse	por meio	de	sinais	de
20 controle	54 .	Por exemplo,	os sinais	de controle	podem	ser
inseridos	na	matriz de câmera 40 para ajustar	ou	controlar

os espelhos da câmera de controle pan / tilt, sistema de lentes (s), mecanismo de foco, mecanismo de pan, e componentes de mecanismos inclinação e sub-sistemas. Esses sinais de controle são utilizados adicionalmente para direcionar automaticamente o campo de visão visto pelas câmeras, a fim de obter uma melhor imagem centrada ou, mais ampliada, ou mais focada ou resolvida com mais informações sobre o alarme real ou evento de alarme. Em um exemplo não

1imitante, em resposta ao reconhecimento de áudio de um sinal de áudio de tiro pelo mecanismo de reconhecimento inteligente, sinais de controle podem ser gerados que direcionam ou mais câmeras da matriz de câmera para a cena para olhar na direção do tiro. Se a matriz de câmera de vídeo é dirigida para o local de um crime de reconhecimento de áudio do tiro, então, o reconhecimento do evento crime será melhor desligado, porque mais informações sobre a arma disparada estará disponível. Como alternativa, ou além disso, esses sinais de controle podem ser gerados são utilizados para ajustar automaticamente a orientação dos microfones e a distância entre os microfones para melhor receber as informações de acompanhamento de áudio. A orientação dos microfones poderá ainda ser ajustada em função da detecção de sinais de áudio de uma faixa de freqüência exigida, ou para prestar qualquer grau de diret ividade. Assim, por exemplo, um ou mais microfones podem ser redirecionados para ouvir a partir de uma determinada direção em resposta a um evento de reconhecimento de vídeo.

Mais especificamente, como mostrado na figura 4, os resultados do mecanismo de reconhecimento de vídeo 62 e '5 'mecanismo de reconhecimento de áudio 63 são analisados pelo mecanismo de reconhecimento mútuo 64 para o processamento do vídeo recebido em simultâneo e informação sobre o reconhecimento de áudio e, finalmente, determinar se uma condição de alarme existe. Desta forma, os alarmes podem ser gerados que são encaminhados para a estação de monitoramento 48 tripulada através do link de comunicações

47. Ou seja, o reconhecimento de processos empregado como instruções legíveis por computador, estruturas de dados, os módulos do programa, etc utilizados no mecanismo de reconhecimento mútuo 64 são geralmente baseados em uma combinação de padrões e/ou avaliação de hipóteses.

Durante uma fase de avaliação, é determinada uma estimativa das probabilidades de vários eventos. Isto pode ser feito através da determinação da informação em tempo real de vídeo e reconhecimento de sinais de áudio, em que extensão existe uma correlação entre as respectivas cenas de vídeo reconhecido e a voz acompanhando reconhecida ou assinaturas ou de áudio. Em um evento de exemplo de reconhecimento, para o reconhecimento de um movimento de esfaqueamento, a informação de vídeo é utilizada para a finalidade de tentar avaliar as probabilidades de várias cenas de vídeo. Se é sabido que tais cenas seriam acompanhadas pela voz de tom alto (gritando etc) e depois de detectar um tom alto a paitir da entrada de áudio irá aumentar a probabilidade de ser um resultado de um movimento de esfagueamento capturado nos sinais de vídeo. 0 operador realiza o monitoramento visual de uma área particular pesquisada pela matriz de câmara 40 e quando uma indicação de alarme é fornecida pel unidade geradora de alarme, é decisão do operador de expedição ou não da polícia ou do pessoal de emergência para a área monitorada. É evidente que a partir da descrição acima que há uma extração de informações úteis a partir das entradas de áudio que está sendo combinadas com os eventos de reconhecimento de vídeo, que melhora o funcionamento total do sistema de vigilância.

Como ainda mostrado na Figura 4, o link de comunicações 60 entre o mecanismo de reconhecimento de vídeo 62 e o mecanismo de reconhecimento mútuo 64 é bidirecional, assim como a ligação de comunicações 61 entre o mecanismo de reconhecimento de áudio 63 e mecanismo de reconhecimento mútuo 64. Ά Bi-direcionalidade das ligações e 61 permite a mútua influência de algoritmos de reconhecimento de vídeo e áudio da maneira descrita, o que,

I como conseqüência, dá melhor nível de reconhec ímento de vídeo e áudio, bem como possibilidade de executar a detecção de eventos específicos, que foram até agora impossíveis de detectar.

”5' ~ Embora a invenção tenha sido mostrada e descrita particularmente no que diz respeito à concretizações ilustrativas e preformadas, será entendido por aqueles versados na técnica que a descrição anterior e outras alterações na forma e nos detalhes podem ser feitos na mesma, sem se afastar do espírito e do escopo da invenção, que deve ser limitada apenas pelo escopo das reivindicações anexas.

1/6

Claims

REIVINDICAÇÕES

1. Sistema de vigilância utilizando reconhecimento de vídeo e áudio compreendendo:

meio para a geração de sinais de vídeo em tempo real compreendendo informação de vídeo tornada de uma área sob vigilância, meio para a obtenção de sinais de áudio em tempo real, incluindo informações de áudio da referida área sob vigilância, meio para simultaneamente receber o referido sinal de vídeo e sinais de áudio, determinando informação de reconhecimento de vídeo e áudio pertinente a partir do mesmo, e mutuamente correlacionar a informação de áudio e vídeo em tempo real para determinar a probabilidade de ocorrência de um determinado evento, e meio para gerar uma condição de alarme com base na ocorrência do referido evento determinado, caracterizado pelo fato de que o referido meio para a geração de sinais de áudio em tempo real compreende um ou mais dispositivos de microfone (49), o referido meio de reconhecimento mútuo (64) ainda compreende meio para a geração de sinais de controle (54) para direcionar um ou mais microfones dos dispositivos de microfone (49) para permitir a captura de informação de reconhecimento de áudio na direção do evento particular em resposta à ocorrência de reconhecimento de um evento potencial com base no referido reconhecimento de vídeo do evento, em que cada um dos referidos dispositivos de microfone (49) são responsivos aos referidos sinais de controle (54)

Petição 870170084571, de 01/11/2017, pág. 11/17
2/6 para ajustar automaticamente a orientação dos microfones em consideração da detecção de sinais de áudio de uma faixa de frequência requerida.

2. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o referido meio para processar compreende um primeiro mecanismo de reconhecimento (62) para processamento de sinais de vídeo para determinar a referida informação de reconhecimento de vídeo.
3. Sistema, de acordo com a reivindicação 2, caracterizado pelo fato de que o referido meio de processamento compreende um segundo mecanismo de reconhecimento (63) para processamento dos referidos sinais de áudio para determinação da referida informação de reconhecimento de áudio.
4. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o referido meio de processamento compreende um meio para o reconhecimento mútuo (64) para correlacionar a informação de reconhecimento de áudio e vídeo e aumentar a capacidade de detecção de ocorrência de um evento particular.
5. Sistema, de acordo com a reivindicação 4, caracterizado pelo fato de que o referido meio para a geração de sinais de vídeo em tempo real inclui um ou mais dispositivos de filmagem (40), o referido meio de reconhecimento mútuo (64) ainda compreendendo meio para a geração de sinais de controle (54) para direcionar uma ou mais câmeras dos dispositivos da câmera (40) para capturar sinais de vídeo na direção do evento particular em resposta

Petição 870170084571, de 01/11/2017, pág. 12/17

3/6 ao reconhecimento da ocorrência daquele evento com base no referido reconhecimento de áudio do evento.
6. Sistema, de acordo com a reivindicação 5, caracterizado pelo fato de que cada um dos referidos dispositivos de câmera de vídeo (40) inclui um ou mais de componentes de espelhos de pan/tílt, sistema de lente, mecanismo de foco, mecanismo de pan e mecanismo de tilt responsivos aos referidos sinais de controle (54) para ajustar uma ou mais parâmetros de pan, tilt, zoom, rotação, dolly, controle de translação dos dispositivos de câmera.
7. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que cada um dos referidos dispositivos de microfone (49) é responsivo aos referidos sinais de controle (54) para ajustar automaticamente a orientação dos microfones em consideração ao recebimento de sinais de áudio em qualquer grau de diretividade.
8. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda inclui meio para armazenamento dos referidos dados de áudio e vídeo.
9. Sistema, de acordo com a reivindicação 8, caracterizado pelo fato de que ainda compreende meio para comprimir (42) os referidos dados de áudio e vídeo antes de guardá-los no referido meio de armazenamento.
10. Método de vigilância realizado pelo sistema como definido em qualquer das reivindicações 1 a 9 utilizando reconhecimento de vídeo e áudio compreendendo as etapas de:

receber, simultaneamente, em um meio de processamento de sinais de vídeo, em tempo real, compreendendo informação de vídeo tornando em uma área sob vigilância e sinais de

Petição 870170084571, de 01/11/2017, pág. 13/17

4/6 áudio, em tempo real, que incluem informações de áudio da referida área sob vigilância, determinar informação relevante de reconhecimento de vídeo e áudio do referidos sinais de áudio e vídeo recebidos;

correlacionar mutuamente, em tempo real, a informação de reconhecimento de áudio e vídeo para determinar a probabilidade de ocorrência de um determinado evento; e, gerar a condição de alarme com base na ocorrência do referido evento determinado caracterizado pelo fato de que o referido meio para a geração de sinais de áudio em tempo real compreende um ou mais dispositivos de microfone (49), o referido meio de reconhecimento mútuo (64) ainda compreende meio para a geração de sinais de controle (54) para direcionar um ou mais microfones dos dispositivos de microfone (49) para permitir a captura de informação de reconhecimento de áudio na direção do evento particular em resposta à ocorrência de reconhecimento de um evento potencial com base no referido reconhecimento de vídeo do evento, em que cada um dos referidos dispositivos de microfone (49) são responsivos aos referidos sinais de controle (54) para ajustar automaticamente a orientação dos microfones em consideração da detecção de sinais de áudio de uma faixa de frequência requerida.
11. Dispositivo de armazenamento legível por uma máquina, concretizando, de maneira tangível, as etapas do método como definido na reivindicação 10 caracterizado pelo fato de que realiza vigilância de uma área utilizando

Petição 870170084571, de 01/11/2017, pág. 14/17

5/6 reconhecimento de áudio e vídeo, o referido método, incluindo as etapas de:

receber, simultaneamente, em um meio de processamento de sinais de vídeo, em tempo real, compreendendo informação de vídeo tornando em uma área sob vigilância e sinais de áudio, em tempo real, que incluem informações de áudio da referida área sob vigilância, determinar informação relevante de reconhecimento de vídeo e áudio do referidos sinais de áudio e vídeo recebidos;

correlacionar mutuamente, em tempo real, a informação de reconhecimento de áudio e vídeo para determinar a probabilidade de ocorrência de um determinado evento; e, gerar a condição de alarme com base na ocorrência do referido evento determinado.
12. Dispositivo de armazenamento legível por uma máquina, de acordo com a reivindicação 11, caracterizado pelo fato de que o referido meio de processamento compreende um primeiro mecanismo de reconhecimento (62) que implementa o processamento de etapas para determinar a referida informação de reconhecimento de vídeo dos referidos sinais de vídeo.
13. Dispositivo de armazenamento legível por uma máquina, de acordo com a reivindicação 12, caracterizado pelo fato de que o referido meio de processamento compreende um meio para o reconhecimento mútuo (64) para correlacionar a informação de reconhecimento de áudio e vídeo e aumentar a capacidade de detecção de ocorrência de um evento particular.

Petição 870170084571, de 01/11/2017, pág. 15/17

6/6
14. Dispositivo de armazenamento legível por uma máquina, de acordo com a reivindicação 13, caracterizado pelo fato de que, concomitantemente com a referida etapa de recebimento, a etapa de obtenção de sinais de vídeo em tempo real por um ou mais dispositivos de câmera, o referido meio de reconhecimento mútuo (64) ainda compreende meio para a geração de sinais de controle (54) para direcionar uma ou mais câmeras dos dispositivos da câmera para capturar sinais de vídeo na direção do evento particular em resposta ao reconhecimento da ocorrência daquele evento com base no referido reconhecimento de áudio do evento.
15. Dispositivo de armazenamento legível por uma máquina, de acordo com a reivindicação 13, caracterizado pelo fato de que concomitantemente com a referida etapa de recebimento, a etapa de obtenção de sinais de áudio em tempo real por um ou mais dispositivos de microfone (49), o referido meio de reconhecimento mútuo (64) ainda compreende meio para a geração de sinais de controle (54) para direcionar um ou mais microfones dos dispositivos de microfone (49) para permitir a captura de informação de reconhecimento de áudio na direção do evento particular em resposta à ocorrência de reconhecimento de um evento potencial com base no referido reconhecimento de vídeo do evento.

Petição 870170084571, de 01/11/2017, pág. 16/17

1/4

FIGURA 1 Técnica Anterior - Sistema de Vigilânica de Vídeo Somente

2/4

FIGURA 2 Técnica Anterior - Sistema de Vigilântca de Vídeo com Gravação de Áudio

3/4

FIGURA 3 Sistema de Vigilânica de Vídeo com Reconhecimento de Vídeo e Audio

4/4

62 —63—

FIGURA 4 Mecanismo de Reconhecimento Inteligente