BRPI0621897B1 - “sistema de vigilância utilizando reconhecimento de vídeo e áudio, método de vigilância e dispositivo de armazenamento legível por uma máquina” - Google Patents

“sistema de vigilância utilizando reconhecimento de vídeo e áudio, método de vigilância e dispositivo de armazenamento legível por uma máquina” Download PDF

Info

Publication number
BRPI0621897B1
BRPI0621897B1 BRPI0621897-0A BRPI0621897A BRPI0621897B1 BR PI0621897 B1 BRPI0621897 B1 BR PI0621897B1 BR PI0621897 A BRPI0621897 A BR PI0621897A BR PI0621897 B1 BRPI0621897 B1 BR PI0621897B1
Authority
BR
Brazil
Prior art keywords
video
audio
recognition
signals
information
Prior art date
Application number
BRPI0621897-0A
Other languages
English (en)
Inventor
G. Kienzle Martin
Sheinin Vadim
Original Assignee
International Business Machines Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corporation filed Critical International Business Machines Corporation
Publication of BRPI0621897A2 publication Critical patent/BRPI0621897A2/pt
Publication of BRPI0621897B1 publication Critical patent/BRPI0621897B1/pt

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/16Actuation by interference with mechanical vibrations in air or other fluid
    • G08B13/1654Actuation by interference with mechanical vibrations in air or other fluid using passive vibration detection systems
    • G08B13/1672Actuation by interference with mechanical vibrations in air or other fluid using passive vibration detection systems using sonic detecting means, e.g. a microphone operating in the audio frequency range
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B19/00Alarms responsive to two or more different undesired or abnormal conditions, e.g. burglary and fire, abnormal temperature and abnormal rate of flow
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B31/00Predictive alarm systems characterised by extrapolation or other computation using updated historic data

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Emergency Management (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Burglar Alarm Systems (AREA)
  • Alarm Systems (AREA)

Abstract

sistema de vigilancia de video e metodo com reconhecimento de audio e video come inado. a presente invenção, de modo geral, refere-se a sistemas de vigilância e métodos para proporcionar segurança e, mais particularmente, a um novo sistema de reconhecimento de video e áudio on-line (tempo real) e processo para sistemas de vigilância.

Description

(54) Título: SISTEMA DE VIGILÂNCIA UTILIZANDO RECONHECIMENTO DE VÍDEO E ÁUDIO, MÉTODO DE VIGILÂNCIA E DISPOSITIVO DE ARMAZENAMENTO LEGÍVEL POR UMA MÁQUINA (51) Int.CI.: G03B 17/00; G08B 23/00; H04N 7/18 (73) Titular(es): INTERNATIONAL BUSINESS MACHINES CORPORATION (72) Inventor(es): MARTIN G. KIENZLE; VADIM SHEININ “SISTEMA DE VIGILÂNCIA UTILIZANDO RECONHECIMENTO DE VÍDEO E
ÁUDIO, MÉTODO DE VIGILÂNCIA E DISPOSITIVO DE ARMAZENAMENTO LEGÍVEL POR UMA MÁQUINA”.
Fundamentos Da Invenção
Campo da Invenção
A presente invenção, de modo geral, refere-se a sistemas de vigilância e métodos para proporcionar segurança e, mais particularmente, a um novo sistema de reconhecimento de vídeo e áudio on-line (tempo real) e processo para sistemas de vigilância.
Descrição da Técnica Anterior
Os sistemas de vigilância de vídeo convencionais normalmente não incluem qualquer funcionalidade ou disposição para monitoração de áudio, ou seja, sistemas de vigilância não incluem entradas de áudio em tudo. Na melhor das hipóteses, os sistemas de vigilância de vídeo típicos, como descrito no documento de Patente no 6,724,421 e
6,175,382 fornece a gravação simultânea de informações visuais e de áudio. Em ambos os tipos de sistemas de vídeo vigilância descritos nestas referências, os dados de vídeo estão sendo analisados pelos mecanismos de vigilância inteligente e são compactados para armazenamento digital.
Estes mecanismos implementam vários algoritmos de reconhecimento, como reconhecimento facial, detecção de
Petição 870170084571, de 01/11/2017, pág. 10/17 movimento, detecção de pânico, detecção de movimento de esfaqueamento etc. Uma situação alarmante, por exemplo, quando do acompanhamento de uma entrada de um edifício alto, envolve um movimento rápido repentino de uma pessoa em direção à outra, o que implica em um roubo potencial, bateria, ou atividade similar. Um mecanismo de vigilância inteligente, neste caso, reconhece (com algum nível de sucesso que é inferior a 100%), movimentos rápidos e repentinos e gerar um alarme na central de monitoramento.
As forças policiais podem ser despachadas para o local monitorado, como consequência de um tal alarme. Obviamente, o movimento rápido súbito poderia ter sido gerado por uma criança correndo em direção a seu pai/ amigo e, neste caso, o alarme gerado torna-se um alarme falso, que fará uma expedição cara da força policial. Outro resultado da má detecção inteligente do mecanismo de vigilância é a ausência de geração de alarmes em caso de uma emergência real. Este caso pode ocorrer, por exemplo, quando houver mais de uma pessoa na cena do crime. Não enviar uma força policial, quando a situação de emergência está ocorrendo de verdade é ainda outro inconveniente dos sistemas de vigilância em curso.
O sistema de vídeo vigilância somente da técnica anterior só mostrado na Figura 1. Uma matriz de câmara 100 /3 alimenta informações de vídeo em um mecanismo de compressão de vídeo 12 através do link de vídeo 11. A informação de vídeo é comprimida e enviada através de conexão 16 para um dispositivo de armazenamento 14 para um armazenamento de longo prazo. A informação de vídeo é adicionalmente alimentada no mecanismo de reconhecimento de vídeo 13, através do mesmo link de vídeo 11. 0 mecanismo de reconhecimento de vídeo 13 executa tarefas de reconhecimento de vídeo, como reconhecimento facial, detecção de movimento e outros, e gera os eventos e alarmes que são enviados através do link 17 a uma base de dados de eventos 15 e a estação de monitoramento 18. A estação de monitoramento 18 de pode inclui uma estação de monitoramento tripulada através do qual um operador realiza monitoramento visual em tempo real de uma determinada quantidade de câmeras. Quando uma situação de emergência ocorre, tal como interpretada pelo operador, é sua decisão se deve ou não enviar uma força policial ou equipe de resposta a outra de emergência para a área monitorada. É evidente a partir da descrição acima que não há utilização de informações de áudio, embora essas informações, muitas vezes, estejam disponíveis na área monitorada.
sistema de vídeo vigilância da técnica anterior com gravação de áudio é mostrado na Figura 2. A matriz de câmera 20 alimenta informações de vídeo no vídeo e o mecanismo de compressão de áudio 22 através do link de vídeo 21. Simultaneamente, a informação de áudio é alimentada a partir da matriz de microfone 29 e através do link de áudio 30 para o mecanismo de compressão de vídeo e áudio 22. A informação de vídeo e áudio é comprimida e enviada através do link 26 para um dispositivo de armazenamento 24 para um armazenamento de longo prazo. A informação vídeo é igualmente alimentada com o mecanismo de reconhecimento de vídeo 23 através do mesmo link de vídeo
21. O mecanismo de reconhecimento de vídeo 23 executa tarefas de reconhecimento de vídeo, como reconhecimento facial, detecção de movimento e outros, e gera os eventos e alarmes que são enviados através do link 27 para um banco de dados 2 5 e estação de monitoramento 28. A estação de monitoramento 28 é uma estação de monitoramento tripulada através da qual um operador realiza o acompanhamento visual de uma determinada quantidade de câmeras. Quando uma situação de emergência ocorre, tal como interpretada pelo operador, é sua decisão se deve ou não enviar uma força policial ou outras respostas da equipe de emergência para a área monitorada. É evidente a partir da descrição acima que não há extração de informações úteis a partir das entradas de áudio, apesar de tais intormações, muitas vezes, estarem disponíveis em sinais de áudio obtidos na área monitorada.
Como descrito acima, um segundo tipo de sistema de vigilância, ao mesmo tempo, registra informações de áudio e 5 vídeo, bem como implementa mecanismos de vigilância inteligente para várias tarefas de reconhecimento de vídeo.
Hoje, nesses sistemas, as informações de áudio são compactadas e gravadas sem serem analisadas.
Os sistemas de vigilância atuais simplesmente não utilizam informações de áudio bastante preciosas quando se analisa a entrada de vídeo. Obviamente, essa informação de áudio está disponível e em muitos cenários de vigilância podem ser usadas muito amplamente.
Assim, seria altamente desejável incorporar o uso de informações de áudio em sistemas de vídeo vigilância com a expectativa de que o uso de informações de áudio irá diminuir o número de falsos alarmes gerados pelo sistema de vigilância, bem como aumentar o percentual de alarmes verdadeiros detectados, enquanto, ao mesmo tempo, fornece mais informações para a pessoa avaliar um alarme. Além disso, alguns eventos podem ser detectados através de informações de áudio e vídeo em oposição a tais eventos serem detectados usando as informações de vídeo apenas.
Sumário da Invenção
É, portanto, nm objetivo da presente invenção fornecer um sistema de video vigilância e um método que incorpora o uso de informações de vídeo juntamente com a informação de áudio obtida a partir da área sob vigilância.
O sistema de vigilância da invenção inclui entradas de sinal de vídeo e áudio. Entradas de vídeo são provenientes de câmeras digitais ou analógicas e entradas de áudio são recebidas de microfones instalados em uma área monitorada.
Informação de vídeo e áudio é comprimida e enviada para um dispositivo de armazenamento digital. A compressão do vídeo e informação de áudio é o preferida para salvar espaço de armazenamento digital necessário para todas as câmaras e os microfones implementados.
Em simultâneo com a gravação, as entradas de áudio e vídeo são alimentadas em um mecanismo de reconhecimento inteligente que realiza o reconhecimento de vídeo, o reconhecimento de áudio e executa correlação instantânea dos resultados de reconhecimento de áudio / de vídeo para a detecção / reconhecimento de um conjunto específico de eventos, indicativo de uma situação de pânico, por exemplo, vozes gritando em tom alto, explosões, tiros, etc. Alarmes gerados pelo mecanismo de reconhecimento inteligente podem ser enviados para uma estação de monitoramento, onde um operador humano decide se enviará uma equipe de emergência ou a polícia para uma área monitorada.
De acordo com um aspecto da invenção, o mecanismo de reconhecimento inteligente executa algoritmos de ” reconhecimento de vídeo disponíveis, tais como reconhecimento facial, detecção de movimento, etc, bem como algoritmos de reconhecimento de áudio / de voz para reconhecimento de fala de um vocabulário específico (ajuda, roubo etc.) 0 mecanismo de reconhecimento de áudio pode ser treinado para reconhecer sinais de áudio especiais, tais como tiros, explosões, etc, bem como voz alta e outras assinaturas de voz indicativas de um alarme ou situação de emergência.
Usando matrizes de microfones colocados nas orientações, nomeadamente, indicações de sons podem ser determinadas. As informações de áudio direcional podem, então, ser emitidas para uma unidade de controle da câmera, para dirigir uma câmera / câmeras na direção de interesse.
Além disso, o reconhecimento de vídeo / áudio pode ser realizado com maior eficiência. Assim, por exemplo, um som de explosão pode ser detectado pelo mecanismo de reconhecimento de áudio usando uma matriz de microfones em uma área monitorada. Como conseqüência, as câmeras serão direcionadas em direção à explosão e ações de
S
Figure BRPI0621897B1_D0001
acompanhamento ocorrerão no mecanismo de reconhecimento de video - a partir de alarmante da estação de monitoramento ate a cena do reconhecimento / compreensão. O uso instantâneo dos resultados de reconhecimento de video e áudio para dirigir a avaliação adicional do áudio gravado e vídeo, e para direcionar a gravação melhorada de novos vídeos e entradas de áudio, com vantagem, melhorando a precisão da detecção, reduz o tempo necessário para determinar a natureza de um alarme, e fornece mais informações a um operador humano que avalia a situação.
As saídas do mecanismo de reconhecimento de vídeo e do mecanismo de reconhecimento áudio são analisadas pelo mecanismo de reconhecimento mútuo e, como conseqüência, alarmes finais são gerados e transmitidos para a central de monitoramento.
Para manter estes e outros ob j etivos, de acordo com um aspecto preferido da invenção, é fornecido um sistema de vigilância e método e o produto programa de computador, em que o sistema compreende: meio para gerar, em tempo real, sinais de vídeo compreendendo informação de vídeo tomadas de uma zona sob vigilância; meio para a obtenção, em tempo real, de sinais de áudio com informações de áudio a partir da área sob vigilância, meio para simultaneamente receber os sinais de vídeo e os sinais de áudio, determinando a s informações de reconhecimento de áudio e vídeo relevantes dos mesmos, e mutuamente correlacionar a informação em tempo real de áudio e vídeo para determinar a probabilidade de ocorrência de um evento particular, e,meio para gerar uma condição de alarme baseado na ocorrência do evento particular.
Breve Descrição dos Desenhos
Outras características, aspectos e as vantagens das estruturas e métodos da presente invenção serão melhor compreendidas com relação à descrição que se segue, reivindicações anexas e os desenhos anexos, em que:
A figura 1 ilustra um sistema de vigilância de vídeo somente de acordo com a técnica anterior.
A figura 2 ilustra um sistema de vigilância de vídeo com capacidade de gravação de áudio de acordo com a técnica anterior.
Figura 3 mostra um sistema de vigilância de vídeo com reconhecimento de vídeo e áudio de acordo com a invenção.
A Figura 4 mostra detalhes do mecanismo de
Reconhecimento inteligente de acordo com a invenção.
Descrição Detalhada das Modalidades Preferidas
A Figura 3 mostra um sistema de vigilância de vídeo com reconhecimento vídeo e de áudio de acordo com a invenção. Conforme mostrado na Figura 3, a matriz de câmara que .inclui ainda uma ou mais câmaras de vídeo eletrônicas ou estáticas, por exemplo, câmeras CCD ou CMOS, em cores ou em preto e branco ou com uma combinação equivalente de componentes que capturam uma área sob vigdlancia alimenta sinais de vídeo em um mecanismo de compressão de áudio e vídeo digital 42 através de um link de comunicação de vídeo 41. 0 movimento e funcionamento de cada dispositivo da câmera da matriz câmera 40 pode ser controlado por sinais de controle recebidos, por exemplo, sob controle de computador e/ou software. Além disso, os parâmetros operacionais de cada câmera na matriz de câmera40, incluindo espelho de pan / tilt, sistema de lentes, mecanismo de foco, mecanismo de pan, e controle de mecanismo de inclinação são controlados por sinais de controle recebidos, como será explicado em mais detalhes aqui. Antes de liberar os sinais de vídeo digitais, muitas técnicas de processamento de sinais podem ser aplicadas para reduzir o ruído ou fornecer técnicas de filtragem/ aprimoramento de imagem, por exemplo.
Ao mesmo tempo, um microfone 49 compreendendo dispositivos sensor microfone (omnidirecional e/ou microfones altamente direcionais) que podem converter a pressão acústica em sinais elétricos são fornecidos para alimentar as informações de áudio para o mecanismo de compressão de vídeo digital e áudio 42através do link de comunicações de áudio 50. Como é conhecido por pessoas qualificadas, um nivel de diretividade da matriz de microfones varia com relação às freqüências de som para que o número de microfones e a distância entre os microfones pode ser determinada levando em consideração uma gama de frequências necessárias para poder fornecer qualquer grau de diretividade. Os microfones implementados na matriz pode
mser controlados, sob controle do software, por exemplo,
10 para realizar esses fins, e incluem transdutores
conf igurados para ter um padrão de pick-up que podem ser
claramente polarizado para diferentes recepções de
freqüência, por exemplo, no intervalo do discurso humano, explosões, tiros, etc. Deste modo, a matriz de microfone é assegurada para ser receptiva para responder a um campo de som do evento acústico com um alto grau de precisão. Outras técnicas de condicionamento de sinal de áudio podem ser aplicadas para a digitalização de sinais de áudio analógicos obtidos utilizando um conversor A/D, por exemplo, e para proporcionar controle de ganho, redução / filtragem de ruido, por exemplo. Informações de vídeo e de áudio digital digitalizadas são comprimidas e enviadas através de link 46 a um dispositivo de armazenamento de memória 44para armazenamento de longo prazo, por exemplo,
V.' um banco de dados, uma unidade de disco rígido, mídias magnéticas ou ópticas, incluindo, mas não limitados a: um
CD- ROM, DVD, fita, pia t ter, matriz de disco, ou algo parecido. A saída de cada câmara da matriz câmera 40 é armazenada na mídia de armazenamento em um formato compactado, como MPEG1, MPEG2, etc. Além disso, a saída de cada câmara da matriz pode ser armazenada em um local especial no meio de armazenamento associado com essa câmera, ou é armazenado com uma indicação para qual câmera cada saída armazenada corresponde.
Como ainda mostrado na Figura 3, as mesmas informações vídeo e informações de áudio são, ao mesmo tempo, adicionalmente alimentadas em um mecanismo de reconhecimento inteligente 43 através dos respectivos link de vídeo 41 e link de áudio 50. Entende-se que as ligações de comunicação 41 e 50 entre a respectiva matriz de câmara e matriz de microfone de áudio e mecanismo de compressão de vídeo e áudio 42 e mecanismo de reconhecimento inteligente pode ser cabeado, ou um link sem fios pode ser empregado. Além disso, está no escopo da presente invenção estas ligações de comunicação assumirem a forma de cabo, satélite, RF, transmissão de microondas, fibras ópticas e similares.
Como será descrito em mais detalhes aqui, como ainda representado na Figura 4, o mecanismo de reconhecimento inteligente 43 compreende um mecanismo de reconhecimento de vídeo 62, mecanismo de reconhecimento de áudio 63, um mecanismo de reconhecimento mútuo e um módulo de geração de alarmes 64. O mecanismo de reconhecimento inteligente 43 implementa software para controlar um dispositivo de computador para executar os métodos e processos para a execução de algoritmos de reconhecimento de vídeo e algoritmos de reconhecimento facial. Estes podem ser executados com e em conjunto com algoritmos de detecção de movimento (por exemplo, a correlação de patch conhecidos ou algoritmos de rastreamento que monitora pontos individuais) para estimar o movimento das características no fluxo de imagens), etc O mecanismo de reconhecimento inteligente 43 adicionalmente implementa software para controlar um dispositivo de computador para executar os métodos e processos para a execução de reconhecimento de áudio e algoritmos de reconhecimento de fala. Algoritmos de reconhecimento de fala implementados como instruções legíveis por computador, estruturas de dados, módulos de programa, etc, podem ser utilizados para o reconhecimento de palavras particulares que podem ser potencialmente indicativas de uma situação de emergência ou situação digna de alarme (Ajuda, roubo, etc.)
Um mecanismo de reconhecimento de áudio 63, que inclui instruções legíveis por computador, estruturas de dados módulos, programas ou outros dados, pode ser treinado para reconhecer sinais de áudio especiais, como tiros, explosões, etc, bem como sons de alta intensidade, por exemplo, gritos, berros e outros sons e assinaturas de voz associadas com alarme potencial conhecido por provocar eventos. Entende-se, contudo, que diversos algoritmos de reconhecimento podem ser empregados de acordo com a invenção, que não requerem treinamento prévio.
O dispositivos de computação (s) executado inclui um dispositivo computador de uso geral, como um computador pessoal, dispositivo portátil, celular e similares, tendo componentes, incluindo, mas não limitado a uma unidade de processamento, memória de sistema e barramento de sistema que acopla diferentes componentes do sistema, incluindo a memória do sistema à unidade de processamento. O dispositivo que implementa estes componentes de computador para executar o mecanismo de reconhecimento inteligente e o mecanismo de reconhecimento de áudio que são armazenados em uma mídia legível por computador bem conhecida compreendendo todos os meios disponíveis que podem ser acessados pelo dispositivo de computador, incluindo tanto removíveis, como não removíveis, voláteis e meios de comunicação não-voláteis. A gravação legível por computador pode ser centralizada em um único local ou descentralizada sobre sistemas de computadores conectados via rede, por exemplo, algoritmos de reconhecimento legível pelo computador podem ser armazenados em meio de gravação legível em computador e serem executados de forma descentralizada.
Retornando para a figura 3, usando a matriz de microfones 49 em orientações específicas, a direção dos sons são determináveis. As informações direcionais sobre um evento de áudio detectado é entregue ao módulo de controle do microfone/ câmera 52 através de um link de comunicação com ou sem fio 53. O módulo de controle de câmera / microfone 52 inclui todo o software necessário para implementar o mecanismo de controle de posição para dirigir câmera / câmeras da matriz 40 e controlar as posições do
microfone 49 na direção de interesse por meio de sinais de
20 controle 54 . Por exemplo, os sinais de controle podem ser
inseridos na matriz de câmera 40 para ajustar ou controlar
os espelhos da câmera de controle pan / tilt, sistema de lentes (s), mecanismo de foco, mecanismo de pan, e componentes de mecanismos inclinação e sub-sistemas. Esses sinais de controle são utilizados adicionalmente para direcionar automaticamente o campo de visão visto pelas câmeras, a fim de obter uma melhor imagem centrada ou, mais ampliada, ou mais focada ou resolvida com mais informações sobre o alarme real ou evento de alarme. Em um exemplo não
1imitante, em resposta ao reconhecimento de áudio de um sinal de áudio de tiro pelo mecanismo de reconhecimento inteligente, sinais de controle podem ser gerados que direcionam ou mais câmeras da matriz de câmera para a cena para olhar na direção do tiro. Se a matriz de câmera de vídeo é dirigida para o local de um crime de reconhecimento de áudio do tiro, então, o reconhecimento do evento crime será melhor desligado, porque mais informações sobre a arma disparada estará disponível. Como alternativa, ou além disso, esses sinais de controle podem ser gerados são utilizados para ajustar automaticamente a orientação dos microfones e a distância entre os microfones para melhor receber as informações de acompanhamento de áudio. A orientação dos microfones poderá ainda ser ajustada em função da detecção de sinais de áudio de uma faixa de freqüência exigida, ou para prestar qualquer grau de diret ividade. Assim, por exemplo, um ou mais microfones podem ser redirecionados para ouvir a partir de uma determinada direção em resposta a um evento de reconhecimento de vídeo.
Mais especificamente, como mostrado na figura 4, os resultados do mecanismo de reconhecimento de vídeo 62 e '5 'mecanismo de reconhecimento de áudio 63 são analisados pelo mecanismo de reconhecimento mútuo 64 para o processamento do vídeo recebido em simultâneo e informação sobre o reconhecimento de áudio e, finalmente, determinar se uma condição de alarme existe. Desta forma, os alarmes podem ser gerados que são encaminhados para a estação de monitoramento 48 tripulada através do link de comunicações
47. Ou seja, o reconhecimento de processos empregado como instruções legíveis por computador, estruturas de dados, os módulos do programa, etc utilizados no mecanismo de reconhecimento mútuo 64 são geralmente baseados em uma combinação de padrões e/ou avaliação de hipóteses.
Durante uma fase de avaliação, é determinada uma estimativa das probabilidades de vários eventos. Isto pode ser feito através da determinação da informação em tempo real de vídeo e reconhecimento de sinais de áudio, em que extensão existe uma correlação entre as respectivas cenas de vídeo reconhecido e a voz acompanhando reconhecida ou assinaturas ou de áudio. Em um evento de exemplo de reconhecimento, para o reconhecimento de um movimento de esfaqueamento, a informação de vídeo é utilizada para a finalidade de tentar avaliar as probabilidades de várias cenas de vídeo. Se é sabido que tais cenas seriam acompanhadas pela voz de tom alto (gritando etc) e depois de detectar um tom alto a paitir da entrada de áudio irá aumentar a probabilidade de ser um resultado de um movimento de esfagueamento capturado nos sinais de vídeo. 0 operador realiza o monitoramento visual de uma área particular pesquisada pela matriz de câmara 40 e quando uma indicação de alarme é fornecida pel unidade geradora de alarme, é decisão do operador de expedição ou não da polícia ou do pessoal de emergência para a área monitorada. É evidente que a partir da descrição acima que há uma extração de informações úteis a partir das entradas de áudio que está sendo combinadas com os eventos de reconhecimento de vídeo, que melhora o funcionamento total do sistema de vigilância.
Como ainda mostrado na Figura 4, o link de comunicações 60 entre o mecanismo de reconhecimento de vídeo 62 e o mecanismo de reconhecimento mútuo 64 é bidirecional, assim como a ligação de comunicações 61 entre o mecanismo de reconhecimento de áudio 63 e mecanismo de reconhecimento mútuo 64. Ά Bi-direcionalidade das ligações e 61 permite a mútua influência de algoritmos de reconhecimento de vídeo e áudio da maneira descrita, o que,
I como conseqüência, dá melhor nível de reconhec ímento de vídeo e áudio, bem como possibilidade de executar a detecção de eventos específicos, que foram até agora impossíveis de detectar.
”5' ~ Embora a invenção tenha sido mostrada e descrita particularmente no que diz respeito à concretizações ilustrativas e preformadas, será entendido por aqueles versados na técnica que a descrição anterior e outras alterações na forma e nos detalhes podem ser feitos na mesma, sem se afastar do espírito e do escopo da invenção, que deve ser limitada apenas pelo escopo das reivindicações anexas.
1/6

Claims (15)

  1. REIVINDICAÇÕES
    1. Sistema de vigilância utilizando reconhecimento de vídeo e áudio compreendendo:
    meio para a geração de sinais de vídeo em tempo real compreendendo informação de vídeo tornada de uma área sob vigilância, meio para a obtenção de sinais de áudio em tempo real, incluindo informações de áudio da referida área sob vigilância, meio para simultaneamente receber o referido sinal de vídeo e sinais de áudio, determinando informação de reconhecimento de vídeo e áudio pertinente a partir do mesmo, e mutuamente correlacionar a informação de áudio e vídeo em tempo real para determinar a probabilidade de ocorrência de um determinado evento, e meio para gerar uma condição de alarme com base na ocorrência do referido evento determinado, caracterizado pelo fato de que o referido meio para a geração de sinais de áudio em tempo real compreende um ou mais dispositivos de microfone (49), o referido meio de reconhecimento mútuo (64) ainda compreende meio para a geração de sinais de controle (54) para direcionar um ou mais microfones dos dispositivos de microfone (49) para permitir a captura de informação de reconhecimento de áudio na direção do evento particular em resposta à ocorrência de reconhecimento de um evento potencial com base no referido reconhecimento de vídeo do evento, em que cada um dos referidos dispositivos de microfone (49) são responsivos aos referidos sinais de controle (54)
    Petição 870170084571, de 01/11/2017, pág. 11/17
  2. 2/6 para ajustar automaticamente a orientação dos microfones em consideração da detecção de sinais de áudio de uma faixa de frequência requerida.
    2. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o referido meio para processar compreende um primeiro mecanismo de reconhecimento (62) para processamento de sinais de vídeo para determinar a referida informação de reconhecimento de vídeo.
  3. 3. Sistema, de acordo com a reivindicação 2, caracterizado pelo fato de que o referido meio de processamento compreende um segundo mecanismo de reconhecimento (63) para processamento dos referidos sinais de áudio para determinação da referida informação de reconhecimento de áudio.
  4. 4. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o referido meio de processamento compreende um meio para o reconhecimento mútuo (64) para correlacionar a informação de reconhecimento de áudio e vídeo e aumentar a capacidade de detecção de ocorrência de um evento particular.
  5. 5. Sistema, de acordo com a reivindicação 4, caracterizado pelo fato de que o referido meio para a geração de sinais de vídeo em tempo real inclui um ou mais dispositivos de filmagem (40), o referido meio de reconhecimento mútuo (64) ainda compreendendo meio para a geração de sinais de controle (54) para direcionar uma ou mais câmeras dos dispositivos da câmera (40) para capturar sinais de vídeo na direção do evento particular em resposta
    Petição 870170084571, de 01/11/2017, pág. 12/17
    3/6 ao reconhecimento da ocorrência daquele evento com base no referido reconhecimento de áudio do evento.
  6. 6. Sistema, de acordo com a reivindicação 5, caracterizado pelo fato de que cada um dos referidos dispositivos de câmera de vídeo (40) inclui um ou mais de componentes de espelhos de pan/tílt, sistema de lente, mecanismo de foco, mecanismo de pan e mecanismo de tilt responsivos aos referidos sinais de controle (54) para ajustar uma ou mais parâmetros de pan, tilt, zoom, rotação, dolly, controle de translação dos dispositivos de câmera.
  7. 7. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que cada um dos referidos dispositivos de microfone (49) é responsivo aos referidos sinais de controle (54) para ajustar automaticamente a orientação dos microfones em consideração ao recebimento de sinais de áudio em qualquer grau de diretividade.
  8. 8. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que ainda inclui meio para armazenamento dos referidos dados de áudio e vídeo.
  9. 9. Sistema, de acordo com a reivindicação 8, caracterizado pelo fato de que ainda compreende meio para comprimir (42) os referidos dados de áudio e vídeo antes de guardá-los no referido meio de armazenamento.
  10. 10. Método de vigilância realizado pelo sistema como definido em qualquer das reivindicações 1 a 9 utilizando reconhecimento de vídeo e áudio compreendendo as etapas de:
    receber, simultaneamente, em um meio de processamento de sinais de vídeo, em tempo real, compreendendo informação de vídeo tornando em uma área sob vigilância e sinais de
    Petição 870170084571, de 01/11/2017, pág. 13/17
    4/6 áudio, em tempo real, que incluem informações de áudio da referida área sob vigilância, determinar informação relevante de reconhecimento de vídeo e áudio do referidos sinais de áudio e vídeo recebidos;
    correlacionar mutuamente, em tempo real, a informação de reconhecimento de áudio e vídeo para determinar a probabilidade de ocorrência de um determinado evento; e, gerar a condição de alarme com base na ocorrência do referido evento determinado caracterizado pelo fato de que o referido meio para a geração de sinais de áudio em tempo real compreende um ou mais dispositivos de microfone (49), o referido meio de reconhecimento mútuo (64) ainda compreende meio para a geração de sinais de controle (54) para direcionar um ou mais microfones dos dispositivos de microfone (49) para permitir a captura de informação de reconhecimento de áudio na direção do evento particular em resposta à ocorrência de reconhecimento de um evento potencial com base no referido reconhecimento de vídeo do evento, em que cada um dos referidos dispositivos de microfone (49) são responsivos aos referidos sinais de controle (54) para ajustar automaticamente a orientação dos microfones em consideração da detecção de sinais de áudio de uma faixa de frequência requerida.
  11. 11. Dispositivo de armazenamento legível por uma máquina, concretizando, de maneira tangível, as etapas do método como definido na reivindicação 10 caracterizado pelo fato de que realiza vigilância de uma área utilizando
    Petição 870170084571, de 01/11/2017, pág. 14/17
    5/6 reconhecimento de áudio e vídeo, o referido método, incluindo as etapas de:
    receber, simultaneamente, em um meio de processamento de sinais de vídeo, em tempo real, compreendendo informação de vídeo tornando em uma área sob vigilância e sinais de áudio, em tempo real, que incluem informações de áudio da referida área sob vigilância, determinar informação relevante de reconhecimento de vídeo e áudio do referidos sinais de áudio e vídeo recebidos;
    correlacionar mutuamente, em tempo real, a informação de reconhecimento de áudio e vídeo para determinar a probabilidade de ocorrência de um determinado evento; e, gerar a condição de alarme com base na ocorrência do referido evento determinado.
  12. 12. Dispositivo de armazenamento legível por uma máquina, de acordo com a reivindicação 11, caracterizado pelo fato de que o referido meio de processamento compreende um primeiro mecanismo de reconhecimento (62) que implementa o processamento de etapas para determinar a referida informação de reconhecimento de vídeo dos referidos sinais de vídeo.
  13. 13. Dispositivo de armazenamento legível por uma máquina, de acordo com a reivindicação 12, caracterizado pelo fato de que o referido meio de processamento compreende um meio para o reconhecimento mútuo (64) para correlacionar a informação de reconhecimento de áudio e vídeo e aumentar a capacidade de detecção de ocorrência de um evento particular.
    Petição 870170084571, de 01/11/2017, pág. 15/17
    6/6
  14. 14. Dispositivo de armazenamento legível por uma máquina, de acordo com a reivindicação 13, caracterizado pelo fato de que, concomitantemente com a referida etapa de recebimento, a etapa de obtenção de sinais de vídeo em tempo real por um ou mais dispositivos de câmera, o referido meio de reconhecimento mútuo (64) ainda compreende meio para a geração de sinais de controle (54) para direcionar uma ou mais câmeras dos dispositivos da câmera para capturar sinais de vídeo na direção do evento particular em resposta ao reconhecimento da ocorrência daquele evento com base no referido reconhecimento de áudio do evento.
  15. 15. Dispositivo de armazenamento legível por uma máquina, de acordo com a reivindicação 13, caracterizado pelo fato de que concomitantemente com a referida etapa de recebimento, a etapa de obtenção de sinais de áudio em tempo real por um ou mais dispositivos de microfone (49), o referido meio de reconhecimento mútuo (64) ainda compreende meio para a geração de sinais de controle (54) para direcionar um ou mais microfones dos dispositivos de microfone (49) para permitir a captura de informação de reconhecimento de áudio na direção do evento particular em resposta à ocorrência de reconhecimento de um evento potencial com base no referido reconhecimento de vídeo do evento.
    Petição 870170084571, de 01/11/2017, pág. 16/17
    1/4
    FIGURA 1 Técnica Anterior - Sistema de Vigilânica de Vídeo Somente
    2/4
    FIGURA 2 Técnica Anterior - Sistema de Vigilântca de Vídeo com Gravação de Áudio
    3/4
    FIGURA 3 Sistema de Vigilânica de Vídeo com Reconhecimento de Vídeo e Audio
    4/4
    62 —63—
    FIGURA 4 Mecanismo de Reconhecimento Inteligente
BRPI0621897-0A 2006-08-03 2006-08-03 “sistema de vigilância utilizando reconhecimento de vídeo e áudio, método de vigilância e dispositivo de armazenamento legível por uma máquina” BRPI0621897B1 (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2006/030560 WO2008016360A1 (en) 2006-08-03 2006-08-03 Video surveillance system and method with combined video and audio recognition

Publications (2)

Publication Number Publication Date
BRPI0621897A2 BRPI0621897A2 (pt) 2011-03-29
BRPI0621897B1 true BRPI0621897B1 (pt) 2018-03-20

Family

ID=38997456

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0621897-0A BRPI0621897B1 (pt) 2006-08-03 2006-08-03 “sistema de vigilância utilizando reconhecimento de vídeo e áudio, método de vigilância e dispositivo de armazenamento legível por uma máquina”

Country Status (6)

Country Link
JP (1) JP5043940B2 (pt)
CN (1) CN101501564B (pt)
BR (1) BRPI0621897B1 (pt)
CA (1) CA2656268A1 (pt)
MX (1) MX2009001254A (pt)
WO (1) WO2008016360A1 (pt)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2466242B (en) * 2008-12-15 2013-01-02 Audio Analytic Ltd Sound identification systems
US9286911B2 (en) 2008-12-15 2016-03-15 Audio Analytic Ltd Sound identification systems
CN102082948B (zh) * 2009-11-30 2012-07-25 中国移动通信集团北京有限公司 视频信息获取系统、方法及设备
CN103067655A (zh) * 2011-10-24 2013-04-24 鸿富锦精密工业(深圳)有限公司 控制摄影机装置的系统及方法
CN103136899B (zh) * 2013-01-23 2016-01-20 宁凯 基于Kinect体感设备的智能报警监控方法
JP5958833B2 (ja) * 2013-06-24 2016-08-02 パナソニックIpマネジメント株式会社 指向性制御システム
CN103747217A (zh) * 2014-01-26 2014-04-23 国家电网公司 视频监控方法及装置
EP2927885A1 (en) * 2014-03-31 2015-10-07 Panasonic Corporation Sound processing apparatus, sound processing system and sound processing method
US10182280B2 (en) 2014-04-23 2019-01-15 Panasonic Intellectual Property Management Co., Ltd. Sound processing apparatus, sound processing system and sound processing method
EP2938097B1 (en) * 2014-04-24 2017-12-27 Panasonic Corporation Sound processing apparatus, sound processing system and sound processing method
CN105338294A (zh) * 2014-08-07 2016-02-17 富士通株式会社 监控装置和方法
CN104269016A (zh) * 2014-09-22 2015-01-07 北京奇艺世纪科技有限公司 一种报警方法及装置
CN104333686B (zh) * 2014-11-27 2018-03-27 天地伟业技术有限公司 基于人脸和声纹识别的智能监控摄像机及其控制方法
US9813484B2 (en) 2014-12-31 2017-11-07 Motorola Solutions, Inc. Method and apparatus analysis of event-related media
US20160241818A1 (en) * 2015-02-18 2016-08-18 Honeywell International Inc. Automatic alerts for video surveillance systems
JP6682222B2 (ja) 2015-09-24 2020-04-15 キヤノン株式会社 検知装置及びその制御方法、コンピュータプログラム
US9598076B1 (en) * 2015-10-22 2017-03-21 Ford Global Technologies, Llc Detection of lane-splitting motorcycles
CN105491336B (zh) * 2015-12-08 2018-07-06 成都芯软科技发展有限公司 一种低功耗图像识别模块
CN106028217B (zh) * 2016-06-20 2020-01-21 咻羞科技(深圳)有限公司 一种基于音频识别技术的智能设备互动系统及方法
CN106023515A (zh) * 2016-07-06 2016-10-12 中警科技(江苏)开发有限公司 一种远程自动报警警务亭
WO2018075068A1 (en) 2016-10-21 2018-04-26 Empire Technology Development Llc Selecting media from mass social monitoring devices
CN106600876A (zh) * 2017-01-24 2017-04-26 璧典寒 自动化机房值班报警系统及报警方法
US10810854B1 (en) 2017-12-13 2020-10-20 Alarm.Com Incorporated Enhanced audiovisual analytics
CN109033997A (zh) * 2018-07-02 2018-12-18 厦门快商通信息技术有限公司 一种伐木事件检测方法及系统
CN112425157A (zh) * 2018-07-24 2021-02-26 索尼公司 信息处理装置和方法以及程序
CN109089087B (zh) * 2018-10-18 2020-09-29 广州市盛光微电子有限公司 多通道影音联动装置
CN109543538A (zh) * 2018-10-23 2019-03-29 深圳壹账通智能科技有限公司 获取警情对象的轨迹的方法、装置、计算机设备和存储介质
TWI687753B (zh) * 2018-12-06 2020-03-11 宏碁股份有限公司 全景攝影機與全景攝影系統
CN110336976A (zh) * 2019-06-13 2019-10-15 长江大学 一种智能监控探头及系统
CN111091073A (zh) * 2019-11-29 2020-05-01 清华大学 一种将视频和音频联合的异常事件监控设备及方法
EP3839909A1 (en) * 2019-12-18 2021-06-23 Koninklijke Philips N.V. Detecting the presence of an object in a monitored environment
CN111460907B (zh) * 2020-03-05 2023-06-20 浙江大华技术股份有限公司 一种恶意行为识别方法、系统及存储介质
DE102020209025A1 (de) * 2020-07-20 2022-01-20 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zur Bestimmung einer auffälligen Teil-Sequenz einer Überwachungs-Bildersequenz
CN111818237A (zh) * 2020-07-21 2020-10-23 南京智金科技创新服务中心 一种视频监控分析系统和方法
CN112396801A (zh) * 2020-11-16 2021-02-23 苏州思必驰信息科技有限公司 监控报警方法、监控报警装置及存储介质
GB202019713D0 (en) * 2020-12-14 2021-01-27 Vaion Ltd Security system
CN112929372A (zh) * 2021-02-06 2021-06-08 北京第七九七音响股份有限公司 一种网络智能音频终端、监控方法及监控系统
CN113920660B (zh) * 2021-09-30 2023-04-18 中国工商银行股份有限公司 适用于安全存储设备的安全监控方法及系统
GB2620594A (en) * 2022-07-12 2024-01-17 Ava Video Security Ltd Computer-implemented method, security system, video-surveillance camera, and server

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3381343B2 (ja) * 1993-12-03 2003-02-24 株式会社日立製作所 監視装置
JPH0983856A (ja) * 1995-09-07 1997-03-28 Nippon Telegr & Teleph Corp <Ntt> インテリジェントカメラ装置
US6175382B1 (en) * 1997-11-24 2001-01-16 Shell Oil Company Unmanned fueling facility
US6611206B2 (en) * 2001-03-15 2003-08-26 Koninklijke Philips Electronics N.V. Automatic system for monitoring independent person requiring occasional assistance
CN1186923C (zh) * 2003-04-03 2005-01-26 上海交通大学 异常目标自动发现及跟踪摄像机系统
JP4175180B2 (ja) * 2003-05-29 2008-11-05 松下電工株式会社 監視通報システム
CN1716329A (zh) * 2004-06-29 2006-01-04 乐金电子(沈阳)有限公司 利用婴儿哭声频率的婴儿监视系统及其方法
CN200966113Y (zh) * 2006-11-08 2007-10-24 天津三星电子有限公司 具有音频锁定功能的监控装置

Also Published As

Publication number Publication date
BRPI0621897A2 (pt) 2011-03-29
WO2008016360A1 (en) 2008-02-07
MX2009001254A (es) 2009-02-11
CA2656268A1 (en) 2008-02-07
JP2009545911A (ja) 2009-12-24
JP5043940B2 (ja) 2012-10-10
CN101501564A (zh) 2009-08-05
CN101501564B (zh) 2012-02-08

Similar Documents

Publication Publication Date Title
BRPI0621897B1 (pt) “sistema de vigilância utilizando reconhecimento de vídeo e áudio, método de vigilância e dispositivo de armazenamento legível por uma máquina”
US20060227237A1 (en) Video surveillance system and method with combined video and audio recognition
CN109300471B (zh) 融合声音采集识别的场区智能视频监控方法、装置及系统
JP5560397B2 (ja) 自律型防犯警戒システム及び自律型防犯警戒方法
US20160241818A1 (en) Automatic alerts for video surveillance systems
JP4912184B2 (ja) 映像監視システムおよび映像監視方法
CN102176746A (zh) 一种用于局部小区域安全进入的智能监控系统及实现方法
CN109551500A (zh) 机器人监控报警系统
CN109326073A (zh) 一种基于多点定位的无线传感器网络安防监控系统
CN106157505A (zh) 一种非法入室告警方法及装置
CA2880597A1 (en) System and method of alerting central monitoring station and registered users about a potential duress situation using a mobile application
CN110767214A (zh) 语音识别方法及其装置和语音识别系统
KR20230004421A (ko) 인공지능 기반의 이상행동 감지 시스템
WO2011025460A1 (en) Method and system for event detection
JP2011217055A (ja) 画像記録制御装置及び監視システム
CN110634506A (zh) 一种语音数据的处理方法及装置
CN110211316B (zh) 一种监控预警方法和系统
KR20150041939A (ko) 실시간 이벤트 감지를 통한 도어 감시시스템 및 그 방법
Park et al. Sound learning–based event detection for acoustic surveillance sensors
CN111908288A (zh) 一种基于TensorFlow的电梯安全系统及方法
CN111311862A (zh) 一种可疑人员或可疑行为的监测方法
CN109087666A (zh) 监狱打架的识别装置及方法
CN112804492B (zh) 一种电子猫眼的通信提示方法及装置
US20230306711A1 (en) Monitoring system, camera, analyzing device, and ai model generating method
CN111985309A (zh) 告警方法、摄像器件及存储装置

Legal Events

Date Code Title Description
B06G Technical and formal requirements: other requirements

Free format text: APRESENTE O DEPOSITANTE A TRADUCAO COMPLETA DO PEDIDO, CONFORME DETERMINA O ATO NORMATIVO NO 128 DE 05/03/1997. ITENS 9.2 E 9.2.1.

B06A Notification to applicant to reply to the report for non-patentability or inadequacy of the application according art. 36 industrial patent law
B09A Decision: intention to grant
B16A Patent or certificate of addition of invention granted

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 20/03/2018, OBSERVADAS AS CONDICOES LEGAIS.