BR112020001729A2

BR112020001729A2 - método, aparelho e dispositivo de reconhecimento de gestos

Info

Publication number: BR112020001729A2
Application number: BR112020001729-9A
Authority: BR
Inventors: Liang Wang; Songcen Xu; Chuanjian Liu; Jun He
Original assignee: Huawei Technologies Co., Ltd.
Priority date: 2017-08-01
Filing date: 2017-08-01
Publication date: 2020-07-21
Also published as: KR20200036002A; WO2019023921A1; US11450146B2; CN110959160A; EP3651055A1; US20200167554A1; KR102364993B1; EP3651055A4; BR112020001729A8

Abstract

A presente invenção refere-se a um método de reconhecimento de gestos, relacionado ao campo técnico de interação homem-computador. O método compreende: extrair imagens de quadro M de um primeiro segmento de vídeo em um fluxo de vídeo; efetuar, por meio de um algoritmo de aprendizado profundo, o reconhecimento de gestos nas imagens de quadro M para obter um resultado de reconhecimento de gestos correspondente ao primeiro segmento de vídeo; e efetuar uma combinação dos resultados de reconhecimento de gestos dos segmentos de vídeo contínuos N contidos no primeiro segmento de vídeo, para obter um resultado combinado de reconhecimento de gestos. O processo de reconhecimento descrito acima não exige a segmentação nem o rastreamento de gestos em um fluxo de vídeo. O método reconhece ações progressivas por meio de um algoritmo de aprendizado profundo com uma alta velocidade de computação. O método também combina ações progressivas, aumentando desse modo a velocidade de reconhecimento de gestos e reduzindo os atrasos no reconhecimento de gestos.

Description

Relatório Descritivo da Patente de Invenção para "MÉTODO, APARELHO E DISPOSITIVO DE RECONHECIMENTO DE GESTOS".

CAMPO TÉCNICO

[001] A presente invenção refere-se ao campo das tecnologias de interação homem-máquina e, especialmente, a um método, aparelho e dispositivo de reconhecimento de gestos.

ANTECEDENTES

[002] A inserção de gestos é uma tecnologia essencial e indispensável para implantar interação homem-máquina natural e direta. Um método de reconhecimento de gestos com base em visão computacional tornou-se um ponto crucial das pesquisas atuais porque o método de reconhecimento de gestos não dependente de um dispositivo, possui um efeito de interação homem-máquina mais natural e possui um melhor senso de imersão.

[003] Em uma tecnologia relacionada, uma solução de reconhecimento de gestos baseada em visão computacional é como se segue: Um fluxo de vídeo com imagem de gestos é primeiramente capturado usando-se uma câmera, o fluxo de vídeo é convertido em um quadro de imagem; em seguida, um formato, uma característica e as informações de localização de um gesto são extraídas do quadro de imagem por meio de segmentação e rastreamento com base em um algoritmo de rastreamento de imagem específica; e por fim, o gesto é reconhecido com base no formato, na característica e nas informações de localização do gesto que extraídas são com referência a uma regra de classificação pré-estabelecida.

[004] Na tecnologia relacionada, quando o formato, a característica e as informações de localização do gesto são extraídas do quadro de imagem, o gesto em uma imagem precisa ser segmentado e rastreado, e tal processo de segmentação e rastreamento exige um tempo de processamento relativamente longo. Consequentemente, o atraso gerado é excessivo.

SUMÁRIO

[005] As modalidades deste pedido de patente provêm um método, aparelho e dispositivo de reconhecimento de gestos, para reduzir atrasos no reconhecimento de gestos.

[006] De acordo com um primeiro aspecto, um método de reconhecimento de gestos é provido, e o método inclui: obter as M imagens, as quais são extraídas de um primeiro segmento de vídeo em um fluxo de vídeo, o primeiro segmento de vídeo é qualquer segmento de vídeo no fluxo de vídeo, e M é um número inteiro maior ou igual a 2; efetuar o reconhecimento de gestos nas M imagens usando-se um algoritmo de aprendizado profundo para a obtenção de um resultado de reconhecimento de gestos que corresponde ao primeiro segmento de vídeo; e depois que os resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos no fluxo de vídeo que incluem o primeiro segmento de vídeo forem obtidos, efetuar uma combinação de resultados nos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos, para a obtenção de um resultado combinado de reconhecimento de gestos, em que N≥2 e N é um número inteiro.

[007] No método de reconhecimento de gestos mencionado acima, as M imagens em cada segmento de vídeo no fluxo de vídeo são obtidas, o reconhecimento de gestos é executado nas M imagens usando-se o algoritmo de aprendizado profundo, para a obtenção de um resultado de reconhecimento de gestos que corresponde ao segmento de vídeo e por fim, os resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos que incluem o segmento de vídeo são combinados, para a obtenção de um resultado de reconhecimento de gestos dos N segmentos de vídeo consecutivos. Mais especificamente,

no processo de reconhecimento mencionado acima, um gesto no fluxo de vídeo não precisa ser segmentado ou rastreado, pois as ações de fase são reconhecidas usando-se o algoritmo de aprendizado profundo com uma velocidade de cálculo relativamente alta, e as ações de fase são combinadas, de modo a aumentar a velocidade do reconhecimento de gestos e reduzir atrasos no reconhecimento de gestos.

[008] Em uma solução de implementação possível, efetuar a combinação de resultados nos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos, para a obtenção de um resultado combinado de reconhecimento de gestos inclui: inserir os resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos em um primeiro modelo pré-treinado de aprendizado de máquina, para a obtenção do resultado combinado de reconhecimento de gestos, com o primeiro modelo de aprendizado de máquina sendo usado para determinar uma tendência de moção gestual geral que inclui os resultados N de reconhecimento de gestos consecutivos que foram inseridos, e para enviar um gesto que corresponde à tendência de moção gestual geral como o resultado combinado de reconhecimento de gestos.

[009] Em uma aplicação real, durante a execução de uma operação gestual, um usuário pode fazer, em um curto período de tempo durante um processo de operação de gestos, um gesto que não se conforma à operação de gesto atual. No entanto, na solução de implementação possível mencionada acima, depois que um resultado de reconhecimento de gestos de cada segmento de vídeo é reconhecido, um resultado final de reconhecimento de gestos pode ser obtido com base em uma tendência de moção gestual indicada pelos resultados de reconhecimento de gestos de uma pluralidade de segmentos de vídeo consecutivos, para eliminar o impacto exercido por um gesto errôneo executado pelo usuário no curto período de tempo sobre o resultado de reconhecimento de gestos obtido por último, aprimorando desse modo a precisão no reconhecimento de gestos.

[0010] Em uma solução de implementação possível, o primeiro modelo de aprendizado de máquina é um modelo de rede neural e o modelo de rede neural possui neurônios N; ou o primeiro modelo de aprendizado de máquina é um modelo de máquina de vetor de suporte SVM.

[0011] Em uma solução de implementação possível, efetuar a combinação de resultados nos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos, para a obtenção de um resultado combinado de reconhecimento de gestos inclui: obter os coeficientes de peso predefinidos respectivamente que correspondem aos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos; e efetuar uma média ponderada nos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos com base nos coeficientes de peso que correspondem respectivamente aos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos, para a obtenção do resultado combinado de reconhecimento de gestos.

[0012] Na solução de implementação possível mencionada acima, depois que um resultado de reconhecimento de gestos de cada segmento de vídeo é reconhecido, a média ponderada pode ser executada nos resultados de reconhecimento de gestos de uma pluralidade de segmentos de vídeo consecutivos com base em um peso predefinido, para reduzir o impacto exercido por um gesto errôneo executado pelo usuário no curto período de tempo sobre o resultado de reconhecimento de gestos obtido por último, aprimorando desse modo a precisão no reconhecimento de gestos.

[0013] Em uma solução de implementação possível, efetuar o reconhecimento de gestos nas M imagens usando-se um algoritmo de aprendizado profundo para a obtenção de um resultado de reconhecimento de gestos que corresponde ao primeiro segmento de vídeo inclui: efetuar um processamento nas M imagens para obter uma imagem com informações de fluxo ópticas que corresponde ao primeiro segmento de vídeo, em que a imagem com informações de fluxo ópticas incluem informações de fluxo ópticas entre uma primeira imagem nas M imagens e uma imagem pésima antes de a primeira imagem, a primeira imagem é qualquer um das M imagens, e as informações de fluxo ópticas incluem informações instantâneas de vetor de velocidade de um pixel na imagem, e efetuar o reconhecimento de gestos na imagem com informações de fluxo ópticas usando um primeiro algoritmo de aprendizado profundo, para obter um primeiro resultado de reconhecimento, em que p é um número inteiro maior ou igual a 1; efetuar um processamento nas M imagens para obter uma imagem com as informações de cor que corresponde ao primeiro segmento de vídeo, em que a imagem com as informações de cor inclui as informações de cor das M imagens, e as informações de cor inclui um valor de cor de cada pixel na imagem, e efetuar o reconhecimento de gestos na imagem com as informações de cor usando um segundo algoritmo de aprendizado profundo, para obter um segundo resultado de reconhecimento; e combinar o primeiro resultado de reconhecimento e o segundo resultado de reconhecimento, para a obtenção do resultado de reconhecimento de gestos do primeiro segmento de vídeo.

[0014] Na solução de implementação possível mencionada acima, as informações de fluxo ópticas e as informações de cor do segmento de vídeo são extraídas com base nas M imagens, o reconhecimento de gestos é executado de forma separada com base nas informações de fluxo ópticas e nas informações de cor extraídas e em seguida, os resultados de reconhecimento de gestos que foram reconhecidos são combinados para solucionar o problema em que um gesto reconhecido usando-se um único algoritmo de aprendizado profundo é impreciso, aprimorando desse modo a precisão do resultado de reconhecimento de gestos do segmento de vídeo.

[0015] Em uma solução de implementação possível, efetuar o processamento de imagem nas M imagens para obter uma imagem com informações de fluxo ópticas que corresponde ao primeiro segmento de vídeo inclui: para a primeira imagem, obter, com base em uma regra ésima predefinida, a imagem p antes de a primeira imagem no fluxo de vídeo calcular as informações de fluxo ópticas entre a primeira imagem e a imagem p ésima, e gerar a imagem com informações de fluxo ópticas que incluem as informações de fluxo ópticas entre a primeira imagem e a imagem p ésima, em que um intervalo de tempo entre a primeira imagem e a imagem p ésima não é inferior a um tempo de cálculo progressivo do primeiro algoritmo de aprendizado profundo ou um tempo necessário para calcular a imagem com informações de fluxo ópticas; ou para a primeira imagem, obter, com base em uma regra predefinida, todas as imagens p antes de a primeira imagem no fluxo de vídeo calcular as informações de fluxo ópticas entre cada duas imagens adjacentes na primeira imagem e nas M imagens, e depois que as informações de fluxo ópticas entre cada duas imagens adjacentes forem acumuladas, gerar uma imagem com informações de fluxo ópticas que incluem as informações de fluxo ópticas acumuladas, em que um intervalo de tempo entre a primeira imagem e a imagem p ésima antes da primeira imagem não é inferior a um tempo de cálculo progressivo do primeiro algoritmo de aprendizado profundo ou um tempo necessário para calcular a imagem com informações de fluxo ópticas.

[0016] Na solução de implementação possível mencionada acima,

uma imagem com informações de fluxo ópticas entre uma imagem ésima atualmente obtida e a imagem p antes da imagem atual pode ser obtida com base na imagem atual e nas imagens p antes da imagem atual, de modo a efetuar em seguida o reconhecimento de gestos na imagem com informações de fluxo ópticas usando o algoritmo de aprendizado profundo. Um gesto na imagem não precisa ser segmentado ou rastreado, de modo que o processamento do resultado de reconhecimento de gestos é simplificado, a velocidade do reconhecimento de gestos é aumentada e o atraso no reconhecimento de gestos é reduzido.

[0017] Na solução de implementação possível mencionada acima, efetuar o processamento de imagem nas M imagens para obter uma imagem com as informações de cor que corresponde ao primeiro segmento de vídeo inclui: extrair as informações de cor das M imagens nas M imagens, gerar, com base nas informações de cor extraída, imagens com informações de cor que correspondem respectivamente à M imagens e obter as imagens com informações de cor que correspondem respectivamente à M imagens como a imagem com as informações de cor que corresponde ao primeiro segmento de vídeo, em que as M imagens são M imagens aleatórias nas M imagens, ou as M imagens são M imagens que estão nas M imagens e que cada uma possui uma variação maior em relação a uma imagem anterior no fluxo de vídeo, e m é um número inteiro maior ou igual a 1; ou detectar uma localização de pixel nas M imagens em que o conteúdo da imagem muda com o tempo, calcular o valor médio das informações de cor nas M imagens que corresponde às localizações de pixel reconhecidas para obter novas informações de cor nas localizações de pixel reconhecidas, e gerar, com base nas novas informações de cor nas localizações de pixel reconhecidas, a imagem com as informações de cor que corresponde ao primeiro segmento de vídeo.

[0018] Em uma solução de implementação possível, antes de obter as M imagens, o método também inclui: determinar uma janela de tempo com um período de tempo predefinido no fluxo de vídeo, em que um momento final da janela de tempo está dentro de um período de tempo que corresponde ao primeiro segmento de vídeo; determinar, com base em uma última imagem e pelo menos em uma imagem de referência na janela de tempo, se uma ação está sendo executada no primeiro segmento de vídeo, em que pelo menos uma imagem de referência é qualquer imagem na janela de tempo que não seja a última imagem; e se um resultado de determinação indicar que uma ação é executada no primeiro segmento de vídeo, efetuar a etapa para obter as M imagens.

[0019] Visto que uma operação gestual envolve inevitavelmente uma ação gestual, na solução de implementação possível mencionada acima, antes do reconhecimento de gestos ser executado no segmento de vídeo, verifica-se primeiramente se uma ação está sendo executada no segmento de vídeo usando-se uma imagem no segmento de vídeo e pelo menos uma imagem antes da imagem, e uma operação de reconhecimento subsequente é executada apenas quando é determinado que uma ação é executada, para reduzir etapas desnecessárias de reconhecimento, poupar recursos de computação e aumentar a eficiência do reconhecimento.

[0020] Em uma solução de implementação possível, determinar, com base em uma última imagem e pelo menos em uma imagem de referência na janela de tempo, se uma ação está sendo executada no primeiro segmento de vídeo inclui: para cada imagem de referência, calcular uma imagem de derivada parcial da última imagem, em que um valor de cada pixel na imagem de derivada parcial é uma derivada parcial de um valor de um pixel correspondente na última imagem em relação a um valor de um pixel correspondente na imagem de referência; normalizar o valor de cada pixel na imagem de derivada parcial, para obter uma imagem de derivada parcial normalizada; binarizar a imagem de derivada parcial normalizada com base em um limite de binarização predefinido, para obter uma imagem binarizada da imagem de derivada parcial, em que um valor de cada pixel na imagem binarizada é 0 ou 1; calcular uma soma de valores de escala de cinza dos pixels na imagem binarizada; e quando a soma dos valores de escala de cinza for maior que 0, determinar que uma ação está sendo executada no primeiro segmento de vídeo.

[0021] Em uma solução de implementação possível, combinar o primeiro resultado de reconhecimento e o segundo resultado de reconhecimento para a obtenção do resultado de reconhecimento de gestos do primeiro segmento de vídeo inclui: efetuar um cálculo de valor médio no primeiro resultado de reconhecimento e no segundo resultado de reconhecimento, para a obtenção do resultado de reconhecimento de gestos do primeiro segmento de vídeo com base em um resultado de cálculo do cálculo de valor médio; ou inserir o primeiro resultado de reconhecimento e o segundo resultado de reconhecimento dentro de um segundo modelo pré-treinado de aprendizado de máquina, para a obtenção do resultado de reconhecimento de gestos do primeiro segmento de vídeo.

[0022] De acordo com um segundo aspecto, um aparelho de reconhecimento de gestos é provido, e o aparelho possui a função de implementar o método de reconhecimento de gestos provido no primeiro aspecto e as soluções de implementação possíveis do primeiro aspecto. Tal função pode ser implantada usando-se hardware, ou pode ser implantada executando-se um software correspondente por meio de um hardware. O hardware ou o software inclui uma ou mais unidades correspondentes à função mencionada acima.

[0023] De acordo com um terceiro aspecto, um dispositivo de reconhecimento de gestos é provido. O dispositivo inclui um processador e uma memória, e o processador no dispositivo implementa, executando um programa ou uma instrução armazenada na memória, o método de reconhecimento de gestos provido no primeiro aspecto e as soluções de implementação possíveis do primeiro aspecto.

[0024] De acordo com um quarto aspecto, um meio de armazenamento legível por computador é provido. O meio de armazenamento legível por computador armazena um programa executável, e um processador executa o programa executável para implementar o método de reconhecimento de gestos provido no primeiro aspecto e as soluções de implementação possíveis do primeiro aspecto.

BEVE DESCRIÇÃO DOS DESENHOS

[0025] A figura 1 é um diagrama arquitetural de um sistema de reconhecimento de gestos de acordo com este pedido de patente;

[0026] A figura 2 é um diagrama esquemático de reconhecimento de gestos da modalidade mostrada na figura 1;

[0027] A figura 3 é um fluxograma de um método de reconhecimento de gestos de acordo com uma modalidade exemplar deste pedido de patente;

[0028] A figura 4 é um diagrama esquemático de intervalos de duas janelas de tempo da modalidade mostrada na figura 3;

[0029] A figura 5 é um diagrama esquemático de combinação de resultados de reconhecimento da modalidade mostrada na figura 3;

[0030] A figura 6 é um fluxograma esquemático de reconhecimento de gestos da modalidade mostrada na figura 3;

[0031] A figura 7 é um diagrama estrutural esquemático de um dispositivo de reconhecimento de gestos de acordo com um exemplo de uma modalidade deste pedido de patente; e

[0032] A figura 8 é um diagrama em bloco estrutural de um aparelho de reconhecimento de gestos de acordo com um exemplo de uma modalidade deste pedido de patente.

DESCRIÇÃO DAS MODALIDADES

[0033] Para tornar os objetivos, as soluções técnicas e vantagens deste pedido de patente mais claros, o trecho a seguir também descreverá em detalhes as implementações deste pedido de patente com referência aos desenhos em anexo.

[0034] A figura 1 é um diagrama arquitetural de um sistema de reconhecimento de gestos de acordo com uma modalidade deste pedido de patente. O sistema de reconhecimento de gestos pode incluir os seguintes dispositivos: um dispositivo de captura de imagens 110 e um dispositivo de reconhecimento de gestos 120.

[0035] O dispositivo de captura de imagens 110 pode ser uma câmera. Por exemplo, o dispositivo de captura de imagens 110 pode ser uma única câmera, ou o dispositivo de captura de imagens 110 pode ser um módulo de câmera que inclui duas ou mais câmeras.

[0036] O dispositivo de captura de imagens 110 pode ser disposto de maneira fixa, ou o dispositivo de captura de imagens 110 pode ser integrado a um servo motor. O servo motor pode acionar, sob o controle do dispositivo de reconhecimento de gestos, o dispositivo de captura de imagens 110 para girar ou mover, para mudar o ângulo de captura ou a localização de captura do dispositivo de captura de imagens 110.

[0037] O dispositivo de reconhecimento de gestos 120 pode ser um computador de propósito geral, ou o dispositivo de reconhecimento de gestos pode ser um dispositivo de computação embutido.

[0038] O dispositivo de captura de imagens 110 e o dispositivo de reconhecimento de gestos 120 podem ser dispositivos mutualmente independentes, e o dispositivo de captura de imagens 110 e o dispositivo de reconhecimento de gestos 120 são conectados um ao outro usando-se uma rede com fio ou sem fio.

[0039] De maneira alternativa, o dispositivo de captura de imagens 110 e o dispositivo de reconhecimento de gestos 120 podem ser integrados a um mesmo dispositivo físico, e o dispositivo de captura de imagens 110 e o dispositivo de reconhecimento de gestos 120 são conectados um ao outro por meio de um barramento de comunicação.

[0040] De maneira opcional, depois de reconhecer um gesto em um fluxo de vídeo, o dispositivo de reconhecimento de gestos 120 transmite o gesto reconhecido para um dispositivo de controle 130. O dispositivo de controle 130 determina uma instrução de controle correspondente com base no gesto reconhecido e executa uma operação de controle correspondente com base na instrução de controle determinada, por exemplo, controla a exibição de gráfica com base na instrução de controle, ou controla, com base na instrução de controle, um dispositivo controlado para executar uma operação.

[0041] Nesta modalidade do presente pedido de patente, o dispositivo de captura de imagens 110 transmite um fluxo de vídeo capturado para o dispositivo de reconhecimento de gestos 120 e o dispositivo de reconhecimento de gestos 120 executa uma análise de imagens e reconhecimento de gestos no fluxo de vídeo para reconhecer de imediato um gesto no fluxo de vídeo. Com referência à figura 2, a figura 2 é um diagrama esquemático de reconhecimento de gestos de acordo com uma modalidade deste pedido de patente. Conforme mostrado na figura 2, durante um reconhecimento de gestos, o dispositivo de reconhecimento de gestos 120 pode extrair M imagens (M é um número inteiro maior ou igual a 2) de um segmento de vídeo em um fluxo de vídeo. O dispositivo de reconhecimento de gestos 120 executa o reconhecimento de gestos nas M imagens usando um algoritmo de aprendizado profundo para a obtenção de um resultado de reconhecimento de gestos que corresponde ao segmento de vídeo e depois de obter os resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos no fluxo de vídeo que incluem o segmento de vídeo, realiza a combinação de resultados nos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos, para a obtenção de um resultado combinado de reconhecimento de gestos.

[0042] Na solução mostrada nesta modalidade do presente pedido de patente, uma ação gestual completa é dividida em uma pluralidade de ações de fase. As ações de fase são reconhecidas usando-se o algoritmo de aprendizado profundo e por fim, as ações de fase reconhecidas são combinadas como a ação gestual completa. Em um processo de reconhecimento, o gesto no fluxo de vídeo não precisa ser segmentado ou rastreado, pois as ações de fase são reconhecidas usando-se o algoritmo de aprendizado profundo com uma velocidade de cálculo relativamente alta, de modo a aumentar a velocidade do reconhecimento de gestos e reduzir os atrasos no reconhecimento de gestos.

[0043] Por exemplo, o algoritmo de aprendizado profundo mencionado acima é um algoritmo de canal dual de aprendizado profundo baseado em informações de fluxo ópticas e informações de cor. Com referência à figura 3, a figura 3 é um fluxograma de um método de reconhecimento de gestos de acordo com uma modalidade exemplar deste pedido de patente. Conforme mostrado na figura 3, o método de reconhecimento de gestos pode incluir as etapas a seguir.

[0044] Etapa 301: Para um primeiro segmento de vídeo em um fluxo de vídeo, determinar uma janela de tempo com um período de tempo predefinido no fluxo de vídeo, em que um momento final da janela de tempo está dentro de um período de tempo que corresponde ao primeiro segmento de vídeo.

[0045] O primeiro segmento de vídeo é qualquer segmento de vídeo no fluxo de vídeo. Nesta modalidade do presente pedido de patente, um dispositivo de reconhecimento de gestos pode dividir o fluxo de vídeo em vários segmentos de vídeo conectados de um modo "head-to-tail" e efetuar o reconhecimento de gestos para cada segmento de vídeo.

[0046] O fluxo de vídeo inclui uma série de imagens de vídeo que corresponde a intervalos de tempo diferentes. Nesta modalidade do presente pedido de patente, a janela de tempo pode ser uma janela de tempo entre intervalos de tempo que correspondem a duas imagens de vídeo diferentes, entre um intervalo de tempo que corresponde à primeira imagem na janela de tempo e um intervalo de tempo que corresponde à última imagem na janela de tempo está o período de tempo predefinido.

[0047] A última imagem na janela de tempo é uma imagem a ser reconhecida no primeiro segmento de vídeo, e outra imagem do fluxo de vídeo na janela de tempo pode ser uma imagem no primeiro segmento de vídeo, ou pode ser uma imagem antes do primeiro segmento de vídeo no fluxo de vídeo.

[0048] Por exemplo, com referência à figura 4, a figura 4 é um diagrama esquemático de intervalos de duas janelas de tempo de acordo com uma modalidade deste pedido de patente. Na figura 4, um momento inicial da janela de tempo é t1 e um momento final da janela de tempo é t2; e um momento inicial do primeiro segmento de vídeo é t3 e um momento final do primeiro segmento de vídeo é t4.

[0049] Conforme mostrado na figura 4 (a), em uma implementação possível, t1 e t2 estão entre t3 e t4. Em outras palavras, a janela de tempo está totalmente dentro do primeiro segmento de vídeo.

[0050] Conforme mostrado na figura 4 (b), em outra implementação possível, t2 está entre t3 e t4, e t1 vem antes de t3. Em outras palavras, uma parte da janela de tempo está dentro do primeiro segmento de vídeo e a outra parte da janela de tempo vem antes do primeiro segmento de vídeo.

[0051] Além disso, o período de tempo predefinido mencionado acima pode ser predefinido pelo desenvolvedor do dispositivo de reconhecimento de gestos.

[0052] Etapa 302: Determinar, com base em uma última imagem e pelo menos em uma imagem de referência na janela de tempo, se uma ação está sendo executada no primeiro segmento de vídeo, e se sim, executar a etapa 303, ou então retornar para a etapa 301 para determinar uma próxima anela de tempo com o período de tempo predefinido.

[0053] Pelo menos uma imagem de referência é qualquer imagem na janela de tempo que não seja a última imagem.

[0054] Nesta modalidade do presente pedido de patente, o dispositivo de reconhecimento de gestos determina, com base em uma diferença entre a última imagem do fluxo de vídeo na janela de tempo e pelo menos uma outra imagem do fluxo de vídeo na janela de tempo, se uma ação está sendo executada no primeiro segmento de vídeo.

[0055] Em uma aplicação real, a etapa mencionada acima para determinar, com base em uma última imagem na janela de tempo e pelo menos uma outra imagem na janela de tempo, se uma ação está sendo executada no primeiro segmento de vídeo pode incluir as seguintes subetapas.

[0056] Etapa 302a: Para cada imagem de referência, calcular uma imagem de derivada parcial da última imagem, em que um valor de cada pixel na imagem de derivada parcial é uma derivada parcial de um valor de um pixel correspondente na última imagem em relação a um valor de um pixel correspondente na imagem de referência.

[0057] Nesta modalidade do presente pedido de patente, uma imagem de um fluxo de vídeo inserido pode ser definida como f(𝑥, 𝑦, 𝑡),

em que x é um componente horizontal da imagem, y é um componente vertical da imagem e t representa um tempo: t=1, 2, …, t 0 .… Dois quadros de imagens do fluxo de vídeo inserido são f(x, y, t 0 ) e f(x, y, t 0 – q). Para dois quadros de imagens adjacentes, q=1.

[0058] Isso é definido como se segue: um quadro de imagem em um tempo t 0 é f(x, y, t 0 ) e a imagem no momento t 0 é a última imagem na janela de tempo. Neste caso, uma imagem em um momento q antes do momento t 0 é f(x, y, t 0 – q). O dispositivo de reconhecimento de gestos calcula uma derivada parcial do fluxo de vídeo, em relação ao tempo t, no momento t 0 em relação a um momento t 0 –q: 𝜕𝑓(𝑥,𝑦,𝑡) f(x,y,t0 )−f(x,y,t0 −q) 𝑔(𝑥, 𝑦, 𝑡0 ) ≜ [ ] ≜[ ] (1) 𝜕𝑡 𝑡=𝑡0 𝑞 𝑡=𝑡0

[0059] Etapa 302b: Normalizar o valor de cada pixel na imagem de derivada parcial, para obter uma imagem de derivada parcial normalizada.

[0060] O dispositivo de reconhecimento de gestos pode normalizar g(x, y, t 0 ) em uma faixa [a, b], por exemplo, selecionar uma faixa de normalização [a, b] = [0,1]. Mais especificamente, o dispositivo de reconhecimento de gestos normaliza o valor de cada pixel em g(x, y, t 0 ) em um valor na faixa [0,1].

[0061] Etapa 302c: Binarizar a imagem de derivada parcial normalizada com base em um limite de binarização predefinido para obter uma imagem binarizada da imagem de derivada parcial, em que um valor de cada pixel na imagem binarizada é 0 ou 1.

[0062] Nesta modalidade do presente pedido de patente, depois que a imagem de derivada parcial normalizada é obtida, a imagem de derivada parcial normalizada pode ser binarizada com base em uma relação de valor entre o valor de cada pixel na imagem de derivada parcial normalizada e o limite de binarização predefinido, e o valor de cada pixel na imagem de derivada parcial normalizada é binarizado em 0 ou 1. Uma fórmula para binarizar o valor de cada pixel na imagem de derivada parcial normalizada é como se segue: 1 𝑖𝑓𝑔(𝑥, 𝑦, 𝑡0 ) > 𝑍 𝑔𝑏 (𝑥, 𝑦, 𝑡0 ) = { (2) 0 𝑖𝑓𝑔(𝑥, 𝑦, 𝑡0 ) ≤ 𝑍

[0063] Na fórmula mencionada acima 2, Z é o limite de binarização predefinido. Para um valor de um pixel na imagem de derivada parcial normalizada 𝑔𝑏 (𝑥, 𝑦, 𝑡0 ), quando o valor do pixel é maior que Z, o valor do pixel é binarizado em 1, e quando o valor do pixel é menor ou igual a Z, o valor do pixel é binarizado em 0.

[0064] O limite de binarização predefinido é predefinido, e é um valor entre (0, 1). Por exemplo, o limite de binarização predefinido pode ser 0,5, ou o limite de binarização predefinido pode ser 0,4 ou 0,6. O limite de binarização pode ser predefinido por um desenvolvedor com base em um efeito de processamento real.

[0065] Etapa 302d: Calcular uma soma de valores de escala de cinza dos pixels na imagem binarizada.

[0066] Etapa 302e: Quando a soma dos valores de escala de cinza for maior que 0, determinar que uma ação está sendo executada no primeiro segmento de vídeo.

[0067] Nesta modalidade do presente pedido de patente, depois de obter a imagem binarizada g b (x, y, t 0 ), o dispositivo de reconhecimento de gestos calcula a soma Soma(t 0 ) dos valores de escala de cinza em g b (x, y, t 0 ). Quando a soma Soma(t 0 ) é maior que 0, o dispositivo de reconhecimento de gestos pode determinar que uma ação está sendo executada no primeiro segmento de vídeo. Caso contrário, o dispositivo de reconhecimento de gestos considera que "nenhuma ação" está sendo executada no primeiro segmento de vídeo. Uma fórmula da soma Soma(t 0 ) é como se segue: Soma(t 0 ) = ∑(x,y) g b (x, y, t 0 ) (3)

[0068] Se Soma(t 0 ) > 0, o dispositivo de reconhecimento de gestos determina que uma ação está sendo executada, e executa etapa 303. Se Soma(t 0 ) ≤ 0, o dispositivo de reconhecimento de gestos determina que nenhuma ação está sendo executada e retorna para a etapa 301.

[0069] Etapa 303: Obter as M imagens, em que as M imagens são M imagens extraídas do primeiro segmento de vídeo.

[0070] Ao determinar, na etapa 302, que uma ação é executada no primeiro segmento de vídeo, o dispositivo de reconhecimento de gestos pode extrair as M imagens do primeiro segmento de vídeo, e M é um número inteiro maior ou igual a 2.

[0071] Em uma aplicação real, o dispositivo de reconhecimento de gestos pode extrair cada imagem no primeiro segmento de vídeo para obter as M imagens. De maneira alternativa, o dispositivo de reconhecimento de gestos pode extrair uma imagem do primeiro segmento de vídeo a cada uma ou mais imagens para obter as M imagens.

[0072] Etapa 304: Realizar o processamento de imagem nas M imagens para obter uma imagem com informações de fluxo ópticas que corresponde ao primeiro segmento de vídeo.

[0073] A imagem com informações de fluxo ópticas inclui informações de fluxo ópticas entre uma primeira imagem nas M imagens ésima e uma imagem p antes da primeira imagem. A primeira imagem é qualquer uma das M imagens, as informações de fluxo ópticas incluem as informações instantâneas de vetor de velocidade de um pixel na imagem, e p é um número inteiro maior ou igual a 1.

[0074] Um fluxo óptico é a velocidade instantânea de moção de pixel de um objeto que se move espacialmente em um plano de imagens de observação. O dispositivo de reconhecimento de gestos pode encontrar uma correspondência entre uma imagem anterior e uma imagem atual usando uma mudança de um pixel em uma sequência de imagens no domínio de tempo e uma correlação entre quadros adjacentes, para obter as informações de moção de um objeto entre as duas imagens por meio de cálculo. As informações de moção, obtidas por meio de cálculo, do objeto entre as duas imagens são as informações de fluxo ópticas entre as duas imagens. O método mencionado acima para calcular as informações de moção do objeto entre as duas imagens é referido como um método de fluxo óptico. As informações de fluxo ópticas também são referidas como um campo de fluxo óptico (campo de fluxo óptico) e indicam uma moção aparente em um modo de escala de cinza em imagem. O campo de fluxo óptico é um campo de vetor bidimensional e as informações incluídas no campo de vetor bidimensional são informações do vetor de velocidade de moção instantânea de cada pixel. Portanto, as informações de fluxo ópticas podem ser representadas como uma imagem de canal dual com tamanho ao de uma imagem original.

[0075] Ao extrair a imagem com informações de fluxo ópticas, o dispositivo de reconhecimento de gestos pode obter uma imagem com informações de fluxo ópticas (a despeito da quantidade de quadros incluídos no primeiro segmento de vídeo) usando uma sequência de imagens RGB no primeiro segmento de vídeo. Nesta modalidade do presente pedido de patente, a imagem com informações de fluxo ópticas que corresponde ao primeiro segmento de vídeo pode ser obtida das duas maneiras a seguir.

[0076] Maneira 1: Para a primeira imagem nas M imagens, obter, ésima com base em uma regra predefinida, a imagem p antes de a primeira imagem no fluxo de vídeo calcular as informações de fluxo ésima ópticas entre a primeira imagem e a imagem p , e gerar a imagem com informações de fluxo ópticas que incluem as informações de fluxo ópticas entre a primeira imagem e a imagem p ésima.

[0077] Um intervalo de tempo entre a primeira imagem e a imagem p ésima não é inferior a um tempo de cálculo progressivo de um primeiro algoritmo de aprendizado profundo ou um tempo necessário para calcular a imagem com informações de fluxo ópticas. O primeiro algoritmo de aprendizado profundo é um algoritmo usado pelo dispositivo de reconhecimento de gestos para reconhecer em seguida um gesto com base na imagem com informações de fluxo ópticas.

[0078] A regra predefinida pode ser uma regra que é estipulada de forma independente por um desenvolvedor ou um usuário. Por exemplo, o desenvolvedor ou o usuário pode definir manualmente um valor de p. De maneira alternativa, o dispositivo de reconhecimento de gestos pode definir de forma independente um valor de p com base na regra predefinida e no desempenho de processamento do dispositivo. Por exemplo, o dispositivo de reconhecimento de gestos pode pré-executar o cálculo progressivo do primeiro algoritmo de aprendizado profundo e o cálculo da imagem com informações de fluxo ópticas uma vez, gravar o tempo de cálculo progressivo e o tempo usado para calcular a imagem com informações de fluxo ópticas e definir o valor de p com base no tempo de cálculo progressivo, o tempo usado para calcular a imagem com informações de fluxo ópticas e uma taxa de quadro (mais especificamente, a quantidade de imagens incluídas em um vídeo por segundo) de um fluxo de vídeo. De maneira específica, por exemplo, o dispositivo de reconhecimento de gestos pode determinar que um valor maior entre o tempo de cálculo progressivo e o tempo usado para calcular a imagem com informações de fluxo ópticas corresponde a uma quantidade de imagens no fluxo de vídeo, e definir um valor que corresponde à quantidade de imagens determinada no valor de p.

[0079] Para um vídeo em tempo real, se T for um intervalo de tempo ésima entre uma imagem e a imagem p antes da imagem, um valor mínimo de T pode ser um valor maior entre um tempo necessário para o cálculo progressivo de rede de aprendizado profundo usado pelo dispositivo de reconhecimento de gestos para executar o reconhecimento de gestos usando a imagem com informações de fluxo ópticas e um tempo necessário pelo dispositivo de reconhecimento de gestos para calcular a imagem com informações de fluxo ópticas.

[0080] Assume-se que OF[•] representa um algoritmo de fluxo óptico. Em uma implementação possível, o dispositivo de reconhecimento de gestos pode obter diretamente, por meio de cálculo, as informações de fluxo ópticas que correspondem a uma imagem nas M imagens usando um algoritmo de campo de fluxo óptico de Euler (campo de moção de Euler) com base em uma imagem It (x, y) nas M M imagense uma pésima imagem It−T (x, y) antes de It (x, y), gerar uma imagem com informações de fluxo ópticas que incluem as informações de fluxo ópticas obtido por meio de cálculo e usar a imagem com informações de fluxo ópticas como a imagem com informações de fluxo ópticas que corresponde ao primeiro segmento de vídeo. Uma fórmula para calcular a imagem com informações de fluxo ópticas pode ser representada simplesmente como se segue: 𝑈𝑡 (𝑥, 𝑦) = 𝑂𝐹 [𝐼𝑡−𝑇 (𝑥, 𝑦), 𝐼𝑡 (𝑥, 𝑦)] (4)

[0081] Na fórmula mencionada acima (4), 𝑈𝑡 (𝑥,y) é uma imagem com informações de fluxo ópticas que correspondem à imagem It (x, y), e OF[•] representa o algoritmo de campo de fluxo óptico de Euler.

[0082] Maneira 2: Para a primeira imagem nas M imagens, obter, com base em uma regra predefinida, todas as imagens p antes de a primeira imagem no fluxo de vídeo calcular as informações de fluxo ópticas entre cada duas imagens adjacentes na primeira imagem e as imagens p, e depois que as informações de fluxo ópticas entre cada duas imagens adjacentes forem acumuladas, gerar uma imagem com informações de fluxo ópticas que incluem as informações de fluxo ópticas acumuladas.

[0083] Em outra implementação possível, o dispositivo de reconhecimento de gestos pode calcular as informações de fluxo ópticas entre cada duas imagens adjacentes em uma imagem It (x, y) nas M imagens e imagens p It−1 (x, y), It−2 (x, y), … e It−T (x, y) antes de

It (x, y) usar um algoritmo de campo de fluxo óptico de Lagrange (campo de moção de Lagrange) e em seguida, acumula as informações de fluxo ópticas entre cada duas imagens adjacentes para gerar uma imagem Ut (x, y) que inclui as informações de fluxo ópticas acumuladas. A interpolação de dados faltantes é envolvida em um processo para acumular as informações de fluxo ópticas. Formas de interpolação, tais como linear (linear), bilinear (bilinear) e uma curva cúbica (cúbica) podem ser selecionadas. Uma fórmula para calcular a imagem com informações de fluxo ópticas pode ser representada simplesmente como se segue: 𝑈𝑡 (𝑥, 𝑦) = ∑𝑘=𝑇 𝑘=1 𝑂𝐹[𝐼𝑡−𝑘 (𝑥, 𝑦), 𝐼𝑡−𝑘+1 (𝑥, 𝑦)] (5)

[0084] Na fórmula mencionada acima (5), 𝑈𝑡 (𝑥,y) é uma imagem com informações de fluxo ópticas que corresponde à imagem It (x, y) e OF[•] representa o algoritmo de campo de fluxo óptico de Lagrange.

[0085] Na maneira 1, o campo de fluxo óptico precisa ser calculado apenas uma vez. Portanto, um campo de algoritmo de fluxo óptico relativamente preciso precisa ser selecionado. Na maneira 2, o campo de fluxo óptico precisa ser calculado diversas vezes. Portanto, um campo de algoritmo de fluxo óptico com pouca precisão, mas com alta velocidade pode ser usado.

[0086] Etapa 305: Realizar o processamento de imagem nas M imagens para obter uma imagem com as informações de cor que corresponde ao primeiro segmento de vídeo.

[0087] A imagem com as informações de cor inclui as informações de cor das M imagens. As informações de cor incluem um valor de cor de cada pixel na imagem.

[0088] O dispositivo de reconhecimento de gestos processa uma sequência de imagens no primeiro segmento de vídeo, e envia m imagens com informações de cor, tais como uma imagem RGB (vermelha, verde azul), para representar a imagem com as informações de cor que corresponde ao primeiro segmento de vídeo, em que m é um número inteiro maior ou igual a 1. Assume-se que todas as imagens It−T (x, y), It−T+1 (x, y), …, It−1 (x, y) e It (x, y) no primeiro segmento de vídeo são inseridas e que as informações de cor das imagens no primeiro segmento de vídeo que são representadas pelas M imagens ItT (x, y) em um momento final do segmento de vídeo são geradas.

[0089] Durante a execução de processamento de imagem nas M imagens para obter a imagem com as informações de cor que corresponde ao primeiro segmento de vídeo, o dispositivo de reconhecimento de gestos pode obter a imagem com as informações de cor usando os seguintes métodos.

[0090] (1) Extrair as informações de cor de M imagens nas M imagens, gerar, com base nas informações de cor extraída, imagens com informações de cor que correspondem respectivamente à M imagens e obter as imagens com informações de cor que correspondem respectivamente à M imagens como a imagem com as informações de cor que corresponde ao primeiro segmento de vídeo. Por exemplo, depois de extrair as informações de cor de qualquer imagem nas M imagens, o dispositivo de reconhecimento de gestos gera uma imagem com as informações de cor que corresponde a qualquer imagem, e a imagem gerada com as informações de cor inclui as informações de cor dessa imagem qualquer.

[0091] As M imagens são M imagens aleatórias nas M imagens. Por exemplo, uma única imagem com as informações de cor é obtida. Nesta modalidade do presente pedido de patente, quando o período de tempo do primeiro segmento de vídeo é relativamente pequeno, uma imagem com as informações de cor que corresponde a uma imagem que é selecionada de forma aleatória diretamente a partir do primeiro segmento de vídeo pode ser usada para representar ItT (x, y). Mais especificamente,

𝐼𝑡𝑇 (𝑥, 𝑦) = 𝐼𝑘 (𝑥, 𝑦), 𝑡−𝑇 ≤𝑘 ≤𝑡 (6), onde t–T é um intervalo de tempo que corresponde a uma primeira imagem no primeiro segmento de vídeo, e t é um intervalo de tempo que corresponde a uma última imagem no primeiro segmento de vídeo.

[0092] De maneira opcional, além de selecionar de forma aleatória as imagens com informações de cor das M imagens como a imagem com as informações de cor que corresponde ao primeiro segmento de vídeo, o dispositivo de reconhecimento de gestos pode selecionar de maneira alternativa, usando outra política, as imagens com informações de cor das M imagens como a imagem com as informações de cor que corresponde ao primeiro segmento de vídeo. Por exemplo, o dispositivo de reconhecimento de gestos pode usar as imagens com informações de cor de M imagens no primeiro ou último tempo correspondente nas M imagens como a imagem com as informações de cor que corresponde ao primeiro segmento de vídeo.

[0093] Em outra implementação possível, as M imagens podem ser M imagens que estão nas M imagens e com cada uma tendo uma variação maior em relação a uma imagem anterior no fluxo de vídeo.

[0094] Por exemplo, para cada uma das M imagens, o dispositivo de reconhecimento de gestos pode detectar um pixel contido na imagem e que muda em relação a uma imagem antes da imagem no fluxo de vídeo, e o dispositivo de reconhecimento de gestos pode obter as imagens com informações de cor que correspondem à M imagens que estão nas M imagens, com cada uma tendo uma maior quantidade de pixels modificados em relação a uma imagem anterior como a imagem com as informações de cor que corresponde ao primeiro segmento de vídeo.

[0095] (2) Detectar uma localização de pixel nas M imagens em que o conteúdo da imagem muda com o tempo, calcular o valor médio das informações de cor nas M imagens que corresponde às localizações de pixel reconhecidas, para obter novas informações de cor nas localizações de pixel reconhecidas, e gerar, com base nas novas informações de cor nas localizações de pixel reconhecidas, a imagem com as informações de cor que corresponde ao primeiro segmento de vídeo.

[0096] Nesta modalidade do presente pedido de patente, o dispositivo de reconhecimento de gestos também pode comparar os pixels em uma mesma localização nas M imagens para reconhecer a localização de pixel (a localização de pixel pode ser as coordenadas de um pixel em uma imagem) nas M imagens em que o conteúdo da imagem muda com o tempo, calcular o valor médio das informações de cor dos pixels que estão nas M imagens e que correspondem às localizações de pixel reconhecidas para obter as novas informações de cor que correspondem às localizações de pixel reconhecidas, e gerar as novas informações de cor imagem. As informações de cor que correspondem às localizações de pixel reconhecidas que estão na nova imagem com as informações de cor são as novas informações de cor obtidas calculando-se a média.

[0097] O algoritmo mencionado acima para detectar um pixel que está em uma imagem e que muda em relação a uma imagem anterior e o algoritmo mencionado acima para detectar uma localização de pixel que está na imagem e que muda com tempo pode ser coletivamente referido como um algoritmo de detecção de imagem saliente espacial- temporal.

[0098] (3) Extrair as informações de cor de algumas ou todas as imagens nas M imagens para obter as imagens com informações de cor que correspondem respectivamente a algumas ou todas as imagens, e calcular o valor médio das informações de cor de pixels nas imagens com informações de cor que correspondem respectivamente a algumas ou todas as imagens, para obter a imagem com as informações de cor que corresponde ao primeiro segmento de vídeo.

[0099] Por exemplo, as M imagens são todas as imagens no segmento de vídeo, e uma única imagem com as informações de cor é obtida. Uma fórmula para calcular o valor médio das informações de cor de todas as imagens no primeiro segmento de vídeo como a imagem com as informações de cor do primeiro segmento de vídeo pode ser como se segue: 1 ItT (x, y) = ∑k=T ′ k=1 I k (x, y) , 𝑡 − 𝑇 ≤ 𝑘 ≤ 𝑡 (7), onde n t–T é um intervalo de tempo que corresponde à primeira imagem no primeiro segmento de vídeo, t é um intervalo de tempo que corresponde à última imagem no primeiro segmento de vídeo, e n é uma quantidade de imagens no primeiro segmento de vídeo.

[0153] (4) Extrair as informações de cor de algumas ou todas as imagens nas M imagens para gerar imagens com informações de cor que correspondem respectivamente a algumas ou todas as imagens, calcular o valor médio das informações de cor de pixels nas imagens com informações de cor que correspondem respectivamente a algumas ou todas as imagens e em seguida, utilizar, como a imagem com as informações de cor que corresponde ao primeiro segmento de vídeo, uma imagem com as informações de cor obtidas depois da subtração das informações de cor dos pixels calculadas e mencionadas acima a partir das informações de cor dos pixels nas imagens com informações de cor que correspondem respectivamente a algumas ou todas as imagens.

[0154] Visto que o pixel nas M imagens que muda é geralmente uma parte de primeiro plano (mais especificamente, uma parte que corresponde a uma mão humana), e um pixel que corresponde a uma parte de plano de fundo geralmente permanece inalterado, nas imagens com informações de cor que correspondem respectivamente a algumas ou todas as imagens, as informações de cor do pixel que correspondem à parte de plano de fundo são geralmente iguais ou similares a um valor médio das informações de cor na parte de plano de fundo, e as informações de cor do pixel que correspondem à parte de primeiro plano são geralmente muito diferentes de um valor médio das informações de cor na parte de primeiro plano. Portanto, nesta modalidade do presente pedido de patente, as imagens com informações de cor que correspondem respectivamente a algumas ou todas as imagens que não são a parte de plano de fundo podem ser obtidas subtraindo-se um valor médio de localizações de pixel correspondentes a partir das informações de cor dos pixels nas imagens com informações de cor que correspondem respectivamente a algumas ou todas as imagens. O dispositivo de reconhecimento de gestos pode usar, como a imagem com as informações de cor que corresponde ao primeiro segmento de vídeo, as imagens com informações de cor que correspondem respectivamente a algumas ou todas as imagens que não seja a parte de plano de fundo.

[0155] Etapa 306: Efetuar o reconhecimento de gestos na imagem com informações de fluxo ópticas usando um primeiro algoritmo de aprendizado profundo para obter um primeiro resultado de reconhecimento, e efetuar o reconhecimento de gestos na imagem com as informações de cor usando um segundo algoritmo de aprendizado profundo para obter um segundo resultado de reconhecimento.

[0156] Nesta modalidade do presente pedido de patente, a imagem com as informações de cor (tal como uma imagem RGB) e a imagem com informações de fluxo ópticas podem ser obtidas durante as etapas mencionadas acima com base no fluxo de vídeo inserido. Dois modelos de aprendizado profundo são respectivamente usados para o reconhecimento de gestos na etapa 306, e o resultado dos reconhecimentos obtidos usando-se os dois modelos de aprendizado profundo são combinados em uma próxima etapa.

[0157] Nesta modalidade do presente pedido de patente, um modelo de aprendizado profundo de canal dual é usado para o reconhecimento de gestos. Um canal é um fluxo temporal (que corresponde ao primeiro algoritmo de aprendizado profundo). A imagem com informações de fluxo ópticas é inserida no fluxo temporal e por fim, um resultado de reconhecimento de gestos de uma imagem atual de informações de fluxo ópticas é gerado. Por exemplo, na etapa 304, depois de obter uma imagem com informações de fluxo ópticas de cada uma das M imagens, o dispositivo de reconhecimento de gestos salva em cache a imagem com informações de fluxo ópticas. Durante a execução do reconhecimento de gestos na imagem com informações de fluxo ópticas, o dispositivo de reconhecimento de gestos insere as imagens X com informações de fluxo ópticas recentemente armazenadas dentro do canal de aprendizado profundo, mais especificamente, no fluxo temporal, para gerar resultados de reconhecimento de gestos que correspondem às imagens X com informações de fluxo ópticas e utiliza os resultados de reconhecimento de gestos gerados como um resultado para efetuar o reconhecimento de gestos na imagem com informações de fluxo ópticas do primeiro segmento de vídeo.

[0158] No modelo de aprendizado profundo de canal dual, o outro canal é um fluxo espacial (que corresponde ao segundo algoritmo de aprendizado profundo). Uma imagem com as informações de cor que são obtidas na etapa 305 e que representam pelo menos uma imagem com as informações de cor no primeiro segmento de vídeo é inserida no fluxo espacial e um resultado de reconhecimento de gestos de pelo menos uma imagem com as informações de cor é gerado.

[0159] O modelo de aprendizado profundo de canal dual é um modelo pré-treinado de aprendizado de máquina.

[0160] Etapa 307: Combinar o primeiro resultado de reconhecimento e o segundo resultado de reconhecimento para a obtenção de um resultado de reconhecimento de gestos do primeiro segmento de vídeo.

[0161] Nesta modalidade do presente pedido de patente, visto que o resultado de reconhecimento de gestos da imagem com informações de fluxo ópticas e o resultado de reconhecimento de gestos da imagem com as informações de cor obtidos na etapa 306 são resultados de reconhecimento de gestos para um mesmo segmento de vídeo, depois de obter o resultado de reconhecimento de gestos da imagem com informações de fluxo ópticas e o resultado de reconhecimento de gestos da imagem com as informações de cor, o dispositivo de reconhecimento de gestos pode combinar os dois resultados para a obtenção do resultado de reconhecimento de gestos do primeiro segmento de vídeo.

[0162] O primeiro resultado de reconhecimento e o segundo resultado de reconhecimento podem ser combinados nas duas maneiras a seguir:

[0163] Uma maneira é executar o cálculo do valor médio no primeiro resultado de reconhecimento e no segundo resultado de reconhecimento, para a obtenção do resultado de reconhecimento de gestos do primeiro segmento de vídeo com base no resultado de cálculo do valor médio.

[0164] A outra maneira é inserir o primeiro resultado de reconhecimento e o segundo resultado de reconhecimento em um segundo modelo pré-treinado de aprendizado de máquina, tal como um modelo linear de máquina de vetor de suporte (Máquina de Vetor de Suporte, SVM), para a obtenção do resultado de reconhecimento de gestos do primeiro segmento de vídeo. O segundo modelo de aprendizado de máquina é um modelo de aprendizado usado para determinar um único resultado de reconhecimento com base nos dois resultados de reconhecimento inseridos, e o segundo modelo de aprendizado de máquina pode ser obtido por meio de treinamento usando-se um segmento de vídeo no qual um gesto é pré-classificado. De maneira específica, os dois resultados de reconhecimento podem ser, por exemplo, dois valores. O dispositivo de reconhecimento de gestos pode inserir os dois valores dentro do segundo modelo de aprendizado de máquina, e o segundo modelo de aprendizado de máquina obtém um valor combinado por meio de cálculo com base em uma fórmula de cálculo pré-treinada e os dois input valores e envia o valor combinado como o resultado de reconhecimento de gestos do primeiro segmento de vídeo.

[0165] O dispositivo de reconhecimento de gestos obtém, em tempo real, um resultado de reconhecimento de fase de gestos que corresponde a cada segmento de vídeo e salva o resultado de reconhecimento de fase de gestos em uma biblioteca temporária de resultados de reconhecimento de gestos.

[0166] Etapa 308: Depois que os resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos no fluxo de vídeo que incluem o primeiro segmento de vídeo são obtidos, efetuar uma combinação de resultados nos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos para a obtenção de um resultado combinado de reconhecimento de gestos.

[0167] N≥2 e N é um número inteiro.

[0168] Nesta modalidade do presente pedido de patente, durante a execução de uma combinação de resultados nos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos, o dispositivo de reconhecimento de gestos pode inserir os resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos dentro de um primeiro modelo pré-treinado de aprendizado de máquina, para a obtenção do resultado combinado de reconhecimento de gestos. O primeiro modelo de aprendizado de máquina é usado para determinar uma tendência de moção gestual geral que inclui os resultados N de reconhecimento de gestos consecutivos que foram inseridos e para enviar um gesto que corresponde à tendência de moção gestual geral como o resultado combinado de reconhecimento de gestos. De maneira específica, os resultados N de reconhecimento de gestos consecutivos podem ser, por exemplo, valores N. O dispositivo de reconhecimento de gestos pode inserir os valores N dentro do primeiro modelo de aprendizado de máquina com base em uma sequência de tempo dos N segmentos de vídeo, e o primeiro modelo de aprendizado de máquina obtém um valor combinado por meio de cálculo com base em uma fórmula de cálculo pré-treinada e nos valores N que são inseridos em sequência, e envia o valor combinado como o resultado combinado de reconhecimento de gestos.

[0169] O primeiro modelo de aprendizado de máquina é um modelo de rede neural e o modelo de rede neural possui neurônios N; ou o primeiro modelo de aprendizado de máquina é um modelo de máquina de vetor de suporte SVM.

[0170] De maneira alternativa, nesta modalidade do presente pedido de patente, durante a execução de uma combinação de resultados nos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos, o dispositivo de reconhecimento de gestos pode obter os coeficientes de peso predefinidos respectivamente que correspondem aos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos, e executar uma média ponderada nos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos com base nos coeficientes de peso que correspondem respectivamente aos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos, para a obtenção do resultado combinado de reconhecimento de gestos.

[0171] Em uma aplicação real, em um processo no qual um usuário efetua uma única operação gestual, uma tendência de moção gestual geral se conforma a uma ação gestual que o usuário espera executar, porém, um gesto do usuário pode não se conforma, em um curto período de tempo, à ação gestual que o usuário espera executar. Por exemplo, supondo que a operação gestual que o usuário espera executar seja levantar a mão. O usuário executa a operação gestual de levantar a mão em 1s, mas não levanta a mão em um período de tempo muito curto (tais como 0,2s) durante esse 1s, e sim abaixa um pouco a mão e continua levantando a mão depois desse período de tempo muito curto. Neste caso, o resultado de reconhecimento de gestos que durante este período de tempo muito curto e que é reconhecido pelo dispositivo de reconhecimento de gestos não se conforma à operação gestual que o usuário espera executar no momento. Portanto, nesta modalidade do presente pedido de patente, para aumentar a precisão no reconhecimento de gestos, o dispositivo de reconhecimento de gestos pode combinar os resultados de reconhecimento de gestos (mais especificamente, uma sequência de resultados de reconhecimento de gestos) de uma pluralidade de segmentos de vídeo consecutivos e utilizar, como um resultado combinado de reconhecimento de gestos, uma tendência de moção gestual geral refletida pelos resultados de reconhecimento de gestos da pluralidade de segmentos de vídeo.

[0172] De maneira específica, isso é definido como se segue: Em um fluxo de vídeo consecutivo e em tempo real, o dispositivo de reconhecimento de gestos calcula um resultado de reconhecimento de ação de fase N vezes em um N×T1 tempo (T1 é um período de tempo de um segmento de vídeo), e provê um resultado final de reconhecimento usando uma decisão combinada dos resultados N de reconhecimento de fase (depois do tempo N×T1). O valor de N×T1 pode ser, neste caso, de aproximadamente 1 segundo com base em um período de tempo médio usado pelo usuário para executar uma ação gestual. Os resultados N de reconhecimento de fase são combinados usando-se uma pluralidade de implementações, por exemplo, as duas maneiras a seguir:

[0173] (1) Combinação linear: 𝑅𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜 = 𝛼1 𝑟1 + 𝛼2 𝑟2 + ⋯ ⋯ + 𝛼𝑁 𝑟𝑁 (8), onde r1 , r2 , … e rN são, neste caso, os resultados de reconhecimento de fase e os coeficientes de peso antes dos resultados são α1 , α2 , … e αN . Esses coeficientes de peso podem ser coeficientes predeterminados usando-se um algoritmo de aprendizado de máquina, e diferentes maneiras de combinação são geradas com base em diferentes combinações de coeficiente.

[0174] (2) Método de máquina de vetor de suporte SVM:

[0175] Com referência à figura 5, a figura 5 é um diagrama esquemático de combinação de resultados de reconhecimento de acordo com uma modalidade deste pedido de patente. Conforme mostrado na figura 5, nesta modalidade do presente pedido de patente, os resultados de reconhecimento de fase r1 , r2 , … e rN podem ser inseridos dentro de um modelo pré-treinado de aprendizado de máquina, mais especificamente, um módulo SVM (uma função kernel de SVM no módulo SVM é uma função kernel predefinida ou pré- treinada) mostrado na figura 5, para gerar um resultado combinado.

[0176] Depois de obter o resultado combinado de reconhecimento de gestos, o dispositivo de reconhecimento de gestos pode evocar um módulo correspondente (tal como uma apresentação de slides ou uma reprodução de imagens em tela cheia) com base no resultado de reconhecimento de gestos, para implementar a interação homem- máquina.

[0177] Nesta modalidade do presente pedido de patente, se o dispositivo de reconhecimento de gestos determinar que nenhuma ação está sendo executada em um segmento de vídeo, o dispositivo de reconhecimento de gestos pode não efetuar o reconhecimento de gestos no segmento de vídeo, para reduzir a frequência de reconhecimento de gestos e evitar um processo de reconhecimento desnecessário. De maneira específica, o dispositivo de reconhecimento de gestos pode definir diretamente o resultado de reconhecimento de gestos do segmento de vídeo como nulo, ou pode não definir um resultado de reconhecimento de gestos do segmento de vídeo.

[0178] Com referência à figura 6, a figura 6 é um fluxograma esquemático de reconhecimento de gestos de acordo com uma modalidade deste pedido de patente. Por exemplo, este procedimento é usado para o sistema de reconhecimento de gestos mostrado na figura 1. Conforme mostrado na figura 6, um dispositivo de captura de imagens insere um fluxo de vídeo capturado dentro de um dispositivo de reconhecimento de gestos. Depois de extrair uma imagem no fluxo de vídeo, o dispositivo de reconhecimento de gestos determina, usando o método mostrado na etapa 302 e com base na imagem e em pelo menos uma imagem antes da imagem em um período de tempo, se uma ação está sendo executada na imagem em relação a pelo menos uma imagem antes da imagem. Se for determinado que uma ação está sendo executada, para imagens em um segmento de vídeo no qual a imagem atual no fluxo de vídeo está localizada (ou em algumas das imagens), o dispositivo de reconhecimento de gestos respectivamente extrai uma imagem com informações de fluxo ópticas e uma imagem com as informações de cor do segmento de vídeo usando os métodos na etapa 304 e na etapa 305, executando respectivamente o reconhecimento de gestos na imagem com informações de fluxo ópticas e na imagem com as informações de cor por meio do método mostrado na etapa 306 e em seguida, combina, usando o método mostrado na etapa 307, os resultados de reconhecimento de gestos obtido efetuando respectivamente o reconhecimento de gestos na imagem com informações de fluxo ópticas e na imagem com as informações de cor, para obter um resultado de reconhecimento de fase de gestos que corresponde ao segmento de vídeo. Depois de obter consecutivamente os resultados N de reconhecimento de fase de gestos, o dispositivo de reconhecimento de gestos combina os resultados N de reconhecimento de gestos usando o método mostrado na etapa 308, para a obtenção de um resultado combinado de reconhecimento de gestos.

[0179] De maneira opcional, o modelo de aprendizado de máquinas mencionado acima (que inclui o primeiro modelo de aprendizado de máquina, o segundo modelo de aprendizado de máquina, o modelo de aprendizado profundo de canal dual na etapa 306 e similares) pode ser obtido por meio de treinamento de máquina usando uma amostra de vídeo na qual um gesto correspondente é pré-classificado.

[0180] O processo de treinamento de máquina mencionado acima pode ser implantado por um dispositivo de treinamento de modelo. De maneira específica, por exemplo, o primeiro modelo de aprendizado de máquina, o segundo modelo de aprendizado de máquina e o modelo de aprendizado profundo de canal dual são obtidos por meio de treinamento de máquina. Em uma implementação possível, um desenvolvedor insere várias amostras de fluxo de vídeo dentro do dispositivo de treinamento de modelo, com cada amostra de fluxo de vídeo incluindo um gesto, e pré-classifica o gesto em cada amostra de fluxo de vídeo. Além disso, o desenvolvedor divide cada fluxo de vídeo em uma pluralidade de segmentos de vídeo e classifica um gesto de fase que corresponde a cada segmento de vídeo. Durante o treinamento de máquina, o dispositivo de treinamento de modelo extrai uma imagem com informações de fluxo ópticas e uma imagem com as informações de cor de cada segmento de vídeo usando as soluções mostradas na etapa 304 e na etapa 305, insere a imagem com informações de fluxo ópticas e a imagem com as informações de cor do segmento de vídeo dentro do modelo de aprendizado profundo de canal dual e insere, dentro do segundo modelo de aprendizado de máquina, dois resultados de reconhecimento gerados pelo modelo de aprendizado profundo de canal dual e um gesto de fase classificado no segmento de vídeo, para efetuar um treinamento no modelo de aprendizado profundo de canal dual e no segundo modelo de aprendizado de máquina. Além disso, para cada amostra de fluxo de vídeo, o dispositivo de treinamento de modelo insere um gesto de fase de cada segmento de vídeo na amostra de fluxo de vídeo e um gesto pré-classificado na amostra de fluxo de vídeo dentro do primeiro modelo de aprendizado de máquina para treinamento de máquina, para obter o primeiro modelo de aprendizado de máquina.

[0181] Para outro exemplo, o primeiro modelo de aprendizado de máquina, o segundo modelo de aprendizado de máquina e o modelo de aprendizado profundo de canal dual são obtidos por meio de treinamento de máquina. Em outra implementação possível, um desenvolvedor insere várias amostras de fluxo de vídeo dentro de um dispositivo de treinamento de modelo, com cada amostra de fluxo de vídeo incluindo um gesto, e o desenvolvedor pré-classifica o gesto em cada amostra de fluxo de vídeo. O dispositivo de treinamento de modelo divide um fluxo de vídeo em uma pluralidade de segmentos de vídeo, extrai uma imagem com informações de fluxo ópticas e uma imagem com as informações de cor de cada segmento de vídeo, insere a imagem com informações de fluxo ópticas e a imagem com as informações de cor do segmento de vídeo dentro do modelo de aprendizado profundo de canal dual, insere, dentro do segundo modelo de aprendizado de máquina, dois resultados de reconhecimento gerados pelo modelo de aprendizado profundo de canal dual e em seguida, insere, dentro do primeiro modelo de aprendizado de máquina, os resultados de reconhecimento de fase de gestos que são da pluralidade de segmentos de vídeo e que são gerado pelo segundo modelo de aprendizado de máquina. Além disso, o dispositivo de treinamento de modelo insere um gesto classificado que corresponde ao fluxo de vídeo dentro do primeiro modelo de aprendizado de máquina, para efetuar simultaneamente um treinamento de máquina no primeiro modelo de aprendizado de máquina, no segundo modelo de aprendizado de máquina e no modelo de aprendizado profundo de canal dual.

[0182] É válido observar que o método mostrado nesta modalidade da presente invenção é descrito usando-se o modelo de aprendizado profundo de canal dual como um exemplo. Em uma aplicação real, durante o reconhecimento de cada segmento de vídeo, o dispositivo de reconhecimento de gestos pode reconhecer um gesto em um único segmento de vídeo usando outro algoritmo de aprendizado profundo. Por exemplo, o dispositivo de reconhecimento de gestos pode reconhecer, usando apenas a imagem com informações de fluxo ópticas, um resultado de reconhecimento de gestos que corresponde ao segmento de vídeo, ou o dispositivo de reconhecimento de gestos pode reconhecer, usando apenas a imagem com as informações de cor, um resultado de reconhecimento de gestos que corresponde ao segmento de vídeo. O algoritmo de aprendizado profundo mencionado acima usado para reconhecer o resultado de reconhecimento de gestos do segmento de vídeo não é limitado nesta modalidade da presente invenção.

[0183] Em suma, de acordo com o método mostrado nesta modalidade do presente pedido de patente, o dispositivo de reconhecimento de gestos respectivamente extrai uma imagem com informações de fluxo ópticas e uma imagem com as informações de cor de cada segmento de vídeo em um fluxo de vídeo, e respectivamente executa o reconhecimento de gestos na imagem com informações de fluxo ópticas e na imagem com as informações de cor usando-se um algoritmo de aprendizado profundo. Depois do reconhecimento de gestos, o dispositivo de reconhecimento de gestos combina os resultados de reconhecimento de gestos que correspondem às duas imagens para determinar um resultado de reconhecimento de gestos que corresponde ao segmento de vídeo e por fim, combina os resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos que incluem o segmento de vídeo, para a obtenção de um resultado de reconhecimento de gestos dos N segmentos de vídeo consecutivos. Mais especificamente, no método mencionado acima, o dispositivo de reconhecimento de gestos divide uma ação gestual completa em uma pluralidade de ações de fase, reconhece as ações de fase usando o algoritmo de aprendizado profundo e por fim, combina as ações de fase reconhecidas como a ação gestual completa. Em um processo de reconhecimento, um gesto no fluxo de vídeo não precisa ser segmentado ou rastreado, pois as ações de fase são reconhecidas usando-se o algoritmo de aprendizado profundo com uma velocidade de cálculo relativamente alta, de modo a aumentar a velocidade do reconhecimento de gestos e reduzir os atrasos no reconhecimento de gestos.

[0184] A figura 7 é um diagrama estrutural esquemático de um dispositivo de reconhecimento de gestos 70 de acordo com um exemplo de uma modalidade deste pedido de patente. O dispositivo de reconhecimento de gestos 70 pode ser implantado como o dispositivo de reconhecimento de gestos 120 no sistema mostrado na figura 1. Conforme mostrado na figura 7, o dispositivo de reconhecimento de gestos 70 pode incluir um processador 71 e uma memória 73.

[0185] O processador 71 pode incluir uma ou mais unidades de processamento, e a unidade de processamento pode ser uma unidade de processamento central (CPU), um processador de rede (NP) ou similares.

[0186] De maneira opcional, o dispositivo de reconhecimento de gestos 70 também pode incluir a memória 73, a qual pode ser configurada para armazenar um programa de software, e o programa de software pode ser executado pelo processador 71. Além disso, a memória 73 também pode armazenar vários tipos de dados de serviço ou dados de usuário. O programa de software pode incluir um módulo de obtenção de imagens, um módulo de reconhecimento e um módulo de combinação. De maneira opcional, o programa de software também pode incluir um módulo de determinação de janela de tempo e um módulo de julgamento.

[0187] O módulo de obtenção de imagens é executado pelo processador 71, para implementar a função de obtenção das M imagens extraídas de um primeiro segmento de vídeo em um fluxo de vídeo na modalidade mostrada na figura 3.

[0188] O módulo de reconhecimento é executado pelo processador 71 para implementar a função de reconhecimento de um resultado de reconhecimento de gestos que corresponde ao primeiro segmento de vídeo na modalidade mostrada na figura 3.

[0189] O módulo de combinação é executado pelo processador 71 para implementar a função de combinação dos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos na modalidade mostrada na figura 3.

[0190] O módulo de determinação de janela de tempo é executado pelo processador 71 para implementar a função de determinação de uma janela de tempo na modalidade mostrada na figura 3.

[0191] O módulo de julgamento é executado pelo processador 71, para implementar a função para verificar se uma ação está sendo executada no primeiro segmento de vídeo da modalidade mostrada na figura 3.

[0192] De maneira opcional, o dispositivo de reconhecimento de gestos 70 também pode incluir uma interface de comunicação 74, e a interface de comunicação 74 pode incluir uma interface de rede. A interface de rede é configurada para conectar-se a um dispositivo de captura de imagens. De maneira específica, a interface de rede pode incluir uma interface de rede cabeada, tal como uma interface Ethernet ou uma interface de fibra, ou a interface de rede pode incluir uma interface de rede sem fio, tal como uma interface de rede de área local sem fio ou uma interface de rede móvel de celular. O dispositivo de reconhecimento de gestos 70 se comunica com outro dispositivo usando a interface de rede 74.

[0193] De maneira opcional, o processador 71 pode ser conectado à memória 73 e à interface de comunicação 74 usando um barramento.

[0194] De maneira opcional, o dispositivo de reconhecimento de gestos 70 também pode incluir um dispositivo de saída 75 e um dispositivo de entrada 77. O dispositivo de saída 75 e o dispositivo de entrada 77 são conectados ao processador 71. O dispositivo de saída 75 pode ser uma tela configurada para exibir informações, um dispositivo de amplificação de energia que reproduz som, uma impressora ou similares. O dispositivo de saída 75 também pode incluir um controlador de saída, para prover saída para a tela, o dispositivo de amplificação de energia, ou a impressora. O dispositivo de entrada 77 pode ser um dispositivo, tal como um mouse, um teclado, um stylus eletrônico ou um painel de toque usado por um usuário para inserir informações. O dispositivo de entrada 77 também pode incluir um controlador de entrada, para receber e processar as entradas de dados de dispositivos, tais como o mouse, o teclado, o stylus eletrônico ou o painel de toque.

[0195] Será descrita a seguir uma modalidade de aparelho deste pedido de patente, a qual pode ser usada para executar a modalidade de método deste pedido de patente. Para detalhes não descritos na modalidade de aparelho deste pedido de patente, consulte a modalidade de método deste pedido de patente.

[0196] A figura 8 é um diagrama em bloco estrutural de um aparelho de reconhecimento de gestos de acordo com um exemplo de uma modalidade deste pedido de patente. O aparelho de reconhecimento de gestos pode ser implantado como uma parte ou a totalidade de um dispositivo de reconhecimento de gestos usando-se um circuito de hardware ou uma combinação de software e hardware. O dispositivo de reconhecimento de gestos pode ser o dispositivo de reconhecimento de gestos 120 da modalidade mostrada na figura 1. O aparelho de reconhecimento de gestos pode incluir uma unidade de obtenção de imagens 801, uma unidade de reconhecimento 802 e uma unidade de combinação 803. De maneira opcional, o programa de software também pode incluir uma unidade de determinação de janela de tempo 804 e uma unidade de julgamento 805.

[0197] A unidade de obtenção de imagens 801 é executada por um processador para implementar a função de obtenção das M imagens extraída a partir de um primeiro segmento de vídeo em um fluxo de vídeo na modalidade mostrada na figura 3.

[0198] A unidade de reconhecimento 802 é executada pelo processador para implementar a função de obtenção de um resultado de reconhecimento de gestos que corresponde ao primeiro segmento de vídeo na modalidade mostrada na figura 3.

[0199] A unidade de combinação 803 é executada pelo processador para implementar a função de combinação dos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos na modalidade mostrada na figura 3.

[0200] A unidade de determinação de janela de tempo 804 é executada pelo processador para implementar a função de determinação de uma janela de tempo na modalidade mostrada na figura 3.

[0201] A unidade de julgamento 805 é executada pelo processador, para implementar a função para verificar se uma ação está sendo executada no primeiro segmento de vídeo na modalidade mostrada na figura 3.

[0202] É válido observar que quando o aparelho de reconhecimento de gestos provido na modalidade mencionada acima executa o reconhecimento de gestos, a divisão das unidades funcionais mencionadas acima é meramente usada como um exemplo para descrição. Em uma aplicação real, as funções mencionadas acima podem ser alocadas em diferentes unidades funcionais para serem implantadas quando necessário. Mais especificamente, uma estrutura interna do dispositivo é dividida em diferentes unidades funcionais para implementar algumas ou todas as funções descritas acima. Além disso, o aparelho de reconhecimento de gestos provido na modalidade mencionada acima pertence a um mesmo conceito que a modalidade do método de reconhecimento de gestos. Para um processo de implementação específico, consulte a modalidade de método, pois esses detalhes não serão descritos aqui novamente.

[0203] Os números sequenciais das modalidades mencionadas acima deste pedido de patente servem apenas para fins de ilustração e não indicam prioridades entre as modalidades.

[0204] Uma pessoa versada na técnica compreenderá que algumas ou todas as etapas das modalidades podem ser implantadas por hardware ou programa que instrui o hardware relacionado. O programa pode ser armazenado em um meio de armazenamento legível por computador. O meio de armazenamento pode incluir uma memória apenas de leitura, um disco magnético ou um disco óptico.

[0205] As descrições mencionadas acima são meramente modalidades opcionais deste pedido de patente e não se destinam a limitá-lo.

Qualquer modificação, substituição equivalente ou aprimoramento feito sem desvio em relação ao princípio deste pedido de patente será abrangido pelo escopo de proteção deste pedido de patente.

Claims

REIVINDICAÇÕES

1. Dispositivo de reconhecimento de gestos, caracterizado pelo fato de compreender um processador e uma memória; o processador é configurado para obter as M M imagens, no qual as M M imagenssão extraídas de um primeiro segmento de vídeo em um fluxo de vídeo, o primeiro segmento de vídeo é qualquer segmento de vídeo no fluxo de vídeo, e M é um número inteiro maior ou igual a 2; o processador é configurado para executar reconhecimento de gestos nas M M imagensusando-se um algoritmo de aprendizado profundo para a obtenção de um resultado de reconhecimento de gestos que corresponde ao primeiro segmento de vídeo; e o processador é configurado para: depois de obter resultados de reconhecimento de gestos de N N segmentos de vídeo consecutivos no fluxo de vídeo que compreende o primeiro segmento de vídeo, combinar os resultados de reconhecimento de gestos dos N N segmentos de vídeo consecutivos, para a obtenção de um resultado combinado de reconhecimento de gestos, no qual N é um número inteiro maior ou igual a 2.

2. Dispositivo de acordo com a reivindicação 1, caracterizado pelo fato de que ao combinar os resultados de reconhecimento de gestos dos N N segmentos de vídeo consecutivos, para a obtenção do resultado combinado de reconhecimento de gestos, o processador é especificamente configurado para: inserir os resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos dentro de um primeiro modelo pré- treinado de aprendizado de máquina, para a obtenção do resultado combinado de reconhecimento de gestos, no qual o primeiro modelo de aprendizado de máquina é usado para determinar uma tendência de moção gestual geral composta pelo inserido resultados N de reconhecimento de gestos consecutivos, e para enviar um gesto que corresponde à tendência de moção gestual geral como o resultado combinado de reconhecimento de gestos.

3. Dispositivo de acordo com a reivindicação 2, caracterizado pelo fato de que o primeiro modelo de aprendizado de máquina é um modelo de rede neural e o modelo de rede neural possui neurônios N; ou o primeiro modelo de aprendizado de máquina é um modelo de máquina de vetor de suporte SVM.

4. Dispositivo de acordo com a reivindicação 1, caracterizado pelo fato de que durante a combinação dos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos, para a obtenção do resultado combinado de reconhecimento de gestos, o processador é especificamente configurado para: obter os coeficientes de peso predefinidos respectivamente que correspondem aos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos; e efetuar uma média ponderada nos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos com base nos coeficientes de peso que correspondem respectivamente aos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos, para a obtenção do resultado combinado de reconhecimento de gestos.

5. Dispositivo de acordo com a reivindicação 1, caracterizado pelo fato de que durante a execução do reconhecimento de gestos nas M imagens usando-se o algoritmo de aprendizado profundo, para a obtenção do resultado de reconhecimento de gestos que corresponde ao primeiro segmento de vídeo, o processador é especificamente configurado para: realizar o processamento de imagem nas M imagens para obter uma imagem com informações de fluxo ópticas que corresponde ao primeiro segmento de vídeo, no qual a imagem com informações de fluxo ópticas compreende as informações de fluxo ópticas entre uma primeira imagem nas M imagens e a imagem p ésima antes de a primeira imagem, a primeira imagem é qualquer um das M imagens, e as informações de fluxo ópticas compreendem informações instantâneas de vetor de velocidade de um pixel na imagem, e efetuar o reconhecimento de gestos na imagem com informações de fluxo ópticas usando um primeiro algoritmo de aprendizado profundo, para obter um primeiro resultado de reconhecimento, no qual p é um número inteiro maior ou igual a 1; realizar o processamento de imagem nas M imagens para obter uma imagem com as informações de cor que corresponde ao primeiro segmento de vídeo, no qual a imagem com as informações de cor compreende as informações de cor das M imagens, e as informações de cor compreende um valor de cor de cada pixel na imagem, e efetuar o reconhecimento de gestos na imagem com as informações de cor usando um segundo algoritmo de aprendizado profundo, para obter um segundo resultado de reconhecimento; e combinar o primeiro resultado de reconhecimento e o segundo resultado de reconhecimento, para a obtenção do resultado de reconhecimento de gestos do primeiro segmento de vídeo.

6. Dispositivo de acordo com a reivindicação 5, caracterizado pelo fato de que durante a execução de processamento de imagem nas M imagens, para obter a imagem com informações de fluxo ópticas que corresponde ao primeiro segmento de vídeo, o processador é especificamente configurado para: para a primeira imagem, obter, com base em uma regra ésima predefinida, a imagem p antes de a primeira imagem no fluxo de vídeo calcular as informações de fluxo ópticas entre a primeira imagem e a imagem p ésima, e gerar a imagem com informações de fluxo ópticas que compreende as informações de fluxo ópticas entre a primeira ésima imagem e a imagem p , no qual um intervalo de tempo entre a primeira imagem e a imagem p ésima não é inferior a um tempo de cálculo progressivo do primeiro algoritmo de aprendizado profundo ou um tempo necessário para calcular a imagem com informações de fluxo ópticas; ou para a primeira imagem, obter, com base em uma regra predefinida, todas as imagens p antes de a primeira imagem no fluxo de vídeo calcular as informações de fluxo ópticas entre cada duas imagens adjacentes na primeira imagem e nas Imagens p, e depois de acumular as informações de fluxo ópticas entre cada duas imagens adjacentes, gerar uma imagem com informações de fluxo ópticas que compreende as informações de fluxo ópticas acumuladas, no qual um intervalo de ésima tempo entre a primeira imagem e a imagem p antes da primeira imagem não é inferior a um tempo de cálculo progressivo do primeiro algoritmo de aprendizado profundo ou um tempo necessário para calcular a imagem com informações de fluxo ópticas.

7. Dispositivo de acordo com a reivindicação 5, caracterizado pelo fato de que durante a execução de processamento de imagem nas M imagens, para obter a imagem com as informações de cor que corresponde ao primeiro segmento de vídeo, o processador é especificamente configurado para: extrair as informações de cor de M imagens nas M imagens, gerar, com base nas informações de cor extraída, imagens com informações de cor que correspondem respectivamente à M imagens, e obter as imagens com informações de cor que correspondem respectivamente à M imagens como a imagem com as informações de cor que corresponde ao primeiro segmento de vídeo, no qual as M imagens são M imagens aleatórias nas M imagens, ou as M imagens são M imagens que estão nas M imagens e que cada uma possui uma variação maior em relação a uma imagem anterior no fluxo de vídeo, e m é um número inteiro maior ou igual a 1; ou detectar uma localização de pixel nas M imagens em que o conteúdo da imagem muda com o tempo, calcular o valor médio das informações de cor nas M imagens que corresponde às localizações de pixel reconhecidas, para obter novas informações de cor nas localizações de pixel reconhecidas, e gerar, com base nas novas informações de cor nas localizações de pixel reconhecidas, a imagem com as informações de cor que corresponde ao primeiro segmento de vídeo.

8. Dispositivo de acordo com qualquer uma das reivindicações 1 a 7, caracterizado pelo fato de que antes de obter as M imagens, o processador é configurado ainda para: determinar uma janela de tempo com um período de tempo predefinido no fluxo de vídeo, no qual um momento final da janela de tempo está dentro de um período de tempo que corresponde ao primeiro segmento de vídeo; determinar, com base em uma última imagem e pelo menos em uma imagem de referência na janela de tempo, se uma ação está sendo executada no primeiro segmento de vídeo, no qual a imagem de referência é qualquer imagem na janela de tempo que não seja a última imagem; e se o resultado de determinação indicar que uma ação está sendo executada no primeiro segmento de vídeo, executar a etapa para obter as M imagens.

9. Dispositivo de acordo com a reivindicação 8, caracterizado pelo fato de que quando determinar, com base na última imagem e pelo menos uma imagem de referência na janela de tempo, se uma ação está sendo executada no primeiro segmento de vídeo, o processador é especificamente configurado para: para cada uma das pelo menos uma imagem de referência, calcular uma imagem de derivada parcial da última imagem, no qual um valor de cada pixel na imagem de derivada parcial é uma derivada parcial de um valor de um pixel correspondente na última imagem em relação a um valor de um pixel correspondente na imagem de referência; normalizar o valor de cada pixel na imagem de derivada parcial, para obter uma imagem de derivada parcial normalizada; binarizar a imagem de derivada parcial normalizada com base em um limite de binarização predefinido, para obter uma imagem binarizada da imagem de derivada parcial, no qual um valor de cada pixel na imagem binarizada é 0 ou 1; calcular uma soma de valores de escala de cinza dos pixels na imagem binarizada; e quando a soma dos valores de escala de cinza for maior que 0, determinar que uma ação está sendo executada no primeiro segmento de vídeo.

10. Dispositivo de acordo com qualquer uma das reivindicações 5 a 7, caracterizado pelo fato de que durante a combinação do primeiro resultado de reconhecimento e o segundo resultado de reconhecimento, para a obtenção do resultado de reconhecimento de gestos do primeiro segmento de vídeo, o processador é especificamente configurado para: efetuar um cálculo de valor médio no primeiro resultado de reconhecimento e no segundo resultado de reconhecimento, para a obtenção do resultado de reconhecimento de gestos do primeiro segmento de vídeo com base em um resultado de cálculo do cálculo de valor médio; ou inserir o primeiro resultado de reconhecimento e o segundo resultado de reconhecimento dentro de um segundo modelo pré- treinado de aprendizado de máquina, para a obtenção do resultado de reconhecimento de gestos do primeiro segmento de vídeo.

11. Aparelho de reconhecimento de gestos, caracterizado pelo fato de compreender: uma unidade de obtenção de imagens, configurado para obter as M imagens, no qual as M imagens são extraídas de um primeiro segmento de vídeo em um fluxo de vídeo, o primeiro segmento de vídeo é qualquer segmento de vídeo no fluxo de vídeo, e M é um número inteiro maior ou igual a 2; uma unidade de reconhecimento, configurado para executar reconhecimento de gestos nas M imagens usando-se um algoritmo de aprendizado profundo para a obtenção de um resultado de reconhecimento de gestos que corresponde ao primeiro segmento de vídeo; e uma unidade de combinação, configurada ainda para: depois que os resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos no fluxo de vídeo que compreendem o primeiro segmento de vídeo serem obtidos, combinar os resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos, para a obtenção de um resultado combinado de reconhecimento de gestos, no qual N≥2 e N é um número inteiro.

12. Aparelho de acordo com a reivindicação 11, caracterizado pelo fato de que ao combinar os resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos, para a obtenção do resultado combinado de reconhecimento de gestos, a unidade de combinação é especificamente configurada para: inserir os resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos dentro de um primeiro modelo pré- treinado de aprendizado de máquina, para a obtenção do resultado combinado de reconhecimento de gestos, no qual o primeiro modelo de aprendizado de máquina é usado para determinar uma tendência de moção gestual geral composta pelo inserido resultados N de reconhecimento de gestos consecutivos, e para enviar um gesto que corresponde à tendência de moção gestual geral como o resultado combinado de reconhecimento de gestos.

13. Aparelho de acordo com a reivindicação 12, caracterizado pelo fato de que o primeiro modelo de aprendizado de máquina é um modelo de rede neural e o modelo de rede neural possui neurônios N; ou o primeiro modelo de aprendizado de máquina é um modelo de máquina de vetor de suporte SVM.

14. Aparelho de acordo com a reivindicação 11, caracterizado pelo fato de que ao combinar os resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos, para a obtenção do resultado combinado de reconhecimento de gestos, a unidade de combinação é especificamente configurada para: obter os coeficientes de peso predefinidos respectivamente que correspondem aos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos; e efetuar uma média ponderada nos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos com base nos coeficientes de peso que correspondem respectivamente aos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos, para a obtenção do resultado combinado de reconhecimento de gestos.

15. Aparelho de acordo com a reivindicação 11, caracterizado pelo fato de que a unidade de reconhecimento é especificamente configurada para: realizar o processamento de imagem nas M imagens para obter uma imagem com informações de fluxo ópticas que corresponde ao primeiro segmento de vídeo, no qual a imagem com informações de fluxo ópticas compreende as informações de fluxo ópticas entre uma primeira imagem nas M imagens e a imagem p ésima antes de a primeira imagem, a primeira imagem é qualquer um das M imagens, e as informações de fluxo ópticas compreendem informações instantâneas de vetor de velocidade de um pixel na imagem, e efetuar o reconhecimento de gestos na imagem com informações de fluxo ópticas usando um primeiro algoritmo de aprendizado profundo, para obter um primeiro resultado de reconhecimento, no qual p é um número inteiro maior ou igual a 1; realizar o processamento de imagem nas M imagens, para obter uma imagem com as informações de cor que corresponde ao primeiro segmento de vídeo, no qual a imagem com as informações de cor compreende as informações de cor das M imagens, e as informações de cor compreende um valor de cor de cada pixel na imagem, e efetuar o reconhecimento de gestos na imagem com as informações de cor usando um segundo algoritmo de aprendizado profundo, para obter um segundo resultado de reconhecimento; e combinar o primeiro resultado de reconhecimento e o segundo resultado de reconhecimento, para a obtenção do resultado de reconhecimento de gestos do primeiro segmento de vídeo.

16. Aparelho de acordo com a reivindicação 15, caracterizado pelo fato de que durante a execução de processamento de imagem nas M imagens para obter a imagem com informações de fluxo ópticas que corresponde ao primeiro segmento de vídeo, a unidade de reconhecimento é especificamente configurada para: para a primeira imagem, obter, com base em uma regra ésima predefinida, a imagem p antes de a primeira imagem no fluxo de vídeo calcular as informações de fluxo ópticas entre a primeira imagem e a imagem p ésima, e gerar a imagem com informações de fluxo ópticas que compreende as informações de fluxo ópticas entre a primeira ésima imagem e a imagem p , no qual um intervalo de tempo entre a primeira imagem e a imagem p ésima não é inferior a um tempo de cálculo progressivo do primeiro algoritmo de aprendizado profundo ou um tempo necessário para calcular a imagem com informações de fluxo ópticas; ou para a primeira imagem, obter, com base em uma regra predefinida, todas as imagens p antes de a primeira imagem no fluxo de vídeo calcular as informações de fluxo ópticas entre cada duas imagens adjacentes na primeira imagem e nas M imagens, e depois de acumular as informações de fluxo ópticas entre cada duas imagens adjacentes, gerar uma imagem com informações de fluxo ópticas que compreende as informações de fluxo ópticas acumuladas, no qual um intervalo de ésima tempo entre a primeira imagem e a imagem p antes da primeira imagem não é inferior a um tempo de cálculo progressivo do primeiro algoritmo de aprendizado profundo ou um tempo necessário para calcular a imagem com informações de fluxo ópticas.

17. Aparelho de acordo com a reivindicação 15, caracterizado pelo fato de que durante a execução de processamento de imagem nas M imagens para obter a imagem com as informações de cor que corresponde ao primeiro segmento de vídeo, a unidade de reconhecimento é especificamente configurada para: extrair as informações de cor de M imagens nas M imagens, gerar, com base nas informações de cor extraída, imagens com informações de cor que correspondem respectivamente à M imagens, e obter as imagens com informações de cor que correspondem respectivamente à M imagens como a imagem com as informações de cor que corresponde ao primeiro segmento de vídeo, no qual as M imagens são M imagens aleatórias nas M imagens, ou as M imagens são M imagens que estão nas M imagens e que cada uma possui uma variação maior em relação a uma imagem anterior no fluxo de vídeo, e m é um número inteiro maior ou igual a 1; ou detectar uma localização de pixel nas M imagens em que o conteúdo da imagem muda com o tempo, calcular o valor médio das informações de cor nas M imagens que corresponde às localizações de pixel reconhecidas, para obter novas informações de cor nas localizações de pixel reconhecidas, e gerar, com base nas novas informações de cor nas localizações de pixel reconhecidas, a imagem com as informações de cor que corresponde ao primeiro segmento de vídeo.

18. Aparelho de acordo com qualquer uma das reivindicações 11 a 17, caracterizado por compreender ainda : uma unidade de determinação de janela de tempo, configurada para determinar uma janela de tempo com um período de tempo predefinido no fluxo de vídeo antes da unidade de obtenção de imagens obtém as M imagens, no qual um momento final da janela de tempo está dentro de um período de tempo que corresponde ao primeiro segmento de vídeo; e um módulo de julgamento, configurado para determinar, com base em uma última imagem e pelo menos em uma imagem de referência na janela de tempo, se uma ação está sendo executada no primeiro segmento de vídeo, no qual pelo menos uma imagem de referência é qualquer imagem na janela de tempo que não seja a última imagem, no qual a unidade de obtenção de imagens é configurada para: se um resultado de determinação é que a ação é executada no primeiro segmento de vídeo, executar a etapa para obter as M imagens.

19. Aparelho de acordo com a reivindicação 18, caracterizado pelo fato de que a unidade de julgamento é especificamente configurada para: para cada uma das pelo menos uma imagem de referência, calcular uma imagem de derivada parcial da última imagem, no qual um valor de cada pixel na imagem de derivada parcial é uma derivada parcial de um valor de um pixel correspondente na última imagem em relação a um valor de um pixel correspondente na imagem de referência; normalizar o valor de cada pixel na imagem de derivada parcial, para obter uma imagem de derivada parcial normalizada; binarizar a imagem de derivada parcial normalizada com base em um limite de binarização predefinido, para obter uma imagem binarizada da imagem de derivada parcial, no qual um valor de cada pixel na imagem binarizada é 0 ou 1; calcular uma soma de valores de escala de cinza dos pixels na imagem binarizada; e quando a soma dos valores de escala de cinza for maior que 0, determinar que uma ação está sendo executada no primeiro segmento de vídeo.

20. Aparelho de acordo com qualquer uma das reivindicações 15 a 17, caracterizado pelo fato de que durante a combinação do primeiro resultado de reconhecimento e o segundo resultado de reconhecimento, para a obtenção do resultado de reconhecimento de gestos do primeiro segmento de vídeo, a unidade de reconhecimento é especificamente configurada para: efetuar um cálculo de valor médio no primeiro resultado de reconhecimento e no segundo resultado de reconhecimento, para a obtenção do resultado de reconhecimento de gestos do primeiro segmento de vídeo com base em um resultado de cálculo do cálculo de valor médio; ou inserir o primeiro resultado de reconhecimento e o segundo resultado de reconhecimento dentro de um segundo modelo pré- treinado de aprendizado de máquina, para a obtenção do resultado de reconhecimento de gestos do primeiro segmento de vídeo.

21. Método de reconhecimento de gestos, caracterizado por compreender: obter as M imagens, no qual as M imagens são extraídas de um primeiro segmento de vídeo em um fluxo de vídeo, o primeiro segmento de vídeo é qualquer segmento de vídeo no fluxo de vídeo, e M é um número inteiro maior ou igual a 2; efetuar o reconhecimento de gestos nas M imagens usando- se um algoritmo de aprendizado profundo para a obtenção de um resultado de reconhecimento de gestos que corresponde ao primeiro segmento de vídeo; e depois que os resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos no fluxo de vídeo que compreendem o primeiro segmento de vídeo forem obtidos, combinar os resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos, para a obtenção de um resultado combinado de reconhecimento de gestos, no qual N≥2 e N é um número inteiro.

22. Método de acordo com a reivindicação 21, caracterizado pelo fato de que combinar os resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos, para a obtenção de um resultado combinado de reconhecimento de gestos compreende: inserir os resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos dentro de um primeiro modelo pré- treinado de aprendizado de máquina, para a obtenção do resultado combinado de reconhecimento de gestos, no qual o primeiro modelo de aprendizado de máquina é usado para determinar uma tendência de moção gestual geral composta pelo inserido resultados N de reconhecimento de gestos consecutivos, e para enviar um gesto que corresponde à tendência de moção gestual geral como o resultado combinado de reconhecimento de gestos.

23. Método de acordo com a reivindicação 22, caracterizado pelo fato de que: o primeiro modelo de aprendizado de máquina é um modelo de rede neural e o modelo de rede neural possui neurônios N; ou o primeiro modelo de aprendizado de máquina é um modelo de máquina de vetor de suporte SVM.

24. Método de acordo com a reivindicação 21, caracterizado pelo fato de que combinar os resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos, para a obtenção de um resultado combinado de reconhecimento de gestos compreende: obter os coeficientes de peso predefinidos respectivamente que correspondem aos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos; e efetuar uma média ponderada nos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos com base nos coeficientes de peso que correspondem respectivamente aos resultados de reconhecimento de gestos dos N segmentos de vídeo consecutivos, para a obtenção do resultado combinado de reconhecimento de gestos.

25. Método de acordo com a reivindicação 21, caracterizado pelo fato de que efetuar o reconhecimento de gestos nas M imagens usando-se um algoritmo de aprendizado profundo para a obtenção de um resultado de reconhecimento de gestos que corresponde ao primeiro segmento de vídeo compreende: efetuar um processamento nas M imagens para obter uma imagem com informações de fluxo ópticas que corresponde ao primeiro segmento de vídeo, no qual a imagem com informações de fluxo ópticas compreende as informações de fluxo ópticas entre uma primeira imagem nas M imagens e a imagem p ésima antes de a primeira imagem, a primeira imagem é qualquer uma das M imagens, e as informações de fluxo ópticas compreendem informações instantâneas de vetor de velocidade de um pixel na imagem, e efetuar o reconhecimento de gestos na imagem com informações de fluxo ópticas usando um primeiro algoritmo de aprendizado profundo, para obter um primeiro resultado de reconhecimento, no qual p é um número inteiro maior ou igual a 1; efetuar um processamento de imagem nas M imagens para obter uma imagem com as informações de cor que corresponde ao primeiro segmento de vídeo, no qual a imagem com as informações de cor compreende as informações de cor das M imagens, e as informações de cor compreende um valor de cor de cada pixel na imagem, e efetuar o reconhecimento de gestos na imagem com as informações de cor usando um segundo algoritmo de aprendizado profundo, para obter um segundo resultado de reconhecimento; e combinar o primeiro resultado de reconhecimento e o segundo resultado de reconhecimento, para a obtenção do resultado de reconhecimento de gestos do primeiro segmento de vídeo.

26. Método de acordo com a reivindicação 25, caracterizado pelo fato de que efetuar o processamento de imagem nas M imagens para obter uma imagem com informações de fluxo ópticas que corresponde ao primeiro segmento de vídeo compreende: para a primeira imagem, obter, com base em uma regra ésima predefinida, a imagem p antes de a primeira imagem no fluxo de vídeo calcular as informações de fluxo ópticas entre a primeira imagem e a imagem p ésima, e gerar a imagem com informações de fluxo ópticas que compreende as informações de fluxo ópticas entre a primeira ésima imagem e a imagem p , no qual um intervalo de tempo entre a primeira imagem e a imagem p ésima não é inferior a um tempo de cálculo progressivo do primeiro algoritmo de aprendizado profundo ou um tempo necessário para calcular a imagem com informações de fluxo ópticas; ou para a primeira imagem, obter, com base em uma regra predefinida, todas as imagens p antes de a primeira imagem no fluxo de vídeo calcular as informações de fluxo ópticas entre cada duas imagens adjacentes na primeira imagem e nas M imagens, e depois que as informações de fluxo ópticas entre cada duas imagens adjacentes forem acumuladas, gerar uma imagem com informações de fluxo ópticas que compreende as informações de fluxo ópticas acumuladas, no qual um intervalo de tempo entre a primeira imagem e a imagem p ésima antes da primeira imagem não é inferior a um tempo de cálculo progressivo do primeiro algoritmo de aprendizado profundo ou um tempo necessário para calcular a imagem com informações de fluxo ópticas.

27. Método de acordo com a reivindicação 25, caracterizado pelo fato de que efetuar o processamento de imagem nas M imagens para obter uma imagem com as informações de cor que corresponde ao primeiro segmento de vídeo compreende: extrair as informações de cor das M imagens nas M imagens, gerar, com base nas informações de cor extraída, imagens com informações de cor que correspondem respectivamente à M imagens, e obter as imagens com informações de cor que correspondem respectivamente à M imagens como a imagem com as informações de cor que corresponde ao primeiro segmento de vídeo, no qual as M imagens são M imagens aleatórias nas M imagens, ou as M imagens são M imagens que estão nas M imagens e que cada uma possui uma variação maior em relação a uma imagem anterior no fluxo de vídeo, e m é um número inteiro maior ou igual a 1; ou detectar uma localização de pixel nas M imagens em que o conteúdo da imagem muda com o tempo, calcular o valor médio das informações de cor nas M imagens que corresponde às localizações de pixel reconhecidas para obter novas informações de cor nas localizações de pixel reconhecidas, e gerar, com base nas novas informações de cor nas localizações de pixel reconhecidas, a imagem com as informações de cor que corresponde ao primeiro segmento de vídeo.

28. Método de acordo com qualquer uma das reivindicações 21 a 27, caracterizado pelo fato de que antes de obter as M imagens, o método compreende ainda : determinar uma janela de tempo com um período de tempo predefinido no fluxo de vídeo, no qual um momento final da janela de tempo está dentro de um período de tempo que corresponde ao primeiro segmento de vídeo; determinar, com base em uma última imagem e pelo menos em uma imagem de referência na janela de tempo, se uma ação está sendo executada no primeiro segmento de vídeo, no qual pelo menos uma imagem de referência é qualquer imagem na janela de tempo que não seja a última imagem; e se o resultado de determinação indicar que uma ação está sendo executada no primeiro segmento de vídeo, efetuar a etapa para obter as M imagens.

29. Método de acordo com a reivindicação 28, caracterizado pelo fato de que determinar, com base em uma última imagem e pelo menos em uma imagem de referência na janela de tempo, se uma ação está sendo executada no primeiro segmento de vídeo compreende: para cada uma das pelo menos uma imagem de referência, calcular uma imagem de derivada parcial da última imagem, no qual um valor de cada pixel na imagem de derivada parcial é uma derivada parcial de um valor de um pixel correspondente na última imagem em relação a um valor de um pixel correspondente na imagem de referência; normalizar o valor de cada pixel na imagem de derivada parcial, para obter uma imagem de derivada parcial normalizada; binarizar a imagem de derivada parcial normalizada com base em um limite de binarização predefinido, para obter uma imagem binarizada da imagem de derivada parcial, no qual um valor de cada pixel na imagem binarizada é 0 ou 1; calcular uma soma de valores de escala de cinza dos pixels na imagem binarizada; e quando a soma dos valores de escala de cinza for maior que 0, determinar que uma ação está sendo executada no primeiro segmento de vídeo.

30. Método de acordo com qualquer uma das reivindicações 25 a 27, caracterizado pelo fato de que combinar o primeiro resultado de reconhecimento e o segundo resultado de reconhecimento, para a obtenção do resultado de reconhecimento de gestos do primeiro segmento de vídeo compreende: efetuar um cálculo de valor médio no primeiro resultado de reconhecimento e no segundo resultado de reconhecimento, para a obtenção do resultado de reconhecimento de gestos do primeiro segmento de vídeo com base em um resultado de cálculo do cálculo de valor médio; ou inserir o primeiro resultado de reconhecimento e o segundo resultado de reconhecimento dentro de um segundo modelo pré- treinado de aprendizado de máquina, para a obtenção do resultado de reconhecimento de gestos do primeiro segmento de vídeo.