BR102020003282B1 - Sistema para gerenciamento de processos de engenharia de dados (data engineering) e ciência de dados (data science) - Google Patents

Sistema para gerenciamento de processos de engenharia de dados (data engineering) e ciência de dados (data science) Download PDF

Info

Publication number
BR102020003282B1
BR102020003282B1 BR102020003282-8A BR102020003282A BR102020003282B1 BR 102020003282 B1 BR102020003282 B1 BR 102020003282B1 BR 102020003282 A BR102020003282 A BR 102020003282A BR 102020003282 B1 BR102020003282 B1 BR 102020003282B1
Authority
BR
Brazil
Prior art keywords
data
module
output
engineering
processes
Prior art date
Application number
BR102020003282-8A
Other languages
English (en)
Other versions
BR102020003282A2 (pt
Inventor
Leonardo Dos Santos Poça Dágua
Original Assignee
Semantix Tecnologia em Sistema de Informação S.A
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Semantix Tecnologia em Sistema de Informação S.A filed Critical Semantix Tecnologia em Sistema de Informação S.A
Priority to BR102020003282-8A priority Critical patent/BR102020003282B1/pt
Priority to US17/178,180 priority patent/US20210256014A1/en
Publication of BR102020003282A2 publication Critical patent/BR102020003282A2/pt
Publication of BR102020003282B1 publication Critical patent/BR102020003282B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Programmable Controllers (AREA)

Abstract

SISTEMA PARA GERENCIAMENTO DE PROCESSOS DE ENGENHARIA DE DADOS (DATA ENGINEERING) E CIÊNCIA DE DADOS (DATA SCIENCE). A presente invenção revela um sistema para gerenciamento de processos de engenharia de dados (data engineering) e ciência de dados (data science), caracterizado por compreender: um módulo de aplicação de entrada configurado para ler dados de entrada de fontes de dados; um módulo de processamento configurado para aplicar funções de ciência de dados e processos de engenharia de dados aos dados de entrada; um módulo de armazenamento configurado para armazenar dados de entrada, dados processados e dados de saída; um módulo de aplicação de saída configurado para coletar os dados processados e escrever dados de saída; um módulo orquestrador configurado para gerenciar o fluxo de dados com regras predefinidas sobre quais módulos devem ser acionados de acordo com os dados de entrada e os dados de saída; e um módulo de mensagem configurado para comunicar o módulo de processamento e o módulo orquestrador.

Description

Campo da Invenção
[001] A presente invenção se relaciona a Big Data e Data Science.
Antecedentes da Invenção
[002] Tecnologias de Big Data têm sido adotadas por pequenas e grandes empresas há anos. Os sistemas mais utilizados para pipelines de dados seguem três processos principais relacionados aos dados, a saber: coleta, gerenciamento e análise.
[003] Embora diferentes setores e projetos tenham seus próprios requisitos em relação a cronogramas, robustez e taxa de transferência, os componentes que gerenciam e analisam dados poderiam ser organizados em uma arquitetura bem definida, pronta para ser reutilizada em diferentes projetos.
[004] Nos pipelines de dados compreendidos no estado da técnica, cada novo projeto exige que uma nova arquitetura seja projetada especificamente de acordo com os requisitos do projeto.
[005] O estado da técnica não possui uma arquitetura capaz de se adaptar a diferentes projetos de Big Data e Data Science em um único sistema.
Descrição Resumida da Invenção
[006] A presente invenção inclui a descrição de vários sistemas, como um sistema que fornece uma arquitetura flexível de Big Data que explora módulos intermediários de programas de computador e tecnologias disponíveis para processar grandes quantidades de dados em paralelo. Essa arquitetura se encaixa nos principais princípios do Big Data relacionados à ciência e engenharia de dados, como armazenamento de dados, manutenção de dados, descoberta de dados e análise de dados. Como o sistema armazena dados e fornece conexões a sistemas externos via APIs (Application Programming Interfaces - interfaces de programação de aplicações), é possível visualizar os resultados atuais e elaborar análises posteriormente.
[007] Sistemas que exemplificam a presente invenção fornecem um componente orquestrador que traz flexibilidade ao design de qualquer pipeline de análise ou transformação de dados. Devido ao serviço de orquestração, a arquitetura pode ser flexível a qualquer canal de processamento de dados e seus componentes garantem resiliência sem serem impactados pela quantidade de dados recebidos pela arquitetura.
[008] A presente invenção inclui a descrição de um sistema para gerenciamento de processos de engenharia de dados e ciência de dados, compreendendo um módulo de aplicação de entrada configurado para ler dados de entrada de fontes de dados, um módulo de processamento configurado para aplicar funções da ciência de dados e processos de engenharia de dados nos dados de entrada, um módulo de armazenamento configurado para armazenar dados de entrada, dados processados e dados de saída, um módulo de aplicação de saída configurado para coletar os dados processados e escrever dados de saída, um módulo de orquestrador configurado para gerenciar o fluxo de dados com regras predefinidas sobre quais módulos devem ser acionados de acordo com os dados de entrada e dados de saída, e um módulo de mensagem configurado para comunicar o módulo de processamento e o módulo orquestrador.
[009] A presente invenção inclui a divulgação de um sistema para gerenciamento de processos de engenharia de dados e ciência de dados, em que o módulo orquestrador compreende uma unidade de memória que armazena as regras predefinidas sobre quais módulos devem ser acionados de acordo com os dados de entrada e os dados de saída.
[010] A presente invenção inclui a divulgação de um sistema para gerenciamento de processos de engenharia de dados e ciência de dados, em que o módulo orquestrador compreende uma unidade de memória que armazena o endereço de cada módulo.
[011] A presente invenção inclui a divulgação de um sistema para gerenciamento de processos de engenharia de dados e ciência de dados, em GED - 4667537v1 que o módulo de processamento compreende um bloco de engenharia de dados e um bloco de ciência de dados.
[012] A presente invenção inclui a divulgação de um sistema para gerenciamento de processos de engenharia de dados e ciência de dados, em que o módulo de armazenamento compreende um banco de dados em memória, um elemento de armazenamento de objetos on-line e um banco de dados de mecanismo de pesquisa.
[013] A presente invenção inclui a divulgação de um sistema para gerenciamento de processos de engenharia de dados e ciência de dados, em que o módulo de armazenamento compreende um banco de dados em memória que armazena dados de texto, um elemento de armazenamento de objeto online que armazena arquivos binários, e um banco de dados de mecanismo de pesquisa que armazena registros de logs do sistema e textos de saída.
[014] A presente invenção inclui a divulgação de um sistema para gerenciamento de processos de engenharia de dados e ciência de dados, em que o módulo de processamento é configurado para aplicar múltiplas funções de engenharia de dados e ciência de dados simultaneamente.
[015] A presente invenção inclui a divulgação de um sistema para gerenciamento de processos de engenharia de dados e ciência de dados, em que as regras predefinidas envolvem uma ou mais regras para organizar a sequência de processos a serem aplicados aos dados após a extração dos dados da fonte de dados, em que as uma ou mais regras predefinidas definem um processo em lote ou em tempo real e em que as uma ou mais regras de sequência compreendem regras para avaliar, transformar e analisar os dados.
[016] A presente invenção inclui a divulgação de um sistema para gerenciamento de processos de engenharia de dados e ciência de dados, em que o módulo de processamento processa cada um dos vários registros de dados quase em tempo real, de preferência pelo mecanismo de processamento de resultados de processos anteriores.
Breve Descrição das Figuras
[017] As realizações divulgadas e outras características, vantagens e divulgações contidas neste documento, e o modo de alcançá-las, tornar-se-ão aparentes e a presente invenção será melhor compreendida por referência à descrição a seguir de várias realizações exemplares da presente invenção tomadas em conjunto com os desenhos anexos, em que:
[018] FIG. 1 representa um diagrama do sistema configurado para uma modalidade geral, de acordo com um exemplo de realização da presente invenção; e
[019] FIG. 2 representa um diagrama detalhado da paralelização de tarefas dentro da arquitetura, de acordo com um exemplo de realização da presente divulgação.
[020] Como tal, agora será apresentada uma visão geral das características, funções e / ou configurações dos componentes representados nas várias figuras. Deve-se considerar que nem todas as características dos componentes das figuras são necessariamente descritas e algumas dessas características não discutidas (bem como as características discutidas) são inerentes às próprias figuras. Outras características não discutidas podem ser inerentes à geometria e / ou configuração do componente. Além disso, sempre que possível e conveniente, números de referência semelhantes são usados nas figuras e na descrição para se referir às mesmas partes ou etapas correspondentes. Os números estão de forma simplificada e sem escala precisa.
Descrição Detalhada da Invenção
[021] Para os propósitos de promover uma compreensão dos princípios da presente invenção, será agora feita referência às realizações ilustradas nos desenhos, e uma linguagem específica será usada para descrever a mesma. No entanto, será entendido que nenhuma limitação do escopo desta invenção é assim pretendida.
[022] A presente invenção inclui a divulgação de um sistema 100 (que também pode ser referido neste documento em algumas realizações como um computador) disposto para processar dados de uma variedade de fontes de dados, de uma forma escalável e paralelizável. Os sistemas divulgados gerenciam ciência de dados e processos de engenharia de dados em uma arquitetura de computação paralela, em um estilo para fornecer flexibilidade para diferentes aplicações, mantendo um conjunto fixo de componentes usados em uma arquitetura bem definida que controla o fluxo de dados e garante a conclusão dos processos.
[023] Um exemplo de sistema 100, de acordo com a presente invenção, compreende um módulo de aplicação de entrada 140, configurado para coletar dados de uma fonte de dados. Uma vez que os dados são coletados pelo módulo de aplicação de entrada 140, um módulo orquestrador 110 é acionado. O módulo orquestrador 110 é configurado para gerenciar o fluxo de dados e é responsável por receber o status de outros componentes no sistema 100, acionando o processamento das funções de avaliação de dados, transformação de dados e análise de dados, gerenciando o fluxo de transformações dos dados no pipeline e armazenando a localização dos dados no sistema de banco de dados. De acordo com a presente invenção, o módulo orquestrador 110 é o único componente que se comunica diretamente com outros componentes no pipeline, tornando toda a comunicação entre aquisição de dados, transformação de dados, análise de dados e módulos de saída indireta. Os componentes restantes do sistema 100, de acordo com a presente invenção e geralmente referidos como os blocos de processamento, mantêm todas as funções de engenharia de dados e ciência de dados no pipeline, realizando toda a transformação e inferência nos dados. Embora as funções dos blocos de processamento variem dependendo do uso do sistema 100, a estrutura de comunicação com esses blocos de processamento, o módulo orquestrador 110 e o sistema de armazenamento permanecerá o mesmo. O sistema 100, de acordo com a presente invenção, também compreende um módulo de aplicação de saída 150, que grava os logs do sistema em um sistema de armazenamento, reúne dados aprimorados nas etapas anteriores e os envia para um sistema de streaming de saída ou armazenamento.
[024] Na FIG. 1 é representada a arquitetura de um sistema 100 de acordo com a presente invenção, para implantar processos de engenharia de dados e ciência de dados de maneira escalável. O sistema 100 ilustrado na FIG. 1 inclui um módulo orquestrador 110, que envolve ferramentas de programação conhecidas comercialmente que permitem a comunicação e a integração de diferentes dispositivos de hardware, APIs (Application Programming Interfaces - interfaces de programação de aplicações) e serviços online. O sistema 100 também inclui um módulo de aplicação de entrada 140 projetado para receber dados brutos de fontes de dados 120. Os dados brutos podem estar na forma de cargas em lote ou dados de streaming. O sistema 100 também inclui um módulo de aplicação de saída 150 projetado para enviar resultados do processo para um destino de dados de saída 130, uma vez comunicado pelo módulo orquestrador 110.
[025] O módulo orquestrador 110 é uma estrutura fixa responsável pelo gerenciamento dos pipelines do sistema 100. O módulo orquestrador 110 é configurado para gerenciar o fluxo de dados com regras predefinidas sobre quais módulos devem ser acionados de acordo com os dados de entradas e dados de saída. O módulo orquestrador 110 compreende uma unidade de memória 111, que compreende um arquivo que contém o endereço de cada módulo de aplicação de entrada 140, módulo de aplicação de saída 150, um módulo de processamento 160, um módulo de armazenamento 170 e um módulo de mensagem 180, e etapas predefinidas necessárias para finalizar cada pipeline específico. A unidade de memória 111 do módulo orquestrador 110 compreende informações sobre quais submódulos participarão em cada pipeline e pode lidar com vários pipelines em conjunto, manipulando vários arquivos de configuração, um para cada pipeline. A unidade de memória 111 compreende regras predefinidas sobre quais módulos devem ser acionados dependendo dos dados de entrada e dados de saída, bem como os processos de ciência de dados e engenharia de dados a serem conduzidos.
[026] Em uma realização preferencial, as regras predefinidas envolvem uma ou mais regras para organizar a sequência de processos a serem aplicados aos dados após a extração dos dados da fonte de dados, em que as uma ou mais regras predefinidas definem um processo em lote ou um processo em tempo real, e as uma ou mais regras de sequência compreendem regras para avaliar, transformar e analisar os dados.
[027] O módulo orquestrador 110 é empregado para dar flexibilidade ao sistema 100, enquanto os outros submódulos, módulo de aplicação de entrada 140, módulo de aplicação de saída 150, módulo de processamento 160, módulo de armazenamento 170 e módulo de mensagem 180 fornecerão escalabilidade ao sistema 100.
[028] O módulo de aplicação de entrada 140 lê dados brutos de uma fonte de dados 120 configurada, grava dados brutos no módulo de armazenamento 170 e comunica ao módulo orquestrador 110 que os dados estão prontos para serem analisados por outros elementos do pipeline. O módulo de aplicação de entrada 140 envolve o uso de uma estrutura de código aberto para suportar escalabilidade na análise de dados.
[029] O módulo de aplicação de saída 150 é configurado para coletar os dados processados e escrever dados de saída. Mais especificamente, o módulo de aplicação de saída 150 coleta os dados aprimorados do módulo de armazenamento 170 após receber instruções do módulo orquestrador 110. Os dados aprimorados são finalmente gravados em um destino de saída de dados 130 configurado e os logs do pipeline são salvos no módulo de armazenamento 170. O módulo de aplicação de saída 150 envolve o uso de uma estrutura de código aberto para suportar escalabilidade no processo de saída de dados.
[030] Um exemplo de sistema 100 da presente invenção inclui um módulo de processamento 160 que recebe instruções do módulo orquestrador 110 e é configurado para aplicar funções de ciência de dados e processos de engenharia de dados nos dados de entrada, para transformar ou processar dados de acordo com a tarefa em questão. O módulo de processamento 160 GED - 4667537v1 pode ser composto de um bloco de engenharia de dados 161, um bloco de ciência de dados 162, ou uma combinação de ambos. O bloco de engenharia de dados 161 e o bloco de ciência de dados 162 envolvem ferramentas de programação conhecidas comercialmente. O sistema usa uma estrutura sem servidor que permite a implantação de funções e códigos que podem ser executados sobre diferentes infraestruturas.
[031] Numa realização preferencial, o módulo de processamento 160 processa cada um dos vários registros de dados quase em tempo real, preferencialmente pelo mecanismo de processamento dos resultados de processos anteriores.
[032] Exemplos de sistemas 100 de acordo com a presente invenção também incluem um módulo de armazenamento 170 configurado para armazenar dados de entrada, dados processados e dados de saída. O módulo de armazenamento 170 pode ser composto de um ou mais de três dispositivos diferentes, ou seja, um banco de dados em memória 171, um elemento de armazenamento de objetos online 172, e um banco de dados de mecanismo de pesquisa 173. Esses dispositivos 171, 172 e 173 se comunicam com o modulo de aplicação de entrada 140, módulo orquestrador 110, módulo de processamento 160 e módulo de aplicação de saída 150. O módulo de armazenamento 170 armazena todos os dados brutos e processados nos estágios inicial, intermediário e final do pipeline, e armazena o status do pipeline e os logs do(s) referido(s) processo(s).
[033] Um exemplo de sistema 100 da presente invenção também inclui um módulo de mensagem 180 que é configurado para comunicar o módulo de processamento 160 e o módulo orquestrador 110. O módulo de mensagem 180 aciona o módulo de processamento 160 de acordo com os comandos dados pelo módulo orquestrador 110. O módulo de mensagem 180 envolve uma ferramenta de programação conhecida comercialmente que trata várias mensagens de vários dispositivos produtores e vários dispositivos de consumo.
[034] Em uma realização preferencial, o módulo de armazenamento 170 é configurado para armazenar dados de entrada, dados processados e dados de saída. Em pelo menos uma realização, o módulo de armazenamento 170 compreende um banco de dados em memória 171. O banco de dados em memória 171 envolve um banco de dados de armazenamento de chaves em memória que suporta arquivos não binários, como cadeias de caracteres, hashes, listas, etc. Além de seu uso como um banco de dados, o banco de dados em memória 171 também pode ser usado como um dispositivo de mensagens adicional para acompanhar o status do pipeline. O módulo de armazenamento 170 também pode incluir um elemento de armazenamento de objetos online 172 que é usado exclusivamente para arquivos binários, como dados de mídia. O módulo de armazenamento 170 também pode incluir um banco de dados de mecanismo de pesquisa 173 para armazenar logs do sistema e de erros.
[035] Em uma realização preferencial, o módulo de processamento 160 pode ser composto de várias funções de subprocessamento que podem ser instruídas pelo módulo orquestrador 110 para operar em sequência ou em paralelo.
[036] Em uma realização preferencial, o módulo de processamento 160 pode consistir apenas em um bloco de engenharia de dados 161, que executa processos de engenharia de dados em que os dados são transformados.
[037] Em uma realização alternativa, o módulo de processamento 160 pode consistir apenas em um bloco de ciência de dados 162, que executa processos de ciência de dados em que os dados são usados como entrada em um fluxo de trabalho analítico.
[038] Em uma realização preferencial, o banco de dados em memória 171, o elemento de armazenamento de objetos online 172 e o banco de dados de mecanismo de pesquisa 173 são usados de forma intercambiável. Os arquivos binários são armazenados e consumidos no elemento de armazenamento de objetos online 172. Os dados de texto são armazenados e consumidos no banco de dados em memória 171. O banco de dados de mecanismo de pesquisa 173 é usado para rastrear os logs do sistema e as saídas de texto.
[039] Em uma realização preferencial, o sistema 100 pode ser usado para extrair texto, que seria um dado de saída 130, a partir de dados de imagem, que seria uma fonte de dados 120. Nesta realização, os arquivos binários são recebidos pelo módulo de aplicação de entrada 140 e enviados ao módulo de armazenamento 170, particularmente para o elemento de armazenamento de objetos online 172, onde são consumidos pelo módulo de processamento 160. Em sequência, a saída de texto é armazenada no banco de dados em memória 171, onde é consumida pelo módulo de aplicação de saída 150. Todas essas ações são baseadas em instruções enviadas pelo módulo orquestrador 110.
[040] Em uma realização alternativa, o sistema 100 pode ser usado para processar uma imagem, que seria uma fonte de dados 120, em outra imagem, que seria um dado de saída 130. Nesta realização, os arquivos binários são recebidos pelo módulo de aplicação de entrada 140 e enviados ao módulo de armazenamento 170, particularmente ao elemento de armazenamento de objetos online 172, onde são consumidos pelo módulo de processamento 160. Em sequência, a imagem de saída também é armazenada no elemento de armazenamento de objetos online 172, onde é consumida pelo módulo de aplicação de saída 150. Todas essas ações são baseadas em instruções enviadas pelo módulo orquestrador 110.
[041] Em outra realização alternativa, a entrada pode ser de um texto, que seria uma fonte de dados 120, que é processado em outro texto, que seria um dado de saída 130. Nesta realização, os arquivos de texto são recebidos pelo módulo de aplicação de entrada 140 e enviados para o módulo de armazenamento 170, como em um banco de dados em memória 171, onde são consumidos pelo módulo de processamento 160. Em sequência, o texto de saída também é armazenado no banco de dados em memória 171, onde é consumido pelo módulo de aplicação de saída 150. Como são arquivos de texto, cópias dos mesmos são armazenados no banco de dados de mecanismo de pesquisa 173. GED - 4667537v1 Todas essas ações são baseadas em instruções enviadas pelo módulo orquestrador 110.
[042] Em outra realização alternativa, a entrada pode ser um arquivo de áudio, que seria uma fonte de dados 120, processada em um texto, que seria um dado de saída 130. Nesta realização, os arquivos de áudio são recebidos pelo módulo de aplicação de entrada 140 e enviados para o módulo de armazenamento 170, particularmente ao elemento de armazenamento de objetos online 172, onde são consumidos por um bloco de processamento de engenharia de dados 161 que transforma o arquivo em um arquivo binário intermediário, que também é armazenado no elemento de armazenamento de objetos online 172. Em sequência, o arquivo binário é consumido por um bloco de ciência de dados 162. A saída de texto desse processo é armazenada no banco de dados em memória 171, onde é consumida pelo módulo de aplicação de saída 150. Todas essas ações são baseadas em instruções enviadas pelo módulo orquestrador 110.
[043] Com referência agora ao diagrama da FIG. 2, e pelo menos em algumas realizações da presente invenção, o módulo orquestrador 200 pode acionar o processamento de vários processos de engenharia de dados e ciência de dados em paralelo. O módulo de mensagem 230 é responsável por acionar vários blocos de processamento 221-a, 222-a e o módulo orquestrador 200 é responsável por coletar o status de cada bloco de processamento 221-a, 222-a para continuar o fluxo de dados.
[044] Em uma realização preferencial, o módulo orquestrador 200 pode lidar com várias solicitações ao mesmo tempo. Por exemplo, isso ocorre quando novos dados estão disponíveis para serem processados quando o processamento de dados anterior ainda não está concluído. O módulo de mensagem 230 comunica cada elemento dos blocos de engenharia de dados e ciência de dados, por exemplo 221-1 e 222-1, em ordem sequencial. Cada bloco é responsável por gravar e ler dados de cada módulo de armazenamento 210 necessário.
[045] Em uma realização preferencial, o dado de entrada pode ser uma imagem e os blocos de engenharia de dados 221 podem produzir uma imagem. Esses blocos lerão a imagem do elemento de armazenamento de objetos online 212 e gravarão sua saída também no elemento de armazenamento de objetos online 212. Nesse cenário, os blocos de ciência de dados 222 podem inserir uma imagem e produzir um texto. Portanto, os dados serão lidos do armazenamento no elemento de armazenamento de objetos online 212 e a saída será gravada no banco de dados em memória 211, uma vez que a saída é um dado de texto.
[046] Embora várias realizações de dispositivos e sistemas e métodos para a utilização dos mesmos tenham sido descritas em detalhes consideráveis aqui, as realizações são meramente oferecidas como exemplos não limitativos da invenção aqui descrita. Portanto, será entendido que várias alterações e modificações podem ser feitas e elementos podem ser substituídos por seus equivalentes, sem se afastar do escopo da presente invenção. A presente invenção não se destina a ser exaustiva ou limitativa em relação ao seu conteúdo.
[047] Além disso, ao descrever realizações representativas, a presente invenção pode ter apresentado um método e/ ou um processo como uma sequência específica de etapas. No entanto, na medida em que o método ou processo não se baseie na ordem específica de etapas estabelecidas nele, o método ou processo não deve ser limitado à sequência específica de etapas descrita, pois outras sequências de etapas podem ser possíveis. Portanto, a ordem específica das etapas aqui divulgadas não deve ser interpretada como uma limitação da presente invenção. Além disso, a invenção direcionada a um método e/ou processo não deve se limitar ao desempenho de suas etapas na ordem escrita. Tais sequências podem ser variadas e ainda permanecerem dentro do escopo da presente divulgação.

Claims (7)

1. SISTEMA PARA GERENCIAMENTO DE PROCESSOS DE ENGENHARIA DE DADOS (DATA ENGINEERING) E CIÊNCIA DE DADOS (DATA SCIENCE), compreendendo um módulo de aplicação de entrada (140) configurado para ler dados de entrada de fontes de dados (120), um módulo de armazenamento (170) configurado para armazenar dados de entrada, dados processados e dados de saída, um módulo de aplicação de saída (150) configurado para coletar os dados processados e escrever dados de saída (130), o sistema sendo caracterizado por compreender: - um módulo de processamento (160) configurado para aplicar funções de ciência de dados e processos de engenharia de dados aos dados de entrada, o módulo de processamento (160) sendo configurado para aplicar múltiplas funções de engenharia de dados e ciência de dados simultaneamente; - um módulo orquestrador (110) configurado para gerenciar o fluxo de dados com regras predefinidas sobre quais módulos devem ser acionados de acordo com os dados de entrada e os dados de saída, o módulo orquestrador (110) sendo configurado para se comunicar com o módulo de aplicação de saída (150) para escrever dados de saída; - o módulo orquestrador (110) compreendendo uma unidade de memória (111) que armazena as regras predefinidas sobre quais módulos devem ser acionados de acordo com os dados de entrada e os dados de saída, a unidade de memória (111) sendo capaz de manipular arquivos de configuração para pipelines em conjunto; e - um módulo de mensagem (180) configurado para comunicar o módulo de processamento (160) e o módulo orquestrador (110), o módulo de mensagem (180) acionando o módulo de processamento (160) de acordo com comandos dados pelo módulo orquestrador (110).
2. SISTEMA, de acordo com a reivindicação 1, caracterizado pela unidade de memória (111) armazenar o endereço de cada módulo.
3. SISTEMA, de acordo com a reivindicação 1, caracterizado pelo módulo de processamento (160) compreender um bloco de engenharia de dados (161) e um bloco de ciência de dados (162).
4. SISTEMA, de acordo com a reivindicação 1, caracterizado pelo módulo de armazenamento (170) compreender um banco de dados em memória (171), um elemento de armazenamento de objetos online (172) e um banco de dados de mecanismo de pesquisa (173).
5. SISTEMA, de acordo com a reivindicação 1, caracterizado pelo módulo de armazenamento (170) compreender um banco de dados em memória (171) que armazena dados de texto, um elemento de armazenamento de objeto online (172) que armazena arquivos binários, e um banco de dados de mecanismo de pesquisa (172) que armazena arquivos de registros de logs do sistema e textos de saída.
6. SISTEMA, de acordo com a reivindicação 1, caracterizado pelas regras predefinidas envolverem uma ou mais regras para organizar a sequência de processos a serem aplicados aos dados após a extração dos dados da fonte de dados (120), em que as uma ou mais regras predefinidas definem um processo em lote ou um processo em tempo real, e em que uma ou mais regras de sequência compreendem regras para avaliar, transformar e analisar os dados.
7. SISTEMA, de acordo com a reivindicação 1, caracterizado pelo módulo de processamento (160) processar cada um dos vários registros de dados quase em tempo real, preferencialmente pelo mecanismo de processamento de resultados de processos anteriores.
BR102020003282-8A 2020-02-17 2020-02-17 Sistema para gerenciamento de processos de engenharia de dados (data engineering) e ciência de dados (data science) BR102020003282B1 (pt)

Priority Applications (2)

Application Number Priority Date Filing Date Title
BR102020003282-8A BR102020003282B1 (pt) 2020-02-17 2020-02-17 Sistema para gerenciamento de processos de engenharia de dados (data engineering) e ciência de dados (data science)
US17/178,180 US20210256014A1 (en) 2020-02-17 2021-02-17 System for data engineering and data science process management

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
BR102020003282-8A BR102020003282B1 (pt) 2020-02-17 2020-02-17 Sistema para gerenciamento de processos de engenharia de dados (data engineering) e ciência de dados (data science)

Publications (2)

Publication Number Publication Date
BR102020003282A2 BR102020003282A2 (pt) 2021-08-31
BR102020003282B1 true BR102020003282B1 (pt) 2022-05-24

Family

ID=77272830

Family Applications (1)

Application Number Title Priority Date Filing Date
BR102020003282-8A BR102020003282B1 (pt) 2020-02-17 2020-02-17 Sistema para gerenciamento de processos de engenharia de dados (data engineering) e ciência de dados (data science)

Country Status (2)

Country Link
US (1) US20210256014A1 (pt)
BR (1) BR102020003282B1 (pt)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11922208B1 (en) * 2023-05-31 2024-03-05 Intuit Inc. Hybrid model for time series data processing

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6151689A (en) * 1992-12-17 2000-11-21 Tandem Computers Incorporated Detecting and isolating errors occurring in data communication in a multiple processor system
US7290056B1 (en) * 1999-09-09 2007-10-30 Oracle International Corporation Monitoring latency of a network to manage termination of distributed transactions
US7206805B1 (en) * 1999-09-09 2007-04-17 Oracle International Corporation Asynchronous transcription object management system
US8793262B2 (en) * 2010-03-05 2014-07-29 Oracle International Corporation Correlating and mapping original orders with new orders for adjusting long running order management fulfillment processes
US9904898B2 (en) * 2010-03-05 2018-02-27 Oracle International Corporation Distributed order orchestration system with rules engine
US20110218921A1 (en) * 2010-03-05 2011-09-08 Oracle International Corporation Notify/inquire fulfillment systems before processing change requests for adjusting long running order management fulfillment processes in a distributed order orchestration system
US8838575B2 (en) * 2011-08-03 2014-09-16 Sap Ag Generic framework for historical analysis of business objects
US8880493B2 (en) * 2011-09-28 2014-11-04 Hewlett-Packard Development Company, L.P. Multi-streams analytics
US9886486B2 (en) * 2014-09-24 2018-02-06 Oracle International Corporation Enriching events with dynamically typed big data for event processing
US10168691B2 (en) * 2014-10-06 2019-01-01 Fisher-Rosemount Systems, Inc. Data pipeline for process control system analytics
US10331156B2 (en) * 2015-03-03 2019-06-25 Leidos, Inc. System and method for big data geographic information system discovery
WO2017018901A1 (en) * 2015-07-24 2017-02-02 Oracle International Corporation Visually exploring and analyzing event streams
EP3125056B1 (de) * 2015-07-30 2021-04-07 Siemens Aktiengesellschaft System und verfahren zur steuerung und/oder analytik eines industriellen prozesses
US20200222010A1 (en) * 2016-04-22 2020-07-16 Newton Howard System and method for deep mind analysis
US11126946B2 (en) * 2016-10-20 2021-09-21 Diwo, Llc Opportunity driven system and method based on cognitive decision-making process
US11227001B2 (en) * 2017-01-31 2022-01-18 Experian Information Solutions, Inc. Massive scale heterogeneous data ingestion and user resolution
US11281673B2 (en) * 2018-02-08 2022-03-22 Parallel Wireless, Inc. Data pipeline for scalable analytics and management
CA3050220A1 (en) * 2018-07-19 2020-01-19 Bank Of Montreal Systems and methods for data storage and processing
US20200175528A1 (en) * 2018-12-03 2020-06-04 Accenture Global Solutions Limited Predicting and preventing returns using transformative data-driven analytics and machine learning
US11836144B2 (en) * 2019-03-12 2023-12-05 Tecnotree Technologies, Inc. Augmented intelligence system architecture
US11645620B2 (en) * 2019-03-15 2023-05-09 Tecnotree Technologies, Inc. Framework for explainability with recourse of black-box trained classifiers and assessment of fairness and robustness of black-box trained classifiers

Also Published As

Publication number Publication date
US20210256014A1 (en) 2021-08-19
BR102020003282A2 (pt) 2021-08-31

Similar Documents

Publication Publication Date Title
Ghaleb et al. An empirical study of the long duration of continuous integration builds
Ekanayake et al. Mapreduce for data intensive scientific analyses
Garg et al. Challenges and techniques for testing of big data
Lichtenwalter et al. Lpmade: Link prediction made easy
Hingave et al. An approach for MapReduce based log analysis using Hadoop
Jiang et al. Parallel K-Medoids clustering algorithm based on Hadoop
US11797337B2 (en) Data processing management methods for imaging applications
BR102020003282B1 (pt) Sistema para gerenciamento de processos de engenharia de dados (data engineering) e ciência de dados (data science)
Dede et al. Riding the elephant: managing ensembles with hadoop
Lytvyn et al. Development of Intellectual System for Data De-Duplication and Distribution in Cloud Storage.
Kuftinova et al. Data Fabric Digital Array Processing in Road Transport Systems
Prasad et al. Improving the performance of processing for small files in Hadoop: A case study of weather data analytics
Totaro et al. ISODAC: A high performance solution for indexing and searching heterogeneous data
Dolgert et al. Provenance in high-energy physics workflows
Tinetti et al. Hadoop scalability and performance testing in heterogeneous clusters
Shahverdi et al. Comparative evaluation for the performance of big stream processing systems
Nagdive et al. A review of Hadoop ecosystem for bigdata
Chaffai et al. E-learning real time analysis using large scale infrastructure
Hübner et al. Increasing precision of automatically generated trace links
Alawini et al. Towards automated prediction of relationships among scientific datasets
Bhardwaj et al. BDT3V—A Technique for big data testing considering 3V’s
Naik et al. A Hadoop Framework Require to Process Big data very easily and efficiently
Rauber et al. Repeatability and Re-usability in Scientific Processes: Process Context, Data Identification and Verification.
Duc et al. A scalable hadoop/spark framework for general-purpose analysis of high volume passive acoustic data
Oeste et al. Analyzing Parallel Applications for Unnecessary I/O Semantics that Inhibit File System Performance

Legal Events

Date Code Title Description
B15G Petition not considered as such [chapter 15.7 patent gazette]

Free format text: NAO CONHECIDA A PETICAO NO 800210269655 DE 09/08/2021 EM VIRTUDE DO DISPOSTO NO ART. 219, INCISO II DA LPI

B03A Publication of a patent application or of a certificate of addition of invention [chapter 3.1 patent gazette]
B25G Requested change of headquarter approved

Owner name: SEMANTIX TECNOLOGIA EM SISTEMA DE INFORMACAO S.A (BR/SP)

B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B15K Others concerning applications: alteration of classification

Free format text: A CLASSIFICACAO ANTERIOR ERA: G06F 16/25

Ipc: G06F 16/23 (2019.01), G06F 16/245 (2019.01)

B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 17/02/2020, OBSERVADAS AS CONDICOES LEGAIS