BR102020003282B1 - Sistema para gerenciamento de processos de engenharia de dados (data engineering) e ciência de dados (data science) - Google Patents
Sistema para gerenciamento de processos de engenharia de dados (data engineering) e ciência de dados (data science) Download PDFInfo
- Publication number
- BR102020003282B1 BR102020003282B1 BR102020003282-8A BR102020003282A BR102020003282B1 BR 102020003282 B1 BR102020003282 B1 BR 102020003282B1 BR 102020003282 A BR102020003282 A BR 102020003282A BR 102020003282 B1 BR102020003282 B1 BR 102020003282B1
- Authority
- BR
- Brazil
- Prior art keywords
- data
- module
- output
- engineering
- processes
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2379—Updates performed during online database operations; commit processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Programmable Controllers (AREA)
Abstract
SISTEMA PARA GERENCIAMENTO DE PROCESSOS DE ENGENHARIA DE DADOS (DATA ENGINEERING) E CIÊNCIA DE DADOS (DATA SCIENCE). A presente invenção revela um sistema para gerenciamento de processos de engenharia de dados (data engineering) e ciência de dados (data science), caracterizado por compreender: um módulo de aplicação de entrada configurado para ler dados de entrada de fontes de dados; um módulo de processamento configurado para aplicar funções de ciência de dados e processos de engenharia de dados aos dados de entrada; um módulo de armazenamento configurado para armazenar dados de entrada, dados processados e dados de saída; um módulo de aplicação de saída configurado para coletar os dados processados e escrever dados de saída; um módulo orquestrador configurado para gerenciar o fluxo de dados com regras predefinidas sobre quais módulos devem ser acionados de acordo com os dados de entrada e os dados de saída; e um módulo de mensagem configurado para comunicar o módulo de processamento e o módulo orquestrador.
Description
[001] A presente invenção se relaciona a Big Data e Data Science.
[002] Tecnologias de Big Data têm sido adotadas por pequenas e grandes empresas há anos. Os sistemas mais utilizados para pipelines de dados seguem três processos principais relacionados aos dados, a saber: coleta, gerenciamento e análise.
[003] Embora diferentes setores e projetos tenham seus próprios requisitos em relação a cronogramas, robustez e taxa de transferência, os componentes que gerenciam e analisam dados poderiam ser organizados em uma arquitetura bem definida, pronta para ser reutilizada em diferentes projetos.
[004] Nos pipelines de dados compreendidos no estado da técnica, cada novo projeto exige que uma nova arquitetura seja projetada especificamente de acordo com os requisitos do projeto.
[005] O estado da técnica não possui uma arquitetura capaz de se adaptar a diferentes projetos de Big Data e Data Science em um único sistema.
[006] A presente invenção inclui a descrição de vários sistemas, como um sistema que fornece uma arquitetura flexível de Big Data que explora módulos intermediários de programas de computador e tecnologias disponíveis para processar grandes quantidades de dados em paralelo. Essa arquitetura se encaixa nos principais princípios do Big Data relacionados à ciência e engenharia de dados, como armazenamento de dados, manutenção de dados, descoberta de dados e análise de dados. Como o sistema armazena dados e fornece conexões a sistemas externos via APIs (Application Programming Interfaces - interfaces de programação de aplicações), é possível visualizar os resultados atuais e elaborar análises posteriormente.
[007] Sistemas que exemplificam a presente invenção fornecem um componente orquestrador que traz flexibilidade ao design de qualquer pipeline de análise ou transformação de dados. Devido ao serviço de orquestração, a arquitetura pode ser flexível a qualquer canal de processamento de dados e seus componentes garantem resiliência sem serem impactados pela quantidade de dados recebidos pela arquitetura.
[008] A presente invenção inclui a descrição de um sistema para gerenciamento de processos de engenharia de dados e ciência de dados, compreendendo um módulo de aplicação de entrada configurado para ler dados de entrada de fontes de dados, um módulo de processamento configurado para aplicar funções da ciência de dados e processos de engenharia de dados nos dados de entrada, um módulo de armazenamento configurado para armazenar dados de entrada, dados processados e dados de saída, um módulo de aplicação de saída configurado para coletar os dados processados e escrever dados de saída, um módulo de orquestrador configurado para gerenciar o fluxo de dados com regras predefinidas sobre quais módulos devem ser acionados de acordo com os dados de entrada e dados de saída, e um módulo de mensagem configurado para comunicar o módulo de processamento e o módulo orquestrador.
[009] A presente invenção inclui a divulgação de um sistema para gerenciamento de processos de engenharia de dados e ciência de dados, em que o módulo orquestrador compreende uma unidade de memória que armazena as regras predefinidas sobre quais módulos devem ser acionados de acordo com os dados de entrada e os dados de saída.
[010] A presente invenção inclui a divulgação de um sistema para gerenciamento de processos de engenharia de dados e ciência de dados, em que o módulo orquestrador compreende uma unidade de memória que armazena o endereço de cada módulo.
[011] A presente invenção inclui a divulgação de um sistema para gerenciamento de processos de engenharia de dados e ciência de dados, em GED - 4667537v1 que o módulo de processamento compreende um bloco de engenharia de dados e um bloco de ciência de dados.
[012] A presente invenção inclui a divulgação de um sistema para gerenciamento de processos de engenharia de dados e ciência de dados, em que o módulo de armazenamento compreende um banco de dados em memória, um elemento de armazenamento de objetos on-line e um banco de dados de mecanismo de pesquisa.
[013] A presente invenção inclui a divulgação de um sistema para gerenciamento de processos de engenharia de dados e ciência de dados, em que o módulo de armazenamento compreende um banco de dados em memória que armazena dados de texto, um elemento de armazenamento de objeto online que armazena arquivos binários, e um banco de dados de mecanismo de pesquisa que armazena registros de logs do sistema e textos de saída.
[014] A presente invenção inclui a divulgação de um sistema para gerenciamento de processos de engenharia de dados e ciência de dados, em que o módulo de processamento é configurado para aplicar múltiplas funções de engenharia de dados e ciência de dados simultaneamente.
[015] A presente invenção inclui a divulgação de um sistema para gerenciamento de processos de engenharia de dados e ciência de dados, em que as regras predefinidas envolvem uma ou mais regras para organizar a sequência de processos a serem aplicados aos dados após a extração dos dados da fonte de dados, em que as uma ou mais regras predefinidas definem um processo em lote ou em tempo real e em que as uma ou mais regras de sequência compreendem regras para avaliar, transformar e analisar os dados.
[016] A presente invenção inclui a divulgação de um sistema para gerenciamento de processos de engenharia de dados e ciência de dados, em que o módulo de processamento processa cada um dos vários registros de dados quase em tempo real, de preferência pelo mecanismo de processamento de resultados de processos anteriores.
[017] As realizações divulgadas e outras características, vantagens e divulgações contidas neste documento, e o modo de alcançá-las, tornar-se-ão aparentes e a presente invenção será melhor compreendida por referência à descrição a seguir de várias realizações exemplares da presente invenção tomadas em conjunto com os desenhos anexos, em que:
[018] FIG. 1 representa um diagrama do sistema configurado para uma modalidade geral, de acordo com um exemplo de realização da presente invenção; e
[019] FIG. 2 representa um diagrama detalhado da paralelização de tarefas dentro da arquitetura, de acordo com um exemplo de realização da presente divulgação.
[020] Como tal, agora será apresentada uma visão geral das características, funções e / ou configurações dos componentes representados nas várias figuras. Deve-se considerar que nem todas as características dos componentes das figuras são necessariamente descritas e algumas dessas características não discutidas (bem como as características discutidas) são inerentes às próprias figuras. Outras características não discutidas podem ser inerentes à geometria e / ou configuração do componente. Além disso, sempre que possível e conveniente, números de referência semelhantes são usados nas figuras e na descrição para se referir às mesmas partes ou etapas correspondentes. Os números estão de forma simplificada e sem escala precisa.
[021] Para os propósitos de promover uma compreensão dos princípios da presente invenção, será agora feita referência às realizações ilustradas nos desenhos, e uma linguagem específica será usada para descrever a mesma. No entanto, será entendido que nenhuma limitação do escopo desta invenção é assim pretendida.
[022] A presente invenção inclui a divulgação de um sistema 100 (que também pode ser referido neste documento em algumas realizações como um computador) disposto para processar dados de uma variedade de fontes de dados, de uma forma escalável e paralelizável. Os sistemas divulgados gerenciam ciência de dados e processos de engenharia de dados em uma arquitetura de computação paralela, em um estilo para fornecer flexibilidade para diferentes aplicações, mantendo um conjunto fixo de componentes usados em uma arquitetura bem definida que controla o fluxo de dados e garante a conclusão dos processos.
[023] Um exemplo de sistema 100, de acordo com a presente invenção, compreende um módulo de aplicação de entrada 140, configurado para coletar dados de uma fonte de dados. Uma vez que os dados são coletados pelo módulo de aplicação de entrada 140, um módulo orquestrador 110 é acionado. O módulo orquestrador 110 é configurado para gerenciar o fluxo de dados e é responsável por receber o status de outros componentes no sistema 100, acionando o processamento das funções de avaliação de dados, transformação de dados e análise de dados, gerenciando o fluxo de transformações dos dados no pipeline e armazenando a localização dos dados no sistema de banco de dados. De acordo com a presente invenção, o módulo orquestrador 110 é o único componente que se comunica diretamente com outros componentes no pipeline, tornando toda a comunicação entre aquisição de dados, transformação de dados, análise de dados e módulos de saída indireta. Os componentes restantes do sistema 100, de acordo com a presente invenção e geralmente referidos como os blocos de processamento, mantêm todas as funções de engenharia de dados e ciência de dados no pipeline, realizando toda a transformação e inferência nos dados. Embora as funções dos blocos de processamento variem dependendo do uso do sistema 100, a estrutura de comunicação com esses blocos de processamento, o módulo orquestrador 110 e o sistema de armazenamento permanecerá o mesmo. O sistema 100, de acordo com a presente invenção, também compreende um módulo de aplicação de saída 150, que grava os logs do sistema em um sistema de armazenamento, reúne dados aprimorados nas etapas anteriores e os envia para um sistema de streaming de saída ou armazenamento.
[024] Na FIG. 1 é representada a arquitetura de um sistema 100 de acordo com a presente invenção, para implantar processos de engenharia de dados e ciência de dados de maneira escalável. O sistema 100 ilustrado na FIG. 1 inclui um módulo orquestrador 110, que envolve ferramentas de programação conhecidas comercialmente que permitem a comunicação e a integração de diferentes dispositivos de hardware, APIs (Application Programming Interfaces - interfaces de programação de aplicações) e serviços online. O sistema 100 também inclui um módulo de aplicação de entrada 140 projetado para receber dados brutos de fontes de dados 120. Os dados brutos podem estar na forma de cargas em lote ou dados de streaming. O sistema 100 também inclui um módulo de aplicação de saída 150 projetado para enviar resultados do processo para um destino de dados de saída 130, uma vez comunicado pelo módulo orquestrador 110.
[025] O módulo orquestrador 110 é uma estrutura fixa responsável pelo gerenciamento dos pipelines do sistema 100. O módulo orquestrador 110 é configurado para gerenciar o fluxo de dados com regras predefinidas sobre quais módulos devem ser acionados de acordo com os dados de entradas e dados de saída. O módulo orquestrador 110 compreende uma unidade de memória 111, que compreende um arquivo que contém o endereço de cada módulo de aplicação de entrada 140, módulo de aplicação de saída 150, um módulo de processamento 160, um módulo de armazenamento 170 e um módulo de mensagem 180, e etapas predefinidas necessárias para finalizar cada pipeline específico. A unidade de memória 111 do módulo orquestrador 110 compreende informações sobre quais submódulos participarão em cada pipeline e pode lidar com vários pipelines em conjunto, manipulando vários arquivos de configuração, um para cada pipeline. A unidade de memória 111 compreende regras predefinidas sobre quais módulos devem ser acionados dependendo dos dados de entrada e dados de saída, bem como os processos de ciência de dados e engenharia de dados a serem conduzidos.
[026] Em uma realização preferencial, as regras predefinidas envolvem uma ou mais regras para organizar a sequência de processos a serem aplicados aos dados após a extração dos dados da fonte de dados, em que as uma ou mais regras predefinidas definem um processo em lote ou um processo em tempo real, e as uma ou mais regras de sequência compreendem regras para avaliar, transformar e analisar os dados.
[027] O módulo orquestrador 110 é empregado para dar flexibilidade ao sistema 100, enquanto os outros submódulos, módulo de aplicação de entrada 140, módulo de aplicação de saída 150, módulo de processamento 160, módulo de armazenamento 170 e módulo de mensagem 180 fornecerão escalabilidade ao sistema 100.
[028] O módulo de aplicação de entrada 140 lê dados brutos de uma fonte de dados 120 configurada, grava dados brutos no módulo de armazenamento 170 e comunica ao módulo orquestrador 110 que os dados estão prontos para serem analisados por outros elementos do pipeline. O módulo de aplicação de entrada 140 envolve o uso de uma estrutura de código aberto para suportar escalabilidade na análise de dados.
[029] O módulo de aplicação de saída 150 é configurado para coletar os dados processados e escrever dados de saída. Mais especificamente, o módulo de aplicação de saída 150 coleta os dados aprimorados do módulo de armazenamento 170 após receber instruções do módulo orquestrador 110. Os dados aprimorados são finalmente gravados em um destino de saída de dados 130 configurado e os logs do pipeline são salvos no módulo de armazenamento 170. O módulo de aplicação de saída 150 envolve o uso de uma estrutura de código aberto para suportar escalabilidade no processo de saída de dados.
[030] Um exemplo de sistema 100 da presente invenção inclui um módulo de processamento 160 que recebe instruções do módulo orquestrador 110 e é configurado para aplicar funções de ciência de dados e processos de engenharia de dados nos dados de entrada, para transformar ou processar dados de acordo com a tarefa em questão. O módulo de processamento 160 GED - 4667537v1 pode ser composto de um bloco de engenharia de dados 161, um bloco de ciência de dados 162, ou uma combinação de ambos. O bloco de engenharia de dados 161 e o bloco de ciência de dados 162 envolvem ferramentas de programação conhecidas comercialmente. O sistema usa uma estrutura sem servidor que permite a implantação de funções e códigos que podem ser executados sobre diferentes infraestruturas.
[031] Numa realização preferencial, o módulo de processamento 160 processa cada um dos vários registros de dados quase em tempo real, preferencialmente pelo mecanismo de processamento dos resultados de processos anteriores.
[032] Exemplos de sistemas 100 de acordo com a presente invenção também incluem um módulo de armazenamento 170 configurado para armazenar dados de entrada, dados processados e dados de saída. O módulo de armazenamento 170 pode ser composto de um ou mais de três dispositivos diferentes, ou seja, um banco de dados em memória 171, um elemento de armazenamento de objetos online 172, e um banco de dados de mecanismo de pesquisa 173. Esses dispositivos 171, 172 e 173 se comunicam com o modulo de aplicação de entrada 140, módulo orquestrador 110, módulo de processamento 160 e módulo de aplicação de saída 150. O módulo de armazenamento 170 armazena todos os dados brutos e processados nos estágios inicial, intermediário e final do pipeline, e armazena o status do pipeline e os logs do(s) referido(s) processo(s).
[033] Um exemplo de sistema 100 da presente invenção também inclui um módulo de mensagem 180 que é configurado para comunicar o módulo de processamento 160 e o módulo orquestrador 110. O módulo de mensagem 180 aciona o módulo de processamento 160 de acordo com os comandos dados pelo módulo orquestrador 110. O módulo de mensagem 180 envolve uma ferramenta de programação conhecida comercialmente que trata várias mensagens de vários dispositivos produtores e vários dispositivos de consumo.
[034] Em uma realização preferencial, o módulo de armazenamento 170 é configurado para armazenar dados de entrada, dados processados e dados de saída. Em pelo menos uma realização, o módulo de armazenamento 170 compreende um banco de dados em memória 171. O banco de dados em memória 171 envolve um banco de dados de armazenamento de chaves em memória que suporta arquivos não binários, como cadeias de caracteres, hashes, listas, etc. Além de seu uso como um banco de dados, o banco de dados em memória 171 também pode ser usado como um dispositivo de mensagens adicional para acompanhar o status do pipeline. O módulo de armazenamento 170 também pode incluir um elemento de armazenamento de objetos online 172 que é usado exclusivamente para arquivos binários, como dados de mídia. O módulo de armazenamento 170 também pode incluir um banco de dados de mecanismo de pesquisa 173 para armazenar logs do sistema e de erros.
[035] Em uma realização preferencial, o módulo de processamento 160 pode ser composto de várias funções de subprocessamento que podem ser instruídas pelo módulo orquestrador 110 para operar em sequência ou em paralelo.
[036] Em uma realização preferencial, o módulo de processamento 160 pode consistir apenas em um bloco de engenharia de dados 161, que executa processos de engenharia de dados em que os dados são transformados.
[037] Em uma realização alternativa, o módulo de processamento 160 pode consistir apenas em um bloco de ciência de dados 162, que executa processos de ciência de dados em que os dados são usados como entrada em um fluxo de trabalho analítico.
[038] Em uma realização preferencial, o banco de dados em memória 171, o elemento de armazenamento de objetos online 172 e o banco de dados de mecanismo de pesquisa 173 são usados de forma intercambiável. Os arquivos binários são armazenados e consumidos no elemento de armazenamento de objetos online 172. Os dados de texto são armazenados e consumidos no banco de dados em memória 171. O banco de dados de mecanismo de pesquisa 173 é usado para rastrear os logs do sistema e as saídas de texto.
[039] Em uma realização preferencial, o sistema 100 pode ser usado para extrair texto, que seria um dado de saída 130, a partir de dados de imagem, que seria uma fonte de dados 120. Nesta realização, os arquivos binários são recebidos pelo módulo de aplicação de entrada 140 e enviados ao módulo de armazenamento 170, particularmente para o elemento de armazenamento de objetos online 172, onde são consumidos pelo módulo de processamento 160. Em sequência, a saída de texto é armazenada no banco de dados em memória 171, onde é consumida pelo módulo de aplicação de saída 150. Todas essas ações são baseadas em instruções enviadas pelo módulo orquestrador 110.
[040] Em uma realização alternativa, o sistema 100 pode ser usado para processar uma imagem, que seria uma fonte de dados 120, em outra imagem, que seria um dado de saída 130. Nesta realização, os arquivos binários são recebidos pelo módulo de aplicação de entrada 140 e enviados ao módulo de armazenamento 170, particularmente ao elemento de armazenamento de objetos online 172, onde são consumidos pelo módulo de processamento 160. Em sequência, a imagem de saída também é armazenada no elemento de armazenamento de objetos online 172, onde é consumida pelo módulo de aplicação de saída 150. Todas essas ações são baseadas em instruções enviadas pelo módulo orquestrador 110.
[041] Em outra realização alternativa, a entrada pode ser de um texto, que seria uma fonte de dados 120, que é processado em outro texto, que seria um dado de saída 130. Nesta realização, os arquivos de texto são recebidos pelo módulo de aplicação de entrada 140 e enviados para o módulo de armazenamento 170, como em um banco de dados em memória 171, onde são consumidos pelo módulo de processamento 160. Em sequência, o texto de saída também é armazenado no banco de dados em memória 171, onde é consumido pelo módulo de aplicação de saída 150. Como são arquivos de texto, cópias dos mesmos são armazenados no banco de dados de mecanismo de pesquisa 173. GED - 4667537v1 Todas essas ações são baseadas em instruções enviadas pelo módulo orquestrador 110.
[042] Em outra realização alternativa, a entrada pode ser um arquivo de áudio, que seria uma fonte de dados 120, processada em um texto, que seria um dado de saída 130. Nesta realização, os arquivos de áudio são recebidos pelo módulo de aplicação de entrada 140 e enviados para o módulo de armazenamento 170, particularmente ao elemento de armazenamento de objetos online 172, onde são consumidos por um bloco de processamento de engenharia de dados 161 que transforma o arquivo em um arquivo binário intermediário, que também é armazenado no elemento de armazenamento de objetos online 172. Em sequência, o arquivo binário é consumido por um bloco de ciência de dados 162. A saída de texto desse processo é armazenada no banco de dados em memória 171, onde é consumida pelo módulo de aplicação de saída 150. Todas essas ações são baseadas em instruções enviadas pelo módulo orquestrador 110.
[043] Com referência agora ao diagrama da FIG. 2, e pelo menos em algumas realizações da presente invenção, o módulo orquestrador 200 pode acionar o processamento de vários processos de engenharia de dados e ciência de dados em paralelo. O módulo de mensagem 230 é responsável por acionar vários blocos de processamento 221-a, 222-a e o módulo orquestrador 200 é responsável por coletar o status de cada bloco de processamento 221-a, 222-a para continuar o fluxo de dados.
[044] Em uma realização preferencial, o módulo orquestrador 200 pode lidar com várias solicitações ao mesmo tempo. Por exemplo, isso ocorre quando novos dados estão disponíveis para serem processados quando o processamento de dados anterior ainda não está concluído. O módulo de mensagem 230 comunica cada elemento dos blocos de engenharia de dados e ciência de dados, por exemplo 221-1 e 222-1, em ordem sequencial. Cada bloco é responsável por gravar e ler dados de cada módulo de armazenamento 210 necessário.
[045] Em uma realização preferencial, o dado de entrada pode ser uma imagem e os blocos de engenharia de dados 221 podem produzir uma imagem. Esses blocos lerão a imagem do elemento de armazenamento de objetos online 212 e gravarão sua saída também no elemento de armazenamento de objetos online 212. Nesse cenário, os blocos de ciência de dados 222 podem inserir uma imagem e produzir um texto. Portanto, os dados serão lidos do armazenamento no elemento de armazenamento de objetos online 212 e a saída será gravada no banco de dados em memória 211, uma vez que a saída é um dado de texto.
[046] Embora várias realizações de dispositivos e sistemas e métodos para a utilização dos mesmos tenham sido descritas em detalhes consideráveis aqui, as realizações são meramente oferecidas como exemplos não limitativos da invenção aqui descrita. Portanto, será entendido que várias alterações e modificações podem ser feitas e elementos podem ser substituídos por seus equivalentes, sem se afastar do escopo da presente invenção. A presente invenção não se destina a ser exaustiva ou limitativa em relação ao seu conteúdo.
[047] Além disso, ao descrever realizações representativas, a presente invenção pode ter apresentado um método e/ ou um processo como uma sequência específica de etapas. No entanto, na medida em que o método ou processo não se baseie na ordem específica de etapas estabelecidas nele, o método ou processo não deve ser limitado à sequência específica de etapas descrita, pois outras sequências de etapas podem ser possíveis. Portanto, a ordem específica das etapas aqui divulgadas não deve ser interpretada como uma limitação da presente invenção. Além disso, a invenção direcionada a um método e/ou processo não deve se limitar ao desempenho de suas etapas na ordem escrita. Tais sequências podem ser variadas e ainda permanecerem dentro do escopo da presente divulgação.
Claims (7)
1. SISTEMA PARA GERENCIAMENTO DE PROCESSOS DE ENGENHARIA DE DADOS (DATA ENGINEERING) E CIÊNCIA DE DADOS (DATA SCIENCE), compreendendo um módulo de aplicação de entrada (140) configurado para ler dados de entrada de fontes de dados (120), um módulo de armazenamento (170) configurado para armazenar dados de entrada, dados processados e dados de saída, um módulo de aplicação de saída (150) configurado para coletar os dados processados e escrever dados de saída (130), o sistema sendo caracterizado por compreender: - um módulo de processamento (160) configurado para aplicar funções de ciência de dados e processos de engenharia de dados aos dados de entrada, o módulo de processamento (160) sendo configurado para aplicar múltiplas funções de engenharia de dados e ciência de dados simultaneamente; - um módulo orquestrador (110) configurado para gerenciar o fluxo de dados com regras predefinidas sobre quais módulos devem ser acionados de acordo com os dados de entrada e os dados de saída, o módulo orquestrador (110) sendo configurado para se comunicar com o módulo de aplicação de saída (150) para escrever dados de saída; - o módulo orquestrador (110) compreendendo uma unidade de memória (111) que armazena as regras predefinidas sobre quais módulos devem ser acionados de acordo com os dados de entrada e os dados de saída, a unidade de memória (111) sendo capaz de manipular arquivos de configuração para pipelines em conjunto; e - um módulo de mensagem (180) configurado para comunicar o módulo de processamento (160) e o módulo orquestrador (110), o módulo de mensagem (180) acionando o módulo de processamento (160) de acordo com comandos dados pelo módulo orquestrador (110).
2. SISTEMA, de acordo com a reivindicação 1, caracterizado pela unidade de memória (111) armazenar o endereço de cada módulo.
3. SISTEMA, de acordo com a reivindicação 1, caracterizado pelo módulo de processamento (160) compreender um bloco de engenharia de dados (161) e um bloco de ciência de dados (162).
4. SISTEMA, de acordo com a reivindicação 1, caracterizado pelo módulo de armazenamento (170) compreender um banco de dados em memória (171), um elemento de armazenamento de objetos online (172) e um banco de dados de mecanismo de pesquisa (173).
5. SISTEMA, de acordo com a reivindicação 1, caracterizado pelo módulo de armazenamento (170) compreender um banco de dados em memória (171) que armazena dados de texto, um elemento de armazenamento de objeto online (172) que armazena arquivos binários, e um banco de dados de mecanismo de pesquisa (172) que armazena arquivos de registros de logs do sistema e textos de saída.
6. SISTEMA, de acordo com a reivindicação 1, caracterizado pelas regras predefinidas envolverem uma ou mais regras para organizar a sequência de processos a serem aplicados aos dados após a extração dos dados da fonte de dados (120), em que as uma ou mais regras predefinidas definem um processo em lote ou um processo em tempo real, e em que uma ou mais regras de sequência compreendem regras para avaliar, transformar e analisar os dados.
7. SISTEMA, de acordo com a reivindicação 1, caracterizado pelo módulo de processamento (160) processar cada um dos vários registros de dados quase em tempo real, preferencialmente pelo mecanismo de processamento de resultados de processos anteriores.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
BR102020003282-8A BR102020003282B1 (pt) | 2020-02-17 | 2020-02-17 | Sistema para gerenciamento de processos de engenharia de dados (data engineering) e ciência de dados (data science) |
US17/178,180 US20210256014A1 (en) | 2020-02-17 | 2021-02-17 | System for data engineering and data science process management |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
BR102020003282-8A BR102020003282B1 (pt) | 2020-02-17 | 2020-02-17 | Sistema para gerenciamento de processos de engenharia de dados (data engineering) e ciência de dados (data science) |
Publications (2)
Publication Number | Publication Date |
---|---|
BR102020003282A2 BR102020003282A2 (pt) | 2021-08-31 |
BR102020003282B1 true BR102020003282B1 (pt) | 2022-05-24 |
Family
ID=77272830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR102020003282-8A BR102020003282B1 (pt) | 2020-02-17 | 2020-02-17 | Sistema para gerenciamento de processos de engenharia de dados (data engineering) e ciência de dados (data science) |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210256014A1 (pt) |
BR (1) | BR102020003282B1 (pt) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11922208B1 (en) * | 2023-05-31 | 2024-03-05 | Intuit Inc. | Hybrid model for time series data processing |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6151689A (en) * | 1992-12-17 | 2000-11-21 | Tandem Computers Incorporated | Detecting and isolating errors occurring in data communication in a multiple processor system |
US7290056B1 (en) * | 1999-09-09 | 2007-10-30 | Oracle International Corporation | Monitoring latency of a network to manage termination of distributed transactions |
US7206805B1 (en) * | 1999-09-09 | 2007-04-17 | Oracle International Corporation | Asynchronous transcription object management system |
US8793262B2 (en) * | 2010-03-05 | 2014-07-29 | Oracle International Corporation | Correlating and mapping original orders with new orders for adjusting long running order management fulfillment processes |
US9904898B2 (en) * | 2010-03-05 | 2018-02-27 | Oracle International Corporation | Distributed order orchestration system with rules engine |
US20110218921A1 (en) * | 2010-03-05 | 2011-09-08 | Oracle International Corporation | Notify/inquire fulfillment systems before processing change requests for adjusting long running order management fulfillment processes in a distributed order orchestration system |
US8838575B2 (en) * | 2011-08-03 | 2014-09-16 | Sap Ag | Generic framework for historical analysis of business objects |
US8880493B2 (en) * | 2011-09-28 | 2014-11-04 | Hewlett-Packard Development Company, L.P. | Multi-streams analytics |
US9886486B2 (en) * | 2014-09-24 | 2018-02-06 | Oracle International Corporation | Enriching events with dynamically typed big data for event processing |
US10168691B2 (en) * | 2014-10-06 | 2019-01-01 | Fisher-Rosemount Systems, Inc. | Data pipeline for process control system analytics |
US10331156B2 (en) * | 2015-03-03 | 2019-06-25 | Leidos, Inc. | System and method for big data geographic information system discovery |
WO2017018901A1 (en) * | 2015-07-24 | 2017-02-02 | Oracle International Corporation | Visually exploring and analyzing event streams |
EP3125056B1 (de) * | 2015-07-30 | 2021-04-07 | Siemens Aktiengesellschaft | System und verfahren zur steuerung und/oder analytik eines industriellen prozesses |
US20200222010A1 (en) * | 2016-04-22 | 2020-07-16 | Newton Howard | System and method for deep mind analysis |
US11126946B2 (en) * | 2016-10-20 | 2021-09-21 | Diwo, Llc | Opportunity driven system and method based on cognitive decision-making process |
US11227001B2 (en) * | 2017-01-31 | 2022-01-18 | Experian Information Solutions, Inc. | Massive scale heterogeneous data ingestion and user resolution |
US11281673B2 (en) * | 2018-02-08 | 2022-03-22 | Parallel Wireless, Inc. | Data pipeline for scalable analytics and management |
CA3050220A1 (en) * | 2018-07-19 | 2020-01-19 | Bank Of Montreal | Systems and methods for data storage and processing |
US20200175528A1 (en) * | 2018-12-03 | 2020-06-04 | Accenture Global Solutions Limited | Predicting and preventing returns using transformative data-driven analytics and machine learning |
US11836144B2 (en) * | 2019-03-12 | 2023-12-05 | Tecnotree Technologies, Inc. | Augmented intelligence system architecture |
US11645620B2 (en) * | 2019-03-15 | 2023-05-09 | Tecnotree Technologies, Inc. | Framework for explainability with recourse of black-box trained classifiers and assessment of fairness and robustness of black-box trained classifiers |
-
2020
- 2020-02-17 BR BR102020003282-8A patent/BR102020003282B1/pt active IP Right Grant
-
2021
- 2021-02-17 US US17/178,180 patent/US20210256014A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20210256014A1 (en) | 2021-08-19 |
BR102020003282A2 (pt) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ghaleb et al. | An empirical study of the long duration of continuous integration builds | |
Ekanayake et al. | Mapreduce for data intensive scientific analyses | |
Garg et al. | Challenges and techniques for testing of big data | |
Lichtenwalter et al. | Lpmade: Link prediction made easy | |
Hingave et al. | An approach for MapReduce based log analysis using Hadoop | |
Jiang et al. | Parallel K-Medoids clustering algorithm based on Hadoop | |
US11797337B2 (en) | Data processing management methods for imaging applications | |
BR102020003282B1 (pt) | Sistema para gerenciamento de processos de engenharia de dados (data engineering) e ciência de dados (data science) | |
Dede et al. | Riding the elephant: managing ensembles with hadoop | |
Lytvyn et al. | Development of Intellectual System for Data De-Duplication and Distribution in Cloud Storage. | |
Kuftinova et al. | Data Fabric Digital Array Processing in Road Transport Systems | |
Prasad et al. | Improving the performance of processing for small files in Hadoop: A case study of weather data analytics | |
Totaro et al. | ISODAC: A high performance solution for indexing and searching heterogeneous data | |
Dolgert et al. | Provenance in high-energy physics workflows | |
Tinetti et al. | Hadoop scalability and performance testing in heterogeneous clusters | |
Shahverdi et al. | Comparative evaluation for the performance of big stream processing systems | |
Nagdive et al. | A review of Hadoop ecosystem for bigdata | |
Chaffai et al. | E-learning real time analysis using large scale infrastructure | |
Hübner et al. | Increasing precision of automatically generated trace links | |
Alawini et al. | Towards automated prediction of relationships among scientific datasets | |
Bhardwaj et al. | BDT3V—A Technique for big data testing considering 3V’s | |
Naik et al. | A Hadoop Framework Require to Process Big data very easily and efficiently | |
Rauber et al. | Repeatability and Re-usability in Scientific Processes: Process Context, Data Identification and Verification. | |
Duc et al. | A scalable hadoop/spark framework for general-purpose analysis of high volume passive acoustic data | |
Oeste et al. | Analyzing Parallel Applications for Unnecessary I/O Semantics that Inhibit File System Performance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B15G | Petition not considered as such [chapter 15.7 patent gazette] |
Free format text: NAO CONHECIDA A PETICAO NO 800210269655 DE 09/08/2021 EM VIRTUDE DO DISPOSTO NO ART. 219, INCISO II DA LPI |
|
B03A | Publication of a patent application or of a certificate of addition of invention [chapter 3.1 patent gazette] | ||
B25G | Requested change of headquarter approved |
Owner name: SEMANTIX TECNOLOGIA EM SISTEMA DE INFORMACAO S.A (BR/SP) |
|
B07A | Application suspended after technical examination (opinion) [chapter 7.1 patent gazette] | ||
B15K | Others concerning applications: alteration of classification |
Free format text: A CLASSIFICACAO ANTERIOR ERA: G06F 16/25 Ipc: G06F 16/23 (2019.01), G06F 16/245 (2019.01) |
|
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 17/02/2020, OBSERVADAS AS CONDICOES LEGAIS |