BR102016026770A2 - LIFE NETWORK EVALUATION AND REPRESENTATION METHOD, AND BIODIVERSITY ANALYSIS APPLICATIONS - Google Patents

LIFE NETWORK EVALUATION AND REPRESENTATION METHOD, AND BIODIVERSITY ANALYSIS APPLICATIONS Download PDF

Info

Publication number
BR102016026770A2
BR102016026770A2 BR102016026770-6A BR102016026770A BR102016026770A2 BR 102016026770 A2 BR102016026770 A2 BR 102016026770A2 BR 102016026770 A BR102016026770 A BR 102016026770A BR 102016026770 A2 BR102016026770 A2 BR 102016026770A2
Authority
BR
Brazil
Prior art keywords
organisms
sequences
distance
distances
genetic
Prior art date
Application number
BR102016026770-6A
Other languages
Portuguese (pt)
Inventor
Maurits Sylvain Degrave Wim
Paulo Catanho De Souza Marcos
Silva Machado Filho Edson
Carolina Ramos Guimarães Ana
Costa Carvalho Paulo
Original Assignee
Maurits Sylvain Degrave Wim
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Maurits Sylvain Degrave Wim filed Critical Maurits Sylvain Degrave Wim
Priority to BR102016026770-6A priority Critical patent/BR102016026770A2/en
Publication of BR102016026770A2 publication Critical patent/BR102016026770A2/en

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

a criação industrial ora descrita compreende uma invenção passível de proteção patentária. referida invenção situa-se nos campos da microbiologia, engenharia genética, biologia sintética, biotecnologia e engenharia ambiental, sendo relacionada à representação da biodiversidade e métodos de cálculo e visualização e análise de características genéticas, bioquímicas e metabólicas de micro-organismos e organismos multi-celulares. mais especificamente, a presente invenção proporciona um algoritmo de cálculo de similaridades ou distâncias entre organismos a partir da comparação computacional das suas sequencias ou características genômicas, de forma unidirecional ou bi-direcional, a transformação destas similaridades ou distâncias em um sistema de coordenadas cartesianas, um sistema de visualização destas coordenadas, um sistema de definição de pontos cardeais de referência que proporcionam posicionar um organismo novo ao sistema, e um sistema de visualização de características bioquímicas, biológicas e genéticas.The industrial design described herein comprises a patent-protected invention. This invention is in the fields of microbiology, genetic engineering, synthetic biology, biotechnology and environmental engineering, being related to the representation of biodiversity and methods of calculation and visualization and analysis of genetic, biochemical and metabolic characteristics of microorganisms and multi-organism. cell phones. more specifically, the present invention provides an algorithm for calculating similarities or distances between organisms by computationally comparing their genomic sequences or characteristics unidirectionally or bi-directionally, transforming these similarities or distances into a Cartesian coordinate system, a system of visualization of these coordinates, a system of definition of reference cardinal points that allow to position a new organism to the system, and a system of visualization of biochemical, biological and genetic characteristics.

Description

(54) Título: MÉTODO DE AVALIAÇÃO E REPRESENTAÇÃO DA REDE DA VIDA, E APLICAÇÕES DE ANÁLISE DA BIODIVERSIDADE (51) Int. Cl.: G06F 19/14 (73) Titular(es): WIM MAURITS SYLVAIN DEGRAVE (72) Inventor(es): WIM MAURITS SYLVAIN DEGRAVE; MARCOS PAULO CATANHO DE SOUZA; EDSON SILVA MACHADO FILHO;(54) Title: METHOD OF EVALUATION AND REPRESENTATION OF THE LIFE NETWORK AND BIODIVERSITY ANALYSIS APPLICATIONS (51) Int. Cl .: G06F 19/14 (73) Holder (s): WIM MAURITS SYLVAIN DEGRAVE (72) Inventor (72) es): WIM MAURITS SYLVAIN DEGRAVE; MARCOS PAULO CATANHO DE SOUZA; EDSON SILVA MACHADO FILHO;

ANA CAROLINA RAMOS GUIMARÃES; PAULO COSTA CARVALHO (74) Procurador(es): REMER VILLAÇA & NOGUEIRA ASSESSORIA E CONSULTORIA DE PROP. INTELECTUAL S/S LTDA.ANA CAROLINA RAMOS GUIMARÃES; PAULO COSTA CARVALHO (74) Attorney (s): REMER VILLAÇA & NOGUEIRA ASSISTANCE AND CONSULTING OF PROP. INTELECTUAL S / S LTDA.

(57) Resumo: A criação industrial ora descrita compreende uma invenção passível de proteção patentária. Referida invenção situa-se nos campos da Microbiologia, Engenharia Genética, Biologia Sintética, Biotecnologia e Engenharia Ambiental, sendo relacionada à Representação da Biodiversidade e Métodos de Cálculo e Visualização e Análise de Características Genéticas, Bioquímicas e Metabólicas de Microorganismos e Organismos Multi-celulares. Mais especificamente, a presente invenção proporciona um algoritmo de cálculo de similaridades ou distâncias entre organismos a partir da comparação computacional das suas sequências ou características genômicas, de forma unidirecional ou bi-direcional, a transformação destas similaridades ou distâncias em um sistema de coordenadas cartesianas, um sistema de visualização destas coordenadas, um sistema de definição de pontos cardeais de referência que proporcionam posicionar um organismo novo ao sistema, e um sistema de visualização de características bioquímicas, biológicas e genéticas.(57) Abstract: The industrial creation just described comprises an invention subject to patent protection. This invention is located in the fields of Microbiology, Genetic Engineering, Synthetic Biology, Biotechnology and Environmental Engineering, being related to the Representation of Biodiversity and Methods of Calculation and Visualization and Analysis of Genetic, Biochemical and Metabolic Characteristics of Microorganisms and Multi-cellular Organisms. More specifically, the present invention provides an algorithm for calculating similarities or distances between organisms from the computational comparison of their sequences or genomic characteristics, in a unidirectional or bi-directional way, the transformation of these similarities or distances in a Cartesian coordinate system, a system of visualization of these coordinates, a system of definition of cardinal points of reference that allow to position a new organism to the system, and a system of visualization of biochemical, biological and genetic characteristics.

Figure BR102016026770A2_D0001

/ 17/ 17

Relatório Descritivo de Patente de InvençãoInvention Patent Descriptive Report

Método de Avaliação e Representação da rede da vida, e Aplicações de análise da biodiversidadeLife Network Assessment and Representation Method, and Biodiversity Analysis Applications

Criação e Campo da Invenção [0001] O presente relatório contempla conhecimentos, informações e/ou dados confidenciais utilizáveis na indústria, comércio ou prestação de serviços, para os quais o detentor requer: a proteção estabelecida no inciso XXIX do Art. 5° da Constituição Federal; a manutenção do status jurídico de confidencialidade/segredo; a manutenção do status físico de confidencialidade/segredo pelo tempo previsto na Lei 9.279/96, Lei da Propriedade Industrial; e os direitos previstos no Art. 195 da Lei 9.279/96.Creation and Field of Invention [0001] This report includes knowledge, information and / or confidential data that can be used in industry, commerce or the provision of services, for which the holder requires: the protection established in item XXIX of Art. 5 of the Constitution Federal; maintaining the legal status of confidentiality / secrecy; maintaining the physical status of confidentiality / secrecy for the time provided for in Law 9.279 / 96, Industrial Property Law; and the rights provided for in Article 195 of Law 9.279 / 96.

[0002] A íntegra do conteúdo deste pedido de patente é segredo industrial do depositante, sendo ativo imaterial resultante de esforços e investimentos no desenvolvimento do objeto, na manutenção do sigilo e em sua proteção. O conceito inventivo ora revelado e exemplificado de uma ou mais formas foi tratado como segredo industrial e não foi previamente revelado publicamente até o momento do depósito deste pedido de patente.[0002] The full content of this patent application is the depositor's industrial secret, being an immaterial asset resulting from efforts and investments in the development of the object, in the maintenance of confidentiality and in its protection. The inventive concept now revealed and exemplified in one or more ways was treated as an industrial secret and was not previously revealed publicly until the time of filing this patent application.

[0003] A criação industrial ora descrita compreende uma invenção passível de proteção patentária. Referida invenção situa-se nos campos da Microbiologia, Engenharia Genética, Biologia Sintética, Biotecnologia e Engenharia Ambiental, sendo relacionada à Representação da Biodiversidade e Métodos de Cálculo e Visualização e Análise de Características Genéticas, Bioquímicas e Metabólicas de Micro-organismos e Organismos Multi-celulares. Mais especificamente, a presente invenção proporciona um algoritmo de cálculo de similaridades ou distâncias entre organismos a partir da comparação computacional das suas sequências ou características genômicas, de forma unidirecional ou bi-direcional, a transformação destas similaridades ou distâncias em um sistema de coordenadas cartesianas, um sistema de visualização destas coordenadas, um sistema de definição de pontos cardeais[0003] The industrial creation just described comprises an invention subject to patent protection. This invention is located in the fields of Microbiology, Genetic Engineering, Synthetic Biology, Biotechnology and Environmental Engineering, being related to the Representation of Biodiversity and Methods of Calculation and Visualization and Analysis of Genetic, Biochemical and Metabolic Characteristics of Microorganisms and Multi- cell phones. More specifically, the present invention provides an algorithm for calculating similarities or distances between organisms from the computational comparison of their sequences or genomic characteristics, in a unidirectional or bi-directional way, the transformation of these similarities or distances in a Cartesian coordinate system, a system for displaying these coordinates, a system for defining cardinal points

Petição 870170006310, de 30/01/2017, pág. 5/22 / 17 de referência que permitem posicionar um organismo novo ao sistema, e um sistema de visualização de características bioquímicas, biológicas e genéticas. O sistema da invenção consiste de algoritmos e metodologias computacionais e um sistema de visualização. Em uma concretização, um algoritmo foi desenvolvido para comparar sequências nucleotídicas, ou proteicas previstas, a partir das sequências genômicas de um conjunto de organismos, que podem compreender eucariotos, eubactérias e archaeas, numa comparação unidirecional usando algoritmos como BLAST ou SSEARCH, cálculo de distâncias inter-genômicas aplicando uma fórmula somando os bitscores das comparações dois a dois considerando todos os escores ou somente os topscores para cada par, de forma unidirecional, dividido, por exemplo, pela soma dos escores das comparações das sequências de cada organismo contra si mesmo, ou então aplicando uma fórmula conhecida como distância de Jaccard (figura 2), resultando em uma matriz de distância ou similaridade. O cálculo unidirecional economiza 50% do tempo de computação em comparação com os métodos até então descritos. Esta matriz pode então ser transformada em um conjunto de coordenadas em três ou mais dimensões e visualizada em computador ou através de projeção, permitindo, ainda, agregar um conjunto infinito de informações adicionais nesta visualização. A transformação da matriz para um sistema tri- ou multidimensional pode se dar utilizando algoritmos de Multidimensional Scaling, ou de cálculo por algoritmo de simulação de um sistema de molas ligando os genomas entre si, permitindo as incertezas das posições oscilarem até uma situação de repouso. Em uma outra concretização, o sistema de coordenadas em três ou mais dimensões proporciona a organização de pontos cardeais de referência, contra os quais sequências novas, por exemplo de um organismo novo, adicional ou ainda desconhecida possam ser comparadas rapidamente, com muito menos esforço computacional, posicionando o novo organismo no sistema de coordenadas. Para isto, as características do organismo novo podem ser comparadas com somente três, ou mais, organismos selecionados e já com posição calculada,Petition 870170006310, of 01/30/2017, p. 5/22 / 17 of reference that allow to position a new organism to the system, and a visualization system of biochemical, biological and genetic characteristics. The system of the invention consists of computational algorithms and methodologies and a visualization system. In one embodiment, an algorithm was developed to compare predicted nucleotide, or protein, sequences from the genomic sequences of a set of organisms, which can comprise eukaryotes, eubacteria and archaeas, in a unidirectional comparison using algorithms such as BLAST or SSEARCH, calculation of distances inter-genomics applying a formula adding the bitscores of the comparisons two by two considering all the scores or only the topscores for each pair, in a unidirectional way, divided, for example, by the sum of the scores of the comparisons of the sequences of each organism against itself, or by applying a formula known as the Jaccard distance (figure 2), resulting in a distance or similarity matrix. The unidirectional calculation saves 50% of the computation time compared to the methods previously described. This matrix can then be transformed into a set of coordinates in three or more dimensions and visualized in a computer or through projection, allowing, still, to aggregate an infinite set of additional information in this visualization. The transformation of the matrix to a three- or multidimensional system can take place using algorithms of Multidimensional Scaling, or of calculation by algorithm of simulation of a system of springs linking the genomes among themselves, allowing the uncertainties of the positions to oscillate until a situation of rest. In another embodiment, the coordinate system in three or more dimensions provides the organization of cardinal points of reference, against which new sequences, for example a new, additional or unknown organism can be compared quickly, with much less computational effort. , placing the new organism in the coordinate system. For this, the characteristics of the new organism can be compared with only three, or more, selected organisms and already with calculated position,

Petição 870170006310, de 30/01/2017, pág. 6/22 / 17 para rapidamente determinar a sua posição no sistema de coordenadas. O refinamento contra alguns organismos “próximos” é possível e rapidamente alcançado. Em mais uma outra concretização, os cálculos de comparação de sequências genéticas, ou derivados como sequências de proteínas preditas, ou ainda utilizando outras características como vias metabólicas ou metabólitos, podem ser executados de forma muito acelerada, calculando unidirecionalmente ou bi-direcionalmente, índices de similaridade, e levando em conta somente as melhores pontuações, ou parte ou todas as pontuações acima de um determinado nível basal.Petition 870170006310, of 01/30/2017, p. 6/22 / 17 to quickly determine your position in the coordinate system. Refinement against some "close" organisms is possible and quickly achieved. In yet another embodiment, calculations for comparing genetic sequences, or derivatives such as predicted protein sequences, or using other characteristics such as metabolic pathways or metabolites, can be performed very quickly, calculating unidirectionally or bi-directionally, indices of similarity, and taking into account only the best scores, or part or all of the scores above a certain baseline level.

Antecedentes da Criação/ Invenção [0004] Comparação de características entre (micro)-organismos tem sido utlizada para classificar ou sistematizar tais organismos em sistemas taxonômicos, e posteriormente também em sistemas que buscavam explicar a origem evolutiva ou filogenética destes organismos. De fato, desde Darwin e a sua teoria da origem das espécies características morfológicas, fisiológicas e muito posteriormente genéticas têm sido usadas tanto para classificação taxonômica e nos tempos mais recentes, para explicar a relação evolutiva entre as espécies. Inicialmente, usava-se uma ou mais características morfológicas e posteriormente, para melhorar a taxonomia, usando gradativamente conjuntos mais complexos de informações genéticas, como sequências de 16S (bactérias) e 18S (eucariotos), ou micro-satélites, ou então sequências multilocais como rpoB e outras sequências relativamente conservadas, para melhorar a resolução e precisão taxonômica até o nível de gênero inicialmente, e depois até nível de espécie. Muitos elementos genéticos foram selecionados para este fim, como é bem conhecido de pessoas versadas nesta especialidade científica. De forma paralela, estas comparações têm sido usadas também para construir e refinar teorias evolutivas entre as espécies, ilustrando assim a evolução das espécies preconizada por Darwin.Background of Creation / Invention [0004] Comparison of characteristics between (micro) -organisms has been used to classify or systematize such organisms in taxonomic systems, and later also in systems that sought to explain the evolutionary or phylogenetic origin of these organisms. In fact, since Darwin and his theory of the origin of species, morphological, physiological and much later genetic characteristics have been used both for taxonomic classification and in more recent times, to explain the evolutionary relationship between species. Initially, one or more morphological characteristics were used and later, to improve the taxonomy, gradually using more complex sets of genetic information, such as sequences of 16S (bacteria) and 18S (eukaryotes), or micro-satellites, or multilocals sequences such as rpoB and other relatively conserved sequences, to improve resolution and taxonomic accuracy down to the genus level initially, and then up to the species level. Many genetic elements have been selected for this purpose, as is well known to people versed in this scientific specialty. In parallel, these comparisons have also been used to build and refine evolutionary theories between species, thus illustrating the evolution of species advocated by Darwin.

Petição 870170006310, de 30/01/2017, pág. 7/22 / 17 [0005] Para a construção de teorias de evolução entre espécies, grupos de espécies e grupos taxonômicos, foram desenvolvidos muitos algoritmos que, nas últimas décadas, fazem uso de software e o poder computacional. Podemos citar o pacote Phylip, Mega e outros. Tomando como exemplo a análise comparativa de sequências proteicas, codificadas no genoma dos (micro)-organismos, cada posição ao longo da cadeia proteica é considerada uma característica discreta, e o conjunto então oferece um índice de similaridade geral entre duas proteinas. Desde os anos 1968, a pesquisadora Dayhoff reconheceu que mutações cumulativas em uma mesma posição podem ofuscar similaridade (ou distância), e iniciou a construção de tabelas de probabilidades de mutação de determinados amino-ácidos para outros, baseadas em probabilidade de mutação do código genético correspondente. Assim, hoje em dia utilizam-se as tabelas como BLOSUM 50, ou 200, de conversão para corrigir as mudanças observadas. Há diversas tabelas em uso, para avaliar sequências mais “próximas” ou mais distantes. Entretanto, a escolha de uma determinada “tabela de conversão” entre o observado e o esperado é feita a priori. A presente invenção traz uma solução para isto.Petition 870170006310, of 01/30/2017, p. 7/22 / 17 [0005] For the construction of theories of evolution between species, groups of species and taxonomic groups, many algorithms have been developed that, in the last decades, make use of software and computational power. We can mention the package Phylip, Mega and others. Taking as an example the comparative analysis of protein sequences, encoded in the genome of (micro) organisms, each position along the protein chain is considered a discrete characteristic, and the set then offers an index of general similarity between two proteins. Since the 1968s, researcher Dayhoff has recognized that cumulative mutations in the same position can obfuscate similarity (or distance), and has started to build tables of probabilities of mutating certain amino acids to others, based on the probability of mutating the genetic code corresponding. Thus, nowadays tables like BLOSUM 50, or 200, of conversion are used to correct the observed changes. There are several tables in use, to evaluate more “close” or more distant sequences. However, the choice of a certain “conversion table” between the observed and the expected is made a priori. The present invention provides a solution to this.

[0006] A utilização de índices de similaridade entre sequências nucleotídicas foi bastante explorada para a construção de matrizes de distância, e estas transformadas em árvores filogenéticas. Inicialmente considerava-se sequências únicas como rDNA 16S e 18S para procariotos e eucariotos, respectivamente, posteriormente utilizando sequências proteicas “conservadas”, ou com velocidade evolutiva (acúmulo de mutações) constante como rpoB, e com o desenvolvimento da genômica e a disponibilidade de sequências parciais ou completas de genomas e a partir dai sequências proteicas preditas, conjuntos de sequências. Inicialmente usavam-se conjuntos de marcadores discretos considerados “ortólogos”, até conjuntos grandes de ortólogos, como 20, ou 100 ortólogos, ou então um conjunto de proteinas “essenciais” conservadas entre todas as espécies, ou então dentro de grandes grupos taxonômicos como Reinos. Para identificar estes ortólogos, usa-se no[0006] The use of similarity indices between nucleotide sequences has been extensively explored for the construction of distance matrices, and these transformed into phylogenetic trees. Initially, unique sequences were considered as 16S and 18S rDNA for prokaryotes and eukaryotes, respectively, later using “conserved” protein sequences, or with constant evolutionary speed (accumulation of mutations) as rpoB, and with the development of genomics and the availability of sequences partial or complete genomes and from there predicted protein sequences, sets of sequences. Initially, sets of discrete markers considered “orthologists” were used, even large sets of orthologists, such as 20, or 100 orthologists, or else a set of “essential” proteins conserved among all species, or within large taxonomic groups such as Kingdoms . To identify these orthologists, it is used in

Petição 870170006310, de 30/01/2017, pág. 8/22 / 17 melhor estado da arte até então, a seleção de top-hits em comparações dois a dois de forma bi-direcional, investindo considerável esforço computacional, mesmo com algoritmos rápidos como o BLAST.Petition 870170006310, of 01/30/2017, p. 8/22 / 17 best state of the art so far, the selection of top-hits in two-to-two comparisons in a bi-directional manner, investing considerable computational effort, even with fast algorithms such as BLAST.

[0007] Nos últimos 10-15 anos, diversos sistemas foram desenvolvidos para identificar conjuntos de proteinas ortólogas. O mais conhecido (e utilizado) talvez seja a comparação de todas as sequências proteicas de dois ou mais organismos entre si, utilizando algoritmos velozes de comparação como BLAST, que resultam em “hits” com probabilidade de ocorrer por acaso (evalue) e um score resultante. Quando duas sequências comparadas em um conjunto de dados aparecem como o hit no topo da lista (com menor probabilidade de ocorrer por acaso) em ambas as direções (A para B e B para A), este é chamado de melhor hit bidirecional. Na literatura, foi descrito em 2005 um método e algoritmo onde a distância entre dois organismos é dada pela fórmula da soma de escores bidirecionais tophit entre as sequências de A e B (utlizando os escores do genoma menor), dividido pelas somas de escores das comparações de cada organismo contra si mesmo, e foi verificada que esta abordagem resulta em árvores filogenéticas que correspondem ao que os cientistas da área consideram como o conjunto de eventos evolutivos mais provável, observando diversas convergências entre diversas metodologias, análise de fósseis etc. Alternativamente, há alguns algoritmos adicionais desenvolvidos, inclusive alguns que não dependem da comparação de sequências específicas.[0007] Over the past 10-15 years, several systems have been developed to identify sets of orthologous proteins. The most well-known (and used) is perhaps the comparison of all protein sequences of two or more organisms to each other, using fast comparison algorithms such as BLAST, which result in "hits" likely to occur by chance (evalue) and a score resulting. When two compared strings in a data set appear as the top hit (less likely to happen by chance) in both directions (A for B and B for A), this is called the best two-way hit. In the literature, a method and algorithm was described in 2005 where the distance between two organisms is given by the formula of the sum of bidirectional tophit scores between the sequences of A and B (using the scores of the minor genome), divided by the sum scores of the comparisons of each organism against itself, and it has been found that this approach results in phylogenetic trees that correspond to what scientists in the field consider as the most likely set of evolutionary events, observing different convergences between different methodologies, fossil analysis, etc. Alternatively, there are some additional algorithms developed, including some that do not depend on comparing specific sequences.

[0008] Entretanto, há diversos problemas com estas abordagens: são computacionalmente intensivos; a comparação de todas as sequências (proteicas) de um organismo contra todas as sequências de um outro organismo, ou então contra todas as sequências de todos os organismos é computacionalmente muito intensiva, requerendo servidores potentes, e bastante tempo de CPU. Com o crescimento do tamanho dos bancos de dados, tal tarefa começa a ser quase impossível. A presente invenção oferece uma solução para este problema.[0008] However, there are several problems with these approaches: they are computationally intensive; comparing all (protein) sequences from one organism against all sequences from another organism, or against all sequences from all organisms is computationally very intensive, requiring powerful servers, and plenty of CPU time. With the growth of the size of the databases, such a task becomes almost impossible. The present invention offers a solution to this problem.

Petição 870170006310, de 30/01/2017, pág. 9/22 / 17 [0009] Outra dificuldade significativa no estado da técnica é que as metodologias e análises foram desenvolvidas com a finalidade de reconstruir árvores filogenéticas (“ávore da vida”), e para tal finalidade consideram somente grupos de sequências ortólogas, ignorando assim parte importante do conteúdo codificante dos genomas sob estudo. A presente invenção revela uma outra abordagem, de analisar efetivamente a divergência entre dois ou mais organismos, considerando a totalidade das suas sequências proteicas, resultando em um cálculo de divergência entre dois ou mais organismos, e assim representando de forma muito mais completa a diversidade entre organismos, não restringindo a comparação aos grupos ortólogos. Uma comparação assim está representada na figura 1.Petition 870170006310, of 01/30/2017, p. 9/22 / 17 [0009] Another significant difficulty in the state of the art is that the methodologies and analyzes were developed with the purpose of reconstructing phylogenetic trees (“tree of life”), and for this purpose they only consider groups of orthologous sequences, ignoring thus an important part of the coding content of the genomes under study. The present invention reveals another approach, to effectively analyze the divergence between two or more organisms, considering the totality of their protein sequences, resulting in a calculation of divergence between two or more organisms, and thus representing in a much more complete way the diversity between organisms, not restricting the comparison to orthological groups. Such a comparison is shown in Figure 1.

[0010] Ainda outra dificuldade significativa do estado da técnica é relativo à representação de similaridade ou divergência sob a forma de cladogramas (como na figura 1) - árvores filogenéticas, que podem ter algumas variantes de representação. Entretanto, quando o número de organismos incluídos na análise cresce, tais árvores se tornam rapidamente de muito difícill interpretação. A presente invenção oferece também uma solução para este problema, representando a diversidade de organismos como uma “Rede da Vida” e principalmente mudando esta representação para um sistema em três ou mais dimensões, como ilustrado nas figuras 4 e 5.[0010] Yet another significant difficulty in the state of the art is related to the representation of similarity or divergence in the form of cladograms (as in figure 1) - phylogenetic trees, which may have some representation variants. However, when the number of organisms included in the analysis grows, such trees quickly become very difficult to interpret. The present invention also offers a solution to this problem, representing the diversity of organisms as a "Network of Life" and mainly changing this representation to a system in three or more dimensions, as illustrated in figures 4 and 5.

[0011] Árvores da vida tradicionalmente podem ser “ancoradas” ou “nãoancoradas”, mas a há muitas formas de orientar e reorganizar a árvore ou cladograma, dificultando comparação de arranjos, ou padronização. A presente invenção oferece uma solução para este problema, propondo um sistema de coordenadas de referência (em 3 dimensões), proporcionando a padronização da geometria da representação, e visualizar espécies ou grupos. Adicionalmente, é sabido que muitos organismos têm a capacidade de processar ou traduzir transcritos em diversas proteinas, combinações de domínios etc. O presente sistema pode adicionar elementos de cálculo de[0011] Trees of life can traditionally be “anchored” or “non-anchored”, but there are many ways to guide and reorganize the tree or cladogram, making it difficult to compare arrangements, or standardization. The present invention offers a solution to this problem, proposing a reference coordinate system (in 3 dimensions), providing the standardization of the geometry of the representation, and visualizing species or groups. In addition, it is known that many organisms have the ability to process or translate transcripts into different proteins, combinations of domains, etc. The present system can add elements of calculation of

Petição 870170006310, de 30/01/2017, pág. 10/22 / 17 distância adicionais para representar esta diversidade adicional, por exemplo, incluindo proteinas variantes no dataset para o cálculo de distância.Petition 870170006310, of 01/30/2017, p. 10/22 / 17 additional distance to represent this additional diversity, for example, including variant proteins in the dataset for the distance calculation.

[0012] Árvores da vida são construídas considerando uma ou mais características, ou um conjunto como grupos ortólogos. Entretanto, não são normalmente usadas para plotar ou visualizar características adicionais, limitando o uso a poucas informações. A presente invenção também traz uma solução para este problema, permitindo visualizar um conjunto de informações adicionais no plot 3D da Rede da Vida, adicionando parâmetros como cor, tamanho de esfera ou símbolo de representação da espécie, cepa ou isolado, tensão no cálculo de escala multidimensional (conexões entre as esferas), uma tabela “pull-down” com informações quando o cursor é posicionado sobre uma espécie, e a plotagem, iluminação no plot 3D de espécies com determinadas características especiais como presença ou ausença de enzimas, proteinas, genes, ou outras características específicas, vias metabólicas etc.[0012] Trees of life are built considering one or more characteristics, or a set as orthological groups. However, they are not normally used to plot or view additional features, limiting usage to little information. The present invention also provides a solution to this problem, allowing a set of additional information to be visualized in the 3D plot of Rede da Vida, adding parameters such as color, sphere size or symbol representing the species, strain or isolate, tension in the scale calculation multidimensional (connections between the spheres), a pull-down table with information when the cursor is positioned over a species, and the plot, lighting in the 3D plot of species with certain special characteristics such as the presence or absence of enzymes, proteins, genes , or other specific characteristics, metabolic pathways, etc.

[0013] As buscas na literatura patentária são apenas parcialmente relevantes no contexto da presente invenção, de forma a facilitar a percepção dos caminhos distintos seguidos pela técnica até então - e a falta de convergência das tecnologias conhecidas, quando comparadas com a presente invenção. [0014] A presente invenção proporciona melhorias sobre os métodos de cálculo de matrizes de distância (ou similaridade) entre organismos, genomas de organismos etc e os processos conhecidos até então, dentre outras razões técnicas, por proporcionar uma economia enorme no cálculo de distância no posicionamento de organismos novos (cálculos unidirecionais, proporcionando já 50% do tempo de computação, e quando comparado com organismos de referência (por exemplo 3 ou mais), já proporciona a localização no sistema cartesiano em 3D, na representação em 3 dimensões de distâncias, na construção de um sistema de referência de organismos na Rede da Vida. Diferentemente do que é revelado nos antecedentes, a metodologia leva em conta um número ilimitado de características (entre 1 e muitas) e proporciona[0013] The searches in the patent literature are only partially relevant in the context of the present invention, in order to facilitate the perception of the different paths followed by the technique until then - and the lack of convergence of the known technologies, when compared with the present invention. [0014] The present invention provides improvements on the methods of calculating distance matrices (or similarity) between organisms, genomes of organisms etc. and the processes known until then, among other technical reasons, by providing enormous savings in the calculation of distance in the positioning of new organisms (unidirectional calculations, already providing 50% of the computation time, and when compared with reference organisms (for example 3 or more), it already provides the location in the Cartesian system in 3D, in the representation in 3 dimensions of distances, in the construction of a reference system for organisms in the Rede da Vida. Unlike what is revealed in the background, the methodology takes into account an unlimited number of characteristics (between 1 and many) and provides

Petição 870170006310, de 30/01/2017, pág. 11/22 / 17 plotar/visualizar um sem número de características comparativas. Tais abordagens não são citadas ou sequer sugeridas no estado da técnica.Petition 870170006310, of 01/30/2017, p. 11/22 / 17 plot / visualize a number of comparative characteristics. Such approaches are not cited or even suggested in the prior art.

[0015] A literatura científica que circunscreve a criação ora revelada incluiu:[0015] The scientific literature that circumscribes the creation now revealed included:

· Jaccard, P. (1912). The distribution of the flora in the alphine zone. The New Phytologist, XI(2), 37-50.· Jaccard, P. (1912). The distribution of the flora in the alphine zone. The New Phytologist, XI (2), 37-50.

· Kruskal, J. B. (1964). NON-METRIC MULTIDIMENSIONAL SCALING: METHOD, (2), 19-4.· Kruskal, J. B. (1964). NON-METRIC MULTIDIMENSIONAL SCALING: METHOD, (2), 19-4.

· Smith, T. F., & Waterman, M. S. (1981). Comparison of biosequences. Advances in Applied Mathematics, 2(4), 482-489.· Smith, T. F., & Waterman, M. S. (1981). Comparison of biosequences. Advances in Applied Mathematics, 2 (4), 482-489.

· Pearson WR, Lipman DJ. Improved tools for biological sequence comparison. Proc Natl Acad Sci U S A 1988 Apr;85(8):2444-8.· Pearson WR, Lipman DJ. Improved tools for biological sequence comparison. Proc Natl Acad Sci U S A 1988 Apr; 85 (8): 2444-8.

· Ryan, P. D., Hammer, 0., Harper, D. A., & Paul Ryan, D. D. (2001). PAST: PALEONTOLOGICAL STATISTICS SOFTWARE PACKAGE FOR EDUCATION AND DATA ANALYSIS. Palaeontologia Electronica 178kb. T. Harper. Geological Museum, 4(4), 5-7.· Ryan, P. D., Hammer, 0., Harper, D. A., & Paul Ryan, D. D. (2001). PAST: PALEONTOLOGICAL STATISTICS SOFTWARE PACKAGE FOR EDUCATION AND DATA ANALYSIS. Electronic Palaeontology 178kb. T. Harper. Geological Museum, 4 (4), 5-7.

· Kunin, V., Ahren, D., Goldovsky, L., Janssen, P., & Ouzounis, C. A. (2005). Measuring genome conservation across taxa: Divided strains and United Kingdoms. Nucleic Acids Research, 33(2), 616-621.· Kunin, V., Ahren, D., Goldovsky, L., Janssen, P., & Ouzounis, C. A. (2005). Measuring genome conservation across taxa: Divided strains and United Kingdoms. Nucleic Acids Research, 33 (2), 616-621.

· Otto, T. D., Catanho, M., Tristão, C., Bezerra, M., Fernandes, R. M.,· Otto, T. D., Catanho, M., Tristão, C., Bezerra, M., Fernandes, R. M.,

Elias, G. S., Degrave, W. (2010). ProteinWorldDB: Querying radical pairwise alignments among protein sets from complete genomes. Bioinformatics, 26(5), 705-707.Elias, G. S., Degrave, W. (2010). ProteinWorldDB: Querying radical pairwise alignments among protein sets from complete genomes. Bioinformatics, 26 (5), 705-707.

· UniProt Consortium.. UniProt: a hub for protein information. Nucleic Acids Res. 2015 Jan;43(Database issue):D204-12.· UniProt Consortium .. UniProt: a hub for protein information. Nucleic Acids Res. 2015 Jan; 43 (Database issue): D204-12.

[0016] Com base na literatura patentária e não patentária nota-se claramente a necessidade da busca por novas soluções alternativas àquelas já existentes para contornar as limitações dos sistemas de comparação inter-genômicos de organismos, economizando tempo computacional, bem como na visualização dos resultados e de inúmeras características adicionais, em três ou mais dimensões. O presente pedido de patente revela soluções a estes problemas.[0016] Based on the patent and non-patent literature, there is a clear need to search for new alternative solutions to those already existing in order to circumvent the limitations of the inter-genomic comparison systems of organisms, saving computational time, as well as viewing the results and numerous additional features, in three or more dimensions. The present patent application reveals solutions to these problems.

Petição 870170006310, de 30/01/2017, pág. 12/22 / 17 [0017] Do que se depreende da literatura pesquisada, não foram encontrados documentos antecipando ou sugerindo os ensinamentos da presente invenção que, aos olhos dos inventores, possui novidade e atividade inventiva frente ao estado da técnica.Petition 870170006310, of 01/30/2017, p. 12/22 / 17 [0017] From what appears from the researched literature, no documents were found anticipating or suggesting the teachings of the present invention, which, in the eyes of the inventors, has novelty and inventive activity in view of the state of the art.

Sumário da Criação/Invenção [0018] A presente invenção tem como conceitos inventivos os seguintes objetos: 1. Um método e algoritmo que considere, para fins de avaliação/cálculo de distância entre genomas de (micro)organismos ou conteúdo codificado nos respectivos genomas o conjunto completo (ou disponível) de sequências gênicas ou proteicas. O algoritmo calcula índices de similaridade dois a dois entre os marcadores (genes, proteínas ou outro) de forma unidirecional, economizando desta forma 50% do tempo computacional. O algoritmo para o cálculo de distância considera como fórmula na figura 2. 2. Para fins deste cálculo, a presente invenção, ao estimar a distância aproximada entre dois genomas, escolhe a matriz de substituição mais apropriada para o caso, em vez de uma matriz fixa e genérica para todas as comparações. 3. A partir de uma matriz de distância entre genomas (ou organismos, usando outros marcadores), a presente invenção é capaz de utilizar diversos algoritmos para construir uma árvore/cladograma em três ou mais dimensões, alocando coordenadas cartesianas para cada organismo/genoma. Um destes algoritmos utiliza técnicas de Multidimensional Scaling, e alternativamente, um cálculo de posição cartesiano considerando que todas as distâncias dois a dois se comportam como um sistema de molas, finalizando o posicionamento 3D com todas as molas em repouso/equilíbrio. 4. Na presente invenção, coordenadas cartesianas 3D são atribuídas a alguns genomas de referência, como Homo sapiens, Saccharomices cerevisae, Escherichia coli, Bacillus subtilis e mais alguns outros organismos, de tal forma que qualquer conjunto de genomas tenha uma orientação e distribuição espacial XYZ fixa, e que outros organismos possam ser alocados/posicionados neste espaço 3D. 5. NaCreation / Invention Summary [0018] The present invention has the following objects as inventive concepts: 1. A method and algorithm that considers, for purposes of evaluating / calculating the distance between genomes of (micro) organisms or content encoded in the respective genomes o complete set (or available) of gene or protein sequences. The algorithm calculates similarity indices two by two between the markers (genes, proteins or other) in a unidirectional way, thus saving 50% of the computational time. The algorithm for the distance calculation considers the formula in figure 2. 2. For the purposes of this calculation, the present invention, when estimating the approximate distance between two genomes, chooses the most appropriate replacement matrix for the case, instead of a matrix fixed and generic for all comparisons. 3. From a distance matrix between genomes (or organisms, using other markers), the present invention is able to use several algorithms to build a tree / cladogram in three or more dimensions, allocating Cartesian coordinates for each organism / genome. One of these algorithms uses Multidimensional Scaling techniques, and alternatively, a Cartesian position calculation considering that all distances two to two behave like a spring system, ending the 3D positioning with all springs at rest / balance. 4. In the present invention, 3D Cartesian coordinates are assigned to some reference genomes, such as Homo sapiens, Saccharomices cerevisae, Escherichia coli, Bacillus subtilis and some other organisms, such that any set of genomes has an XYZ spatial orientation and distribution fixed, and that other organisms can be allocated / positioned in this 3D space. 5. In

Petição 870170006310, de 30/01/2017, pág. 13/22 / 17 presente invenção, qualquer novo organismo pode ser colocado na sua posição correta neste sistema de coordenadas, comparando as suas sequênicas/proteinas/marcadores contra no mínimo 3 outros organismos, com isto economizando mais de 90% de tempo computacional. A posição mais precisa do novo organismo dentro do sistema de coordenadas pode ser refinada avaliando a sua distância com 3 ou mais organismos mais próximos. 6. Nesta invenção, a representação 3D dos organismos e da biodiversidade pode ser utilizada para mostrar características dos organismos e o conteúdo de bancos de dados, quando, num sistema computacional, o cursor passa por cima do organismo. Adicionalmente, características podem ser representadas por cores, formas e tamanhos, e tensões no sistema de representação (multidimensional scaling) podem ser mostradas. Adicionalmente, a presença de metabólitos, enzimas, vias metabólicas e outras características pode ser plotada no sistema, com realce para os organismos positivos (ou negativos) para determinada característica.Petition 870170006310, of 01/30/2017, p. 13/22 / 17 present invention, any new organism can be placed in its correct position in this coordinate system, comparing its sequences / proteins / markers against at least 3 other organisms, thereby saving more than 90% of computational time. The more precise position of the new organism within the coordinate system can be refined by assessing its distance with 3 or more nearby organisms. 6. In this invention, the 3D representation of the organisms and biodiversity can be used to show characteristics of the organisms and the content of databases, when, in a computer system, the cursor passes over the organism. Additionally, features can be represented by colors, shapes and sizes, and stresses in the representation system (multidimensional scaling) can be shown. Additionally, the presence of metabolites, enzymes, metabolic pathways and other characteristics can be plotted in the system, with an emphasis on positive (or negative) organisms for a given characteristic.

[0019] O sistema de cálculo e representação da Rede da Vida descrita nesta invenção proporciona: redução do tempo computacional para determinar similaridades inter-genômicas; aumento da precisão para calcular distâncias com a utilização de tabelas de adaptadas para a distância real; visualização 3D ou em mais dimensões das distâncias relativas dos organismos em sistema cartesiano 3D, e visualização de conjuntos de características neste sistema 3D [0020] Em uma concretização, o referido sistema compreende:[0019] The system of calculation and representation of the Rede da Vida described in this invention provides: reduction of computational time to determine intergenomic similarities; increased accuracy for calculating distances using tables adapted to the actual distance; 3D visualization or in more dimensions of the relative distances of the organisms in a 3D Cartesian system, and visualization of sets of characteristics in this 3D system [0020] In one embodiment, the referred system comprises:

- um algoritmo de cálculo de distância inter-genômica unidirecional e seus variantes bidirecionais, levando em conta somente top-hits ou então todos os hits acima de um determinado limite (ex. 10-3 ou 10-9 e-value);- a unidirectional intergenomic distance calculation algorithm and its bidirectional variants, taking into account only top-hits or all hits above a certain limit (eg 10-3 or 10-9 e-value);

- um algoritmo que estima a melhor tabela de probabilidades de acúmulo de mutações;- an algorithm that estimates the best mutation accumulation probability table;

- algoritmos para transformar uma matriz de distâncias em um conjunto de coordenadas 3D (XYZ) dos (micro)organismos, como- algorithms to transform a distance matrix into a set of 3D (XYZ) coordinates of (micro) organisms, such as

Petição 870170006310, de 30/01/2017, pág. 14/22 / 17 o índice de Jaccard; o Multidimencional Scaling ou o sistema de simulação de molas;Petition 870170006310, of 01/30/2017, p. 14/22/17 the Jaccard index; the Multidimensional Scaling or the spring simulation system;

- A fixação de coordenadas para (micro)-organismos de referência no sistema de visualização 3D, para construir um sistema de referência;- The fixing of coordinates for (micro) reference organisms in the 3D visualization system, to build a reference system;

- Um algoritmo para comparação de um genoma novo contra 3 ou mais organismos de referência, para determinar a sua posição aproximada, seguida ou não de refinamento comparando com 3 ou mais genomas mais próximos;- An algorithm for comparing a new genome against 3 or more reference organisms, to determine its approximate position, whether or not followed by refinement comparing with 3 or more closest genomes;

- Um sistema de visualização de características de genomas, plotadas em cima da visualização 3D.- A system for visualizing genome characteristics, plotted on top of the 3D visualization.

[0021] Em uma concretização, o índice Jaccard foi usado para calcular distâncias inter-genômicas (figura 1) e depois representado em 3D usando um algoritmo não métrico de multidimensional scaling (MDS).[0021] In one embodiment, the Jaccard index was used to calculate inter-genomic distances (figure 1) and then plotted in 3D using a non-metric multidimensional scaling (MDS) algorithm.

Breve Descrição das Figuras [0022] A figura 1 mostra uma representação da Árvore da Vida reconstruída com 210 genomas representativos (49 Eukarya, 44 Archaea, 117 Bacteria) usando as distâncias intergenômicas de Jaccard basedo na soma dos bitscores calculada em comparações unidirecionais. A topologia desta árvore retém mais do que 94% de concordância com a topologia de uma árvore similar, obtida com o mesmo conjunto de dados (ou dataset), a aplicando os mesmos métodos de comparação e de distância, mas empregando em vez disso a abordagem bidirectional; e 81% de concordância comparada com uma árvore da vida obtida usando o mesmo conjunto de dados, mas aplicando um algoritmo de comparação diferente (BLAST) e um diferente método para medir as distâncias intergenômicas - o método de Conservação do Genoma (Kunin, 2005). De forma interessante, o método da invenção proporciona a clara separação dos três domínios da vida, o que não é obtido com os métodos usados como comparação.Brief Description of the Figures [0022] Figure 1 shows a representation of the reconstructed Tree of Life with 210 representative genomes (49 Eukarya, 44 Archaea, 117 Bacteria) using Jaccard intergenomic distances based on the sum of the bit colors calculated in unidirectional comparisons. The topology of this tree retains more than 94% agreement with the topology of a similar tree, obtained with the same data set (or dataset), applying the same methods of comparison and distance, but using instead the approach bidirectional; and 81% agreement compared to a tree of life obtained using the same data set, but applying a different comparison algorithm (BLAST) and a different method for measuring intergenomic distances - the Genome Conservation method (Kunin, 2005) . Interestingly, the method of the invention provides a clear separation of the three domains of life, which is not achieved with the methods used as a comparison.

Petição 870170006310, de 30/01/2017, pág. 15/22 / 17 [0023] A figura 2 mostra uma representação esquemática das distâncias intergenômicas entre um conjunto de 210 genomas representativos (117 eubacteria, 49 eukarya e 44 archaea), que foram calculadas usando a soma dos bitscores obtida com comparações unidirecionais para cada par de genomas, aplicando o método de distâncias de Jaccard (Jaccard, 1912), onde:Petition 870170006310, of 01/30/2017, p. 15/22 / 17 [0023] Figure 2 shows a schematic representation of the intergenomic distances between a set of 210 representative genomes (117 eubacteria, 49 eukarya and 44 archaea), which were calculated using the sum of the bit colors obtained with unidirectional comparisons for each pair of genomes, applying the Jaccard distance method (Jaccard, 1912), where:

é a distância entre genomas i e j;is the distance between genomes i and j;

C é a soma dos bitscores de todos os top hits entre i e j (Σ bits(i,j) + Σ bits(j, i));C is the sum of the color bits of all top hits between i and j (Σ bits (i, j) + Σ bits (j, i));

A é a soma dos bitscores de todos os top hits observados em autocomparações de i (Σ bitsÇi, i));A is the sum of the bit colors of all the top hits observed in self-comparisons of i (Σ bitsÇi, i));

B é a soma de bitscores de todos os top hits observados em auto-comparações de j (Xbits(j,j)).B is the sum of bitscores of all top hits observed in auto-comparisons of j (Xbits (j, j)).

[0024] A figura 3 mostra uma representação esquemática do Heatmap mostrando diferenças entre distâncias intergenômicas, medidas com o método das distâncias de Jaccard, baseado na soma dos bitscores obtidos com das abordagens distintas: comparações de Smith-Waterman bidirecionais vs unidirecionais entre o proteoma previsto codificado em 210 genomas representativos (49 Eukarya, 44 Archaea, 117 Bacteria). O índice de correlação entre as duas matrizes de distância é 0.9945, com p-value <0.001 (teste de Mantel). As maiores diferenças observadas entre eles (acima de 10%) são concentradas perto da diagonal (1,5% das distâncias totais calculadas), sugerindo que o método da invenção proporciona inferir distâncias com pelo menos 90% de confiança, comparado com a abordagem bidirecional tradicional. Considerando que estas distâncias podem ser usadas para reconstrução filogenética ou análise taxonômica, e que as abordagens filogenômicas tradicionais inevitavelmente se baseiam em comparações todoscontra-todos do conteúdo proteico completo de centenas ou milhares de genomas, o método da invenção proporciona uma redução de 50% no custo[0024] Figure 3 shows a schematic representation of the Heatmap showing differences between intergenomic distances, measured with the Jaccard distance method, based on the sum of the bit colors obtained with the different approaches: bidirectional vs unidirectional Smith-Waterman comparisons between the predicted proteome encoded in 210 representative genomes (49 Eukarya, 44 Archaea, 117 Bacteria). The correlation index between the two distance matrices is 0.9945, with p-value <0.001 (Mantel test). The biggest differences observed between them (above 10%) are concentrated close to the diagonal (1.5% of the calculated total distances), suggesting that the method of the invention provides to infer distances with at least 90% confidence, compared with the bidirectional approach traditional. Considering that these distances can be used for phylogenetic reconstruction or taxonomic analysis, and that traditional phylogenomic approaches inevitably rely on comparisons against all of the complete protein content of hundreds or thousands of genomes, the method of the invention provides a 50% reduction in cost

Petição 870170006310, de 30/01/2017, pág. 16/22 / 17 computacional no passo mais custoso da análise, proporcionando assim um método mais rápido de inferência de distâncias intergenômicas.Petition 870170006310, of 01/30/2017, p. 16/22 / 17 computationally in the most expensive step of the analysis, thus providing a faster method of inference of intergenomic distances.

[0025] A figura 4 mostra uma representação esquemática de uma concretização da invenção, sendo indicados: duas perspectivas de uma representação 3D da árvore da vida, obtida com distâncias intergenômicas medidas com o método de distâncias de Jaccard, baseado na soma dos bitscores obtidos com comparações unidirecionais entre os proteomas previstos codificados em 210 genomas representativos (49 Eukarya, 44 Archaea, 117 Bacteria). Coordenadas X, Y e Z foram geradas aplicando o método não métrico de multidimensional scaling (Kruskal, 1964). Cálculos e plots foram obtidos com o software PAST (Ryan, 2001). São mostrados: em azul: Eukarya; em amarelo: Archaea; em vermelho: Bacteria.[0025] Figure 4 shows a schematic representation of an embodiment of the invention, being indicated: two perspectives of a 3D representation of the tree of life, obtained with intergenomic distances measured with the Jaccard distance method, based on the sum of the bit colors obtained with unidirectional comparisons between predicted proteomes encoded in 210 representative genomes (49 Eukarya, 44 Archaea, 117 Bacteria). X, Y and Z coordinates were generated using the non-metric multidimensional scaling method (Kruskal, 1964). Calculations and plots were obtained with the PAST software (Ryan, 2001). They are shown: in blue: Eukarya; in yellow: Archaea; in red: Bacteria.

[0026] A figura 5 mostra uma representação do Sistema 3D e a posição relativa proposta para os animália, plantae, protistas, eubactéria, archaea e fungi.[0026] Figure 5 shows a representation of the 3D System and the proposed relative position for animalia, plantae, protists, eubacteria, archaea and fungi.

Descrição Detalhada da Criação/Invenção [0027] A presente invenção tem como conceito inventivo comum aos seus diversos objetos um método muito mais rápido de cálculo de distâncias intergenômicas entre organismos, levando em conta a totalidade de marcadores genéticos/proteicos, e não apenas conjuntos ortólogos. O sistema da invenção proporciona: redução do tempo de computação; e um aumento da precisão. [0028] A presente invenção tem como conceitos inventivos os seguintes objetos: 1. Um método e algoritmo que considere, para fins de avaliação/cálculo de distância entre genomas de (micro)organismos ou conteúdo codificado nos respectivos genomas o conjunto completo (ou disponível) de sequências gênicas ou proteicas. O algoritmo calcula índices de similaridade dois a dois entre os marcadores (genes, proteínas ou outro) de forma unidirecional, economizando desta forma 50% do tempo computacional. O algoritmo para o cálculo de distância considera como fórmula, por exemplo, aDetailed Description of Creation / Invention [0027] The present invention has as common inventive concept to its various objects a much faster method of calculating intergenomic distances between organisms, taking into account the totality of genetic / protein markers, and not just orthological sets . The system of the invention provides: reduced computing time; and an increase in accuracy. [0028] The present invention has the following objects as inventive concepts: 1. A method and algorithm that considers, for purposes of evaluating / calculating the distance between genomes of (micro) organisms or content encoded in the respective genomes, the complete set (or available) ) of gene or protein sequences. The algorithm calculates similarity indices two by two between the markers (genes, proteins or other) in a unidirectional way, thus saving 50% of the computational time. The algorithm for calculating distance considers as a formula, for example, the

Petição 870170006310, de 30/01/2017, pág. 17/22 / 17 de Jaccard (figura 2). 2. Para fins deste cálculo, a presente invenção, ao estimar a distância aproximada entre dois genomas, escolhe a matriz de substituição mais apropriada para o caso, em vez de uma matriz fixa e genérica para todas as comparações. 3. A partir de uma matriz de distância entre genomas (ou organismos, usando outros marcadores), a presente invenção é capaz de utilizar diversos algoritmos para construir uma árvore/cladograma em três ou mais dimensões, alocando coordenadas cartesianas para cada organismo/genoma. Um destes algoritmos utiliza técnicas de Multidimensional Scaling, e alternativamente, um cálculo de posição cartesiano considerando que todas as distâncias dois a dois se comportam como um sistema de molas, finalizando o posicionamento 3D com todas as molas em repouso/equilíbrio. 4. Na presente invenção, coordenadas cartesianas 3D são atribuídas a alguns genomas de referência, como Homo sapiens, Saccharomices cerevisae, Escherichia coli, Bacillus subtilis, de tal forma que qualquer conjunto de genomas tenha uma orientação e distribuição espacial XYZ fixa, e que outros organismos possam ser alocados/posicionados neste espaço 3D. 5. Na presente invenção, qualquer novo organismo pode ser colocado na sua posição correta neste sistema de coordenadas, comparando as suas sequências/proteinas/marcadores contra no mínimo 3 outros organismos, com isto economizando mais de 90% de tempo computacional. A posição mais precisa do novo organismo dentro do sistema de coordenadas pode ser refinada avaliando a sua distância com três ou mais organismos mais próximos. 6. Nesta invenção, a representação 3D dos organismos e da biodiversidade pode ser utilizada para mostrar características dos organismos e o conteúdo de bancos de dados, quando, num sistema computacional, o cursor passa por cima do organismo. Adicionalmente, características podem ser representadas por cores, formas e tamanhos, e tensões no sistema de representação (multidimensional scaling) podem ser mostradas. Adicionalmente, a presença de metabólitos, enzimas, vias metabólicas e outrasPetition 870170006310, of 01/30/2017, p. 17/22 / 17 by Jaccard (figure 2). 2. For the purposes of this calculation, the present invention, when estimating the approximate distance between two genomes, chooses the most appropriate substitution matrix for the case, instead of a fixed and generic matrix for all comparisons. 3. From a distance matrix between genomes (or organisms, using other markers), the present invention is able to use several algorithms to build a tree / cladogram in three or more dimensions, allocating Cartesian coordinates for each organism / genome. One of these algorithms uses Multidimensional Scaling techniques, and alternatively, a Cartesian position calculation considering that all distances two to two behave like a spring system, ending the 3D positioning with all springs at rest / balance. 4. In the present invention, 3D Cartesian coordinates are assigned to some reference genomes, such as Homo sapiens, Saccharomices cerevisae, Escherichia coli, Bacillus subtilis, such that any set of genomes has a fixed XYZ spatial orientation and distribution, and that others organisms can be allocated / positioned in this 3D space. 5. In the present invention, any new organism can be placed in its correct position in this coordinate system, comparing its sequences / proteins / markers against at least 3 other organisms, thereby saving more than 90% of computational time. The more precise position of the new organism within the coordinate system can be refined by assessing its distance with three or more nearby organisms. 6. In this invention, the 3D representation of the organisms and biodiversity can be used to show characteristics of the organisms and the content of databases, when, in a computer system, the cursor passes over the organism. Additionally, features can be represented by colors, shapes and sizes, and stresses in the representation system (multidimensional scaling) can be shown. Additionally, the presence of metabolites, enzymes, metabolic pathways and other

Petição 870170006310, de 30/01/2017, pág. 18/22 / 17 características pode ser plotada no sistema, com realce para os organismos positivos (ou negativos) para determinadas característica.Petition 870170006310, of 01/30/2017, p. 18/22 / 17 characteristics can be plotted in the system, with emphasis on the positive (or negative) organisms for certain characteristics.

[0029] O sistema de cálculo e representação da Rede da Vida descrita nesta invenção proporciona: redução do tempo computacional para determinar similaridades inter-genômicas; aumento da precisão para calcular distâncias com a utilização de tabelas de adaptadas para a distância real; visualização 3D ou em mais dimensões das distâncias relativas dos organismos em sistema cartesiano 3D, e a visualização de conjuntos de características neste sistema 3D.[0029] The system of calculation and representation of the Network of Life described in this invention provides: reduction of computational time to determine inter-genomic similarities; increased accuracy for calculating distances using tables adapted to the actual distance; 3D visualization or in more dimensions of the relative distances of the organisms in a 3D Cartesian system, and the visualization of sets of characteristics in this 3D system.

[0030] Em uma concretização, o referido sistema compreende:[0030] In one embodiment, said system comprises:

- um algoritmo de cálculo de distância inter-genômica unidirecional e seus variantes bidirecional, levando em conta somente top-hits ou então todos os hits acima de um determinado limite (ex. 10-3 ou 10-9 e-value);- a unidirectional intergenomic distance calculation algorithm and its bidirectional variants, taking into account only top-hits or all hits above a certain limit (eg 10-3 or 10-9 e-value);

- um algoritmo que estima a melhor tabela de probabilidades de acúmulo de mutações;- an algorithm that estimates the best mutation accumulation probability table;

- algoritmos para transformar uma matriz de distâncias em um conjunto de coordenadas 3D (XYZ) dos (micro)organismos, como o índice de Jaccard; o Multidimencional Scaling ou o sistema de simulação de molas;- algorithms to transform a distance matrix into a set of 3D (XYZ) coordinates of (micro) organisms, such as the Jaccard index; the Multidimensional Scaling or the spring simulation system;

- A fixação de coordenadas para (micro)-organismos de referência no sistema de visualização 3D, para construir um sistema de referência;- The fixing of coordinates for (micro) reference organisms in the 3D visualization system, to build a reference system;

- Um algoritmo para comparação de um genoma novo contra 3 ou mais organismos de referência, para determinar a sua posição aproximada, seguido ou não de refinamento comparando com 3 ou mais genomas mais próximos;- An algorithm for comparing a new genome against 3 or more reference organisms, to determine its approximate position, whether or not followed by refinement comparing with 3 or more closest genomes;

- Um sistema de visualização de características de genomas, plotadas em cima da visualização 3D.- A system for visualizing genome characteristics, plotted on top of the 3D visualization.

Petição 870170006310, de 30/01/2017, pág. 19/22 / 17 [0031] Em uma concretização, usando o índice de Jaccard, um método de medir distâncias inter-genômicas foi desenvolvido, baseado em comparações unidirecionais do conteúdo proteico completo previsto. O método proporciona a inferência de distâncias com boa confiança, reduzindo em torno de 50% o processamento computacional neste tipo de análise. Ao aplicar o método nãométrico de Multidimensional Scalling (MDS) nós representamos as distâncias em um modelo 3D.Petition 870170006310, of 01/30/2017, p. 19/22 / 17 [0031] In one embodiment, using the Jaccard index, a method of measuring inter-genomic distances was developed, based on unidirectional comparisons of the predicted complete protein content. The method provides the inference of distances with good confidence, reducing around 50% the computational processing in this type of analysis. When applying the non-metric method of Multidimensional Scalling (MDS) we represent the distances in a 3D model.

[0032] A invenção contribui, portanto, para reduzir drasticamente o tempo de computação necessária para posicionar um organismo no mapa 2 ou 3D chamado cladograma ou ainda “árvore filogenética” ou Rede da Vida, ou mapa taxonômico. A invenção também proporciona a visualização da posição relativa do organismo na Rede da Vida, e a visualização de um conjunto muito grande de características.[0032] The invention therefore contributes to drastically reduce the computation time required to position an organism on the 2 or 3D map called cladogram or "phylogenetic tree" or Rede da Vida, or taxonomic map. The invention also provides visualization of the relative position of the organism in the Rede da Vida, and visualization of a very large set of characteristics.

[0033] O depositante, ao depositar este pedido de patente perante o órgão competente/garante, busca e pretende: (i) nomear os inventores em respeito a seus respectivos direitos morais; (ii) indicar inequivocamente que é possuidor do segredo industrial e titular de qualquer forma de propriedade intelectual que dele derivar e o depositante desejar; (iii) descrever em detalhes o conteúdo objeto do segredo, comprovando sua existência nos planos físico e jurídico; (iv) estabelecer a relação entre os exemplos/concretizações e o conceito inventivo segundo a cognição do depositante e seu contexto, para demonstrar com clareza o alcance de seu bem intangível tutelado e/ou tutelável; (v) requerer e obter os direitos adicionais previstos para as patentes, se o depositante optar por prosseguir com o procedimento administrativo até o final.[0033] The depositor, when filing this patent application before the competent body / guarantor, seeks and intends to: (i) appoint the inventors in respect of their respective moral rights; (ii) indicate unequivocally that it is the holder of industrial secrecy and holder of any form of intellectual property that may derive from it and the depositor wishes; (iii) describe in detail the content subject to the secret, proving its existence on the physical and legal levels; (iv) establish the relationship between the examples / achievements and the inventive concept according to the depositor's cognition and its context, to clearly demonstrate the scope of his tutored and / or tutelable intangible asset; (v) apply for and obtain the additional rights foreseen for patents, if the depositor chooses to proceed with the administrative procedure until the end.

[0034] A eventual futura publicação do pedido de patente não constitui, em si, autorização de uso comercial por terceiros. Ainda que o conteúdo possa vir a integrar o mundo físico acessível a terceiros, a eventual publicação do pedido de patente nos termos da lei não elimina o status jurídico de segredo, servindo apenas e tão somente ao espírito da Lei para: (i) indicar inequivocamente seu possuidor/titular e inventor(es); (ii) cientificar terceiros quanto à existência do[0034] The eventual future publication of the patent application does not in itself constitute authorization for commercial use by third parties. Although the content may become part of the physical world accessible to third parties, the eventual publication of the patent application under the terms of the law does not eliminate the legal status of secrecy, serving only and only the spirit of the Law to: (i) indicate unequivocally its owner / holder and inventor (s); (ii) inform third parties about the existence of the

Petição 870170006310, de 30/01/2017, pág. 20/22 / 17 referido segredo industrial, do conteúdo para o que se requer proteção patentária e da data de seu depósito, a partir da qual será iniciado o prazo de vigência da exclusividade patentária; e (iii) auxiliar no desenvolvimento tecnológico e econômico do País, a partir da autorização do uso do segredo única e excepcionalmente para fins de estudos e/ou desenvolvimento de novas melhorias, evitando com isso reinvestimento paralelo por terceiros no desenvolvimento do mesmo bem.Petition 870170006310, of 01/30/2017, p. 20/22 / 17 said industrial secret, the content for which patent protection is required and the date of its filing, from which the patent exclusivity term will start; and (iii) assist in the technological and economic development of the country, from the authorization to use the secret only and exceptionally for the purposes of studies and / or development of new improvements, thereby avoiding parallel reinvestment by third parties in the development of the same asset.

[0035] Desde logo adverte-se que eventual uso comercial requer autorização do possuidor/titular e que o uso não autorizado enseja sanções previstas em Lei. Neste contexto, dado o amplo detalhamento segundo o qual o conceito e os exemplos foram revelados pelo depositante, os versados na arte poderão, sem muito esforço, considerar outras formas de concretizar a presente invenção de formas não idênticas às meramente exemplificadas acima. Entretanto, tais formas são ou poderão ser consideradas como dentro do escopo do ora revelado e/ou de uma ou mais das reivindicações anexas.[0035] It is immediately warned that any commercial use requires authorization from the owner / holder and that the unauthorized use entails sanctions provided for by law. In this context, given the broad detail according to which the concept and examples were revealed by the depositor, those skilled in the art will be able, without much effort, to consider other ways of carrying out the present invention in ways not identical to those merely exemplified above. However, such forms are or may be considered to fall within the scope of the now disclosed and / or one or more of the attached claims.

Petição 870170006310, de 30/01/2017, pág. 21/22 / 2Petition 870170006310, of 01/30/2017, p. 21/22 / 2

Claims (7)

ReivindicaçõesClaims 1. Uso caracterizado por compreender a criação industrial substancialmente conforme descrita nas páginas 1-17 desse relatório, bem como nas reivindicações, resumo e figuras, para o qual desde logo se requer a proteção, no âmbito do inciso XXIX do artigo 5° da constituição federal.1. Use characterized by understanding the industrial creation substantially as described on pages 1-17 of this report, as well as in the claims, summary and figures, for which protection is immediately required, within the scope of item XXIX of article 5 of the constitution federal. 2. Uso caracterizado por compreender a criação industrial substancialmente conforme descrita nas páginas 1-17 desse relatório, bem como nas reivindicações, resumo e figuras, para o qual se requer a manutenção do segredo pelo tempo previsto na Lei 9.279/96, Lei da Propriedade Industrial, bem como os direitos previstos no Art. 195 da Lei 9.279/96.2. Use characterized by understanding industrial creation substantially as described on pages 1-17 of this report, as well as in the claims, summary and figures, for which secrecy is required for the time provided for in Law 9.279 / 96, Property Law Industrial, as well as the rights provided for in Article 195 of Law 9.279 / 96. 3. Método de comparação de conjunto de marcadores genéticos, conjunto das sequências genéticas ou proteínas codificadas entre dois organismos, para obter medida de distância ou similaridade entre (micro)-organismos, caracterizado por compreender a comparação unidirecional das suas sequencias, e fórmula de cálculo, usando-se o conjunto mais completo de marcadores/sequencias.3. Method of comparing a set of genetic markers, a set of genetic sequences or proteins encoded between two organisms, to obtain a measure of distance or similarity between (micro) organisms, characterized by understanding the unidirectional comparison of their sequences, and calculation formula , using the most complete set of markers / sequences. 4. Método para determinar tabela de substituição de nucleotídeos ou amino-acidos caracterizado por ser baseado na estimativa de proximidade entre os organismos na comparação.4. Method for determining the substitution table for nucleotides or amino acids characterized by being based on the estimation of proximity between the organisms in the comparison. 5. Método para transformação de matriz de distâncias em plot/figura em três dimensões caracterizado por mostrar posições relativas dos organismos em espaço, utilizando algoritmos como a distância de Jaccuard, teoria de relaxamento de molas, opcionalmente incluindo informações sob formas, cores e tamanhos aos pontos representando organismos, aumentando as dimensões e informações.5. Method for transforming the distance matrix into a plot / figure in three dimensions characterized by showing relative positions of the organisms in space, using algorithms such as the Jaccuard distance, spring relaxation theory, optionally including information in shapes, colors and sizes to points representing organisms, increasing dimensions and information. Petição 870160067639, de 16/11/2016, pág. 23/33Petition 870160067639, of 11/16/2016, p. 23/33 2 / 22/2 6. Sistema de organismos de referência com posições cartesianas determinadas, caracterizado pelo uso para orientar o mapa da Rede da Vida, e que servem como marcos de referência para a comparação de organismos novos.6. System of reference organisms with determined Cartesian positions, characterized by the use to orient the Rede da Vida map, and that serve as reference marks for the comparison of new organisms. 7. Sistema de geração de imagens da Árvore/Rede da Vida caracterizado por compreender a superposição de informações sobre os organismos, e suas características, como presença de genes, enzimas, vias metabólicas, metabolitos.7. Tree / Life Network image generation system characterized by understanding the overlapping of information about organisms, and their characteristics, such as the presence of genes, enzymes, metabolic pathways, metabolites. Petição 870160067639, de 16/11/2016, pág. 24/33Petition 870160067639, of 11/16/2016, p. 24/33 1 /51/5 FIGURAS t 1 ’ I vHVmW q íVm-díFIGURES t 1 ’I vHVmW q íVm-d AVlw4 ? üv vi f.AVlw4? üv vi f. ^AM\\MAtVÚÍni>^ AM \\ MAtVÚÍni> aAV»WVaAV »WV Xr^WV ,, 4^$^ <SSb-WXr ^ WV ,, 4 ^ $ ^ <SSb-W S^Ptacocc^ **-*:>· ^reptoco^^^.^ »»«**-S^ ,r0? >S ^ Ptacocc ^ ** - *:> · ^ reptoco ^^^. ^ »» «** - S ^, r0? > η<μ5^Γ0? te^° η < μ5 ^ Γ0? te ^ ° Y**'Ο<*θ-ί \0>* <<sM· '>>*>Y ** 'Ο <* θ -ί \ 0> * << sM ·'>>*> ΛαΧ au?>ΧαΧ au?> Z/y/ .Z / y /. $%&%>$% &%> Λ £>ώ Λ £> ώ 3 erochvbocUhumJoecium3 erochvbocUhumJoecium I CoryneboctenumjlutomicumI Coryneboctenumjlutomicum Amycolatopsis_medi+ernanei St reptomyces_coe lico I o r Mycobocte r i um_abscessus 3 ^^tenum^megmat.s fcbactenun’-'eproe $a„*'Mdes < ^S^/a ^tQ,ofoOtn /W$íAmycolatopsis_medi + ernanei St reptomyces_coe lico I or Mycobocte ri um_abscessus 3 ^^ tenum ^ megmat.s fc bacterenun '-'propro $ a „*' Mdes <^ S ^ / a ^ tQ, of the Otn / W $ í ΑΑν%Λ %A V'<\>ΑΑν% Λ% A V '<\> k\W\^k \ W \ ^
BR102016026770-6A 2016-11-16 2016-11-16 LIFE NETWORK EVALUATION AND REPRESENTATION METHOD, AND BIODIVERSITY ANALYSIS APPLICATIONS BR102016026770A2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
BR102016026770-6A BR102016026770A2 (en) 2016-11-16 2016-11-16 LIFE NETWORK EVALUATION AND REPRESENTATION METHOD, AND BIODIVERSITY ANALYSIS APPLICATIONS

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
BR102016026770-6A BR102016026770A2 (en) 2016-11-16 2016-11-16 LIFE NETWORK EVALUATION AND REPRESENTATION METHOD, AND BIODIVERSITY ANALYSIS APPLICATIONS

Publications (1)

Publication Number Publication Date
BR102016026770A2 true BR102016026770A2 (en) 2018-07-10

Family

ID=62845514

Family Applications (1)

Application Number Title Priority Date Filing Date
BR102016026770-6A BR102016026770A2 (en) 2016-11-16 2016-11-16 LIFE NETWORK EVALUATION AND REPRESENTATION METHOD, AND BIODIVERSITY ANALYSIS APPLICATIONS

Country Status (1)

Country Link
BR (1) BR102016026770A2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114018215A (en) * 2022-01-04 2022-02-08 智道网联科技(北京)有限公司 Monocular distance measuring method, device, equipment and storage medium based on semantic segmentation

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114018215A (en) * 2022-01-04 2022-02-08 智道网联科技(北京)有限公司 Monocular distance measuring method, device, equipment and storage medium based on semantic segmentation
CN114018215B (en) * 2022-01-04 2022-04-12 智道网联科技(北京)有限公司 Monocular distance measuring method, device, equipment and storage medium based on semantic segmentation

Similar Documents

Publication Publication Date Title
Gascuel Mathematics of evolution and phylogeny
Lartillot et al. Suppression of long-branch attraction artefacts in the animal phylogeny using a site-heterogeneous model
Qi et al. A protein mapping method based on physicochemical properties and dimension reduction
Ma et al. A graphical representation of protein based on a novel iterated function system
US20130325428A1 (en) Assembly of Metagenomic Sequences
Li et al. 3D representations of amino acids—applications to protein sequence comparison and classification
Yu et al. Novel 20-D descriptors of protein sequences and it’s applications in similarity analysis
Zhao et al. Convex hull principle for classification and phylogeny of eukaryotic proteins
Aksa et al. Bitmapaligner: bit-parallelism string matching with mapreduce and hadoop
Uddin et al. A fast and efficient algorithm for DNA sequence similarity identification
Ngo et al. Multiresolution graph transformers and wavelet positional encoding for learning long-range and hierarchical structures
BR102016026770A2 (en) LIFE NETWORK EVALUATION AND REPRESENTATION METHOD, AND BIODIVERSITY ANALYSIS APPLICATIONS
Li et al. Sequence comparison and essential gene identification with new inter-nucleotide distance sequences
Min et al. A novel sparse graph-regularized singular value decomposition model and its application to genomic data analysis
Bernardes et al. Improving model construction of profile HMMs for remote homology detection through structural alignment
Ambler et al. GenGraph: a python module for the simple generation and manipulation of genome graphs
BR102017024632A2 (en) SYSTEM AND METHOD OF EVALUATION, COMPARISON AND REPRESENTATION OF BIOLOGICAL SEQUENCES
Jakó et al. BOOL-AN: A method for comparative sequence analysis and phylogenetic reconstruction
Bai et al. Vector representation and its application of DNA sequences based on nucleotide triplet codons
Pal et al. Mathematical approach to protein sequence comparison based on physiochemical properties
Wallace et al. Application of subspace clustering in DNA sequence analysis
Yang et al. Analysis on the reconstruction accuracy of the Fitch method for inferring ancestral states
Zhang et al. A dynamic 3D graphical representation for RNA structure analysis and its application in non-coding RNA classification
Suvorova et al. Study of triplet periodicity differences inside and between genomes
Tang Ancestral Genome Reconstruction

Legal Events

Date Code Title Description
B03A Publication of an application: publication of a patent application or of a certificate of addition of invention
B03G Publication of an application: publication cancelled
B11K Dismissal acc. art. 17, par 2 of ipl - pending earlier application (priority claim) definitively shelved
B03F Publication of an application: publication of application definitely dismissed - article 216, par 2 and article 17, par 2 of industr. prop. law