BRPI1003189A2 - método e sistema para sìntese e análise de dados - Google Patents

método e sistema para sìntese e análise de dados Download PDF

Info

Publication number
BRPI1003189A2
BRPI1003189A2 BRPI1003189-8A BRPI1003189A BRPI1003189A2 BR PI1003189 A2 BRPI1003189 A2 BR PI1003189A2 BR PI1003189 A BRPI1003189 A BR PI1003189A BR PI1003189 A2 BRPI1003189 A2 BR PI1003189A2
Authority
BR
Brazil
Prior art keywords
covariance
multitasking
data
function
formula
Prior art date
Application number
BRPI1003189-8A
Other languages
English (en)
Inventor
Arman Melkumyan
Fabio Tozeto Ramos
Original Assignee
Univ Sydney
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from AU2009902150A external-priority patent/AU2009902150A0/en
Application filed by Univ Sydney filed Critical Univ Sydney
Publication of BRPI1003189A2 publication Critical patent/BRPI1003189A2/pt

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

MéTODO E SISTEMA PARA SìNTESE E ANáLISE DE DADOS. Um sistema (100) para a análise e a síntese de uma pluralidade de fontes de dados de amostra (310, 320) por aprendizado automatizado e regressão. O sistema inclui o armazenamento de dados (110) com uma função de covariância de multitarefa armazenada, e um processador de avaliação (102) em comunicação com o armazenamento de dados (110). O processador de avaliação (102) realiza uma regressão usando os dados de amostra armazenados e uma função de covariância de multitarefa e dados de predição de síntese para uso em uma exibição gráfica ou um controle digital.

Description

MÉTODO E SISTEMA PARA SÍNTESE E ANALISE DE DADOS
Campo da Invenção
Esta invenção se refere a um método e a um sistema para a análise de dados e a síntese de dados usando-se uma função de kernel / de base de atenuação, conforme é usado em processos gaussianos e outros métodos e processos preditivos. Os exemplos de aplicações incluem, mas não estão limitados à mineração, ciências ambientais, hidrologia, economia e robótica.
Antecedentes da Invenção
A modelagem de dados de computador, tal como para a concretização de dados em uma representação espacial de uma característica desejada, freqüentemente é útil em campos tais como mineração e ciências ambientais. No caso de mineração como um exemplo, freqüentemente é desejável determinar uma representação da distribuição espacial de minerais e minérios em uma jazida do terreno para a modelagem e a predição da geometria e da geologia do material no terreno. 0 modelo no terreno então pode ser usado para planejamento de mineração, localização de furo de perfuração, operações de perfuração, explosão, controle de escavação, direção de material escavado e gerenciamento de recurso, dentre outras coisas.
Para modelagem de uma jazida de minério no terreno, por exemplo, os dados de amostra podem ser gerados a partir de medições de concentrações de mineral, ou de quantidades relacionadas, em localizações discretas em um domínio espacial tridimensional incluindo a jazida de minério. Os dados de amostra então podem ser analisados e, usando-se um método de interpolação, sintetizados em um modelo que pode ser usado para a feitura de predições de concentrações de minerais em localizações espaciais distintas daquelas que foram medidas. Uma técnica matemática que mostrou ser útil nesta aplicação é uma regressão usando um processo gaussiano (GP) o qual é um processo estocástico baseado na distribuição normal (gaussiana), e pode ser usado com bom efeito como uma técnica de aprendizado não paramétrica poderosa para modelagem espacial. Descrito por uma função de covariância apropriada, o GP pode ser usado para a inferência de valores contínuos no domínio espacial a partir da distribuição de medições de amostra. Os GPs e sua aplicação são descritos em Gaussian Processes for Machine Learning (MIT Press, 2006) de C.E. Rassmussen e C.K.I. Williams, cujo conteúdo é incorporado aqui como referência.
Sumário da Invenção
De acordo com um primeiro aspecto da invenção, é provido um sistema para a análise e a síntese de dados a partir de uma pluralidade de fontes de dados de amostra por aprendizado de processo gaussiano e regressão, o sistema incluindo o armazenamento de dados com uma função de covariância de multitarefa armazenada e hiperparâmetros associados, e um processador de avaliação em comunicação com o armazenamento de dados. O processador de avaliação realiza uma regressão de processo gaussiano usando os dados de amostra armazenados e a função de covariância de multitarefa com os hiperparâmetros e dados de predição de sínteses para uso em uma exibição gráfica ou um controle digital. A função de covariância de multitarefa é uma combinação de uma pluralidade de funções de covariância estacionárias. Em uma modalidade, o sistema ainda inclui um processador de treinamento para a determinação dos hiperparâmetros pela análise dos dados de amostra e da função de covariância de multitarefa.
Em uma modalidade, os dados de medição amostrados são derivados a partir da medição de uma pluralidade de quantidades dependentes e distribuídas por uma região espacial ou um período temporal. Os dados de medição amostrados podem ser derivados a partir dos sensores medindo uma pluralidade de quantidades em localizações distribuídas espacialmente em uma região. Os sensores podem medir as quantidades relacionadas à geologia e/ou a características de rocha na região.
Em uma modalidade, a função de covariância de multitarefa é determinada por uma combinação selecionada de funções de covariância estacionárias para cada tarefa correspondente a uma fonte separada de dados de medição amostrados. As funções de covariância para cada tarefa separada podem ser as mesmas. Alternativamente, as funções de covariância para cada tarefa separada podem ser diferentes.
Em uma modalidade, pelo menos uma das funções de covariância combinadas na função de covariância de multitarefa é uma função de covariância exponencial ao quadrado.
Em uma modalidade, pelo menos uma das funções de covariância combinadas na função de covariância de multitarefa é uma função de covariância esparsa.
Em uma modalidade, pelo menos uma das funções de covariância combinadas na função de covariância de multitarefa é uma função de covariância de Matérn.
Em uma modalidade, a função de covariância cruzada é determinada por uma seleção de uma função de covariância estacionária para cada tarefa de fonte de dados, e pela combinação da pluralidade de funções de covariância usando- se uma transformada de Fourier e técnicas de convolução.
De acordo com um segundo aspecto da invenção, é provido um método de análise de dados computadorizada e síntese para estimativa de uma primeira quantidade desejada. O método inclui a medição da primeira quantidade e de pelo menos uma outra segunda quantidade em um domínio de interesse para a geração de primeiro e segundo conjuntos de dados amostrados, o armazenamento dos conjuntos de dados amostrados e a seleção de primeira e segunda funções de covariância estacionárias para aplicação aos primeiro e segundo conjuntos de dados. O método então inclui a determinação de uma função de covariância de multitarefa determinada a partir das primeira e segunda funções de covariância selecionadas, o treinamento de um processo gaussiano de multitarefa pela computação e pelo armazenamento de valores de hiperparâmetro otimizados associados à função de covariância de multitarefa usando-se os primeiro e segundo conjuntos de dados armazenados, e a realização de uma regressão de processo gaussiano usando-se a função de covariância de multitarefa, os hiperparâmetros computados e armazenados e os conjuntos de dados armazenados para a predição de valores desconhecidos da primeira quantidade no domínio de interesse.
Em uma modalidade, as primeira e segunda quantidades são quantidades mensuráveis espacialmente distribuídas. As primeira e segunda quantidades podem ser derivadas de características geológicas em uma jazida de terreno.
Em uma modalidade, as primeira e segunda funções de covariância são as mesmas. Alternativamente, as primeira e segunda funções de covariância são diferentes.
De acordo com um terceiro aspecto da invenção, é provido um método para a determinação de um processo gaussiano para a regressão de uma pluralidade de tarefas relacionadas, que inclui as etapas de recebimento de um conjunto de dados associado a cada uma da pluralidade de tarefas relacionadas, recebimento de uma função de covariância associada a cada uma das tarefas relacionadas, e o uso dos conjuntos de dados e das funções de covariância para a determinação de uma função de covariância de multitarefa, para uso com o processo gaussiano de multitarefa.
Em uma modalidade, a função de covariância de multitarefa K é determinada a partir de uma função de base, g, associada a cada função de covariância,
onde i e j identificam o número de tarefa e (χ, i) , (x', j) representam os pontos χ e x' da tarefa i e j respectivamente.
De acordo com um quarto aspecto da invenção, é provido um método para a avaliação de uma tarefa de um modelo de regressão de processo gaussiano, onde a tarefa é uma de uma pluralidade de tarefas dependentes, e o modelo de regressão de processo gaussiano inclui um processo gaussiano, o processo gaussiano sendo associado a uma função de covariância, a função de covariância sendo uma função de covariância de multitarefa.
De acordo com um quinto aspecto da invenção, é provido um sistema para a análise de uma pluralidade de conjuntos de dados, cada conjunto de dados associado a uma função de covariância de tarefa única. O sistema inclui um processador de treinamento de processo gaussiano de multitarefa que analisa a pluralidade de conjuntos de dados simultaneamente, para a determinação de uma função de covariância de multitarefa. A função de covariância de multitarefa é uma combinação das funções de covariância de tarefa única.
De acordo com um sexto aspecto da invenção, é provido um sistema para a síntese de um conjunto de dados a partir de um conjunto de dados de entrada de teste, onde o conjunto de dados compreende dados de um de uma pluralidade de tipos de dados, cada tipo de dados sendo associado a uma função de covariância de tarefa única. 0 sistema inclui um processo gaussiano de multitarefa associado a uma função de covariância de multitarefa, onde a função de covariância de multitarefa é uma combinação das funções de covariância de tarefa única e um processador de avaliação de processo gaussiano que introduz o conjunto de dados de entrada de teste, e usa o processo gaussiano de multitarefa para a síntese do conjunto de dados.
De acordo com outros aspectos da invenção, é provido um método para regressão em computador de uma pluralidade de tarefas relacionadas, ou um sistema de computador para essa regressão, que inclui as etapas de recebimento de um conjunto de dados associado a cada um da pluralidade de tarefas relacionadas à modelagem, a atribuição de um kernel de conjunto de dados para cada um dos conjuntos de dados e, simultaneamente, a modelagem dos conjuntos de dados usando- se um processo de kernel no qual o kernel é uma convolução dos kernels de conjunto de dados.
Em algumas modalidades, o kernel de conjunto de dados para um da pluralidade de conjuntos de dados é diferente do kernel de conjunto de dados para um outro da pluralidade de conjuntos de dados.
De acordo ainda com outros aspectos da invenção, é provido um método para regressão em computador de uma pluralidade de tarefas relacionadas, ou um sistema de computador para essa regressão. Os valores para as entradas X, alvos y, função de covariância K, nível de ruído σ2η, e entrada de teste X* são recebidos, X, y e X* são na forma de vetores de bloco, e K é na forma de uma matriz de bloco que compreende funções de covariância para cada entrada X ao longo de sua diagonal e funções de covariância cruzada formadas por uma convolução de funções de covariância fora de sua diagonal. A função de covariância K é aplicada às entradas X, aos alvos y, ao nível de ruído σ2η, e à entrada de teste X*, em um processo preditivo, e uma saída de um modelo das entradas X é gerado.
De acordo com outros aspectos da invenção, é provido um programa de computador e um produto de programa de computador compreendendo um código de programa que pode ser lido em máquina, para controle da operação de um aparelho de processamento de dados no qual o código de programa se executa, para a realização do método descrito aqui.
Aspectos adicionais da presente invenção e modalidades adicionais dos aspectos descritos nos parágrafos precedentes se tornarão evidentes a partir da descrição a seguir, dada a título de exemplo e com referência aos desenhos associados.
Breve Descrição dos Desenhos
Nos desenhos:
a Figura 1 é um diagrama representativo de um sistema de computação de exemplo, o qual pode ser usado para a implementação de um sistema de modelagem de dados de acordo com uma modalidade da invenção;
a Figura 2 é uma ilustração diagramática de um padrão de furo de perfuração de mineração;
a Figura 3 é um fluxograma para análise de dados e síntese de dados usando-se processos gaussianos de multitarefa de acordo com uma modalidade da invenção;
a Figura 4 é um fluxograma que mostra uma fase de treinamento para um processo de modelagem de dados espaciais, de acordo com uma modalidade da invenção;
a Figura 5 é uma representação diagramática de uma fase de avaliação para o processo de modelagem de dados espaciais, de acordo com uma modalidade da invenção;
a Figura 6 indica um gráfico que mostra a saída de uma regressão de processo gaussiano de tarefa única;
a Figura 7 e um fluxograma para o método de regressão de GP de multitarefa de acordo com uma modalidade da invenção;
a Figura 8 é um fluxograma para o método de regressão de GP de multitarefa de acordo com uma modalidade da invenção;
as Figuras 9a) e b) indicam dois tráficos mostrando a saída de uma regressão de processo gaussiano de multitarefa para o método de regressão de GP de multitarefa de acordo com uma modalidade da invenção;
as Figuras 10 a) e b) ilustram graficamente os resultados da modelagem de dados de dois processos gaussianos de tarefa única independentes e um processo gaussiano de duas tarefas interconectadas, respectivamente; e
as Figuras 11A a 11C ilustram graficamente um exemplo de uso de uma metodologia de kernel múltiplo em um exemplo tendo duas tarefas independentes, as figuras mostrando média preditiva e variância para respectivos GPs independente, de multitarefa e kernel múltiplo.
Descrição Detalhada das Modalidades
Será entendido que a invenção mostrada e definida neste relatório descritivo se estende a todas as combinações alternativas de dois ou mais dos recursos individuais mencionados ou evidentes a partir do texto ou dos desenhos. Todas estas combinações diferentes constituem vários aspectos alternativos da invenção.
Em um problema de estimativa tal como uma predição de grau de minério em mineração, alguma relação pode existir entre graus de minerais diferentes sendo preditos. A modelagem destas relações pode melhorar significativamente a qualidade da predição, reduzir a incerteza geral para cada tarefa de estimativa e prover meios para uma estimativa com dados parciais. Uma técnica em geoestatística para esta finalidade é conhecida como co- kigragem, onde as correlações entre variáveis precisam ser especificadas manualmente.
O problema de aprendizado simultaneamente de múltiplas tarefas tem recebido atenção crescente no campo de aprendizado de máquina nos últimos anos. Esta pesquisa é motivada por muitas aplicações nas quais é requerido estimar quantidades diferentes a partir de um conjunto de dados de entrada / saída, e estas quantidades têm interdependências intrínsecas desconhecidas. Este problema pode ser enquadrado como aquele de aprendizado de um conjunto de funções em que cada função correspondente a uma tarefa em particular é representada por seu conjunto de dados individual. Estas tarefas são interdependentes pelo fato de elas compartilharem alguma estrutura comum subjacente. Usando-se esta estrutura interna, cada tarefa pode ser aprendida de uma forma mais eficiente e estudos empíricos indicam que pode haver benefícios significativos pelo aprendizado das tarefas simultaneamente, em oposição a aprendê-las uma a uma isoladamente.
A presente invenção pode ser aplicada a uma modelagem de grau de minério, conforme descrito abaixo em um exemplo não limitativo de sua implementação. Outras aplicações incluem ciências ambientais, hidrologia, economia e robótica.
1. Visão Geral do Sistema
Com referência à Figura 1, uma modalidade de um sistema de modelagem de dados pode ser implementada com o auxílio de um hardware e um software de computador apropriados na forma de um sistema de computação 100. O sistema de computação 100 pode compreender um processador 102, uma memória 104 e uma entrada / saída 106. Estes componentes se comunicam através de um barramento 108. A memória 104 armazena instruções executadas pelo processador 102 para a realização dos métodos, conforme descrito aqui.
O armazenamento de dados 110 pode ser conectado ao sistema 100 para o armazenamento de dados de entrada e de saída. A entrada / saída 106 provê uma interface para acesso às instruções e aos dados armazenados. Será entendido que esta descrição de um sistema de computação é apenas um exemplo de sistemas possíveis, nos quais a invenção pode ser implementada, e outros sistemas podem ter arquiteturas diferentes.
A Figura 2 é uma ilustração diagramática de uma seção tridimensional delimitada ortogonalmente de um terreno 200 incorporando um minério de interesse em potencial para a mineração. A distribuição de minério (não mostrada) na jazida de terreno 200 pode ser de interesse em particular.
A quantidade de minério no terreno pode ser determinada em intervalos através de um arranjo de furos de perfuração 220 perfurados a partir da superfície 240 por uma sonda de perfuração móvel 260. A concentração de minério pode ser medida a partir de amostras de material tiradas dos furos de perfuração 220, em várias profundidades, para a geração de um conjunto de dados representando um arranjo espacial tridimensional de medições discretas. De modo a se inferirem valores de concentração de minério em localizações não realmente medidas, o conjunto de dados pode ser aplicado para aprendizado e regressão de GP para as finalidades de interpolação ou extrapolação.
2. Processos Gaussianos para Regressão
Uma regressão é um aprendizado supervisionado de mapeamentos de entrada - saída de dados empíricos denominados os dados de treinamento. Cada mapeamento de entrada - saída é referido como uma tarefa. Se houver múltiplas entradas associadas a múltiplas saídas, o problema se tornará um problema de regressão de multitarefa. Uma vez que este mapeamento tenha sido modelado, por exemplo, usando-se uma modelagem bayesiana, é possível predizer os valores de saída para novos dados de entrada, denominados os dados de teste.
Os processos gaussianos provêem uma estrutura de aprendizado poderosa para aprendizado de modelos de dados espacialmente correlacionados e incertos. Uma estrutura de GP é usada na modelagem bayesiana para a descrição de saídas para funções usadas para mapeamento a partir de uma entrada χ para uma saída f (x). Uma regressão de GP provê um meio robusto de estimativa e interpolação de uma informação espacial que pode lidar com dados de sensor incompletos (dados de treinamento) efetivamente. Os GPs são abordagens não paramétricas pelo fato de não especificarem um modelo funcional explícito entre a entrada e a saída.
Um GP é uma coleção de variáveis randômicas, qualquer número finito do que tem uma distribuição gaussiana conjunta. Um GP é especificado completamente por suas funções de média de covariância. A função de média m(x) e a função de covariância k(x, x') de um processo real f (x) são definidas como:
<formula>formula see original document page 13</formula> (1)
<formula>formula see original document page 13</formula> (2)
de modo que GP seja escrito como:
<formula>formula see original document page 13</formula> (3). As funções de média e covariância em conjunto descrevem uma distribuição por funções possíveis usadas para estimativa. No contexto de modelagem de distribuição de recurso no solo, por exemplo, cada entrada χ representa um ponto em um espaço 3D, χ = (χ, y, z), e a saída, f (χ), correspondente a cada χ é uma medição de concentração de minério.
2. Funções de Covariância
Embora não necessário, em nome da conveniência, a função de média m(x) pode ser assumida como sendo zero pelo escalonamento dos dados apropriadamente, de modo que eles tenham uma média zero. Isto deixa a função de covariância para a descrição do GP. A função de covariância modela a covariância entre as variáveis randômicas, as quais aqui correspondem a dados medidos de sensor.
Como parte de um modelo não paramétricô, as funções de covariância usadas para regressão de GP têm alguns parâmetros livres que podem ser variados, e são otimizadas usando-se os dados de treinamento. Estes parâmetros são denominados hiperparâmetros.
Há numerosas funções de covariância que podem ser usadas para a modelagem da variação espacial entre os pontos de dados. Uma função de covariância popular é a função de covariância exponencial ao quadrado dada como:
<formula>formula see original document page 14</formula> (4)
onde ky é a função de covariância; lê a escala de comprimento, uma medida de quão rapidamente o valor de f (x) muda em relação ao valor de x; Of2 é a variância de sinal e On2 é a variância de ruído nos dados sendo modelados. 0 símbolo õpq representa um delta de Kroeneker definido nos índices ρ e q. O conjunto de parâmetros 1, σf ση é referido como os hiperparâmetros e especificam que tipo de valores os parâmetros poderiam assumir. A função de covariância exponencial ao quadrado, sendo uma função de |x - χ'} , é estacionaria (invariante a uma translação).
2.2 Hiperparâmetros
O treinamento do GP para um dado conjunto de dados significa a determinação e a otimização dos hiperparâmetros da função de covariância subjacente.
Os hiperparâmetros são determinados a partir dos dados a serem modelados. Os hiperparâmetros podem ser aprendidos a partir dos dados de treinamento, usando-se um processo manual, isto é, usando-se processos de tentativa e erro. Os hiperparâmetros também podem ser aprendidos usando-se um processo de treinamento em máquina. Os métodos típicos incluem o uso de uma validação cruzada leave-one-out (deixar um de fora) (LOOCV), também denominada uma estimativa por rotação, e um aprendizado bayesiano, tal como uma estimativa de probabilidade máxima. Neste exemplo, o método de estimativa de probabilidade máxima é usado.
O log da probabilidade marginal de saída de treinamento (y) dada a entrada de treinamento (X) para um conjunto de hiperparâmetros θ é dado por:
<formula>formula see original document page 15</formula>
onde Ky = Kf + σn2I é a matriz de covariância para os alvos com ruído y. O log da probabilidade marginal descreve três termos: o primeiro descreve um ajuste de dados, o segundo termo penaliza a complexidade do modelo, e o último termo é simplesmente um coeficiente de normalização. Assim, um treinamento do modelo envolverá buscar o conjunto de hiperparâmetros que permita o melhor ajuste de dados, enquanto se evitam modelos excessivamente complexos. Uma lâmina de Occam é embutida, assim, no sistema e um ajuste excessivo é evitado pela formulação verdadeira do mecanismo de aprendizado.
Usando a estimativa de probabilidade máxima, treina-se o modelo de GP em um dado conjunto de quantidades de dados para se encontrar o conjunto ótimo de hiperparâmetros que maximize o Iog da probabilidade marginal (eq. 6). Para a função de covariância exponencial ao quadrado, uma otimização dos hiperparâmetros envolve encontrar o conjunto ótimo de valores para θ = { Ix , Iy , Iz ,σ£ , ση }. Uma otimização pode ser feita usando-se abordagens de otimização prontas padronizadas. Por exemplo, uma combinação de busca estocástica (arrefecimento simulado) e de descida de gradiente (otimização quase newtoniana com atualização hessiana de BFGS) mostrou ser bem sucedida.
Usar uma abordagem de otimização baseada em gradiente leva a vantagens pelo fato de a convergência ser obtida muito mais rapidamente. Uma descrição e uma informação adicional sobre estas técnicas de otimização e outras podem ser encontradas no texto Numerical Optimization, de J. Nocedal e S. Wright (Springer, 2006).
2.3 Regressão
0 modelo de GP aprendido é usado para se estimar uma quantidade de interesse (por exemplo, uma concentração de minério) em um volume de interesse, caracterizado por uma grade de pontos em uma resolução desejada. Isto é obtido pela realização de uma regressão de processo gaussiano no conjunto de pontos de teste, dado o conjunto de dados de treinamento e a função de covariância de GP com os hiperparâmetros aprendidos.
Para um ruído gaussiano distribuído de forma idêntica independente aditivo com variância ση2, o anterior nas observações de ruído se torna:
<formula>formula see original document page 17</formula> (6)
onde Spq é um delta de Kroeneker definido em p, q e é = 1 se ρ = q e 0 caso contrário.
A distribuição conjunta de qualquer número finito de variáveis randômicas de um GP é gaussiana. Assim, a distribuição conjunta das saídas de treinamento y e das saídas de teste f* dada este anterior pode ser especificada por:
<formula>formula see original document page 17</formula>
Os valores de função (f*) correspondentes a entradas de teste (X*), tendo-se os dados de treinamento X e a saída de treinamento y são dados por:
<formula>formula see original document page 17</formula>
onde
<formula>formula see original document page 17</formula> (8)
e a incerteza é dada por:
<formula>formula see original document page 17</formula> (9).
Denotando K(X, X) por K e K(Χ, X*) por K*, para um único ponto de teste x*, k(x*} = k* ê usado para se denotar o vetor de covariâncias entre o ponto de teste e o conjunto de todos os pontos de treinamento. As equações acima então podem ser reescritas para um único ponto de teste como:
<formula>formula see original document page 18</formula>
e
<formula>formula see original document page 18</formula>
As equações (10) e (11) provêem a base para o processo de estimativa. As estimativas de GP obtidas são uma melhor estimativa não orientada linear para os respectivos pontos de teste. Uma incerteza é lidada pela incorporação do modelo de ruído de sensor nos dados de treinamento. A representação produzida é uma de resolução múltipla pelo fato de o modelo espacial poder ser gerado em qualquer resolução desejada, usando-se as equações de regressão de GP apresentadas acima. Assim, a abordagem proposta é uma de resolução múltipla e probabilística, que lida de forma apta com uma informação correlacionada espacialmente.
A Figura 6 é uma representação gráfica de uma modelagem de processo gaussiano de tarefa única de medições de dados unidimensionais mostrados como símbolos no desenho. A linha contínua representa a melhor estimativa contínua para o modelo, com uma incerteza de predição representada pela largura da região sombreada no desenho. Esta figura mostra que a regressão de GP leva a resultados incertos, isto é, resulta em maior variância, nas regiões em que os pontos de dados não são densos.
3. Regressão com Tarefas Interdependentes
Às vezes, as medições são feitas de características múltiplas em um domínio espacial, as quais são dependentes de alguma forma. Depósitos de minério de ferro, por exemplo, freqüentemente são acompanhados por dióxido de silício de alguma maneira dependente, e as concentrações de cada um podem ser medidas separadamente do material de amostra obtido de furos de perfuração. Um modelo do depósito de minério pode ser gerado pela aplicação de um GP de tarefa única padrão às medições de amostra de concentrações de ferro. Também é possível explorar a dependência de minério de ferro do dióxido de silício. Para a obtenção disto, é provido um algoritmo que é capaz de aprender a dependência dos dados de treinamento em uma estrutura de GP pelo aprendizado de múltiplas tarefas de GP dependentes simultaneamente.
As funções de covariância de tarefa única podem ser usadas para uma tarefa única (isto é, uma única função de saída) em um momento. Se houver muitas tarefas a aprender e estimar, então, o uso de funções de covariância de tarefa única considera as tarefas separadas umas das outras e a informação presente em uma tarefa não é usada para a obtenção de um modelo melhorado para uma outra tarefa. Os GPs de multitarefa tornam possível considerar tarefas diferentes em uma única regressão de GP e usar as conexões intrínsecas entre elas para a produção de melhores resultados. As novas funções de covariância de multitarefa desenvolvidas desta invenção têm a vantagem de tornar possível que os GPs de multitarefa:
(1) tenham parâmetros diferentes (por exemplo, escalas de comprimento) para cada tarefa individual, e
(2) tenham funções de covariância diferentes para cada tarefa individual.
Mais ainda, os conjuntos de pontos de dados de entrada para tarefas diferentes podem ser diferentes nos conjuntos de dados de entrada / saída. Estas novas possibilidades são úteis, porque as tarefas diferentes a serem aprendidas e estimadas em conjunto podem ser escalonadas diferentemente ou ter funções de covariância apropriadas diferentes, por causa de estruturas internas diferentes.
Uma estrutura de GP de multitarefa envolve a análise dos múltiplos conjuntos de dados simultaneamente para aprendizado de hiperparâmetros de uma função de covariância de multitarefa que simultaneamente modela a covariância entre os diferentes conjuntos de dados, bem como a covariância dentre as amostras de dados nos conjuntos de dados. Contudo, as funções de covariância adequadas para GPS de tarefa única, com a exponencial ao quadrado, a esparsa e a de Matérn (descritas adicionalmente aqui adiante), não são aplicáveis diretamente quando múltiplas tarefas de GP devem ser combinadas. 0 que é requerido é uma maneira de combinar funções de covariância de tarefa única para serem adequadas para uso em aplicativos de multitarefa. Um método para a determinação dessas funções de covariância de multitarefa e aplicação delas é descrito aqui. As derivações matemáticas são mostradas nos apêndices ao relatório descritivo.
A Figura 3 é um fluxograma para um sistema de análise de dados e de síntese de dados usando os processos gaussianos de multitarefa, adaptado para uso no cenário de mineração descrito na Figura 2. 0 método implementado pode acomodar múltiplos tipos de dados, e é descrito aqui, a título de exemplo, com dois tipos de dados. 0 sistema inclui uma primeira e uma segunda fontes de medição de característica de rocha que amostram características do material encontrado na formação dos furos de perfuração 220 (Figura 2). As características de rocha medidas podem ser derivadas durante uma formação dos furos de perfuração pela sonda de perfuração 260 pela amostragem de sensores, tais como acelerômetros, tacômetros, transdutores de pressão e sensores de torque e pela classificação das rochas em termos de fatores de rocha (dureza, fragmentação) e geologia. Outras técnicas de medição aplicáveis podem incluir uma detecção pagamento, tal como de gama natural, e ensaios químicos, possivelmente in si tu. Qualquer que seja a quantidade medida, a medição é acompanhada por uma informação de posição gravada pela sonda de perfuração 260, por exemplo, usando-se GPS e/ou outros métodos de posicionamento, que provêem uma informação de localização 3D correspondente a cada amostra de medição.
3.1 Fase de Treinamento de Multitarefa
Dois tipos diferentes de dados de sensor de medição 310, 320 gerados pelos sensores incluindo a informação de posicionamento espacial correspondente, são providos para um processador de treinamento. Os dados de sensor provêem os dados de treinamento requeridos para a regressão. A etapa de treinamento de multitarefa 330 treina os dados de sensor 310, 320. A etapa de treinamento 330 determina uma representação de escala múltipla probabilística não paramétrica dos dados para uso na modelagem da distribuição espacial no solo de minério, o que, por sua vez, pode ser usado para a predição na etapa de avaliação de multitarefa 340. Os detalhes de procedimentos operacionais específicos realizados pelo processador de treinamento são descritos abaixo com referência à Figura 4.
A Figura 4 é um fluxograma que mostra o procedimento I. de fase de treinamento de multitarefa 34 0 para o processo de modelagem de dados de distribuição de minério. A fase de treinamento 340 começa com a obtenção dos dados de medição de sensor na etapa 410 a partir de uma fonte apropriada, neste caso, os sensores de perfuração e/ou medições de ensaio químico e/ou radiológico com uma informação de posicionamento espacial 3D correspondente. A informação de posicionamento e os dados de sensor em conjunto são as entradas observadas e as saídas observadas, 10 respectivamente, que compreendem os dados de treinamento usados para a regressão.
Em nome do exemplo atual, um sensor mede e produz dados representando uma quantidade representativa de teor de ferro (310), enquanto um outro mede uma quantidade representando um teor de dióxido de silício (320). As medições relativas à distribuição espacial de ferro e dióxido de silício são distintas, mas dependentes de uma forma desconhecida.
Para facilidade de armazenamento e recuperação, os dados analisados e sintetizados pelo método de regressão de GP descrito aqui podem ser salvos na forma de uma estrutura de dados hierárquica conhecida como árvore KD. O uso dessa estrutura de dados provê aos processadores de treinamento e avaliação um acesso rápido aos dados de medição amostrados sob demanda. Após os dados terem sido introduzidos no processador de treinamento na etapa 410, eles são convertidos em dados de árvore KD na etapa 420 e armazenados na etapa 430.
A etapa de armazenamento de dados é seguida por um procedimento de aprendizado de GP de multitarefa na etapa 440, com o objetivo de se aprender uma representação dos dados espaciais. O procedimento de aprendizado tem por objetivo a determinação dos valores de hiperparâmetro da função de covariância associada ao GP. Isto é feito com um método de estimativa de probabilidade máxima que é usado para a otimização dos hiperparâmetros associados à função de covariância de GP. Os hiperparâmetros de função de covariância provêem uma descrição grosseira do modelo espacial, e podem ser usados em conjunto com os dados de medição de sensor para a geração de dados de modelo detalhados em qualquer resolução desejada, incluindo uma estimativa de incerteza estatisticamente boa. Os hiperparâmetros de função de covariância otimizados são armazenados na etapa 45 0, em conjunto com a estrutura de dados de amostra de árvore KD, para uso pelo procedimento de avaliação.
Embora o método de obtenção do GP de multitarefa descrito aqui seja similar a um método padrão de obtenção de um GP de tarefa única, há algumas diferenças. No caso de um GP de tarefa única, tem-se:
• um conjunto único de pontos de entrada X = <formula>formula see original document page 23</formula>
• um conjunto único de alvos y = <formula>formula see original document page 23</formula>
• um nível único de ruído escalar σ2 ; e
• um conjunto único de entradas de teste X* = <formula>formula see original document page 23</formula>
Isto resulta em uma matriz de covariância única K. No caso de um GP de multitarefa, contudo, quando há m tarefas diferentes, tem-se:
• w conjuntos de pontos de entrada Xi = <formula>formula see original document page 23</formula>
• m conjuntos de alvos yi = <formula>formula see original document page 23</formula>
• m níveis de ruído escalar <formula>formula see original document page 23</formula>; e • m conjuntos de entradas de teste
<formula>formula see original document page 24</formula>
=onde i = 1.2,...,m .
O treinamento dos GPs de multitarefa pode ser feito usando-se o mesmo algoritmo que para o GP de tarefa único, se nós fizermos:
• X ser o vetor de bloco X =
<formula>formula see original document page 24</formula>
o que em maiores detalhes é X =
<formula>formula see original document page 24</formula>
• y ser o vetor de bloco y =
<formula>formula see original document page 24</formula>
em maiores detalhes é y =
<formula>formula see original document page 24</formula>
• X, ser o vetor de bloco X, =
<formula>formula see original document page 24</formula>
, o que em maiores detalhes é
<formula>formula see original document page 24</formula>
• K ser a matriz de bloco simétrica
<formula>formula see original document page 24</formula>
onde In denota uma matriz identidade n^i x n^i
3.2 A Fase de Avaliação
Uma vez que um modelo de multitarefa tenha sido estabelecido, ele pode ser usado para a estimativa de novos valores de saída para um novo conjunto de entradas de teste.
Um processador de avaliação é usado para a execução da etapa de avaliação 34 0, a qual envolve a utilização dos dados de medição em conjunto com os dados de modelo de processo gaussiano de multitarefa de acordo com uma resolução de grade de modelagem desejada. Esta resolução de grade compõe os dados de teste para o processo de avaliação. Os detalhes operacionais específicos do processador de avaliação são providos abaixo, com referência ã Figura 5.
A Figura 5 é uma representação diagramática do procedimento de fase de avaliação 34 0 para o processo de modelagem de dados. O processo de avaliação de GP de multitarefa 530 envolve o uso do modelo 510 para a estimativa dos valores de saída 54 0 que correspondem aos valores de entrada de teste 520. O modelo é descrito pela função de covariância de multitarefa que foi determinada na etapa 330 da Figura 3.
Uma vez que a representação de processo gaussiano obtida é uma de domínio contínuo, a aplicação do modelo para qualquer resolução desejada significa amostrar o modelo naquela resolução. Uma grade na área de interesse na resolução desejada é formada. A resolução de grade requerida provê os valores de entrada de teste 52 0 para o processo de avaliação 530.
O objetivo é usar o modelo espacial aprendido para a condução de uma estimativa em pontos individuais nesta grade. Cada ponto na grade é interpolado com respeito ao modelo determinado na etapa prévia e os dados de treinamento mais próximos em torno daquele ponto. Para esta etapa, usar uma árvore KD para o armazenamento dos dados naturalmente e de forma eficiente provê acesso aos dados espaciais conhecidos mais próximos. Isto em conjunto com o modelo aprendido provê uma estimativa de interpolação para a localização desejada na grade. A estimativa também é acompanhada por uma medida de incerteza que é simultaneamente computada de uma maneira estatisticamente boa. A saída 540 da avaliação de GP de multitarefa 530 é uma representação digital (mostrada na Figura 3 como dados que são exibidos 3 50 ou são usados como uma entrada de controle 360) de uma quantidade distribuída espacial (por exemplo, Fe) na resolução escolhida e na resolução de interesse em conjunto com uma medida apropriada de incerteza para todo ponto no mapa.
Uma avaliação do GP pode ser feita usando-se um algoritmo de predição padronizado, por exemplo, pela execução das etapas a seguir:
1. Introdução de valores para as entradas X, os alvos y, a função de covariância Κ, o nível de ruído σ2η , e a entrada de teste X*.
2. Determinar a decomposição de Cholesky = cholesty(K + σ2/)
3. Avaliar a média preditiva /, usando a eq. 10 e a decomposição de Cholesky da etapa 2.
4. Avaliar a variância preditiva usando eq. 11 e a decomposição de Cholesky da etapa 2.
5. Avaliar o log da probabilidade marginal log p(y\Χ, Θ) usando a eq. 5.
Como é o caso na etapa de treinamento 330, a manipulação de tarefas múltiplas na etapa de avaliação requer que X seja o vetor de bloco <formula>formula see original document page 26</formula> vetor de bloco <formula>formula see original document page 26</formula>, x* seja Q vetor de bloco <formula>formula see original document page 26</formula>, e K seja a matriz de bloco simétrica dada por:
<formula>formula see original document page 26</formula> conforme descrito acima.
Uma vez que os dados de modelo de distribuição espacial tenham sido gerados na etapa de avaliação 340, eles podem ser exibidos graficamente para uma visualização humana 350 ou usados em forma digital 3 60 como uma entrada para as operações controladas por computador, por exemplo.
4. Determinação de Funções de Covariância de Multitarefa
O que acontece na fase de treinamento de multitarefa descrita acima pode ser entendido na estrutura geral para o cálculo de funções de covariância cruzada intertarefa para funções de covariância estacionárias, com base nos métodos de análise de Fourier, conforme descrito nesta seção. Novas funções de covariância cruzada são derivadas para diferentes funções de covariância de tarefa única; elas são calculadas em forma analítica e podem ser aplicadas diretamente.
Usando-se os métodos de análise de Fourier, uma estrutura geral é desenvolvida para o cálculo das funções de covariância cruzada para quaisquer duas funções de covariância estacionárias. A matriz de covariância de tamanho ( (N2+N2+ . . . +Nm) χ (Νχ+Ν2+ . . . +Nm) ), onde M é o número de tarefas e N1, N2l . . . + Nm são o número de pontos de entrada em cada tarefa, pode ser mostrada como sendo semidefinida positiva, e, portanto, é adequada para uso em processos gaussianos de multitarefa. Os cálculos analíticos também são providos para o cálculo de funções de covariância cruzada de funções de covariância diferentes.
4.1 Definição da Função de Covariância de Multitarefa
É possível considerar várias tarefas dependentes simultaneamente. Como um exemplo, e com referência à Figura 7, o caso de duas tarefas dependentes é descrito aqui, cada tarefa associada a uma função de covariância diferente.
Cada função de covariância é selecionada na etapa 702. As funções de base gi(x) e g2(x) das funções de covariância K1 (x, x') e K2 (x, x') podem ser determinadas usando-se uma análise de Fourier, conforme descrito no Apêndice A e mostrado na etapa 704. As funções de base são usadas para a construção da função de covariância de multitarefa para estas duas funções de covariância, conforme mostrado na etapa 706.
A construção da função de covariância de multitarefa inclui encontrar a função de covariância cruzada entre as duas funções de covariância. Suponha que K1 e K2 sejam funções de covariância de tarefa única, é mostrado no Apêndice A que K1 e K2 podem ser representadas na forma a seguir:
<formula>formula see original document page 28</formula>
Todas as funções de covariância estacionárias podem ser expressas desta forma. Conseqüentemente, a função de covariância de multitarefa que descreve o GP de multitarefa (etapa 708) pode ser definida como:
<formula>formula see original document page 28</formula>
onde i e j identificam o número de tarefa e (x, i) , (x', j) representa os pontos χ e x' a partir das tarefas i e j respectivamente.
A prova no Apêndice B mostra que a função de covariância de multitarefa K ( (x, i) , (x', j) ) é semidefinida positiva (PSD) para o conjunto de qualquer número de tarefas e, portanto, pode ser usada diretamente em GPs de multitarefa. K1 (χ, χ'} e K2 (χ, χ') podem ser a mesma função de covariância com os mesmos comprimentos característicos ou diferentes, ou elas podem ser funções de covariância diferentes.
A função de covariância de multitarefa da eq. 14 (conforme descrito no Apêndice B) pode ser entendida como tendo a forma geral a seguir para η tarefas:
onde a diagonal desta matriz C11, C22,-, Cnn é provida pelas funções de covariância de cada uma das η tarefas. Os outros termos fora da diagonal representam as funções de covariância cruzada que descrevem a interdependência entre as tarefas.
Na etapa 706 mostrada na Figura 7, a função de covariância de multitarefa pode ser encontrada a partir das funções de base das funções de covariância individuais pelo uso da eq. (14) . Como um exemplo, considere o caso quando há duas tarefas com funções de covariância associadas, K1 (x, x') e K2 (x, x'), as quais são funções de covariância exponenciais ao quadrado com comprimentos característicos diferentes:
A aplicação do procedimento proposto e o cálculo da integral presente na definição de função de covariância de
<formula>formula see original document page 29</formula> multitarefa da eq. (14) provê a versão multitarefa a seguir da função de covariância exponencial ao quadrado:
<formula>formula see original document page 30</formula>
Em geral, o modelo é um processo de convolução de dois kernels de atenuação (funções de base) assumindo a influência de uma função latente. Também é possível estender para múltiplas funções latentes usando-se o processo descrito em M. Alvarez e N.D. Lawrence. Sparse, Convolved Gaussian Processes for Multi-output Regression, e, D. Koller, Y. Bengio, D. Schuurmans, e L.Bottou (editores), NIPS MIT Press, 2009.
4.2 Três Exemplos de Função de Covariância
Nesta seção, as funções de covariância cruzada de três funções de covariância de exemplo foram calculadas.
1) Função de Covariância Esparsa
A função de covariância esparsa é descrita conforme se segue:
<formula>formula see original document page 30</formula>
As funções de covariância esparsas são descritas no pedido de patente australiana número 2009900054, "A method and system of data modelling", a qual é incorporada aqui como referência em sua totalidade.
Conforme descrito previamente:
<formula>formula see original document page 30</formula>
onde a função de base gs(x) da função de covariância esparsa Ks é definida como:
<formula>formula see original document page 30</formula> A partir das eq. (12) a (14) e (19), segue-se que a função de covariância cruzada da função de covariância esparsa e qualquer outra função de covariância pode ser escrita na forma a seguir de uma integral com limites finitos:
<formula>formula see original document page 31</formula>
A eq. (20) demonstra uma conseqüência importante da propriedade de redução para zero da função de covariância esparsa: como a função de covariância esparsa se reduz para zero fora do intervalo χ e (-Is/2, Is/2), a função de covariância cruzada com ela é uma integral apenas por um intervalo finito, o qual pode ser computado numericamente de modo fácil. Se a função de base da tarefa j não tiver uma forma muito complicada, a integral na eq. (20) pode ser calculada analiticamente co cálculos significativamente acelerados.
A partir da eq. (20), segue-se que a função de covariância cruzada da tarefa j com a função de covariância esparsa se reduzirá a zero fora de algum intervalo finito, se e apenas se a função de base da tarefa j se reduzir para zero fora de algum intervalo finito.
2) Funções de Covariância Exponenciais ao Quadrado e de Matérn
Os dois outros exemplos de funções de covariância considerados aqui são os seguintes:
Exponencial ao quadrado <formula>formula see original document page 31</formula>
Matérn: <formula>formula see original document page 31</formula> onde 1, ν, α > 0, r = |χ - χ'| e Kv é uma função de Bessel modificada.
Para estas funções de covariância, as etapas descritas abaixo correspondem à segunda etapa 704 e à terceira etapa 706 do processo mostrado na Figura 7.
Para se encontrar a função de base das funções de covariância exponenciais ao quadrado e de Matérn, usa-se a técnica de análise de Fourier apresentada no Apêndice A. Ao aplicar uma transformação de Fourier a estas funções, tem-se que:
<formula>formula see original document page 32</formula>
Usando-se as eq.
Apêndice A), tem-se que
<formula>formula see original document page 32</formula>
A próxima etapa é derivar as transformações inversas de Fourier de gr*Sf;(s) e g*M(s). Comparando as eq. (23)-(24) e (25) - (26), pode-se ver que g*Se(s) e g*M(s) podem ser obtidas a partir de K*SE(s) e K*M(s), respectivamente, pela aplicação das mudanças a seguir nos parâmetros:
Função de covariância exponencial ao quadrado:
<formula>formula see original document page 32</formula>
Função de covariância de Matérn: <formula>formula see original document page 33</formula>
Usando-se as associações entre as eq. (21), (22) e (23), (24) em conjunto com as fórmulas de conversão entre as imagens de funções de covariância e as imagens de funções de base apresentadas nas eq. (27) - (29) , após algumas manipulações algébricas, as expressões a seguir para as funções de base são obtidas:
<formula>formula see original document page 33</formula>
Usando-se as eq. (12)-(14) definindo as funções de covariância cruzada e as eq. (19), (30), (31) representando as funções de base, chega-se às novas funções de covariância cruzada a seguir:
<formula>formula see original document page 33</formula> <formula>formula see original document page 34</formula>
e Ksexs sgQ calculadas era forma fechada, KM*s tem limites finitos de integração e a integral em Km*se converge muito rapidamente, já que seu integrando tende a zero de forma exponencialmente ao quadrado. Portanto, todas as funções de covariância cruzada apresentadas são adequadas para serem usadas diretamente para um aprendizado de GP de multitarefa e inferência.
Há muitos equivalentes matemáticos e aproximações das funções de covariância cruzada mencionadas anteriormente, que podem ser usadas para uma análise de dados. As funções de covariância cruzada Ksex SE, Ksxs e KSExS em uma forma diferente e uma função de covariância cruzada Matérn 3/2 χ Matérn 3/2 são listadas no Apêndice D.
Quando as eq. 32 a 3 6 são usadas seguindo-se à primeira etapa 702 no processo mostrado na Figura 7, então, as segunda 704 e terceira etapas 706 podem ser omitidas. A Figura 8 mostra que, neste caso, um método alternativo 800 é usado, onde as segunda 704 e terceira etapas 706 são substituídas por uma etapa 802. Na etapa 802, a função de covariância de multitarefa é consultada se qualquer uma das funções de covariância de exemplo desta seção for usada, para a qual as funções de covariância cruzada são dadas pelas eq. 32 a 36.
Os detalhes de derivação de Ksxs e KSExSe a definição de Js*s são apresentadas no Apêndice C.
5. Resultados do Uso de Regressão de GP de Multitarefa
Em uma predição de grau de minério, a interdependência entre graus de minerais diferentes pode ser usada para melhoria da qualidade de predição, redução da incerteza geral para cada tarefa de estimativa, e para a provisão de meios para estimativa com dados parciais. A função estimada representada na Figura 6, por exemplo, poderia ter uma variância reduzida, se um segundo conjunto de medições de dados fosse conhecido, que estivesse de alguma forma relacionado ao primeiro. A Figura 9(a) mostra graficamente os mesmos dados modulados usando-se um GP de multitarefa que considera uma variância cruzada com um conjunto de dados adicional, ilustrado graficamente na Figura 9 (b).
Esta figura demonstra que o GP de multitarefa aprende conexões intertarefa intrínsecas em regiões diferentes e, portanto, leva a resultados de maior confiança (isto é, resultados com menos variância), mesmo nas regiões com baixa densidade de pontos de dados.
A Figura 10 demonstra graficamente como um GP de multitarefa tridimensional com uma função de covariância proposta pode prover uma informação sobre as regiões em que os dados estão faltando ou não estão completos. A Figura 10a) mostra os resultados de regressão de GP de tarefa única para ferro com em torno de 3 0% de seus dados removidos, e para dióxido de silício com os dados completos, isto é, com uma informação a partir de todos os furos de perfuração. O desenho mostra apenas as vistas dianteiras dos resultados de estimativa de recurso no solo em 3D. A primeira parte da Figura 10a) demonstra claramente que o GP de tarefa única é incapaz de prover estimativas razoáveis na região 1002, onde os dados estão faltando.
Para a Figura 10b), um GP de duas tarefas foi usado, para aprendizado de distribuições de ferro e dióxido de silício simultaneamente. A regressão de GP com a abordagem de multitarefa proposta aprende as conexões intrínsecas entre as distribuições de grau de ferro e dióxido de silício, onde os dados para ambos estão disponíveis, e com base naquela conexão estima a distribuição de ferro para os 30% do volume em que os dados estão realmente faltando. Os resultados podem ser vistos por uma comparação da região 1004 na Figura 10b) com a região 1002. Estes gráficos demonstram que a abordagem proposta é capaz de prover uma boa estimativa, mesmo no caso em que uma porção significativa dos dados está faltando.
Um outro experimento demonstra os benefícios do uso da metodologia de kernel múltiplo em um problema I-D artificial para duas tarefas dependentes. As observações para a primeira tarefa são geradas a partir de uma função menos seno corrompida com um ruído gaussiano. Apenas as observações para a segunda parte da função são usadas, e o objetivo é inferir a primeira parte a partir de observações da segunda tarefa. As observações para a segunda tarefa foram geradas a partir de uma função seno com alguma complexidade adicional, para se tornar a função menos atenuada e corrompida pelo ruído gaussiano. Uma comparação entre predições de GP independentes, um GP de multitarefa com kernel exponencial ao quadrado para ambas as tarefas, e o GP de kernel múltiplo (kernel exponencial ao quadrado para a primeira tarefa e Matérn 3/2 para a segunda) é apresentado nas Figuras 11A a 11C. Pode ser observado na Figura 11C que o GP de kernel múltiplo modela a segunda função de modo mais acurado. Isto ajuda a prover uma melhor predição para a primeira tarefa. Na Figura 11, os pontos representam as observações e a linha tracejada representa o terreno verdadeiro para a tarefa 1. A extensão da região sombreada em torno destas linhas é indicativa de acurácia de predição.
Apesar da simplicidade deste experimento, ele simula um fenômeno muito comum na estimativa de grau para mineração. Alguns elementos têm uma variabilidade de concentração muito mais alta, mas seguem a mesma tendência que os outros. Ser capaz de modelar de modo apto estas dependências a partir de amostras de laboratório de raios X é essencial para um produto final acurado.
Isto é demonstrado empiricamente em um experimento adicional. 1363 amostras de uma mina de minério de ferro foram coletadas e analisadas em um laboratório com instrumentos de raios X para a determinação da concentração de três componentes: ferro, sílica e alumina. O ferro é o produto principal, mas igualmente importante é avaliar a concentração dos contaminantes sílica e alumina. As amostras foram coletadas a partir de furos de exploração de em torno de 200 m de profundidade, distribuídos em uma área de 6 km2. Cada furo foi dividido em seções de 2 metros para avaliação em laboratório, o resultado de laboratório para cada seção então foi uma observação no conjunto de dados. O conjunto de dados final consistia em 4089 pontos de dados representando 31 furos de exploração. Dois furos foram separados para uso como dados de teste. Para estes furos, a concentração de sílica dados ferro e alumina foi predita. O experimento foi repetido empregando-se funções de covariância de multitarefa diferentes com kernel de exponencial ao quadrado ou de Matérn para cada tarefa combinados com os termos de covariância cruzada apresentados no Apêndice D. Os resultados são resumidos na Tabela 1, a qual demonstra que as dependências entre ferro, silica e alumina são mais bem capturadas pela função de covariância de kernel múltiplo de Matérn 3/2 χ Matérn 3/2 χ SqExp.
<table>table see original document page 38</column></row><table>
Tabela 1. Média e Desvio padrão de erro absoluto.
Em ainda um outro experimento, GPs com funções de covariância de kernel múltiplo diferentes foram aplicados ao conjunto de dados Jura, um conjunto de dados de bancada em geoestatística. Ele consiste em um conjunto de treinamento com 259 amostras em uma área de 14,5 km2 e um conjunto de teste com 100 amostras. A tarefa é predizer a concentração de cádmio (Cd), chumbo (Pb) e Zinco (Zn) em novas localizações. As funções de covariância de kernel múltiplo propostas permitem considerar kernels diferentes para cada um dos materiais, assim se maximizando as qualidades preditivas do GP. As 25 9 amostras de treinamento foram usadas no estágio de treinamento, e as 100 amostras de teste foram usadas para a avaliação das qualidades preditivas dos modelos. 0 erro ao quadrado médio de raiz quadrada (SMSE) para todas as combinações de triplos possíveis de kernels de SqExp e Matérn 3/2 é apresentado na Tabela 2. Os resultados demonstram que as dependências entre cádmio, chumbo e zinco são mais bem capturadas pelo kernel triplo Matérn 3/2 χ SqExp χ SqExp.
<table>table see original document page 39</column></row><table>
Tabela 2. Erro ao quadrado médio de raiz quadrada para cádmio (Cd), chumbo (Pb) e Zinco (Zn) para todos os kernels triplos possíveis combinando SqExp e Matérn 3/2.
Em ainda um outro experimento, um conjunto de dados de abatimento de concreto foi considerado. Este conjunto de dados contém 103 pontos de dados com sete dimensões de entrada e 3 saídas descrevendo a influência de partes constituintes de concreto nas propriedades gerais do concreto. As sete dimensões de entrada são cimento, escória, cinza, água, SP, agregado grosseiro e agregado fino e as saídas são abatimento, fluxo e resistência à compressão em 28 dias do concreto. 83 pontos de dados foram usados para aprendizado e 20 pontos de dados foram usados para testes. O erro ao quadrado médio de raiz quadrada (SMSE) para todas as combinações de triplos possíveis de kernels de SqExp e Matérn 3/2 é apresentado na Tabela 3. Os resultados demonstram que as dependências entre abatimento, fluxo e resistência à compressão em 28 dias de concreto são mais bem capturadas pelo kernel triplo SqExp χ Matérn 3/2 χ Matérn 3/2.
<table>table see original document page 40</column></row><table>
Tabela 3. Erro ao quadrado médio de raiz quadrada para abatimento, fluxo e resistência de concreto para todos os kernels triplos possíveis combinando SqExp e Matérn 3/2.
Um aspecto da invenção provê uma nova metodologia para a construção de termos de covariância cruzada para um processo gaussiano de multitarefa. Esta metodologia permite o uso de múltiplas funções de covariância para o mesmo problema de predição de multitarefa. Se uma função de covariância estacionária puder ser escrita como uma convolução de duas funções de base idênticas, um termo de covariância cruzada sempre poderá ser definido, resultando em uma matriz de covariância de multitarefa definida positiva. Uma metodologia geral para fundamentar a função de base então é desenvolvida com base em uma análise de Fourier.
As soluções analíticas para seis combinações de funções de covariância são providas, três delas combinando funções de covariância diferentes. As formas analíticas para os termos de covariância cruzada podem ser aplicados diretamente a problemas de predição de GPs, mas são úteis para outras máquinas de kernel.
Uma função de covariância esparsa de multitarefa é apresentada, a qual provê uma forma eficiente em termos computacionais (e exata) de realização de uma inferência em grandes conjuntos de dados. Note, contudo, que técnicas aproximadas também podem ser usadas.
A abordagem pode ser estendida para funções de covariância não estacionárias, possivelmente combinando-se kernels não estacionários e estacionários. Isto pode ser útil em aplicações envolvendo domínios de espaço e de tempo, tal como uma estimativa de poluição e uma previsão de clima.
O método apresentado não apenas provê possibilidades para melhora adaptação aos dados representando múltiplas quantidades, mas também torna possível recuperar dados faltando. Ele provê um meio para estimativa de dados faltando em regiões diferentes para tarefas diferentes, com base em conexões intertarefa intrínsecas e em uma informação sobre outras tarefas nestas regiões (por exemplo, se uma informação para graus de alguns materiais estiver faltando para alguns furos de perfuração, podem ser inferidos, com base na informação sobre os graus de outros materiais nestes furos de perfuração e as conexões intrínsecas entre distribuições de todos estes materiais aprendidas usando-se a abordagem proposta).
Embora a descrição precedente se refira a modelos relacionados a minas específicos, onde o método proposto pode ser usado diretamente em uma estimativa de recurso no solo (isto é, um aprendizado simultâneo de uma distribuição de grau de materiais diferentes levando-se em consideração suas interdependências intrínsecas), será prontamente apreciado que as metodologias de modelagem de dados espaciais descritas aqui não estão limitadas a esta aplicação, e podem ser usadas em muitas áreas, incluído geofísica, mineração, hidrologia, engenharia de reservatórios, robóticas de agente múltiplo (por exemplo, aprendizado simultâneo de uma informação provida por sensores diferentes montados em vários veículos e/ou um desenvolvimento de um sistema de controle que utilize um modelo das dependências entre as saídas de controle para uma pluralidade de atuadores) e predições financeiras (por exemplo, aprendizado simultâneo de variâncias em taxas de câmbio de moedas diferentes ou aprendizado simultâneo da dinâmica de preços diferentes de ações, levando-se em consideração as conexões intertarefa intrínsecas).
Será entendido que o termo 'compreende' (e variantes gramaticais do mesmo), conforme usado neste relatório descritivo, é equivalente ao termo 'inclui' e não é para ser tomado como excluindo a existência de elementos, recursos ou etapas adicionais.
Será entendido que a invenção mostrada e definida neste relatório descritivo se estende a todas as combinações alternativas de dois ou mais dos recursos individuais mencionados ou evidentes a partir do texto ou dos desenhos. Todas estas combinações diferentes constituem vários aspectos alternativos da invenção.
Apêndice A
Estrutura geral baseada em análise de Fourier
Suponha que Κ{τ) seja uma função de covariância estacionária em Rfl com uma densidade espectral S{s). Neste caso K( τ) e S(s) são duplas de Fourier de cada outra, isto é:
<formula>formula see original document page 43</formula>
onde τ = x- x'
e as transformações de Fourier direta e inversa sejam definidas conforme se segue:
<formula>formula see original document page 43</formula>
uma outra definição para as transformações de Fourier direta e inversa pode ser declarada como:
<formula>formula see original document page 43</formula>
A partir das equações (38 e 39), tem-se que:
<formula>formula see original document page 43</formula>
de modo que estas duas definições sejam relacionadas uma à outra conforme se segue:
<formula>formula see original document page 44</formula>
Fórmulas gerais para funções de base
Assuma que a função de covariância K (χ, χ') possa se representada da forma a seguir:
<formula>formula see original document page 44</formula>
Mudando a variável de integração na eq. (43), obtém-se:
<formula>formula see original document page 44</formula>
Se, também,
<formula>formula see original document page 44</formula>
então, a partir da eq. (44), tem-se que:
<formula>formula see original document page 44</formula>
A partir das eq. (44) e (45), segue-se que:
<formula>formula see original document page 44</formula>
onde * significa convolução.
Aplicando-se a transformação de Fourier à eq. (46) e usando-se o fato de a transformação de Fourier da convolução das duas funções ser igual a \[2π vezes o produto das transformações de Fourier das funções sendo convolutas, isto é:
<formula>formula see original document page 44</formula>
tem-se que:
<formula>formula see original document page 44</formula>
Usando-se as eq. (47) e (39) , pode-se calcular a função de base usando a função de covariância, conforme se segue:
<formula>formula see original document page 45</formula>
Apêndice B
A função de covariância de multitarefa K ( (x, i), (χ', j)) é positiva semidefinida
Para quaisquer pontos X1, x2 , . . . , xp e taskl e x'1, X12 , ..., X1q e task2 e números arbitrários ai, a2l .. ap, a'1, a'2, . . ., a'q considere a forma quadrática
<formula>formula see original document page 45</formula>
onde
<formula>formula see original document page 45</formula>
Conduzindo-se manipulações algébricas, tem-se que:
<formula>formula see original document page 45</formula>
onde intercambiando-se soma e integração, obtém-se
<formula>formula see original document page 45</formula> <formula>formula see original document page 46</formula>
de modo que:
<formula>formula see original document page 46</formula>
Usando-se o mesmo procedimento, a desigualdade QaO pode ser provada para qualquer número de tarefas.
Apêndice C
Derivação da função de covariância cruzada esparsa
<formula>formula see original document page 46</formula>
Nós temos que:
<formula>formula see original document page 46</formula>
A partir da eq. (49), segue-se que:
<formula>formula see original document page 46</formula>
Agora, assumindo que
<formula>formula see original document page 46</formula>
a expressão de KSxS(x,x') dada na eq. (4 9) pode ser escrita da forma a seguir:
<formula>formula see original document page 46</formula>
Através de cálculos diretos, a integral definida a seguir é obtida:
<formula>formula see original document page 46</formula> <formula>formula see original document page 47</formula>
A partir das Equações (51), (52), tem-se que
<formula>formula see original document page 47</formula>
Derivação da função de covariância cruzada exponencial ao quadrado - esparsa KSExS
A partir das eq. (12)-(14), (19), (31), tem-se que:
<formula>formula see original document page 47</formula>
Através de cálculos diretos, a integral definida a seguir é obtida:
<formula>formula see original document page 47</formula>
A partir das (54) e (55), tem-se que:
<formula>formula see original document page 47</formula>
Apêndice D
Definições das funções de covariância exponencial ao quadrado, Matérn 3/2 e esparsa:
<formula>formula see original document page 47</formula> Exponencial ao quadrado <formula>formula see original document page 48</formula> matêrn 3/2
<formula>formula see original document page 48</formula>
Esparsa
onde 1se, Im e Is são as escalas de comprimento para as funções de covariância exponencial ao quadrado, de Matérn 3/2 e esparsa, respectivamente, e h(x) é a função degrau unitária de Heaviside.
A partir destas definições, as funções de covariância cruzada a seguir podem ser derivadas:
Exponencial ao Quadrado χ Matérn 3/2
<table>table see original document page 48</column></row><table>
onde a função de erro erf(x) é definida como
<formula>formula see original document page 48</formula>
Matérn 3/2 χ Matérn 3/2
<formula>formula see original document page 48</formula>
onde r = | χ - χ' I e i | e 12 são as escalas de comprimento.
Esparsa χ Esparsa
<formula>formula see original document page 48</formula> onde H (χ) é a função degrau unitária de Heaviside, lmin = min (l1, l2), 1 max = max (l1, l2), l1 e I2 são as escalas de comprimento e r = | χ - χ' |.
Exponencial ao Quadrado χ Esparsa
<formula>formula see original document page 49</formula>
onde r = I χ - χ' I.
Matérn 3/2 χ Esparsa
<formula>formula see original document page 49</formula>
onde r = l χ - χ'l e lM e ls são as escalas de comprimento. Exponencial ao Quadrado χ Exponencial ao Quadrado
<formula>formula see original document page 49</formula>
onde r = l χ - x'|.
Para o caso anisotrópico geral:
<formula>formula see original document page 49</formula>
Extensões multidimensionais e anisotrópicas para os outros modelos são possíveis pela tomada do produto dos termos de covariância cruzada definidos para cada dimensão de entrada.
Os exemplos acima não consideram parâmetros para a amplitude (variância de sinal) das funções de covariância.
Contudo, isto pode ser adicionado pela multiplicação de blocos da função de covariância de multitarefa pelos coeficientes de uma matriz PSD.

Claims (31)

1. Sistema para a análise e a síntese de dados a partir de uma pluralidade de fontes de dados de amostra por aprendizado e regressão de processo gaussiano, o sistema caracterizado pelo fato de incluir: o armazenamento de dados com uma função de covariância de multitarefa armazenada e hiperparâmetros associados, e um processador de avaliação em comunicação com o armazenamento de dados, que: realiza uma regressão de processo gaussiano usando os dados de amostra armazenados e a função de covariância de multitarefa com os hiperparâmetros e dados de predição de sínteses para uso em uma exibição gráfica ou um controle digital, onde a função de covariância de multitarefa é uma combinação de uma pluralidade de funções de covariância estacionárias.
2. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de ainda incluir um processador de treinamento para a determinação dos hiperparâmetros pela análise dos dados de amostra e da função de covariância de multitarefa.
3. Sistema, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de os dados de medição amostrados serem derivados a partir da medição de uma pluralidade de quantidades dependentes e distribuídas por uma região espacial ou um período temporal.
4. Sistema, de acordo com a reivindicação 3, caracterizado pelo fato de os dados de medição amostrados serem derivados a partir dos sensores medindo uma pluralidade de quantidades em localizações distribuídas espacialmente em uma região.
5. Sistema, de acordo com a reivindicação 4, caracterizado pelo fato de os sensores medirem as quantidades relacionadas à geologia e/ou a características de rocha na região.
6. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de a função de covariância de multitarefa ser determinada por uma combinação selecionada de funções de covariância estacionárias para cada tarefa correspondente a uma fonte separada de dados de medição amostrados.
7. Sistema, de acordo com a reivindicação 6, caracterizado pelo fato de as funções de covariância para cada tarefa separada serem as mesmas.
8. Sistema, de acordo com a reivindicação 6, caracterizado pelo fato de as funções de covariância para cada tarefa separada serem diferentes.
9. Sistema, de acordo com a reivindicação 6, caracterizado pelo fato de pelo menos uma das funções de covariância combinadas na função de covariância de multitarefa ser uma função de covariância exponencial ao quadrado.
10. Sistema, de acordo com a reivindicação 6, caracterizado pelo fato de pelo menos uma das funções de covariância combinadas na função de covariância de multitarefa ser uma função de covariância esparsa.
11. Sistema, de acordo com a reivindicação 6, caracterizado pelo fato de pelo menos uma das funções de covariância combinadas na função de covariância de multitarefa ser uma função de covariância de Matérn.
12. Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de a função de covariância cruzada ser determinada por uma seleção de uma função de covariância estacionária para cada tarefa de fonte de dados, e pela combinação da pluralidade de funções de covariância usando-se uma transformada de Fourier e técnicas de convolução.
13. Método de análise de dados computadorizada e síntese para estimativa de uma primeira quantidade desejada, caracterizado pelo fato de incluir: a medição da primeira quantidade e de pelo menos uma outra segunda quantidade em um domínio de interesse para a geração de primeiro e segundo conjuntos de dados amostrados, o armazenamento dos conjuntos de dados amostrados, e a seleção de primeira e segunda funções de covariância estacionárias para aplicação aos primeiro e segundo conjuntos de dados, a determinação de uma função de covariância de multitarefa determinada a partir das primeira e segunda funções de covariância selecionadas, o treinamento de um processo gaussiano de multitarefa pela computação e pelo armazenamento de valores de hiperparâmetro otimizados associados à função de covariância de multitarefa usando-se os primeiro e segundo conjuntos de dados armazenados, e a realização de uma regressão de processo gaussiano usando-se a função de covariância de multitarefa, os hiperparâmetros computados e armazenados e os conjuntos de dados armazenados para a predição de valores desconhecidos da primeira quantidade no domínio de interesse.
14. Método, de acordo com a reivindicação 13, caracterizado pelo fato de as primeira e segunda quantidades serem quantidades mensuráveis espacialmente distribuídas.
15. Método, de acordo com a reivindicação 14, caracterizado pelo fato de as primeira e segunda quantidades serem derivadas de características geológicas em uma jazida de terreno.
16. Método, de acordo com a reivindicação 13, caracterizado pelo fato de as primeira e segunda funções de covariância serem as mesmas.
17. Método, de acordo com a reivindicação 13, caracterizado pelo fato de as primeira e segunda funções de covariância serem diferentes.
18. Método para a determinação de um processo gaussiano para a regressão de uma pluralidade de tarefas relacionadas, caracterizado pelo fato de incluir as etapas de: recebimento de um conjunto de dados associado a cada uma da pluralidade de tarefas relacionadas; recebimento de uma função de covariância associada a cada uma das tarefas relacionadas; e uso dos conjuntos de dados e das funções de covariância para a determinação de uma função de covariância de multitarefa, para uso com o processo gaussiano de multitarefa.
19. Método, de acordo com a reivindicação 18, caracterizado pelo fato de que a função de covariância de multitarefa é determinada em uma fase de treinamento.
20. Método, de acordo com a reivindicação 18, caracterizado pelo fato de a função de covariância de multitarefa K ser determinada a partir de uma função de base, g, associada a cada função de covariância, usando a relação descrito como o seguinte: <formula>formula see original document page 55</formula> onde i e j identificam o número de tarefa e (χ, i) , (x', j) representam os pontos χ e x' da tarefa i e j, respectivamente.
21. Método para a avaliação de uma tarefa de um modelo de regressão de processo gaussiano, caracterizado pelo fato de a tarefa ser uma de uma pluralidade de tarefas dependentes, e o modelo de regressão de processo gaussiano incluir um processo gaussiano, o processo gaussiano sendo associado a uma função de covariância, a função de covariância sendo uma função de covariância de multitarefa.
22. Método, de acordo com a reivindicação 21, caracterizado pelo fato de a função de covariância de multitarefa ser a função de covariância de multitarefa de qualquer uma das reivindicações 18, 19 ou 20.
23. Programa de computador, caracterizado pelo fato de compreender um código de programa que pode ser lido em máquina para controle da. operação de um aparelho de processamento de dados no qual o código de programa se executa para a realização do método de qualquer uma das reivindicações 18, 19, 20, 21 ou 22.
24. Produto de programa de computador, caracterizado pelo fato de compreender um código de programa que pode ser lido em máquina gravado em um meio de gravação que pode ser lido em máquina, para controle da operação de um aparelho de processamento de dados no qual o código de programa se executa para a realização do método de qualquer uma das reivindicações 18, 19, 20, 21 ou 22.
25. Sistema para a análise de uma pluralidade de conjuntos de dados, cada conjunto de dados associado a uma função de covariância de tarefa única, o sistema caracterizado pelo fato de incluir: um processador de treinamento de processo gaussiano de multitarefa que analisa a pluralidade de conjuntos de dados simultaneamente, para a determinação de uma função de covariância de multitarefa, onde a função de covariância de multitarefa é uma combinação das funções de covariância de tarefa única.
26. Sistema para a síntese de um conjunto de dados a partir de um conjunto de dados de entrada de teste, onde o conjunto de dados compreende dados de um de uma pluralidade de tipos de dados, cada tipo de dados sendo associado a uma função de covariância de tarefa única, caracterizado pelo fato de o sistema incluir: um processo gaussiano de multitarefa associado a uma função de covariância de multitarefa, onde a função de covariância de multitarefa é uma combinação das funções de covariância de tarefa única; e um processador de avaliação de processo gaussiano que introduz o conjunto de dados de entrada de teste, e usa o processo gaussiano de multitarefa para a síntese do conjunto de dados.
27. Método para regressão em computador de uma pluralidade de tarefas relacionadas, o método caracterizado pelo fato de incluir as etapas de: recebimento de um conjunto de dados associado a cada um da pluralidade de tarefas relacionadas ã modelagem; atribuição de um kernel de conjunto de dados para cada um dos conjuntos de dados; simultaneamente, a modelagem dos conjuntos de dados usando-se um processo de kernel no qual o kernel é uma convolução dos kernels de conjunto de dados.
28. Método, de acordo com a reivindicação 27, caracterizado pelo fato de o kernel de conjunto de dados para um da pluralidade de conjuntos de dados ser diferente do kernel de conjunto de dados para um outro da pluralidade de conjuntos de dados.
29. Método para regressão em computador de uma pluralidade de tarefas relacionadas, o método caracterizado pelo fato de incluir as etapas de: recebimento de valores para as entradas X, alvos y, função de covariância K, nível de ruído σ2η, e entrada de teste X*, onde X, y e X* são na forma de vetores de bloco, e K é na forma de uma matriz de bloco que compreende funções de covariância para cada entrada X ao longo de sua diagonal e funções de covariância cruzada formadas por uma convolução de funções de covariância fora de sua diagonal; a aplicação da função de covariância K às entradas X, aos alvos y, ao nível de ruído σ,2, , e à entrada de teste X*, em um processo preditivo, e extração de um modelo das entradas X.
30. Sistema de computador ou meio que pode ser lido em computador caracterizado pelo fato de incluir instruções para: o recebimento de um conjunto de dados associado a cada um da pluralidade de tarefas relacionadas à modelagem; simultaneamente, a modelagem dos conjuntos de dados usando-se um processo de kernel no qual o kernel é uma convolução de kernels atribuídos a cada conjunto de dados.
31. Sistema de computador ou meio que pode ser lido em computador caracterizado pelo fato de incluir instruções para: a implementação de uma regressão de uma pluralidade de tarefas relacionadas pelo(a): recebimento de valores para as entradas X, alvos y, função de covariância K, nível de ruído σ2n, e entrada de teste X*, onde X, y e X* são na forma de vetores de bloco, e K é na forma de uma matriz de bloco que compreende funções de covariância para cada entrada X ao longo de sua diagonal e funções de covariância cruzada formadas por uma convolução de funções de covariância fora de sua diagonal; aplicação da função de covariância K às entradas X, aos alvos y, ao nível de ruído σ*n, e à entrada de teste X*, em um processo preditivo, e extração de um modelo das entradas X.
BRPI1003189-8A 2009-05-13 2010-05-12 método e sistema para sìntese e análise de dados BRPI1003189A2 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
AU2009902150A AU2009902150A0 (en) 2009-05-13 A method and system for data analysis and synthesis
AU2010901867A AU2010901867A0 (en) 2010-04-30 A method and system for data analysis and synthesis

Publications (1)

Publication Number Publication Date
BRPI1003189A2 true BRPI1003189A2 (pt) 2012-02-07

Family

ID=43070440

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI1003189-8A BRPI1003189A2 (pt) 2009-05-13 2010-05-12 método e sistema para sìntese e análise de dados

Country Status (7)

Country Link
US (1) US8438121B2 (pt)
AU (1) AU2010201891B2 (pt)
BR (1) BRPI1003189A2 (pt)
CA (1) CA2704107A1 (pt)
CL (1) CL2010000485A1 (pt)
PE (1) PE20100832A1 (pt)
WO (1) WO2010129998A1 (pt)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012164245A1 (en) 2011-06-01 2012-12-06 Bae Systems Plc Heterogeneous data fusion using gaussian processes
US9721211B2 (en) 2011-06-01 2017-08-01 Bae Systems Plc System and method for sensor data processing to determine position of a vehicle
US20130253968A1 (en) * 2012-03-26 2013-09-26 David Frederick Martinez Facility control system (fcs, c1) to manage assets planning, design, construction, fabrication, operating, maintence and products
AU2013277928B2 (en) * 2012-06-18 2017-06-15 Technological Resources Pty. Limited Systems and methods for processing geophysical data
WO2014005188A1 (en) 2012-07-06 2014-01-09 Technological Resources Pty Ltd A method of, and a system for, drilling to a position relative to a geological boundary
US20140058963A1 (en) * 2012-08-24 2014-02-27 David Frederick Martinez Facility control system (fcs-c2) (introduction of traveler form) to manage assets planning, design, construction, fabrication, operating, maintence and products fabrication
CA3151050A1 (en) * 2013-03-05 2014-09-12 Technological Resources Pty Ltd Estimating material properties
KR102219346B1 (ko) * 2013-05-30 2021-02-23 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 베이지안 최적화를 수행하기 위한 시스템 및 방법
CN106663184A (zh) * 2014-03-28 2017-05-10 华为技术有限公司 人脸数据验证的方法和系统
WO2016089835A1 (en) * 2014-12-01 2016-06-09 Schlumberger Canada Limited Spatial declustering of oilfield data using kernel density estimation
CN104834918A (zh) * 2015-05-20 2015-08-12 中国科学院上海高等研究院 一种基于高斯过程分类器的人体行为识别方法
CN105069298B (zh) * 2015-08-14 2018-08-03 华中农业大学 一种农产品信息采集系统中节点缺失数据的估算方法
CN106056093B (zh) * 2016-06-13 2019-05-21 西安电子科技大学 基于二分类进化特征学习的人体行为识别方法
CN106680762B (zh) * 2016-12-15 2019-11-26 哈尔滨工程大学 一种基于互协方差稀疏重构的声矢量阵方位估计方法
CN108508914A (zh) * 2018-03-29 2018-09-07 哈尔滨理工大学 一种离散多智能体系统的编队控制方法
CN108920410A (zh) * 2018-06-22 2018-11-30 华北理工大学 一种大数据处理装置及方法
CN109492265B (zh) * 2018-10-18 2022-04-22 南京林业大学 基于动态非线性pls软测量方法的废水出水指标预测方法
WO2020190311A1 (en) * 2019-03-20 2020-09-24 Massachusetts Institute Of Technology Sensing system
CN110110419B (zh) * 2019-04-28 2022-11-18 中铁工程装备集团有限公司 一种基于多目标学习的tbm掘进参数预测方法
EP3779808A1 (en) * 2019-08-13 2021-02-17 Robert Bosch GmbH Device and method for training a gaussian process regression model
CN110737938A (zh) * 2019-09-28 2020-01-31 桂林理工大学 一种基于gpr的再生混凝土收缩徐变的预测方法及装置
CN111915177B (zh) * 2020-07-24 2023-05-26 浙江万里学院 一种铁矿石取样优化和品质波动预警系统和方法
CN113673167B (zh) * 2021-08-27 2024-02-27 上海海事大学 基于高斯过程回归的风电机组输出功率的建模方法和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2387008A (en) * 2002-03-28 2003-10-01 Qinetiq Ltd Signal Processing System
JP2009543290A (ja) * 2006-06-28 2009-12-03 トムソン ライセンシング 放出ディスプレイにおけるスペーサ用のコーティング
BRPI0901427B1 (pt) * 2008-03-04 2020-01-28 Tech Resources Pty Ltd sistemas para uso no controle de operações de extração de recursos e de mineração, respectivos métodos de controle e meios não transitórios legíveis por computador e sistema para explorar uma mina
AU2009251043A1 (en) 2009-01-07 2010-07-22 The University Of Sydney A method and system of data modelling

Also Published As

Publication number Publication date
CL2010000485A1 (es) 2010-08-06
AU2010201891A1 (en) 2010-12-02
WO2010129998A1 (en) 2010-11-18
PE20100832A1 (es) 2011-01-20
AU2010201891B2 (en) 2015-02-12
US20110035346A1 (en) 2011-02-10
CA2704107A1 (en) 2010-11-13
US8438121B2 (en) 2013-05-07

Similar Documents

Publication Publication Date Title
BRPI1003189A2 (pt) método e sistema para sìntese e análise de dados
Buccianti et al. Compositional data analysis in geochemistry: are we sure to see what really occurs during natural processes?
US9372943B2 (en) Modeling dynamic systems by visualizing and narrowing a parameter space
Scheidt et al. Prediction-focused subsurface modeling: investigating the need for accuracy in flow-based inverse modeling
Wilkinson Bayesian calibration of expensive multivariate computer experiments
Ye et al. Global sensitivity analysis for uncertain parameters, models, and scenarios
Abbaszadeh Shahri et al. A hybrid ensemble-based automated deep learning approach to generate 3D geo-models and uncertainty analysis
Chang et al. Identification of physical processes via combined data-driven and data-assimilation methods
Lange et al. A frequency matching method: solving inverse problems by use of geologically realistic prior information
US10324206B2 (en) Method of modelling a subsurface volume
Xu et al. Inverse sequential simulation: A new approach for the characterization of hydraulic conductivities demonstrated on a non‐G aussian field
Cheng et al. A graph clustering approach to localization for adaptive covariance tuning in data assimilation based on state-observation mapping
Kapangaziwiri Regional application of the Pitman monthly rainfall-runoff model in southern Africa incorporating uncertainty
Liu et al. Demonstration and mitigation of spatial sampling bias for machine-learning predictions
Zheng et al. Efficient estimation of groundwater contaminant source and hydraulic conductivity by an ILUES framework combining GAN and CNN
Mateu et al. On a class of non-stationary, compactly supported spatial covariance functions
Gurbuz et al. Using a physics-based hydrological model and storm transposition to investigate machine-learning algorithms for streamflow prediction
Yan et al. A novel method for identifying geomechanical parameters of rock masses based on a PSO and improved GPR hybrid algorithm
McKenna et al. Non-uniqueness of inverse transmissivity field calibration and predictive transport modeling
Boisvert et al. Modeling locally varying anisotropy of CO 2 emissions in the United States
Miao et al. Nonlinear state-space modeling approaches to real-time autonomous geosteering
CN115758792A (zh) 一种基于数字数值一体化的地质灾害评估方法及装置
Al-Taweel et al. A comparison of different methods for building Bayesian kriging models
Shi et al. Progress on spatial prediction methods for soil particle-size fractions
Vlasenko et al. Estimation of data assimilation error: A shallow-water model study

Legal Events

Date Code Title Description
B03A Publication of a patent application or of a certificate of addition of invention [chapter 3.1 patent gazette]
B08F Application dismissed because of non-payment of annual fees [chapter 8.6 patent gazette]

Free format text: REFERENTE A 7A ANUIDADE.

B08K Patent lapsed as no evidence of payment of the annual fee has been furnished to inpi [chapter 8.11 patent gazette]