BR102022016487A2

BR102022016487A2 - Método para pontuação e avaliação de dados para troca

Info

Publication number: BR102022016487A2
Application number: BR102022016487-8A
Authority: BR
Inventors: Santiago Ortiz Herrera; André Gustavo Vellozo Luz; Javier Cruz San Martin
Original assignee: Drumwave Inc.
Priority date: 2020-08-19
Filing date: 2022-08-18
Publication date: 2023-02-28
Also published as: US20220058658A1; CN115713248A

Abstract

A presente invenção refere-se a um sistema e método para avaliação de uma pluralidade de conjuntos de dados e meio similar, os quais compreendem receber os conjuntos de dados, criar uma primeira subpontuação para cada um dos conjuntos de dados, criar uma segunda subpontuação numérica para cada uma da pluralidade de conjuntos de dados, o segundo valor numérico variando com base nas características de informação, a segunda subpontuação sendo maior para características de informação aperfeiçoadas caracterizando-se por um ou mais de qualidade estrutural aumentada, completude aumentada, interconectividade aumentada, diversidade aumentada, redundância reduzida, criar uma terceira subpontuação para cada uma da pluralidade de conjuntos de dados, a terceira subpontuação compreendendo um terceiro valor numérico sendo maior para características de significado aperfeiçoadas caracterizando-se por um ou mais de impacto aumentado em uma comunidade, um número aumentado de comunidades impactadas, maior veracidade, maior relevância para uma comunidade impactada, maior escassez; criar uma pontuação compósita para cada uma da pluralidade de conjuntos de dados, que é uma combinação matemática das primeira, segunda e terceira subpontuações.

Description

MÉTODO PARA PONTUAÇÃO E AVALIAÇÃO DE DADOS PARA TROCA

REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS

[001] O presente pedido reivindica prioridade do Pedido Provisório U.S. No. 63/067.728, depositado em 19 de agosto de 2020, intitulado "DATA VALUATION SYSTEM AND METHOD" e Pedido Provisório U.S. No. 63/117.718, depositado em 24 de novembro de 2020, intitulado "METHOD OF S CORING AND VALUING DATA FOR EXCHANGE". Os conteúdos desses pedidos são incorporados ao presente relatório a título de referência em sua totalidade.

ANTECEDENTES CAMPO DA INVENÇÃO

[002] A presente invenção refere-se ao campo da avaliação de dados e, mais especificamente, a métodos para criação de conjuntos de dados trocáveis através de avaliações.

DESCRIÇÃO DA TÉCNICA RELACIONADA

[003] Coleta, consulta e qualificação de dados podem ser usadas por comerciantes, acadêmicos, cientistas de dados e outros interessados em entender vários propósitos diferentes, incluindo relacionamentos de dados, antecipação de probabilidade de eventos, exploração comercial e outros.

[004] Os dados são capturados e compilados para uso em qualquer número de métodos diferentes. Dentre esses métodos está um sistema de captura tradicional por entidades individuais para explorar os próprios dados ou por entidades profissionais que comercializam para entidades comerciais para exploração, tais como empresas de pesquisa de consumidores e seus clientes fabricantes de produtos. Esses métodos tendiam a ser muito isolados de trocas potenciais ou maiores. A disponibilidade limitada dos dados para outras entidades que possam ter uso para os dados, algumas até mesmo além da contemplação da entidade que vende as informações, impede que os dados sejam usados como seu maior valor. As técnicas atuais não permitem coleta, pontuação, avaliação e troca sistemáticas de dados em um mercado amplo e eficiente.

SUMÁRIO

[005] O que segue é uma lista não exaustiva de alguns aspectos das presentes técnicas. Esses e outros aspectos são descritos na presente invenção que segue.

[006] Certos aspectos da presente invenção incluem um método para avaliar um conjunto de dados compreendendo: receber, por um ou mais processadores, a partir de um organizador de dados, um conjunto de dados, o conjunto de dados compreendendo uma pluralidade de entradas e uma pluralidade de dimensões associadas a cada uma da pluralidade de entradas; pontuação, por um ou mais processadores, do conjunto de dados com base na pluralidade de dimensões, a pontuação tendo um componente objetivo e subjetivo, a pontuação produzindo uma pontuação; em que o componente objetivo compreende elementos tal como o tamanho dos dados e medida de uma pluralidade de informações e o componente subjetivo compreende uma avaliação com base em um recurso subjetivamente identificável do conjunto de dados ou dimensões do conjunto de dados, ou outra relação subjetiva tal como a relação entre o conjunto de dados e o ambiente externo, tais componentes subjetivos incluindo precisão, escassez e relevância dos dados; em que pelo menos um dos componentes subjetivos é registrado por um organizador de dados que pode produzir uma pontuação; e em que a pontuação é o resultado de uma combinação matemática pelo menos do componente objetivo e do componente subjetivo; certificar, por um ou mais processadores, a pontuação do conjunto de dados, a certificação produzindo uma certificação indicativa da conclusão de certa tarefa pelo organizador, incluindo, por exemplo, revisão por um organizador de dados, término de tarefas automatizadas e certificação de término do processo do organizador; e apresentar, a um usuário em um dispositivo de usuário, uma pontuação e uma certificação associada a um conjunto de dados.

FIGURAS

[007] Os aspectos mencionados acima e outros aspectos das presentes técnicas serão melhor compreendidos quando o presente pedido for lido em vista das figuras que seguem nas quais números iguais indicam elementos similares ou idênticos.

[008] A Fig. 1 é um fluxo de etapas em certas modalidades para o cálculo de uma pontuação de avaliação de dados de acordo com os presentes ensinamentos.

[009] A Fig. 2 é um sistema de computador com memória associada e conexões utilizáveis em certas modalidades dos presentes ensinamentos contidos.

[0010] Embora a presente invenção seja suscetível a várias modificações e formas alternativas, suas modalidades específicas são mostradas a título de exemplo nos desenhos e serão aqui descritas em detalhes. Os fluxogramas não são necessariamente as únicas etapas, a única ordem das etapas ou as etapas necessárias em cada modalidade. Os desenhos podem não estar em escala. Deve ser compreendido, no entanto, que os desenhos e descrição detalhada dos mesmos não pretendem limitar a presente invenção à forma particular revelada, mas, ao contrário, a intenção é compreender todas as modificações, equivalentes e alternativas que se encaixem no espírito e escopo de a presente invenção como definido pelas reivindicações apensas.

DESCRIÇÃO DETALHADA

[0011] Os problemas descritos acima com sistemas de troca de dados e tradicionais outros são mitigados por aspectos de modalidades descritas na presente invenção. Mas deve ser compreendido que algumas modalidades se dirigem apenas a um subconjunto desses problemas ou outros problemas aparentes àqueles versados na técnica quando da leitura de presente invenção. De fato, como explicado nos parágrafos que concluem o presente relatório, a presente invenção inclui várias invenções independentemente úteis.

[0012] Certas modalidades incluem um método e sistema para avaliação de conjuntos de dados. Conforme os presentes ensinamentos, conjuntos de dados são providos com avaliações ou pontuações que podem ser fixadas ao conjunto de dados para uso em troca. Dados usados aqui podem ser criados e acumulados para vários propósitos e reutilizados e trocados para vários outros propósitos.

[0013] Em alguns aspectos, um ou mais conjuntos de dados são carregados em um banco de dados acessível e manipulável por um ou mais microprocessadores. Os conjuntos de dados podem ter uma pluralidade de campos de dados ou dimensões e podem incluir zero, uma ou mais entradas para cada dimensão para cada conjunto de dados ou conjuntos de dados. Os conjuntos de dados nesse ensinamento podem incluir quaisquer tipos de dados.

[0014] Em muitas modalidades, os conjuntos de dados serão muito grandes para serem convenientemente manipulados por humanos, incluindo conjuntos de dados de milhares, milhões e bilhões de entradas. Nestas modalidades, alguns ou todos os aspectos incluídos no presente relatório são executáveis e executados por processadores. Em certas outras modalidades, certos dos aspectos incluídos no presente relatório são realizados por um ou mais humanos e certos são realizados por processadores.

[0015] Em certas outras modalidades, os aspectos ensinados na presente invenção são aditivos e realizados em parte por um humano e posterior ou em uma iteração separada por um processador ou vice-versa. Certas modalidades da presente invenção incluem a provisão de uma ou mais plataformas de troca para a transferência de dados certificados nos processos descritos na presente invenção.

[0016] De acordo com certos aspectos da presente invenção, um conjunto de dados pode ser recebido por meio de uma API (interface de programação de aplicativos) servindo como intermediário entre um ou mais caches, unidades de armazenamento de dados, instrumentos ou outro modo e dispositivos de usuário usados por um ou mais organizadores de dados, e em rede com dispositivos de usuário usados por um ou mais usuários finais.

[0017] Nas modalidades, uma pluralidade de usuários de uma plataforma ou serviço de troca de dados pode trocar dados ou trocar moeda, produtos ou serviços por dados. Tais trocas podem ocorrer entre um servidor hospedeiro seguro e uma pluralidade de computadores de usuários em uma rede (por exemplo, a Internet ou computadores em rede local) de maneira segura, tais como computadores que foram autenticados e autorizados ou que receberam direitos ad hoc para a rede.

[0018] Em certas modalidades, os computadores de usuário podem fazer interface com a rede através de um servidor de rede, um servidor de correio e outros servidores similares que permitem interligação. Certas conexões dentro de redes relevantes podem estar em associação com a uma intranet corporativa protegida por firewalls relevantes entre o computador do usuário e a rede, entre o computador do usuário e um organizador de dados e entre um computador do usuário e dados seguros dentro da plataforma de troca.

[0019] Emprego de tal firewall pode permitir troca segura na rede e através do servidor de rede, servidor de correio e outros servidores similares.

[0020] Em uma outra modalidade, intranet corporativa e firewall não são necessários e os computadores de usuários podem interagir diretamente na troca com o sistema de troca seguro através da rede. Por exemplo, o usuário pode acessar a troca enquanto estiver em casa, tal como usando um computador corporativo móvel, um computador pessoal, um dispositivo móvel e similar. Sempre que uma troca de dados, ou compra de dados, ou troca de dados por outro valor é iniciada, tal como por meio de transação de compra de um conjunto de dados certificado sendo recebido no servidor hospedeiro conectado a um banco de dados host de conjuntos de dados certificados, o servidor host pode facilitar a transação ao prover transferência segura de fundos através de identificação, extração de informações financeiras e transferência desses fundos para e de contas de usuários relevantes ou contas de câmbio centralizadas. A facilitação pode ser transações seguras envolvendo terceiras instituições financeiras.

[0021] As plataformas de troca descritas na presente invenção podem ser centralizadas ou distribuídas entre um ou mais sistemas de computador. Conjuntos de dados certificados de acordo com os presentes ensinamentos podem ser armazenados de maneiras distribuídas, podem ser verificados entre vários sistemas de computação para redundância e verificação por técnicas diferentes (por exemplo, blockchain) e podem ser armazenados centralmente em servidores seguros.

[0022] Em algumas modalidades, os conjuntos de dados são analisados, pontuados e qualificados para troca. Os conjuntos de dados podem ser obtidos de qualquer variedade de provedores, locais e outros. O processo de qualificação em alguns aspectos da presente invenção inclui prover uma pontuação acumulada que é uma função de pontuações individuais dentro de um processo de acordo com os presentes ensinamentos contidos. Em uma modalidade do tipo, a pontuação pode ser referida como uma pontuação DIM que interroga, avalia e pontua conjuntos de dados com base no conteúdo dos dados, sua qualidade de informação e sua materialidade. Nas modalidades em que a pontuação é calculada como uma pontuação DIM, a pontuação de avaliação de dados pode incluir pontuação com base em Dados (D), Informação (I) e Significado (M). Uma pontuação de avaliação de dados de um conjunto de dados pode ser uma pontuação composta de vários elementos diferentes, pontuados objetiva e subjetivamente. As modalidades avaliam o conjunto de dados, usando uma ou mais técnicas habilitadas por humano ou processador. Alguns valores podem ser calculados como uma pontuação DIM. Um versado reconhecerá que a modalidade de uma pontuação DIM é uma modalidade exemplar e não limitante, e os presentes ensinamentos podem ser adaptados a várias outras modalidades nas quais a pontuação é realizada de outra forma. Nas várias modalidades, a pontuação acumulada pode ser uma função de vários outros fatores objetivos e subjetivos.

[0023] Em certas modalidades, os dados e as pontuações de qualidade da informação são totalmente determinados de forma objetiva e podem ser interrelacionados, por exemplo, onde de um conjunto de dados para o próximo, a quantidade de dados aumenta, mas a qualidade da informação diminui devido à redundância, a pontuação D pode ser aumentada no último conjunto, mas a pontuação I pode ser menor devido à redundância, tornando o produto de D+I em cada conjunto o mesmo.

[0024] Em certas modalidades, a pontuação é logarítmica dentro de cada variável. Por exemplo, nas modalidades utilizando uma pontuação DIM, um conjunto de dados com 100.000 campos pode ter uma pontuação D metade de um conjunto de dados com 1.000.000 campos. Em outras modalidades, um método de pontuação pode ser vinculado ao volume de dados e similarmente aumentar logaritmicamente, ou de maneira similar de modo que a porção pontuada relacionada ao volume aumente de maneira cada vez mais lenta, por exemplo, a segunda derivada desta variável é negativa quando representada em gráfico como os dados totais (eixo x) em relação à pontuação D para esses dados (eixo y). Diferentes avaliações podem ser baseadas em diferentes aspectos do conjunto de dados. Um aspecto da pontuação de dados é o tamanho dos dados, em que quanto maior o tamanho, maior a avaliação do conjunto de dados. Desta forma e com relação a esta porção de avaliação, um conjunto de dados com 10.000 campos de dados seria avaliado em uma quantidade menor do que um conjunto de dados de 100.000 campos de dados, que seria avaliado em uma quantidade menor do que um conjunto de dados de 1.000.000 campos de dados.

[0025] Em certas modalidades, a pontuação é o produto das variáveis individuais. Por exemplo, em um arranjo DIM, a pontuação de avaliação de dados é o produto das avaliações individuais D, I e M. Deve ser compreendido que as pontuações individuais de D, I e M podem ser combinadas em qualquer número de maneiras matemáticas e ser usadas como avaliações de acordo com os presentes ensinamentos, e que o termo produto como usado no presente relatório não é necessariamente uma referência ao resultado de uma função de multiplicação.

[0026] Certas modalidades incluem um organizador de dados que atribui pontuações aos conjuntos de dados e verifica pontuações fornecidas automaticamente. Nestas modalidades, um organizador pode ser um ou mais processadores humanos ou automatizados, incluindo uma pessoa, um grupo de pessoas ou um sistema operacional computadorizado incluindo um ou mais processadores.

[0027] O organizador ou combinação de organizadores pode carregar o conjunto de dados no sistema e revisá-lo como parte do processo de organização. Em certas modalidades, carregamento do conjunto de dados pode compreender a coleta e recebimento do conjunto de dados a partir de uma fonte de dados e conexão dessa informação em um formato utilizável para revisão e análise de dados subsequentes. Durante a revisão, um ou mais organizadores podem validar dados, um conjunto de dados ou um sistema de conjuntos de dados e determinar sua precisão. Medições e pontuações de precisão podem ser baseadas na determinação do organizador com base em fatores objetivos ou subjetivos.

[0028] Em algumas modalidades, a precisão pode ser melhorada pelo organizador de dados. Nessas modalidades, por exemplo, correções de dados podem ser feitas, atualizações de dados podem ser feitas, dados ausentes podem ser fornecidos ou campos adicionais podem ser adicionados. Em circunstâncias em que a pontuação de dados está sob o processo DIM, uma pontuação DIM de um conjunto de dados pode ser aumentada ou diminuída com base nas ações do organizador. Deve ser entendido que no curso habitual um organizador seria incentivado a aumentar a pontuação de avaliação de dados através da adição de precisão. Por exemplo, em situações em que os campos de dados têm elementos faltantes (por exemplo, a cidade de residência não está incluída para certos membros de um banco de dados demográfico e os campos relacionados a esses membros estão em branco), um organizador de dados é incentivado a adicionar as informações faltantes, dessa maneira aumentando a pontuação dos dados (com base em, por exemplo, volume, completude).

[0029] Em certas modalidades, a precisão de dados é pontuada logaritmicamente, por exemplo, um conjunto de dados com dados que são duas vezes mais precisos que um outro conjunto de dados pode ter uma relação de log2 (dataset_accuracy1) = dataset_accuracy2 e em outras modalidades a precisão é pontuada linearmente, incluindo pontuação entre 0,0 e 1,0 para dados completamente imprecisos e dados precisos, respectivamente.

[0030] Em certas modalidades, os dados podem ser avaliados e interrogados quanto à redundância interna, correlação, covariância e causalidade. Nessas modalidades, os dados são comparados entre os campos e a determinação é feita usando um ou mais processadores se os dados em diferentes campos dependem total ou em parte dos dados em certos outros campos. Nessas modalidades, técnicas incluindo regressão, correlação de Pearson, ou outra forma, são usadas na interrogação de dados para determinar relações entre os conteúdos dos campos de dados.

[0031] Em algumas modalidades, correlação se aproxima da relação completa entre dados, implicando redundância, causalidade, ou outra forma, uma relação determinística entre um campo de dados e outro.

[0032] Redundância e diversidade estão relacionadas e em algumas modalidades representam a mesma característica dos conjuntos de dados. Um aspecto da pontuação de dados é a diversidade do conjunto de dados. Nessas modalidades, conforme a diversidade do conjunto de dados aumenta, o valor do conjunto de dados em certas modalidades aumenta. Em certas modalidades, a diversidade de um conjunto de dados é determinada pelos componentes preditivos entre porções do conjunto de dados ou campos diferentes no conjunto de dados. Em outras modalidades, diversidade de um conjunto de dados é determinada por uma medida de repetição entre campos diferentes. Redundância pode ser calculada até o ponto que informação em um campo de dados determina dados em um segundo campo de dados. Em tal caso usando um método de pontuação DIM, redundância completa reduz a pontuação I ou de informações de modo que o produto de D ou dados e I ou informações seja o mesmo ou substancialmente o mesmo que um conjunto de dados sem os dados redundantes.

[0033] Sob certos cenários, as avaliações diferem em pontuações de diversidade diferentes, incluindo avaliações que têm ambas as inclinações negativas e positivas de pontuações de diversidade conforme a diversidade aumenta de nenhuma diversidade para diversidade completa (por exemplo, a segunda derivada da pontuação de diversidade é negativa quando representado em gráfico o grau de diversidade (eixo x) contra a pontuação de diversidade (eixo y), resultando em um gráfico côncavo para baixo). Nesses cenários, uma pontuação de diversidade máxima pode ser determinada em um valor que implica certas relações entre campos de dados, sem determinação completa entre campos de dados. Nesses casos, é benéfico ter algum valor preditivo entre campos de dados para uso na exploração de dados, por exemplo, na geração de valores p para correlação entre campos de dados em um conjunto de dados.

[0034] Em certas modalidades, a persistência do conjunto de dados pode ser calculada. Certos valores de persistência são uma função dos cálculos de validade e relevância. A pontuação de avaliação de dados total de um conjunto de dados pode variar com o tempo em cenários de baixa persistência. Dados em muitos formatos têm uma validade ou outra avaliação que muda com o tempo e podem ser modelados como uma meia-vida. Isto é, similar a declínio radioativo, validade de certos dados tende a diminuir repetidamente pela metade durante um certo período de tempo.

[0035] Em muitas modalidades, a meia-vida dos dados pode ser determinada com base no tipo, fonte e conteúdos dos dados.

[0036] Em certas outras modalidades, precisão de dados de idade diferente pode ser determinada e a partir dessa determinação, a meia-vida pode ser definida com base em uma análise de melhor ajuste e determinação de coeficientes em uma equação de meia-vida adequada.

[0037] Uma dessas equações poderia ser

[0038] Onde N(t) é a medida de precisão dos dados após o tempo t, N0 é a precisão dos dados no tempo 0, t é tempo e t1/2 é a meia-vida derivada dos dados.

[0039] Em outras modalidades, um ou mais organizadores podem definir a fórmula de meia-vida com base na determinação objetiva ou subjetiva de valores apropriados.

[0040] Em certas modalidades, os dados são pontuados quanto à sua relevância por um ou mais organizadores de dados. Relevância dos dados é determinada pelo, dentre outras coisas, efeito dos dados nas comunidades de interesse.

[0041] Em certas modalidades, a pontuação de relevância pode ser dinâmica dependendo do valor diferente do conjunto de dados para grupos diferentes. Em tal modalidade, por exemplo, a relevância do conjunto de dados pontua alta para certas organizações, tais como pontuações de crédito de uma população para credores hipotecários, tipo sanguíneo de uma população para cirurgiões e outros.

[0042] Em certas outras modalidades, a pontuação de relevância pode mudar dependendo do mercado para a informação, por exemplo, pontuações de crédito de uma dada população podem ter relevância alta para credores hipotecários e relevância baixa para distritos escolares. Nesses aspectos, um organizador pode avaliar com base no segmento de mercado ou de outra forma para prover uma pontuação de relevância adequada.

[0043] Em algumas modalidades, a pontuação de relevância é um escalar entre 0,0 e 1,0.

[0044] Em certas outras modalidades, uma avaliação logarítmica de relevância pode ser feita. Deve ficar claro para o leitor que qualquer número de determinações matemáticas pode ser feito para pontuar a relevância da informação. Em outras modalidades, funções matemáticas diferentes são apropriadas para avaliações, incluindo funções com segundas derivadas negativas.

[0045] Em certas modalidades, a escassez do conjunto de dados é avaliada e pontuada por um ou mais organizadores de dados. Nessas modalidades, o conjunto de dados é avaliado com base em sua disponibilidade para o público relevante fora de uma troca. A escassez pode mudar com base em, por exemplo, facilidade de acúmulo de dados, privacidade de dados, custo de aquisição de dados, caráter recente de aquisição ou outros fatores que limitam a capacidade do público relevante em adquiri-los. No caso de alta escassez, o conjunto de dados pode receber uma alta pontuação de escassez. Escassez pode ser exemplificada através de, por exemplo, informação altamente protegida, informação que foi derivada de testes únicos e informação que é acumulada de grandes números de fontes diferentes, dentre outras coisas.

[0046] Processos de certificação podem ser incluídos em certos conjuntos de dados quando da formação de uma pontuação, incluindo uma pontuação DIM. Certificação pode ser um processo para certificar a revisão, pontuação e avaliação do conjunto de dados, sob o processo de avaliação de dados. Processo de certificação pode incluir identificadores de proveniência do conjunto de dados para o organizador ou organizadores envolvidos, identificadores do método de determinação da pontuação de avaliação de dados, identificadores do histórico dos organizadores ou organizadores envolvidos. Em certas modalidades, a certificação de uma pontuação de avaliação de dados é incorporada ao conjunto de dados de tal maneira que a pontuação de avaliação de dados é permanentemente afixada ao conjunto de dados através da troca.

[0047] É previsível que o valor de mercado de conjuntos de dados seja intimamente relacionado à pontuação, incluindo a pontuação DIM, do conjunto de dados, embora conjuntos de dados diferentes em mercados diferentes com pontuações de avaliação de dados similares possam ser avaliados de maneira diferente, sujeitos às forças do mercado.

[0048] Com a pontuação de avaliação de dados como um recurso semipermanente do conjunto de dados, o valor de mercado pode se mover sem afetar a pontuação de avaliação de dados.

[0049] Dessa forma, uma pontuação de avaliação de dados se torna um aspecto permanente do conjunto de dados e é protegida contra, por exemplo, forças de especulação que podem alterar o valor de um conjunto de dados particular em uma pontuação de avaliação de dados.

[0050] É previsto que mercado incentive a criação de conjuntos de dados adicionais e de maior qualidade como um produto monetizável de organizadores, com organizadores pegando conjuntos de dados e aumentando seu valor de mercado ao adicionar precisão, validade, reduzindo redundância e adicionando valor de avaliação de dados a conjuntos de dados através de revisão e revisão de conjuntos de dados. Os organizadores de dados podem adicionar metadados aos conjuntos de dados para aumentar o valor dos dados, incluindo informação sobre a qualidade dos dados, mercados interessados para os dados, idade dos dados, frequência esperada de atualizações de dados e outros. Dessa maneira, organizadores profissionais podem produzir produtos monetizáveis e, por sua vez, organizadores particularmente qualificados podem ser reconhecidos como qualidade ao agregar valor de avaliação de dados aos conjuntos de dados.

[0051] É ainda previsto que organizadores possam ser responsáveis por sua pontuação de avaliação de dados. Em certas modalidades, todos os organizadores que revisaram, pontuaram ou tentaram pontuar um conjunto de dados podem ser identificados através de marcadores particulares associados ao conjunto de dados. Organizadores de dados individuais serão responsáveis pela pontuação de avaliação de dados que eles produziram e afixaram ao conjunto de dados e são responsáveis pelo manuseio adequado de conjuntos de dados. Por exemplo, um manipulador de dados seria responsável por identificar adequadamente a existência e lidar com informação de identificação pessoal de forma que sua divulgação não viole leis jurisdicionais relevantes, um manipulador de dados seria responsável apenas por divulgar informações de uma maneira que esteja em conformidade com regras de negócios de empresas relevantes e acordos com provedores de dados (por exemplo, clientes) e um controlador de dados seria responsável por cumprir as regras internacionais de privacidade e outra lei relevante. É compreendido que outras orientações, regras, regulamentações e leis serão aplicáveis aos vários conjuntos de dados relevantes.

[0052] Em algumas modalidades, pontuação pode ser realizada no todo ou em parte através do uso de técnicas e mecanismos de Inteligência Artificial (IA) e/ou Aprendizagem por Máquina para gerar pontuação com base em um histórico de pontuação de conjunto de dados aprendido ou treinado, incluindo históricos de um ou mais organizadores. Em algumas dessas modalidades, aprendizagem pode ser preferida por uma pontuação da qualidade da pluralidade de organizadores, com as tendências de organizadores com pontuação mais alta influenciando desproporcionalmente o treinamento da lA/Aprendizagem por Máquina. As modalidades podem combinar as técnicas acima com Inteligência Artificial, Aprendizagem por Máquina ou técnicas similares para melhorar o sistema de pontuação. Em situações em que técnicas de lA/Aprendizado de Máquina ou outras técnicas automatizadas apropriadas estão envolvidas na determinação de Μ ou pontuação de significado, o organizador de dados atua principalmente ou inteiramente em um papel de validação do processo de pontuação automatizada.

[0053] Várias das operações acima reveladas na presente invenção podem ser realizadas em tempo real (ou substancialmente em tempo real). Nesse caso, por exemplo, se um organizador pontuar um conjunto de dados, certas modalidades podem aplicar os atributos da pontuação a versões futuras do conjunto de dados ou outros conjuntos de dados dispostos similarmente para avançar esses conjuntos de dados em direção à certificação. Nessas situações, certas modalidades constroem um perfil em tempo real usando o histórico de pontuação e tendência de um ou uma pluralidade de organizadores e podem fazer essas sugestões para aplicar a pontuação em microssegundos (tempo real ou tempo substancialmente real de modo que haja atraso pouco perceptível durante o processo).

[0054] Ao invés de pontuar conjuntos de dados em uma base de tudo ou nada, binária, várias das modalidades reveladas pontuam porções de dados. De acordo com certos aspectos da presente invenção, nas técnicas ensinadas no presente relatório, o organizador pode pontuar uma porção do conjunto de dados e aplicar a pontuação a uma porção mais ampla ou ao restante do conjunto de dados com base, por exemplo, em pesos diferentes e múltiplos fatores de ponderação, probabilidades, escopo de conjuntos de dados e similar. Certas modalidades podem aplicar essa abordagem a conjuntos de dados massivos em tempo real usando um processo de ponderação de constante evolução.

[0055] Sistemas de Inteligência Artificial, incluindo pelo menos alguns dos mecanismos que seguem, podem ser empregados em certas modalidades para gerenciar a complexidade das ponderações em tempo real: redes Bayesianas; redes neurais; aprendizagem por máquina; algoritmos de evolução genética; etc.

[0056] O processo descrito pode ser obtido com o fluxo de processo que segue. Este processo é dado apenas como exemplo e a ordenação do processo não precisa estar na ordem descrita. O processo pode ser iterativo no todo ou em parte, e certas partes do processo podem ser repetidas ou totalmente puladas.

[0057] Primeiro, o conjunto de dados é provido ao sistema ou métodos que avaliam os dados através de, por exemplo, uma conexão de computador ou API apropriada, e os dados dentro do conjunto de dados são extraídos. Dentro desta etapa, um usuário licenciado chamado um organizador de dados realiza a conexão com um conjunto de dados (por exemplo, um arquivo, uma tabela em um banco de dados ou uma tabela que vem da conexão da API). O sistema pode agora acessar o conjunto de dados completo e pode analisar e extrair partes dele conforme necessário para avaliação ou criação de uma pontuação de avaliação de dados. Em algumas modalidades, o sistema extrai uma amostra aleatória ou uma amostra não aleatória com proteções suficientes para a natureza representativa ou ajustes para sua natureza representativa e, no caso de bancos de dados, pode executar consultas que retornam metadados tais como esquemas de tabela e índices.

[0058] Em segundo lugar, um algoritmo que extrai metadados é executado. Com base na amostra e metadados, uma série de algoritmos, incluindo algoritmos de aprendizagem por máquina de regressão e classificação (que juntos são chamados de ferramenta extratora de metadados), mede, extrai e calcula informação adicional relevante para o conjunto de dados. Dentre a informação calculada adicionalmente, o extrator de metadados pode ser usado para determinar a caracterização de elementos (tipos de dados e significado tais como, por exemplo, endereços, números de telefone, programas de televisão, preferências de produtos ou outros); qualidade dos dados (por exemplo, minuciosidade, envelhecimento); métricas estatísticas para características de elementos numéricos ou categóricos individuais (por exemplo, probabilidade de correção de qualquer dado elemento dos dados); integridade de informações dos elementos; redundância de informações entre funcionalidades; diversidade de características dos elementos (por exemplo, valor determinístico ou p entre categorias de informação). A partir dessa informação, um objeto extraído de metadados é criado. Com alguns ou todos esses dados extraídos, um objeto pontuado (por exemplo, um objeto DIM) é criado e adicionado ao e/ou usado em conjunto com o objeto extraído de metadados. O objeto pontuado (por exemplo, Objeto DIM) pode conter um pouco ou toda uma pontuação combinada, tal como um número escalar determinado com base nas técnicas ensinadas na presente invenção (por exemplo, uma pontuação DIM), a pontuação dos componentes (por exemplo, para pontuação DIM, um pontuação para cada um de D ou dados, I ou informação e M ou significado) e o relatório relevante, com métricas-chave.

[0059] Terceiro, o conjunto de dados pode ser registrado. Nesta modalidade, com base em um objeto de extração de metadados e objeto de avaliação de dados, uma análise para o Organizador de Dados é criada. A análise pode ter dois propósitos: validar ou invalidar todas as constatações do algoritmo e adicionar mais informações sobre como o conjunto de dados é relevante no mundo. Dentre as informações adicionais que podem ser adicionadas incluem rótulos, categorias e descrições de elementos; comunidades representadas (CI) dentro das informações (por exemplo, identificação dos grupos do mundo real para os quais os dados relacionados a esse grupo são compilados); comunidades impactadas (por exemplo, identificação de grupos do mundo real para os quais a informação seria útil ou necessária); relevância para comunidades (por exemplo, uma determinação de um grau de tal utilidade ou necessidade); validade dos dados; persistência de validade e relevância dos dados no tempo; oportunidades de negócios (por exemplo, usos identificados de dados para comunidades impactadas). Os dados introduzidos são chamados Dados Registrados e podem ser adicionados à ferramenta de extração de metadados.

[0060] Quarto, a pontuação de avaliação de dados pode ser reajustada. Levando em consideração os Dados Registrados, a pontuação de avaliação de dados pode ser ajustada de várias maneiras diferentes, incluindo invalidações (por exemplo, falsos positivos corrigidos pelo organizador de dados), modificar (por exemplo, diminuir) a pontuação de avaliação de dados calculada anteriormente; características recém-adicionadas podem aumentar a pontuação; validações e invalidações podem aumentar a pontuação porque adicionam certeza às constatações de processo automatizado (por exemplo, máquina/IA sozinha).

[0061] Quinto, um certificado para ativo de dados é gerado. Um Certificado (um novo Objeto) é criado. Ele contém em algumas modalidades alguns ou todos de um ponteiro para conjunto de dados, um ponteiro para um extrator de metadados, um objeto pontuado (por exemplo, objeto de avaliação de dados) com pontuação, um id exclusivo criada usando todas as informações da extração de metadados e Informações de registro. Nessas modalidades, cada conjunto de dados tem um certificado exclusivo. O Certificado representa o conjunto de dados no sistema e é agora considerado um ativo de dados. Toda interação com o conjunto de dados no sistema é através do Certificado. Nessas modalidades, o Certificado permite rastreabilidade, procedência (por exemplo, informação sobre origem) e transparência. O certificado em algumas modalidades garante o valor no conjunto de dados encontrado pela pontuação de avaliação de dados.

[0062] Sexto, um relatório para ativos de dados pode ser provido.

[0063] O Certificado pode ser apresentado como um documento para o usuário e pode ser compartilhado dentro ou entre organizações. Ele pode conter a pontuação (por exemplo, pontuação de avaliação de dados), relatório, número de hash e uma imagem de identificação (por exemplo, código QR).

[0064] O certificado pode ser usado para propósitos de governança e transação de ativo de dados.

[0065] Certas modalidades da avaliação podem ser vistas no presente relatório. Por exemplo, o conjunto de dados que segue é provido relacionado a super-heróis. Uma tabela bem pequena com informação interessante de cerca de 100 super-heróis. Neste exemplo, o conjunto de dados é de 16 colunas, 100 linhas (isso seria considerado muito pequeno na maioria dos cenários contemplados no presente relatório). Ο conjunto de dados é pontuado na métrica D ou de dados com uma pontuação de D:1.2. Pode haver uma grande diversidade de tipos de informação dentro do conjunto de dados: números, categorias, nomes, textos e imagens. Essas podem ser categorias bem equilibradas com boas distribuições numéricas, sem redundância e limitadas a nenhuma qualidade preditiva entre os diferentes dados. Isso provê uma pontuação de informação de I:0,87. Ο significado dos dados pode ser avaliado por um organizador de dados. Ela é relevante e tem impacto para a indústria do entretenimento, possui uma rica bagagem cultural e uma comunidade de grande impacto. A informação tem veracidade e relevância de meia-vida longa. Isso provê uma pontuação de significado de M:0,75. No total, nesta modalidade onde a pontuação de avaliação de dados é o produto comum das três pontuações de componentes, a pontuação de avaliação de dados (DIM) é: 0,783.

[0066] Um segundo exemplo pode ser feito de um conjunto de dados de informação telefônica de um país grande, tal como a China ou os Estados Unidos, ou qualquer outro local ou grupos de locais relevantes. Ο conjunto de dados pode ser um banco de dados muito grande com informação da atividade dos usuários móveis compreendendo 10 colunas, 7.000.000.000 fileiras. Esse conjunto de dados é muito maior que o conjunto de dados anterior, e a pontuação de dados com base na natureza logarítmica desse componente aumenta para D;5,8. Nesse conjunto de dados, há uma diversidade média de tipos de dados: números, categorias e coordenadas geográficas, por exemplo. Existem categorias pobremente balanceadas com alta redundância, provendo uma pontuação de informação resultante de I:0,5. Essas informações seriam relevantes para a indústria de entretenimento e tecnologia e teriam um impacto muito grande na comunidade. No entanto, as informações teriam uma meia-vida muito curta, baixa veracidade e baixa relevância conforme determinado por um organizador de dados ou um processo automatizado, ou ambos. Isso poderia resultar em uma pontuação de significado de M:0,60. O produto dos fatores individuais nesta modalidade é DIM:1,74.

[0067] Um terceiro exemplo pode ser feito do Conjunto de Dados 3: CPF Brasil (isto é, o registro de pessoas físicas do Brasil). Esse conjunto de dados poderia ser um banco de dados grande de informações demográficas sobre a população trabalhadora do Brasil, compreendendo 20 colunas, 200.000.000 de fileiras. Embora seu valor de dados seja maior do que o conjunto de super-heróis, ele é muito menor do que o conjunto de dados telefônicos de um país grande, com um valor de dados resultante de D:3.9. A informação provida tem uma baixa diversidade de tipos: números e categorias, com categorias pobremente equilibradas e alta redundância. Isso resulta em uma pontuação de informação relativamente menor de I:0,41. A informação poderia ter uma comunidade de impacto muito grande, mas com veracidade de meia-vida curta (devido em parte à natureza sempre em mudança de informação demográficas) e relevância. A informação tem escassez muito baixa (devido em parte à sua disponibilidade pública). Isso pode resultar em uma pontuação de significado automatizada ou gerada por organizador de dados de M:0,45. O produto neste caso para a pontuação total é DIM:0,72.

[0068] Nas presentes modalidades relacionadas à pontuação de avaliação de dados, a avaliação de dados pode medir conjuntos de dados individuais e grupos de conjuntos de dados. Um de seus usos pode ser em medição do valor que uma organização armazena em todos ou em um dado subconjunto de seus conjuntos de dados. É importante compreender como a pontuação pode se comportar ao combinar mais de um conjunto de dados. A pontuação combinada (por exemplo, pontuação DIM) de dois conjuntos de dados em algumas modalidades não é a soma de suas pontuações individuais. Em certas modalidades, um dos fatores-chave que a pontuação usa para identificação de valor é a interconectividade: quando um conjunto de dados tem elementos com conexões significantes, tal como dependência (caso em que um recurso pode ser usado para prever o outro, tal como correlação e pontuação p) ou interseção, sua pontuação aumenta. Inversamente, quando elementos dentro de um conjunto de dados são redundantes (dependência absoluta), sua pontuação diminui. Isso provê uma pontuação não linear, em que a pontuação mais alta para esse elemento pode ocorrer em conjuntos de dados onde não há nem independência completa dos fatores nem dependência completa dos fatores. Em uma extremidade desse espectro, informação completamente redundante pode ser adicionada ao conjunto de dados sem uma mudança na pontuação combinada (por exemplo, pontuação DIM): a adição de uma cópia de um aspecto em um conjunto de dados pode prover mais dados (por exemplo, o D o valor aumentará porque o tamanho dos dados aumentou), mas a pontuação de informação (como a pontuação I) pode diminuir devido à redundância detectada. Através dessa técnica, a adição de informação redundante teria o efeito de cancelar a outra no produto de D+l.

[0069] Em algumas modalidades, quando a pontuação combinada é calculada em dois conjuntos de dados, relações entre elementos também são levadas em consideração, de modo que esses dois cenários (e uma combinação deles) são possíveis.

[0070] Por exemplo, dois conjuntos de dados, com valores de avaliação de dados dO e contêm elementos com relações significantes entre os conjuntos de dados. A pontuação de avaliação de dados do grupo que contém ambos conjuntos de dados, ∂{0,1} é maior que a soma das pontuações individuais. ∂ {0,1} > ∂0 + ∂1

[0071] Dois conjuntos de dados similares, com valores de avaliação de dados ∂0 e ∂1, podem conter vários elementos que são repetidos ou quase completamente correlacionados. A pontuação de avaliação de dados do grupo que contém ambos conjuntos de dados, ∂{0,1} pode ser nesse caso menor do que soma das pontuações individuais, isto é, ∂ {0,1} <∂0 + ∂1

[0072] Desta maneira, a pontuação de conjuntos de dados combinados pode ser uma função não linear. Em contraste, os custos de armazenamento e processamento de conjuntos de dados é mais provável que sejam lineares ou quase lineares.

[0073] Existem muitos usos potenciais de um conjunto de dados pontuado, tal como através de uma pontuação de avaliação de dados. Dentre eles, as técnicas de pontuação ensinadas na presente invenção (por exemplo, Pontuação DIM) podem ser usadas como uma ferramenta para aumentar incrementalmente o conteúdo e fidelidade dos dados para um conjunto de dados e o valor aumentado desses dados.

[0074] O relatório do conjunto de dados pontuado (por exemplo, Relatório de Pontuação DIM) em certas modalidades provê uma avaliação detalhada de valor e qualidade de conjuntos de dados a partir de múltiplas perspectivas, provendo um guia para melhorar variáveis individuais, conjuntos de dados, grupos e conjuntos de dados, configurando uma estratégia para aquisição de dados, apontando para combinações valiosas e, em geral, elevando o valor dos dados de qualquer empresa. A pontuação combinada pode ser usada como uma ferramenta para percepção e impacto. O relatório de pontuação combinada em certas modalidades provê por si só perspectiva rica sobre conjuntos de dados, já provendo percepções e orientando em direção ao impacto, conectando atores-chave, elementos econômicos e métricas-chave, com oportunidades de negócios e impacto positivo nas comunidades detectadas.

[0075] A pontuação combinada (por exemplo, pontuação DIM) pode ser mise en place. O processo de avaliação de dados de registro e Relatório de Pontuação pode definir a melhor base possível para estruturar grupos complexos de conjuntos para serem carregados e consultados, analisados, transformados, visualizados e monetizados de forma eficiente.

[0076] A pontuação combinada, tal como a Pontuação de avaliação de dados, pode ser usada como uma ferramenta para eficiência (redução de custos). Sob certas modalidades sob os presentes ensinamentos, a Pontuação de avaliação de dados está presente em todo o processo de consulta e transformação do conjunto de dados, apontando continuamente para o gradiente mais eficiente no espaço de valores e custos, maximizando a razão e então mantendo os custos sob controle enquanto extraindo continuamente valor, oportunidade e melhor tomada de decisão. Valor em dados não é linear enquanto custos são. Isso permite aproveitar oportunidades para aumentar valor dos dados quando a curva de valor excede a curva de custo.

[0077] O processo de maximização da pontuação de avaliação de dados em grupos de conjuntos de dados enquanto minimizando custos tem um grande impacto na capacidade de aumentar o valor do ativo subjacente (por exemplo, conjuntos de dados) ou das empresas donas desses ativos.

[0078] Pontuações de avaliação de dados podem ser usadas para redução de ruído. Ruído que dados adicionais soma é provavelmente pior do que os custos de manter dados de valor baixo em armazenamento e processos.

[0079] Os processos automatizados podem enriquecer conjuntos de dados e prover informação estrutural e contextual prévia, permitindo que a plataforma dos usuários identifique o processo automatizado padrão pertinente de análise, transformação, visualização, mise en place e resultados imediatos.

[0080] A pontuação combinada ensinada na presente invenção, incluindo pontuação de avaliação de dados, permite a colaboração homem-máquina. Uma pontuação de avaliação de dados pode combinar vários algoritmos com excelentes práticas de registro, dessa maneira criando uma sinergia entre algoritmos e critérios humanos. Essa etapa de registro inicial estabeleceu a base para a colaboração homem-máquina ao longo de transformações, análises e visualizações adicionais.

[0081] A pontuação de avaliação de dados pode ser usada como uma ferramenta para monetização. Pontuação de avaliação de dados em certas modalidades provê orientação para escassez e preços projetados, incluindo o lançamento de novos produtos de dados que requerem preços iniciais.

[0082] As técnicas de pontuação de avaliação de dados ensinadas na presente invenção podem ser usadas como uma ferramenta para explorar crescimento de valor não linear quando combinando conjuntos de dados. Quando os conjuntos de dados são combinados, novo valor emerge de correlações, e relações entre elementos em conjuntos de dados se tornam aparentes. Pontuação de avaliação de dados revela o valor emergente dessas novas relações, mesmo em conjuntos de dados aparentemente não relacionados.

[0083] A Figura 1 mostra um fluxo do processo 100 sob determinados dos presentes ensinamentos. Na etapa 101, um sistema de computador recebe dados de uma fonte de dados e extrai dados para análise. Em muitas das modalidades, um usuário licenciado chamado ‘organizador de dados’ realiza a conexão com um conjunto de dados (um arquivo, uma tabela em um banco de dados ou uma tabela que vem da conexão API, por exemplo). O sistema agora tem acesso ao conjunto de dados completo e pode analisar e extrair partes dele. Ele extrai uma amostra aleatória (ou uma subporção destinada a ser uma carga de dados útil) e, em caso de bancos de dados, executa consultas que retornam metadados tais como esquemas e índices de tabela. Na etapa 102, o algoritmo para extrair metadados é executado. Com base na amostra e nos metadados, uma série de algoritmos, incluindo algoritmos de aprendizagem por máquina de regressão e classificação (que juntos compreendem o processo de extração de metadados) podem medir, extrair e calcular informações adicionais. Entre elas, caracterização de elementos (tipos e significado de dados), qualidade de dados, métricas estatísticas para elementos e características numéricos ou categóricos individuais, completude de informações de elementos, redundância de informações entre elementos, diversidade de características de elementos. A partir disso, um objeto extrator de metadados é criado. Com todos esses dados extraídos, um objeto de pontuação agregado ou combinado (por exemplo, objeto DIM) é criado e adicionado ao objeto da extração de metadados. O objeto de pontuação agregado combinado (por exemplo, objeto DIM) pode conter um número de pontuação combinado (por exemplo, número de pontuação DIM), componentes de pontuação combinados (por exemplo, pontuação de componentes DIM para D, I e M) e um relatório com as métricas-chave. Na etapa 103, o conjunto de dados é registrado. Com base no objeto de extração de metadados e no objeto DIM, uma pesquisa para o organizador de dados é criada. A pesquisa pode ter muitos propósitos, incluindo validar ou invalidar todas as constatações do algoritmo e adicionar mais informações em relação a como o conjunto de dados é relevante no mundo (por exemplo, rótulos, categorias e descrições de elementos, comunidades representadas (CI), comunidades impactadas, relevância para comunidades, validade dos dados, persistência da validade e relevância dos dados no tempo e oportunidades de negócios). Esses dados introduzidos são chamados dados registrados e são adicionados à ferramenta extratora de metadados. Na etapa 104, uma pontuação de avaliação de dados calculada previamente pode ser reajustada iterativamente. Levando em consideração dados registrados, uma pontuação de avaliação de dados pode ser ajustada de maneiras diferentes, incluindo, por exemplo, invalidações (falso positivo corrigido pelo organizador de dados), modificar (diminuir) a pontuação anterior, características recém-adicionadas aumentam a pontuação, validações e invalidações aumentam a pontuação adicionando certeza às constatações feitas por máquina. Na etapa 105, um certificado para ativo de dados pode ser criado. Uma certificação (que pode ser um novo objeto) pode ser criada. Ela pode conter, dentre outras coisas, um ponteiro para o conjunto de dados, um ponteiro para a ferramenta extratora de metadados, um objeto de avaliação de dados com a pontuação de avaliação de dados, um id único (hash) criado usando todo o extrator de metadados e informações de registro. Cada conjunto de dados sob essa modalidade tem então um certificado único. O certificado representa o conjunto de dados no sistema, e é agora considerado um ativo de dados. Nessas modalidades, toda interação com o conjunto de dados no sistema é através do certificado. O certificado é projetado para rastreabilidade, procedência, transparência. O certificado garante o valor no conjunto de dados encontrado pela pontuação de avaliação de dados. Na etapa 106, um relatório para o ativo de dados pode ser gerado. O certificado é apresentado como um documento para o usuário e pode ser compartilhado dentro ou entre organizações. Ele pode conter a pontuação de avaliação de dados, relatório, número de hash e um código QR. O certificado é registrado em um banco de dados e pode ser usado para propósitos de governança e transações de ativos de dados, dentre outras coisas.

[0084] A Figura 2 mostra um sistema de computador exemplar 1000 através do qual as presentes técnicas podem ser implementadas de acordo com algumas modalidades. Várias porções de sistemas e métodos descritos na presente invenção podem incluir ou ser executados em um ou mais sistemas de computador similares ao sistema de computador 1000. Além disso, processos e módulos descritos na presente invenção podem ser executados por um ou mais sistemas de processamento similares àqueles do sistema de computador 1000.

[0085] O sistema de computador 1000 pode incluir um ou mais processadores (por exemplo, processadores 1010a-1010n) acoplados à memória do sistema 1020, uma interface de dispositivo de E/S entrada/saída 1030 e uma interface de rede 1040 por meio de uma interface de entrada/saída (E/S) 1050. Um processador pode incluir um único processador ou uma pluralidade de processadores (por exemplo, processadores distribuídos). Um processador pode ser qualquer processador adequado capaz de executar ou de outra forma executar instruções. Um processador pode incluir uma unidade de processamento central (CPU) que realiza instruções de programa para realizar as operações aritméticas, lógicas e de entrada/saída do sistema de computador 1000. Um processador pode executar código (por exemplo, firmware do processador, uma pilha de protocolos, um sistema de gerenciamento de banco de dados, um sistema operacional ou uma combinação dos mesmos) que cria um ambiente de execução para instruções de programa. Um processador pode incluir um processador programável. Um processador pode incluir microprocessadores de propósito geral ou especial. Um processador pode receber instruções e dados de uma memória (por exemplo, memória do sistema 1020). O sistema de computador 1000 pode ser um sistema uniprocessador incluindo um processador (por exemplo, processador 1010a) ou um sistema multiprocessador incluindo qualquer número de processadores adequados (por exemplo, 1010a-1010n). Múltiplos processadores podem ser empregados para prover execução paralela ou sequencial de uma ou mais porções das técnicas descritas na presente invenção. Processos, tais como fluxos lógicos, descritos no presente relatório podem ser executados por um ou mais processadores programáveis executando um ou mais programas de computador para realizar funções operando em dados de entrada e gerando saída correspondente. Os processos descritos na presente invenção podem ser executados por, e aparelhos também podem ser implementados como, circuitos lógicos de propósito especial, por exemplo, uma unidade de processamento de visão (VPU), um chip semicondutor de óxido de metal complementar neuromórfico (CMOS), um FPGA (matriz de porta programável em campo), um PGA (matriz de porta programável) ou um ASIC (circuito integrado específico do aplicativo) tal como uma unidade de processamento de tensor (TPU). O sistema de computador 1000 pode incluir uma pluralidade de dispositivos de computação (por exemplo, sistemas de computador distribuídos) para implementar várias funções de processamento.

[0086] A interface de dispositivo de E/S 1030 pode prover uma interface para conexão de um ou mais dispositivos de E/S 1060 ao sistema de computador 1000. Os dispositivos de E/S podem incluir dispositivos que recebem informações de entrada (por exemplo, de um usuário) ou saída (por exemplo, para um usuário). Dispositivos de E/S 1060 podem incluir, por exemplo, interface gráfica de usuário apresentada em monitores (por exemplo, um tubo de raios catódicos (CRT) ou monitor de tela de cristal líquido (LCD), dispositivos apontadores (por exemplo, um mouse de computador ou trackball), teclados, teclado numérico, touchpads, dispositivos de digitalização, dispositivos de reconhecimento de voz, dispositivos de reconhecimento de gestos, impressoras, alto-falantes de áudio, microfones, câmeras ou similar. Os dispositivos de E/S 1060 podem ser conectados ao sistema de computador 1000 através de uma conexão com ou sem fio. Os dispositivos de E/S 1060 podem ser conectados ao sistema de computador 1000 a partir de um local remoto. Os dispositivos de E/S 1060 localizados em sistema de computador remoto, por exemplo, podem ser conectados ao sistema de computador 1000 por meio de uma rede e interface de rede 1040.

[0087] A interface de rede 1040 pode incluir um adaptador de rede que provê conexão do sistema de computador 1000 a uma rede. A interface de rede 1040 pode facilitar troca de dados entre o sistema de computador 1000 e outros dispositivos conectados à rede. A interface de rede 1040 pode suportar comunicação com ou sem fio. A rede pode incluir uma rede de comunicação eletrônica, tal como a Internet, uma rede de área local (LAN), uma rede de área ampla (WAN), uma rede de comunicação celular ou similar.

[0088] A memória do sistema 1020 pode ser configurada para armazenar instruções de programa 1100 ou dados 1110. As instruções de programa 1100 podem ser executáveis por um processador (por exemplo, um ou mais dos processadores 1010a-1010n) para implementar uma ou mais modalidades das presentes técnicas. As instruções de programa 1100 podem incluir módulos de instruções de programa de computador para implementar uma ou mais técnicas descritas na presente invenção em relação a vários módulos de processamento. As instruções de programa podem incluir um programa de computador (que em certas formas é conhecido como programa, software, aplicativo de software, script ou código). Um programa de computador pode ser escrito em uma linguagem de programação, incluindo linguagens compiladas ou interpretadas, ou linguagens declarativas ou procedurais. Um programa de computador pode incluir uma unidade adequada para uso em um ambiente de computação, inclusive como um programa autônomo, um módulo, um componente ou uma sub-rotina. Um programa de computador pode ou não corresponder a um arquivo em um sistema de arquivos. Um programa pode ser armazenado em uma parte de um arquivo que contém outros programas ou dados (por exemplo, um ou mais scripts armazenados em um documento de linguagem de marcação), em um único arquivo dedicado ao programa em questão ou em vários arquivos coordenados (por exemplo, arquivos que armazenam um ou mais módulos, subprogramas ou porções de código). Um programa de computador pode ser implantado para ser executado em um ou mais processadores de computador localizados localmente em um local ou distribuídos em vários locais remotos e interconectados por uma rede de comunicação.

[0089] A memória do sistema 1020 pode incluir um portador de programa tangível tendo instruções de programa armazenadas nele. Um portador de programa tangível pode incluir um meio de armazenamento legível por computador não transitório. Um meio de armazenamento legível por computador não transitório pode incluir um dispositivo de armazenamento legível por máquina, um substrato de armazenamento legível por máquina, um dispositivo de memória ou qualquer combinação dos mesmos. O meio de armazenamento legível por computador não transitório pode incluir memória não volátil (por exemplo, memória flash, memória ROM, PROM, EPROM, EEPROM), memória volátil (por exemplo, memória de acesso aleatório (RAM), memória de acesso aleatório estática ( SRAM), RAM dinâmica síncrona (SDRAM)), memória de armazenamento em massa (por exemplo, CD-ROM e/ou DVD-ROM, discos rígidos) ou similar. A memória do sistema 1020 pode incluir um meio de armazenamento legível por computador não transitório que pode ter instruções de programa armazenadas nele que são executáveis por um processador de computador (por exemplo, um ou mais dos processadores 1010a-1010n) para pôr em prática a matéria-objeto e as operações funcionais descritas na presente invenção. Uma memória (por exemplo, memória do sistema 1020) pode incluir um dispositivo de memória único e/ou uma pluralidade de dispositivos de memória (por exemplo, dispositivos de memória distribuídos). Instruções ou outro código de programa para prover a funcionalidade descrita na presente invenção podem ser armazenados em uma mídia legível por computador tangível, não transitória. Em alguns casos, todo o conjunto de instruções pode ser armazenado simultaneamente na mídia ou, em alguns casos, diferentes partes das instruções podem ser armazenadas na mesma mídia em momentos diferentes.

[0090] A interface de E/S 1050 pode ser configurada para coordenar o tráfego de E/S entre processadores 1010a-1010n, memória do sistema 1020, interface de rede 1040, dispositivos de E/S 1060 e/ou outros dispositivos periféricos. A interface de E/S 1050 pode realizar protocolo, temporização ou outras transformações de dados para converter sinais de dados de um componente (por exemplo, memória do sistema 1020) em um formato adequado para uso por um outro componente (por exemplo, processadores 1010a-1010n). A interface de E/S 1050 pode incluir suporte para dispositivos conectados através de vários tipos de barramentos periféricos, tal como uma variante do padrão de barramento Interconector de Componentes Periféricos (PCI) ou o padrão Barramento Serial Universal (USB).

[0091] As modalidades das técnicas descritas na presente invenção podem ser implementadas usando uma única ocorrência de sistema de computador 1000 ou vários sistemas de computador 1000 configurados para hospedar porções ou ocorrências diferentes de modalidades. Vários sistemas de computador 1000 podem prover processamento/execução paralelo ou sequencial de uma ou mais porções das técnicas descritas na presente invenção.

[0092] Aqueles versados na técnica compreenderão que o sistema de computador 1000 é meramente ilustrativo e não pretende limitar o escopo das técnicas descritas na presente invenção. O sistema de computador 1000 pode incluir qualquer combinação de dispositivos ou software que possa executar ou prover o desempenho das técnicas descritas no presente relatório. Por exemplo, o sistema de computador 1000 pode incluir ou ser uma combinação de um sistema de computador em nuvem, um centro de dados, um rack de servidor, um servidor, um servidor virtual, um computador desktop, um computador laptop, um computador tablet, um dispositivo de servidor, um dispositivo de cliente, um telefone celular, um assistente digital pessoal (PDA), um reprodutor de áudio ou vídeo móvel, um console de jogos, um computador montado em um veículo ou um Sistema de Posicionamento Global (GPS) ou similar. O sistema de computador 1000 também pode ser conectado a outros dispositivos que não estão ilustrados ou pode operar como um sistema autônomo. Além disso, a funcionalidade provida pelos componentes ilustrados pode em algumas modalidades ser combinada em menos componentes ou distribuída em componentes adicionais. Similarmente, em algumas modalidades, a funcionalidade de alguns dos componentes ilustrados pode não ser provida ou outras funcionalidades adicionais podem estar disponíveis.

[0093] Aqueles versados na técnica também compreenderão que embora vários itens sejam ilustrados como sendo armazenados em memória ou em armazenamento enquanto sendo usados, esses itens ou porções deles podem ser transferidos entre memória e outros dispositivos de armazenamento para propósitos de gerenciamento de memória e integridade de dados. Alternativamente, em outras modalidades alguns ou todos os componentes de software podem ser executados em memória em outro dispositivo e se comunicar com o sistema de computador ilustrado por meio de comunicação entre computadores. Alguns ou todos os componentes do sistema ou estruturas de dados também podem ser armazenados (por exemplo, como instruções ou dados estruturados) em um meio acessível por computador ou um artigo portátil para ser lido por uma unidade apropriada, vários exemplos dos quais são descritos acima. Em algumas modalidades, instruções armazenadas em um meio acessível por computador separado do sistema de computador 1000 podem ser transmitidas para o sistema de computador 1000 por meio de meios de transmissão ou sinais tais como sinais elétricos, eletromagnéticos ou digitais, enviados por meio de um meio de comunicação tal como uma rede ou uma ligação sem fio. Várias modalidades podem incluir ainda receber, enviar ou armazenar instruções ou dados implementados de acordo com a descrição anterior em um meio acessível por computador. Consequentemente, as presentes técnicas podem ser praticadas com outras configurações de sistema de computador.

[0094] Em diagramas de blocos, os componentes ilustrados são ilustrados como blocos funcionais distintos, mas as modalidades não são limitadas a sistemas em que a funcionalidade descrita na presente invenção é organizada como ilustrado. A funcionalidade provida por cada um dos componentes pode ser provida por módulos de software ou hardware que são organizados de forma diferente do que está representado no momento, por exemplo, tal software ou hardware pode ser misturado, conjugado, replicado, dividido, distribuído (por exemplo, dentro de um centro de dados ou geograficamente) ou organizados de outra forma. A funcionalidade descrita na presente invenção pode ser provida por um ou mais processadores de um ou mais computadores executando código armazenado em um meio legível por máquina tangível, não transitório. Em alguns casos, apesar do uso do termo singular "meio", as instruções podem ser distribuídas em dispositivos de armazenamento diferentes associados a dispositivos de computação diferentes, por exemplo, com cada dispositivo de computação tendo um subconjunto diferente das instruções, uma implementação consistente com o uso de o termo singular "meio" no presente relatório. Em alguns casos, redes de entrega de conteúdo de terceiros podem hospedar algumas ou todas as informações enviadas pelas redes; nesse caso, na medida em que as informações (por exemplo, conteúdo) são fornecidas ou de outra forma providas, as informações podem ser providas enviando instruções para recuperar essas informações de uma rede de entrega de conteúdo.

[0095] Certas modalidades do método descrito incluem um método para avaliar uma pluralidade de conjuntos de dados, o qual compreende receber, por um sistema de computador, uma pluralidade de conjuntos de dados, cada um dos conjuntos de dados compreendendo uma pluralidade de dados; criar, pelo sistema de computador, uma primeira subpontuação para cada um da pluralidade de conjuntos de dados, a primeira subpontuação compreendendo um primeiro valor numérico, o primeiro valor numérico sendo maior para conjuntos de dados com mais dados; criar, pelo sistema de computador, uma segunda subpontuação para cada um da pluralidade de conjuntos de dados, a segunda subpontuação compreendendo um segundo valor numérico, o segundo valor numérico variando com base nas características da informação, a segunda subpontuação sendo maior para características de informação melhorada, em que características de informação melhoradas são caracterizadas por uma ou mais de qualidade estrutural aumentada, completude aumentada, interconectividade aumentada, diversidade aumentada, redundância diminuída; criar uma terceira subpontuação para cada um da pluralidade de conjuntos de dados, a terceira subpontuação compreendendo um terceiro valor numérico, o terceiro valor numérico variando com base nas características de significado, a terceira subpontuação sendo maior para características de significado melhoradas, em que características de significado aperfeiçoadas têm como característica um ou mais de impacto aumentado em uma comunidade, número aumentado de comunidades impactadas, maior veracidade, maior relevância para uma comunidade impactada, maior escassez; criar uma pontuação composta para cada um da pluralidade de conjuntos de dados que é uma combinação matemática das primeira, segunda e terceira subpontuações.

[0096] Os presentes ensinamentos incluem o método descrito acima, em que a terceira subpontuação é pontuada por uma pessoa.

[0097] Os ensinamentos na presente invenção incluem o método descrito acima, em que a primeira subpontuação aumenta logaritmicamente com tamanho de dados aumentado.

[0098] Os ensinamentos da presente invenção incluem o método descrito acima, compreendendo ainda a etapa de anexar, pelo sistema de computador, uma certificação da pontuação composta a cada um dos conjuntos de dados.

[0099] Os ensinamentos da presente invenção incluem o método descrito acima, em que a segunda subpontuação compreende ainda uma pontuação de interrelação entre dados dentro de um conjunto de dados, tal pontuação sendo uma função não linear, em que interrelação zero de dados e interrelação completa de dados pontuam um valor menor pontuação do que a interrelação parcial de dados.

[00100] Os ensinamentos da presente invenção incluem o método descrito acima, em que a segunda subpontuação varia de 0 a 1 e a terceira subpontuação varia de 0 a 1.

[00101] Os ensinamentos na presente invenção incluem o método descrito acima, em que a segunda subpontuação é pontuada pelo sistema de computador usando inteligência artificial ou aprendizagem por máquina, em que a inteligência artificial ou aprendizagem por máquina foi treinada em um subconjunto da pluralidade de conjuntos de dados.

[00102] Os ensinamentos da presente invenção incluem o método descrito acima, o qual compreende ainda ajustar iterativamente uma ou mais da primeira subpontuação, segunda subpontuação ou terceira subpontuação adicionando ou excluindo dados; criar uma pontuação composta ajustada a partir da uma ou mais primeira subpontuação, segunda subpontuação ou terceira subpontuação iterativamente ajustada.

[00103] Os ensinamentos na presente invenção incluem o método descrito acima, o qual compreende ainda as etapas de comparação de dados de um primeiro conjunto de dados com uma primeira pontuação composta e dados de um segundo conjunto de dados com uma segunda pontuação composta da pluralidade de conjuntos de dados; calcular uma terceira pontuação composta, a terceira pontuação composta dependente da comparação de dados do primeiro conjunto de dados e do segundo conjunto de dados.

[00104] Os ensinamentos da presente invenção incluem o método descrito acima, o qual compreende ainda comparação dos conteúdos de dados com leis, regras ou regulamentações quanto à informação de privacidade, informação pessoalmente identificável, informação médica, informação protegida por direitos autorais, informação de idade restrita, informação geograficamente embargada ou informação de outro modo restrita sob uma lei, regra ou regulamentação e limita a disponibilidade de dados com base nas leis, regras ou regulamentações.

[00105] Os ensinamentos da presente invenção são um sistema para criar dados trocáveis, o qual compreende um meio legível por máquina tangível, não transitório, que armazena instruções que quando executadas por um ou mais processadores, realizam operações compreendendo receber, com um ou mais servidores, uma pluralidade de conjuntos de dados, cada um dos conjuntos de dados compreendendo uma pluralidade de dados; criar uma primeira subpontuação para cada um da pluralidade de conjuntos de dados, a primeira subpontuação compreendendo um primeiro valor numérico, o primeiro valor numérico sendo maior para conjuntos de dados com mais dados; criar uma segunda subpontuação para cada um da pluralidade de conjuntos de dados, a segunda subpontuação compreendendo um segundo valor numérico, o segundo valor numérico variando com base em características de informação, a segunda subpontuação sendo maior para características de informação melhoradas, em que características de informação melhoradas têm como característica uma ou mais de qualidade estrutural aumentada, completude aumentada, interconectividade aumentada, diversidade aumentada, redundância diminuída; um humano que serve como organizador de dados para criar uma terceira subpontuação para cada um da pluralidade de conjuntos de dados, a terceira subpontuação compreendendo um terceiro valor numérico, o terceiro valor numérico variando com base em características de significado, a terceira subpontuação sendo maior para características de significado melhoradas, em que características de significado melhoradas têm como característica um ou mais de impacto aumentado em uma comunidade, um número aumentado de comunidades impactadas, maior veracidade, maior relevância para uma comunidade impactada, maior escassez; um processador de computador com memória associada que é operável para receber as primeira, segunda e terceira subpontuações e operável para criar uma pontuação composta para cada um da pluralidade de conjuntos de dados que é uma combinação matemática das primeira, segunda e terceira subpontuações.

[00106] Os ensinamentos na presente invenção incluem o sistema descrito acima, em que a primeira subpontuação aumenta logaritmicamente com tamanho dos dados aumentado.

[00107] Os ensinamentos da presente invenção incluem o sistema descrito acima, em que o processador de computador é ainda operável para anexar uma certificação da pontuação composta a cada um dos conjuntos de dados.

[00108] Os ensinamentos da presente invenção incluem o sistema descrito acima, em que a segunda subpontuação compreende ainda uma pontuação de interrelação entre dados dentro de um conjunto de dados, tal pontuação sendo uma função não linear, em que interrelação de dados zero e interrelação de dados completa pontuam um valor menor pontuação do que a interrelação de dados parcial.

[00109] Os ensinamentos da presente invenção incluem o sistema descrito acima, em que a segunda subpontuação varia de 0 a 1 e a terceira subpontuação varia de 0 a 1.

[00110] Os ensinamentos da presente invenção incluem o sistema descrito acima, em que a segunda subpontuação é pontuada pelo sistema de computador usando inteligência artificial ou aprendizagem por máquina, em que a inteligência artificial ou aprendizagem por máquina foi treinada em um subconjunto da pluralidade de conjuntos de dados.

[00111] Os ensinamentos da presente invenção incluem o sistema descrito acima, em que o organizador de dados ajusta iterativamente uma ou mais da primeira subpontuação, segunda subpontuação ou terceira subpontuação adicionando ou excluindo dados e cria uma pontuação composta ajustada a partir da uma ou mais da primeira subpontuação, segunda subpontuação ou terceira subpontuação iterativamente ajustada.

[00112] Os ensinamentos na presente invenção incluem o sistema descrito acima, em que o processador de computador é ainda operável para comparar dados de um primeiro conjunto de dados com uma primeira pontuação composta e dados de um segundo conjunto de dados com uma segunda pontuação composta da pluralidade de conjuntos de dados para calcular uma terceira pontuação composta, a terceira pontuação composta depende da comparação de dados do primeiro conjunto de dados e do segundo conjunto de dados.

[00113] Os ensinamentos na presente invenção incluem o sistema descrito acima, em que o organizador de dados compara ainda o conteúdo dos dados com leis, regras ou regulamentações quanto à informação de privacidade, informação pessoalmente identificável, informação médica, informação protegida por direitos autorais, informação de idade restrita, informação geograficamente embargada ou informação de outro modo restrita sob uma lei, regra ou regulamentação e limita a disponibilidade de dados com base nas leis, regras ou regulamentações.

[00114] Os ensinamentos da presente invenção incluem um meio legível por máquina tangível, não transitório, armazenando instruções que quando executadas por um ou mais processadores, realizam operações compreendendo receber, com um ou mais servidores, uma pluralidade de conjuntos de dados, cada um dos conjuntos de dados compreendendo uma pluralidade de dados; criar uma primeira subpontuação para cada um da pluralidade de conjuntos de dados, a primeira subpontuação compreendendo um primeiro valor numérico, o primeiro valor numérico sendo maior para conjuntos de dados com mais dados; criar, usando inteligência artificial ou aprendizagem por máquina, uma segunda subpontuação para cada um da pluralidade de conjuntos de dados, a segunda subpontuação compreendendo um segundo valor numérico, o segundo valor numérico variando com base nas características de informação, a segunda subpontuação sendo maior para características de informação melhoradas, em que características de informação melhoradas têm como característica uma ou mais de qualidade estrutural aumentada, completude aumentada, interconectividade aumentada, diversidade aumentada, redundância diminuída; criar, usando inteligência artificial ou aprendizagem por máquina, uma terceira subpontuação para cada um da pluralidade de conjuntos de dados, a terceira subpontuação compreendendo um terceiro valor numérico, o terceiro valor numérico variando com base nas características de significado, a terceira subpontuação sendo maior para características de significado melhoradas, em que características de significado melhoradas têm como característica um ou mais de impacto aumentado em uma comunidade, um número aumentado de comunidades impactadas, maior veracidade, maior relevância para uma comunidade impactada, maior escassez; criar uma pontuação composta que é o produto das primeira, segunda e terceira subpontuações.

[00115] O leitor deve compreender que o presente pedido descreve várias técnicas independentemente úteis. Ao invés de separar essas técnicas em vários pedidos de patentes isolados, os requerentes agruparam essas técnicas em um único documento porque sua matéria-objeto relacionada confere economias no processo de solicitação. Mas as vantagens e os aspectos distintos de tais técnicas não devem ser confundidos. Em alguns casos, as modalidades abordam todas as deficiências observadas no presente relatório, mas deve ser compreendido que as técnicas são independentemente úteis, e algumas modalidades abordam apenas um subconjunto de tais problemas ou oferecem outros benefícios, não mencionados, que serão aparentes àqueles versados em a técnica revisando a presente invenção. Devido a restrições de custos, algumas técnicas reveladas na presente invenção podem não ser reivindicadas no momento e podem ser reivindicadas em depósitos posteriores, tais como pedidos de continuação ou emendando as presentes reivindicações. Similarmente, devido a restrições de espaço, nem a seção de Resumo nem a de Sumário do presente documento deve ser considerada como contendo uma lista abrangente de todas tais técnicas ou todos os aspectos de tais técnicas.

[00116] Deve ser compreendido que a descrição e os desenhos não pretendem limitar as presentes técnicas à forma particular revelada, mas ao contrário, a intenção é abranger todas as modificações, equivalentes e alternativas que se encaixem no espírito e escopo das presentes técnicas como definidas pelas reivindicações apensas. Modificações e modalidades alternativas adicionais de vários aspectos das técnicas serão evidentes para aqueles versados na técnica em vista desta descrição. Consequentemente, esta descrição e os desenhos devem ser interpretados apenas como ilustrativos e são com o propósito de ensinar aqueles versados na técnica a maneira geral de realizar as presentes técnicas. Deve ser compreendido que as formas das presentes técnicas mostradas e descritas na presente invenção devem ser consideradas como exemplos de modalidades. Elementos e materiais podem ser substituídos por aqueles ilustrados e descritos na presente invenção, partes e processos podem ser revertidos ou omitidos, e certos elementos das presentes técnicas podem ser utilizados independentemente, tudo como seria evidente a um versado na técnica após ter o benefício desta descrição das técnicas presentes. Mudanças podem ser feitas nos elementos descritos no presente relatório sem se afastar do espírito e escopo das presentes técnicas como descrito nas reivindicações que seguem. Os títulos usados no presente relatório são apenas para propósitos de organização e não devem ser usados para limitar o escopo da descrição.

[00117] Como usado em todo o presente pedido, a palavra "pode" é usada em um sentido permissivo (isto é, significando ter o potencial de), ao invés do sentido obrigatório (isto é, significando deve). As palavras "incluir", "incluindo" e "inclui" e similar significam incluindo, mas não se limitando a ele. Como usado em todo o presente pedido, as formas singulares "um", "uma" e "o", "a" incluem referentes no plural, a menos que o conteúdo indique explicitamente o contrário. Assim, por exemplo, referência a "um elemento" inclui uma combinação de dois ou mais elementos, apesar do uso de outros termos e frases para um ou mais elementos, tal como "um ou mais". O termo "ou" é, a menos que indicado o contrário, não exclusivo, isto é, compreendendo ambos "e" e "ou". Termos descrevendo relações condicionais, por exemplo, "em resposta a X, Y", "quando de X, Y", "se X, Y", "quando X, Y" e similar, compreendem relações causais em que o antecedente é uma condição causal necessária, o antecedente é uma condição causal suficiente ou o antecedente é uma condição causal contributiva do consequente, por exemplo, "estado X ocorre quando da obtenção da condição Y" é genérico para "X ocorre somente quando de Y" e "X ocorre quando de Y e Z". Tais relações condicionais não são limitadas a consequências que seguem instantaneamente a obtenção antecedente, uma vez que algumas consequências podem ser atrasadas, e em declarações condicionais, os antecedentes estão ligados aos seus consequentes, por exemplo, o antecedente é relevante para a probabilidade do consequente ocorrer. Declarações em que uma pluralidade de atributos ou funções são mapeados para uma pluralidade de objetos (por exemplo, um ou mais processadores executando as etapas A, B, C e D) compreendem todos tais atributos ou funções sendo mapeados para todos tais objetos e subconjuntos dos atributos ou funções sendo mapeados para subconjuntos dos atributos ou funções (por exemplo, todos os processadores, cada um executando as etapas A-D, e um caso em que o processador 1 executa a etapa A, o processador 2 executa a etapa B e parte da etapa C e o processador 3 executa parte da etapa C e etapa D), a menos que de outro modo indicado. Similarmente, referência a "um sistema de computador" executando a etapa A e "o sistema de computador" executando a etapa B pode incluir o mesmo dispositivo de computação dentro do sistema de computador executando ambas etapas ou dispositivos de computação diferentes dentro do sistema de computador executando as etapas A e B. Além disso, a menos que indicado de outra forma, declarações que um valor ou ação é "baseado em" uma outra condição ou valor compreendem ambos casos em que a condição ou valor é o único fator e casos em que a condição ou valor é um fator dentre uma pluralidade de fatores. A menos que indicado de outra forma, declarações de que "cada" caso de alguma coleção tem alguma propriedade não devem ser lidas para excluir casos onde alguns membros idênticos ou similares de uma coleção maior não têm a propriedade, isto é, cada não significa necessariamente todo e qualquer. Limitações quanto à sequência de etapas mencionadas não devem ser lidas nas reivindicações a menos que explicitamente especificado, por exemplo, com linguagem explícita tal como "após executar X, executar Y", em contraste com declarações que seriam indevidamente argumentadas implicar limitações de sequência, tal como "realizar X nos itens, realizar Y nos itens X’, usado para tornar as reivindicações mais legíveis ao invés de especificar sequência. Declarações referentes a "pelo menos Z de A, B e C" e similar (por exemplo, "pelo menos Z de A, B ou C") referem-se a pelo menos Z das categorias listadas (A, B e C) e não requerem pelo menos unidades Z em cada categoria. A menos que especificamente de outro modo declarado, como aparente a partir da discussão, é compreendido que em todo o presente relatório as discussões utilizando termos tais como "processamento", "computação", "cálculo", "determinação" ou similar referem-se a ações ou processos de um aparelho específico, tal como um computador para propósitos especiais ou um dispositivo de processamento/computação eletrônico para propósitos especiais similar. Elementos descritos com referência a elementos geométricos, tais como "paralelo", "perpendicular/ortogonal", "quadrado", "cilíndrico" e similar, devem ser considerados como itens abrangentes que concretizam substancialmente as propriedades do elemento geométrico, por exemplo, referência a superfícies "paralelas" compreende superfícies substancialmente paralelas. A faixa de desvio permitida de ideais platônicos desses elementos geométricos deve ser determinada com referência às faixas no relatório, e onde tais faixas não são declaradas, com referência às normas da indústria no campo de uso, e onde tais faixas não são definidas, com referência às normas da indústria no campo de fabricação do elemento designado, e onde tais faixas não são definidas, elementos que concretizam substancialmente um elemento geométrico devem ser interpretados incluir esses elementos dentro de 15% dos atributos de definição desse elemento geométrico. Os termos "primeiro", "segundo", "terceiro", "dado" e assim por diante, se usados nas reivindicações, são usados para de outra forma distinguir ou identificar, e não mostrar uma limitação sequencial ou numérica. Como é o caso em uso comum no campo, estruturas e formatos de dados descritos com referência a usos evidencia uma necessidade humana não estar presente em um formato inteligível humano para constituir a estrutura ou formato de dados descrito, por exemplo, o texto não precisa ser renderizado ou mesmo codificado em Unicode ou ASCII para constituir texto; imagens, mapas e visualizações de dados não precisam ser exibidos ou decodificados para constituir imagens, mapas e visualizações de dados, respectivamente; fala, música e outro áudio não precisam ser emitidos por meio de um alto-falante ou decodificados para constituir fala, música ou outro áudio, respectivamente. Instruções, comandos e similar implementados por computador não estão limitados a código executável e podem ser implementados na forma de dados que fazem com que funcionalidade seja invocada, por exemplo, na forma de argumentos de uma função ou chamada de API.

[00118] No presente pedido de patente, certas patentes U.S., pedidos de patente U.S. ou outros materiais (por exemplo, artigos) podem ter sido incorporados a título de referência. O texto de tais patentes U.S., pedidos de patentes U.S. e outros materiais é, no entanto, incorporado apenas a título referência até o ponto que não exista conflito entre tal material e as declarações e desenhos mostrados aqui. No caso de tal conflito, o texto do presente documento prevalece, e os termos no presente documento não devem ser lidos de modo mais restritivo em virtude da maneira que esses termos são usados em outros materiais incorporados a título de referência.

Claims

Método para avaliação de uma pluralidade de conjuntos de dados, caracterizado pelo fato de que compreende:
receber, através de um sistema de computador, uma pluralidade de conjuntos de dados, cada um dos conjuntos de dados compreendendo uma pluralidade de dados;
criar, pelo sistema de computador, uma primeira subpontuação para cada um da pluralidade de conjuntos de dados, a primeira subpontuação compreendendo um primeiro valor numérico, o primeiro valor numérico sendo maior para conjuntos de dados com mais dados;
criar, através do sistema de computador, uma segunda subpontuação para cada uma da pluralidade de conjuntos de dados, a segunda subpontuação compreendendo um segundo valor numérico, o segundo valor numérico variando com base nas características de informação, a segunda subpontuação sendo maior para características de informação aperfeiçoadas, em que características de informação aperfeiçoadas caracterizam-se por um ou mais de qualidade estrutural aumentada, completude aumentada, interconectividade aumentada, diversidade aumentada, redundância diminuída;
criar uma terceira subpontuação para cada uma da pluralidade de conjuntos de dados, a terceira subpontuação compreendendo um terceiro valor numérico, o terceiro valor numérico variando com base em características de significado, a terceira subpontuação sendo maior para características de significado aperfeiçoado, em que características de significado aperfeiçoado caracterizam-se por um ou mais de impacto aumentado sobre uma comunidade, um número aumentado de comunidades impactadas, maior veracidade, maior relevância para uma comunidade impactada, maior escassez, maior validade, menordeclínio de veracidade, aumento de usuários em uma comunidade; e
criar uma pontuação compósita para cada uma da pluralidade de conjuntos de dados que é uma combinação matemática das primeira, segunda e terceira subpontuações.
Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a terceira subpontuação é ajustada por uma pessoa.
Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a primeira subpontuação aumenta logaritmicamente com tamanho de dados aumentado.
Método, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende a etapa de:
anexar, através do sistema de computador, uma certificação da pontuação de compósito a cada um dos conjuntos de dados.
Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a segunda subpontuação compreende ainda uma pontuação de interconectividade entre dados dentro de um conjunto de dados, tal pontuação sendo uma função não linear, em que inter-relação zero de dados e inter-relação completa de dados pontua uma pontuação menor do que inter-relação parcial de dados.
Método, de acordo com a reivindicação 5, caracterizado pelo fato de que a segunda subpontuação varia de 0 a 1 e a terceira subpontuação varia de 0 a 1.
Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a segunda subpontuação é pontuada pelo sistema de computador usando inteligência artificial ou aprendizagem por máquina, em que a inteligência artificial ou aprendizagem por máquina foi treinada em conjuntos de dados já pontuados e corrigidos.
Método, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende ainda:
ajustar empiricamente uma ou mais da primeira subpontuação, segunda subpontuação ou terceira subpontuação através da adição ou deleção de dados; criar uma pontuação compósita ajustada a partir da uma ou mais da primeira subpontuação, segunda subpontuação ou terceira subpontuação empiricamente ajustada.
Método, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende ainda as etapas de:
comparar dados do primeiro conjunto de dados com uma primeira pontuação compósita e dados de um segundo conjunto de dados com uma segunda pontuação compósita da pluralidade de conjuntos de dados, a dita comparação incluindo análise do primeiro conjunto de dados e do segundo conjunto de dados para determinar relações entre os dados dentro dos conjuntos de dados;
calcular uma terceira pontuação compósita, a terceira dependente da comparação de dados do primeiro conjunto de dados e do segundo conjunto de dados, a dita terceira pontuação compósita dependente da relação entre dados do primeiro conjunto de dados e do segundo conjunto de dados.
Método, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende ainda:
enriquecer os conteúdos de dados com leis, regras ou regulamentações quanto à informação de privacidade, informação pessoalmente identificável, informação médica, informação protegida por direitos autorais, informação de idade restrita, informação geograficamente embargada ou informação de outro modo restrita sob uma lei, regra ou regulamentação; limitando a disponibilidade de dados com base nas leis, regras ou regulamentações.
Sistema para criação de dados trocáveis, caracterizado pelo fato de que compreende:
um processador de computador configurado para operar um meio legível por máquina, tangível, não transitório, que armazena instruções que quando executadas por um ou mais processadores realizam operações compreendendo:
receber, com um ou mais servidores, uma pluralidade de conjuntos de dados, cada um dos conjuntos de dados compreendendo uma pluralidade de dados;
criar uma primeira subpontuação para cada uma da pluralidade de conjuntos de dados, a primeira subpontuação compreendendo um primeiro valor numérico, o primeiro valor numérico sendo maior para conjuntos de dados com mais dados; e
criar uma segunda subpontuação para cada uma da pluralidade de conjuntos de dados, a segunda subpontuação compreendendo um segundo valor numérico, o segundo valor numérico variando com base em características de informação, a segunda subpontuação sendo maior para características de informação aperfeiçoadas, em que características de informação aperfeiçoadas caracterizam-se por um ou mais de qualidade estrutural aumentada, completude aumentada, interconectividade aumentada, diversidade aumentada, redundância diminuída;
um organizador de dados para criar uma terceira subpontuação para cada uma da pluralidade de conjuntos de dados, a terceira subpontuação compreendendo um terceiro valor numérico, o terceiro valor numérico variando com base nas características de significado, a terceira subpontuação sendo maior para características de significado aperfeiçoadas, em que características de significado aperfeiçoadas caracterizam-se por um ou mais de impacto aumentado em uma comunidade, um número aumentado de comunidades impactadas, maior veracidade, maior relevância para uma comunidade impactada, maior escassez, maior validade, menor declínio de veracidade, número aumentado de usuários dentro de uma comunidade;
um processador de computador com memória associada que é operável para receber as primeira, segunda e terceira subpontuações e operável para criar uma pontuação compósita para cada uma da pluralidade de conjuntos de dados que é uma combinação matemática das primeira, segunda e terceira subpontuações.
Sistema, de acordo com a reivindicação 11, caracterizado pelo fato de que a primeira subpontuação aumenta logaritmicamente com tamanho de dados aumentado.
Sistema, de acordo com a reivindicação 11, caracterizado pelo fato de que o processador de computador é ainda operável para anexar uma certificação da pontuação compósita a cada um dos conjuntos de dados.
Sistema, de acordo com a reivindicação 11, caracterizado pelo fato de que a segunda subpontuação compreende ainda uma pontuação de inter-relação entre dados dentro de um conjunto de dados, tal pontuação sendo uma função não linear, em que inter-relação zero de dados e a inter-relação completa de dados pontua uma pontuação menor do que a inter-relação parcial de dados.
Sistema, de acordo com a reivindicação 14, caracterizado pelo fato de que a segunda subpontuação varia de 0 a 1 e a terceira subpontuação varia de 0 a 1.
Sistema, de acordo com a reivindicação 11, caracterizado pelo fato de que a segunda subpontuação é pontuada por um sistema de computador usando inteligência artificial ou aprendizagem por máquina, em que a inteligência artificial ou aprendizagem por máquina foi treinada em conjuntos de dados previamente pontuados e corrigidos.
Sistema, de acordo com a reivindicação 11, caracterizado pelo fato de que o organizador de dados ajusta ainda iterativamente uma ou mais da primeira subpontuação, segunda subpontuação ou terceira subpontuação, adicionando ou deletando dados, e cria uma pontuação compósita ajustada a partir de uma ou mais da primeira subpontuação, segunda subpontuação ou terceira subpontuação iterativamente ajustada.
Sistema, de acordo com a reivindicação 11, caracterizado pelo fato de que o processador de computador é ainda operável para:
comparar dados de um primeiro conjunto de dados com uma primeira pontuação compósita e dados de um segundo conjunto de dados com uma segunda pontuação compósita da pluralidade de conjuntos de dados; calcular uma terceira pontuação compósita, a terceira pontuação compósita dependente da comparação de dados do primeiro conjunto de dados e do segundo conjunto de dados.
Sistema, de acordo com a reivindicação 1, caracterizado pelo fato de que o organizador de dados compara ainda os conteúdos de dados com leis, regras ou regulamentações quanto à informação de privacidade, informação pessoalmente identificável, informação médica, informação protegida por direitos autorais, informação de idade restrita, informação geograficamente embargada ou informação de outro modo restrita sob uma lei, regra ou regulamentação e limita a disponibilidade de dados com base nas leis, regras ou regulamentações.
Meio legível por máquina, tangível, não transitório, que armazena instruções que, quando executadas por um ou mais processadores, realizam operações, caracterizado pelo fato de que compreende:
receber, com um ou mais servidores, uma pluralidade de conjuntos de dados, cada um dos conjuntos de dados compreendendo uma pluralidade de dados; criar uma primeira subpontuação para cada um da pluralidade de conjuntos de dados, a primeira subpontuação compreendendo um primeiro valor numérico, o primeiro valor numérico sendo maior para conjuntos de dados com mais dados; e
criar, usando inteligência artificial ou aprendizagem por máquina uma segunda subpontuação para cada um da pluralidade de conjuntos de dados, a segunda subpontuação compreendendo um segundo valor numérico, o segundo valor numérico variando com base em características de informação, a segunda subpontuação sendo maior para características de informação aperfeiçoadas, em que características de informação aperfeiçoadas caracterizam-se por um ou mais de qualidade estrutural aumentada, completude aumentada, interconectividade aumentada, diversidade aumentada, redundância diminuída;
criar, usando inteligência artificial ou aprendizagem por máquina, uma terceira subpontuação para cada uma da pluralidade de conjuntos de dados, a terceira subpontuação compreendendo um terceiro valor numérico, o terceiro valor numérico variando com base em características de significado, a terceira subpontuação sendo maior para características de significado aperfeiçoadas, em que características de significado aperfeiçoadas caracterizam-se por um ou mais de impacto aumentado em uma comunidade, um número aumentado de comunidades impactadas, maior veracidade, maior relevância para uma comunidade impactada, maior escassez; e
criar uma pontuação compósita que seja o produto das primeira, segunda e terceira subpontuações.