BRPI0922990B1

BRPI0922990B1 - Sistema e métodos de armazenamento, varredura e desduplicação de índices de objetos em sistema de replicação de dados distribuídos, dispositivo de pluralidade de dispositivos em sistema de replicação de dados distribuídos e memória legível em computador

Info

Publication number: BRPI0922990B1
Application number: BRPI0922990-6A
Authority: BR
Inventors: Gia DATUASHVILI; Alexander Kesselman; Alexandre Drobychev
Original assignee: Google Llc
Priority date: 2008-12-22
Filing date: 2009-12-22
Publication date: 2020-11-10
Also published as: EP2368199B1; CA2747746C; US8712974B2; DE202009019139U1; US11943290B2; US20140236888A1; AU2009330073B2; CN102317938B; CN104166673B; WO2010075407A1; JP2012513640A; US10291699B2; EP2368199A1; CN104166673A; US20100161554A1; US20240251012A1; JP5902222B2; CN102317938A; JP2014139824A; AU2009330073A1

Abstract

SISTEMAS E MÉTODOS DE ARMAZENAMENTO, VARREDURA E DESDUPLICAÇÃO DE ÍNDICE DE OBJETOS EM SISTEMA DE REPLICAÇÃO DE DADOS DISTRIBUÍDOS, DISPOSITIVO DE PLURALIDADE DE DISPOSITIVOS EM SISTEMA DE REPLICAÇÃO DE DADOS DISTRIBUÍDOS E MEMÓRIA LEGÍVEL EM COMPUTADOR Um método é realizado por um dispositivo de um grupo de dispositivos num sistema de replicação de dados distribuídos. O método inclui armazenar um índice de objetos no sistema de replicação de dados distribuídos, sendo o índice replicado ao mesmo tempo em que os objetos são armazenados localmente pela pluralidade de dispositivos no sistema de replicação de dados distribuídos. O método inclui também conduzir uma varredura de pelo menos uma parte do índice e identificar uma(s) réplica(s) redundante(s) de pelo menos um dos objetos com base na varredura do índice. O método inclui ainda desduplicar a(s) réplica(s) redundante(s), e atualizar o índice para refletir a condição da réplica redundante.

Description

Relatório Descritivo Antecedentes

A paisagem para computação empresarial tem passado por uma mudança fundamental nas arquiteturas de armazenamento pelo fato de que a arquitetura do serviço central tem produzido meios para os agrupamentos (clusters) de armazenamento distribuídos. Quando as empresas buscam formas de aumentar a eficiência de armazenamento, os agrupamentos de armazenamento construídos a partir da conveniência de computadores podem liberar alta performance, disponibilidade e escalabilidade para novas aplicações de dados intensivos em uma fração do custo comparada as organizações do disco monolítico. Para desbloquear o potencial total dos agrupamentos de armazenamento, os dados são replicados através dos diversos locais geográficos, desse modo aumentando a disponibilidade e reduzindo a distância da rede dos clientes.

A desduplicação dos dados pode identificar os objetos duplicados e reduzir o espaço de armazenamento necessário para a remoção dos duplicados. Como um resultado, a desduplicação dos dados está se tornando cada vez mais importante para uma indústria de armazenamento e está sendo acionada pelas necessidades dos sistemas em grande escala que podem conter muitos duplicados.

Sumário

De acordo com uma implementação, um método pode ser realizado por meio de um dispositivo de um grupo de dispositivos em um sistema de replicação de dados distribuídos. O método pode incluir armazenar um índice de objetos no sistema de replicação de dados distribuídos, o índice sendo replicado ao mesmo tempo em que as réplicas de objetos são localmente armazenadas pela pluralidade de dispositivos no sistema de replicação de dados distribuídos. O método pode também incluir a condução de uma varredura de pelo menos uma parte do índice e identificar uma réplica redundante de pelo menos um dos objetos com base na varredura do índice. O método pode ainda incluir desduplicar a réplica redundante gravando um registro de desduplicação para uma parte do índice.

De acordo com outra implementação, um dispositivo, de um grupo de dispositivos em um sistema de replicação de dados distribuídos, pode incluir meios para armazenar um índice de objetos no sistema de replicação de dados distribuídos; meios para escrever as mudanças no índice para designar uma condição de uma réplica de um dos objetos; meios para replicar as mudanças no índice para a pluralidade de dispositivos no sistema de replicação de dados distribuídos; meios para conduzir uma varredura de pelo menos uma parte do índice; meios para identificar uma réplica redundante de um dos objetos com base na varredura do índice; e meios para desduplicar a réplica redundante.

De acordo com ainda outra implementação, um sistema pode incluir uma memória para armazenar as instruções, uma memória de dados de objetos e um índice dos objetos na memória de dados; e um processador. O processador pode executar as instruções na memória para identificar uma condição de um objeto na memória de dados, sendo a condição relativa a se o objeto tem uma réplica e se um pedido de deleção está associado com o objeto, gravar um registro de designação de desduplicação no índice com base na condição do objeto, replicar o índice com o registro de designação de desduplicação para um ou mais dispositivos, e receber, a partir de um do um ou mais dispositivos, outros registros de designação de desduplicação associados com o objeto, em que o registro de designação de desduplicação e os outros registros de designação de desduplicação fornecem uma base para a deleção de uma ou mais réplicas do objeto.

De acordo com ainda outra implementação, um método realizado por um ou mais dispositivos pode incluir armazenar um índice de objetos nos dispositivos múltiplos dentro de um sistema de replicação de dados distribuídos e replicar o índice ao longo do sistema de replicação de dados distribuídos ao mesmo tempo em que armazena os objetos localmente, em que cada dispositivo é responsável pela desduplicação dos objetos dentro de um subconjunto particular do índice; conduzir uma varredura de cada um dos subconjuntos do índice para identificar as réplicas redundantes com base na varredura; desduplicar o redundante; e copiar automaticamente um objeto a partir de um dispositivo com uma réplica tendo um pedido de deleção em andamento para um dispositivo com uma réplica tendo sido previamente desduplicada.

De acordo com uma outra implementação, uma memória legível em computador pode incluir as instruções executáveis em computador. A memória legível em computador pode incluir uma ou mais instruções para conduzir uma varredura de uma parte de um índice de objetos em um sistema de replicação de dados distribuídos; uma ou mais instruções para identificar uma réplica redundante de um dos objetos com base na varredura da parte do índice; uma ou mais instruções para desduplicar a réplica redundante.

Breve Descrição dos Desenhos

Os desenhos que seguem, que são incorporados e constituem uma parte deste Relatório Descritivo, ilustram uma ou mais modalidades descritas aqui e, junto com a descrição, explicam estas modalidades. Nos desenhos:

A Figura 1 é um diagrama de uma rede exemplificativa em que os sistemas e os métodos descritos aqui podem ser implementados;

A Figura 2 é um diagrama de uma configuração exemplificativa do sistema de arquivo da Figura 1;

A Figura 3 é um diagrama de componentes exemplificativos de um agrupamento de armazenamento da Figura 1;

A Figura 4 é um diagrama em bloco funcional de um agrupamento de armazenamento exemplificativo da Figura 1;

A Figura 5 é um diagrama de uma estrutura de registro exemplificativa que pode ser empregada dentro de um índice de um sistema de replicação de dados de mestre múltiplo distribuído;

As Figuras 6A-6B são fluxogramas de processos exemplificativos para o gerenciamento do carregamento iniciado pelo cliente/ operações de deleção;

A Figura 7 é um fluxograma de processo exemplificativo para a execução da desduplicação em um sistema de replicação de dados de mestre múltiplo distribuído;

A Figura 8 é um fluxograma de processo exemplificativo para o gerenciamento um pedido de deleção;

A Figura 9 é um fluxograma de processo exemplificativo para a remoção das réplicas duplicadas;

A Figura 10 é um fluxograma de processo exemplificative para otimizar o consumo da largura da banda e reduzir a latência em um sistema de replicação de dados de mestre múltiplo distribuído; e

A Figura 11 é um diagrama que ilustra uma parte de um índice global exemplificative de acordo com uma implementação descrita aqui.

Descrição Detalhada

A descrição detalhada que segue se refere aos desenhos que seguem. Os mesmos números de referência em desenhos diferentes podem identificar os elementos iguais e semelhantes. Da mesma forma, a descrição detalhada que segue não limita a invenção.

Os sistemas e/ ou os métodos descritos aqui podem proporcionar um algoritmo de desduplicação distribuído assíncrono para os agrupamentos de armazenamento replicados que fornecem garantias de disponibilidade, de vivacidade e de consistência para objetos imutáveis. As implementações descritas aqui podem empregar a camada de replicação subjacente de um sistema de replicação de dados de mestre múltiplo distribuído para replicar um índice de conteúdo endereçável (também, referido como aqui como um “índice global”) entre diferentes agrupamentos de armazenamento. Cada objeto do índice global pode ter um único ponto de apoio de conteúdo (por exemplo, um valor hash ou assinatura digital). Nas implementações descritas aqui, o processo de remoção das réplicas redundantes pode manter pelo menos uma réplica viva.

Configuração da Rede Bxemplificativa

A Figura 1 é um diagrama de um sistema exemplificativo 100 em que os sistemas e os métodos descritos aqui podem ser implementados. O sistema 100 pode incluir os clientes de 110-1 até 110-N (referido a coletivamente como clientes 110, e individualmente como cliente 110) e agrupamentos de armazenamento de 120-1 até 120-M (referido a coletivamente como agrupamentos de armazenamento 120, e individualmente como agrupamento de armazenamento 120) conectados através de uma rede 130. Os agrupamentos de armazenamento 120 podem formar um sistema de arquivo 140 (como mostrado pela linha pontilhada na Figura 1).

A rede 130 pode incluir uma ou mais redes, tal como, uma rede de área local (LAN), uma rede de área estendida (WAN), uma rede telefônica (por exemplo, a Rede Pública de Telefone Chaveada (PSTN)), uma intranet, a Internet, um rede semelhante ou diferente, ou uma combinação de redes. Os clientes 110 e os agrupamentos de armazenamento 120 podem se conectar a rede 130 através de conexões com fio e/ou sem fio.

Os clientes 110 podem incluir um ou mais tipos de dispositivos, tais como, um computador pessoal, um telefone sem fio, um assistente pessoal digital (PDA), um lap top, ou outro tipo de dispositivo de comunicação, e/ ou uma linha ou processo executando em um destes dispositivos. Em uma implementação, um cliente 110 inclui, ou está ligado a, uma aplicação em cujo nome do cliente 110 se comunica com o agrupamento de armazenamento 120 para ler ou modificar (por exemplo, escrever) os dados do arquivo.

O agrupamento de armazenamento 120 pode incluir um ou mais dispositivos do servidor, ou outros tipos de computação ou dispositivos de comunicação, que podem armazenar, processar, pesqui-sar, e/ou fornecem a informação de certo modo descrita aqui. Em uma implementação, o agrupamento de armazenamento 120 pode incluir um ou mais servidores (por exemplo, aplicações e/ou sistemas de computador) capazes de manter uma memória de dados de leitura aleatória/ acesso de escrita, em grande escala, para os arquivos. A memória de dados do agrupamento de armazenamento 120 pode permitir que um sistema de indexação rapidamente atualize as partes de um índice se ocorrer uma mudança. A memória de dados de agrupamento de armazenamento 120 pode incluir uma ou mais tabelas (por exemplo, uma tabela de documento que pode incluir uma série para o localizador uniformizado de recursos (URL), tabelas auxiliares com chave por meio de valores diferentes de URLs, etc.). Em um exemplo, o agrupamento de armazenamento 120 pode ser incluído em um sistema de armazenamento distribuído (por exemplo, um “Bigtable” como estabelecido em Chang e outros, “Bigtable: A Distributed Storage System for Structured Data,” Proc. da 7a OSDI, pp. 205-218 (Nov. 2006)) para o gerenciamento dos dados estruturados (por exemplo, a agrupamento de armazenamento de acesso aleatório dos documentos) que podem ser projetados para escala de um tamanho muito grande (por exemplo, petabytes dos dados através de milhares de servidores).

Se bem que não mostrado na Figura 1, o sistema 100 pode incluir uma variedade de outros componentes, tal como, um ou mais servidores para o usuário dedicado ou hubs. Um servidor para o usuário, por exemplo, pode armazenar uma cópia somente de leitura de uma memória de dados de um ou mais agrupamentos de armazenamento 120 para acessos pelos clientes 110. Um hub, por exemplo, pode armazenar uma cópia somente de leitura de uma memória de dados de um ou mais agrupamentos de armazenamento 120 para distribuição para um ou mais servidores para o usuário.

Configuração de Agrupamento de Armazenamento Exemplificativo

A Figura 2 é um diagrama de uma configuração exemplificativa do sistema de arquivo 140. Como mostrado na Figura 2, o sistema de arquivo 140 pode incluir os agrupamentos de armazenamento 120-1, 120-2, 120-3, e 120-4. Em uma implementação, o sistema de arquivo 140 pode ser um sistema de replicação de dados de mestre múltiplo distribuído, em que cada um dos agrupamentos de armazenamento 120-1, 120-2, 120-3, e 120-4 pode agir como um servidor mestre para os outros agrupamentos de armazenamento. No sistema de arquivo 140, os dados podem ser replicados através dos agrupamentos de armazenamento 120-1, 120-2, 120-3 e 120-4 (por exemplo, nos diversos locais geográficos) para aumentar a disponibilidade dos dados e reduzir a distância da rede dos clientes (por exemplo, clientes 110). De modo geral, as referências e os objetos distribuídos podem ser dinamicamente criados, mudados, clonados e deletados nos diferentes agrupamentos de armazenamento 120 e uma camada de replicação subjacente de dados (não mostrado) mantém a fidelidade ordem de gravação para assegurar que todos os agrupamentos de armazenamento 120 devem acabar com a mesma versão de dados. Deste modo, a camada de replicação de dados respeita a ordem de gravações para a mesma réplica de um único objeto.

Um índice global de todos os objetos no sistema de replicação de dados de mestre múltiplo distribuído pode ser associado com cada agrupamento de armazenamento 120. Cada objeto armazenado pode ser listado por um único ponto de apoio de conteúdo (tal como, um valor misturado, assinatura digital, etc.) no índice global. Os agrupamentos de armazenamento selecionados podem todos ser atribuídos ser responsável por uma faixa distinta dos pontos de apoio de conteúdo no índice global. Por exemplo, um único agrupamento de armazenamento 120 pode ser responsável pela desduplicação de objetos associada com os pontos de apoio de conteúdo particulares. As mudanças no índice global feitas por meio de um agrupamento de armazenamento podem ser replicadas para outros agrupamentos de armazenamento.

Se bem que a Figura 2 mostre os componentes funcionais e- xemplares do sistema de arquivo 140, em outras implementações, o sistema de arquivo 140 pode conter alguns, adicionais, diferentes ou componentes diferentemente dispostos do representado na Figura 2. Ainda em outras implementações, um ou mais componentes do sistema de arquivo 140 podem executar uma ou mais tarefas descritas como sendo realizadas por um ou mais outros componentes do sistema de arquivo 140.

A Figura 3 é um diagrama dos componentes exemplares do agrupamento de armazenamento 120. O agrupamento de armazenamento 120 pode incluir um barramento 310, um processador 320, uma memória principal 330, uma memória exclusiva de leitura (ROM) 340, um dispositivo de armazenamento 350, um dispositivo de entrada 360, um dispositivo de saída 370, e uma interface de comunicação 380. O barramento 310 pode incluir um ou mais condutores que permitem a comunicação entre os componentes do agrupamento de armazenamento 120. O processador 320 pode incluir qualquer tipo de processador ou microprocessador que pode interpretar e executar as instruções. A memória principal 330 pode incluir uma memória de acesso randômico (RAM) ou outro tipo de dispositivo de armazenamento dinâmico que pode armazenar informação e instruções para a execução por meio do processador 320. A ROM 340 pode incluir um dispositivo ROM ou outro tipo de dispositivo de armazenamento estático que pode armazenar informação estática e instruções para uso por meio do processador 320. O dispositivo de armazenamento 350 pode incluir um meio de gravação magnético e/ou óptico e sua unidade correspondente. Por exemplo, o dispositivo de armazenamento 350 pode incluir um ou mais discos locais 355 que fornecem o armazenamento persistente. Em uma implementação, o agrupamento de armazenamento 120 pode manter os metainformações, para os objetos armazenados no sistema de arquivo 140, dentro de um ou mais meios legíveis em computador, tal como, memória principal 330 e/ou dispositivo de armazenamento 350. Por exemplo, o agrupamento de armazenamento 120 pode armazenar um índice global dentro do dispositivo de armazenamento 350 para todos os objetos armazenados dentro de um sistema de replicação de dados de mestre múltiplo distribuído. O dispositivo de entrada 360 pode incluir um ou mais mecanismos que permitem um operador para fornecer a informação do agrupamento de armazenamento 120, tal como, um teclado, um miniteclado, um botão, um mouse, uma caneta etc. O dispositivo de saída 370 pode incluir um ou mais mecanismos que emite a informação para o operador, que inclui um display, um diodo emissor de luz (LED), etc. A interface de comunicação 380 pode incluir qualquer mecanismo tipo transceptor que permite o agrupamento de armazenamento 120 se comunicar com os outros dispositivos e/ou sistemas. Por exemplo, a interface de comunicação 380 pode incluir os mecanismos para se comunicar com os outros agrupamentos de armazenamento 120 e/ ou clientes 110.

A Figura 4 ilustra um diagrama em bloco funcional do agrupamento de armazenamento 120. Como mostrado na Figura 4, o agrupamento de armazenamento 120 pode incluir a memória de dados 410 e a lógica de desduplicação 420. Em uma implementação, como ilustrado na Figura 4, a memória de dados 410 pode ser fornecida dentro do agrupamento de armazenamento 120. Em outras implemen-tações, algumas ou toda a memória de dados 410 pode ser armazenada dentro de um ou mais outros dispositivos do sistema 100 em comunicação com o agrupamento de armazenamento 120, tais como, dispositivos de memória externa ou dispositivos associados com um sistema de indexação (não mostrado).

A memória de dados 410 pode incluir um armazenamento de índice replicado 412 e um armazenamento do objeto local 414. O armazenamento de índice replicado 412 pode ser incluído como parte da camada de replicação do sistema de replicação de dados de mestre múltiplo distribuído. O armazenamento de índice replicado 412 pode armazenar a informação associada com o índice global. Pelo menos uma parte do armazenamento de índice replicado 412 pode ser replicada nos diversos agrupamentos de armazenamento 120. O número de réplicas para cada armazenamento de índice replicado 412 pode ser configurável pelo usuário. O armazenamento do objeto local 414 pode armazenar os objetos localmente dentro do agrupamento de armazenamento 120. O armazenamento do objeto local 414 pode incluir os arquivos, tal como, imagens ou vídeos carregados pelos clientes (por exemplo, clientes 110).

A lógica de desduplicação 420 pode incluir a lógica para remover as réplicas redundantes dos agrupamentos de armazenamento dentro do sistema de replicação de dados de mestre múltiplo distribuído (por exemplo, agrupamentos de armazenamento 120-1, 120- 2, 120-3, e 120-4). A lógica de desduplicação 420 para cada grupo de armazenamento participante pode ser atribuída ser responsável por uma seção específica do índice global. Por exemplo, a lógica de desduplicação 420 pode ser atribuída a uma faixa particular dos pontos de apoio de conteúdo para o índice global. Deste modo, somente um agrupamento de armazenamento dentro do sistema de replicação de dados de mestre múltiplo distribuído pode ser capaz de executar operações destrutivas (por exemplo, a deleção das réplicas) em um objeto replicado dentro do sistema.

Para facilitar a desduplicação, os registros podem ser gerados por meio da lógica de desduplicação 420 e anexados a uma parte do índice global associado com um ponto de apoio de conteúdo específico. Os registros podem incluir, por exemplo, um designador de “Data” para iniciar uma réplica ao vivo, um designador de “DeleteRequest” para indicar um pedido de deleção em andamento para uma réplica, e um designador “Deduped” para indicar uma réplica que foi selecionada pela desduplicação. Os usos e os formatos do registro são descritos de forma mais detalhada abaixo.

Se bem que a Figura 4 mostra os componentes funcionais e- xemplares do agrupamento de armazenamento 120, em outras implementações, o agrupamento de armazenamento 120 pode conter alguns, adicionais, diferentes, ou componentes diferentemente dispostos funcionais do representado na Figura 4. Ainda em outras implementações, um ou mais componentes funcionais do agrupamento de armazenamento 120 podem executar uma ou mais outras tarefas descritas como sendo realizadas por um ou mais outros componentes funcionais.

Estrutura de Registro Exemplificative

A Figura 5 proporciona uma ilustração de uma estrutura de registro exemplificativa 500 para um registro de designação de desduplicação que pode ser escrito no índice global em uma implementação exemplar. O registro de designação de desduplicação pode estar associado no índice global com um ponto de apoio de conteúdo específico de uma réplica objeto. Como mostrado na Figura 5, à estrutura de registro 500 pode incluir a seção do identificador (“ID”) do agrupamento de armazenamento 510, uma seção do local de armazenamento 520, e seção de designação 530. A seção de identificação do agrupamento de armazenamento 510 pode incluir uma identificação única (por exemplo, “Cluster ID”) para o agrupamento de armazenamento 120 quer dizer armazenar a réplica objeto para a qual o registro está sendo escrito. A seção local 520 pode incluir um endereço para a localização da réplica dentro do agrupamento de armazenamento 120 que é identificada pela seção de identificação do agrupamento de armazenamento 510. A seção de designação 530 pode incluir, por exemplo, um designador de “Data”, um designador de “DeleteRequest”, ou um designador “Deduped”.

A estrutura de registro 500 pode ser listada na forma de “ClusterlD:Location:Designation.” Por exemplo, um registro para uma réplica pode ser adicionado no índice global por meio do agrupamento de armazenamento 120-1 com o registro “01 :234523/ 2000:DeleteRequest,” em que “01” é o agrupamento ID para o agrupamento de armazenamento 120-1, “234523/2000” é a localização, dentro do agrupamento de armazenamento 120-1 em que a réplica é armazenada, e “DeleteRequest” é o designador. Um registro para outra réplica do mesmo objeto no agrupamento de armazenamento 120-2 pode ser “02:234544/ 1000:Data,” em que “02” é o agrupamento ID para o agrupamento de armazenamento 120-2, “234544/1000” é a localização dentro do agrupamento de armazenamento 120-2, e “Data” é o designador.

Fluxos de Processo Exemplificativos

As Figuras 6A e 6B são fluxogramas dos processos exemplares para o gerenciamento do carregamento iniciado pelo cliente/operações de deleção. A Figura 6A representa um fluxograma durante um processo exemplificativo 600 do carregamento um objeto de um cliente. A Figura 6B representa um fluxograma durante um processo exemplificativo 650 da remoção de um objeto deletado por um cliente. Em uma implementação, os processos 600 e 650 podem ser realizados por um dos agrupamentos de armazenamento 120. Os processos 600 e 650 podem ser implementados em resposta as atividades do cliente (por exemplo, cliente 110). Para os exemplos específicos dos processos 600 e 650 descritos abaixo, a referência pode ser feita para o agrupamento de armazenamento 120-1 do sistema de arquivo 140, em que o agrupamento de armazenamento 120-1 inclui um agrupamento ID de “01.”

Referindo-se à Figura 6A, o processo 600 pode começar quando um arquivo carregado é recebido de um cliente (bloco 610). Por exemplo, o agrupamento de armazenamento 120-1 pode receber um novo arquivo de um dos clientes 110. O arquivo carregado pode ser armazenado (bloco 620) e um designador de “Data” para o arquivo carregado pode ser escrito no índice global (bloco 630). Por exemplo, o agrupamento de armazenamento 120-1 pode armazenar o arquivo carregado em uma memória (por exemplo, dispositivo de armazenamento 350) e adicionar um ponto de apoio de conteúdo para o objeto no índice global. O agrupamento de armazenamento 120-1 pode, da mesma forma, escrever um registro de dados (por exemplo, “01 :Location:Data”) no índice global replicado endereçado pelo ponto de apoio de conteúdo do objeto.

Referindo-se a Figura 6B, o processo 650 pode começar quando um aviso de um arquivo deletado é recebido (bloco 660). Por exemplo, o agrupamento de armazenamento 120-1 pode receber uma indicação a fim de que um dos clientes 110 tenha deletado um arquivo. Um pedido de deleção pode ser iniciado (bloco 670) e um designador de “DeleteRequest” para o arquivo deletado pode ser escrito no índice global (bloco 680). Por exemplo, o agrupamento de armazenamento 120- 1 pode iniciar um pedido de deleção para assincronamente remover o arquivo de deleção do sistema de arquivo 140. O dispositivo de armazenamento 120-1 pode, da mesma forma, escrever um registro “DeleteRequest” (por exemplo, “01:Location:DeleteReqeust”) no índice global replicado endereçado pelo ponto de apoio de conteúdo do objeto.

A Figura 7 é um fluxograma de um processo exemplificative 700 para a execução da desduplicação em um sistema de replicação de dados de mestre múltiplo distribuído (por exemplo, sistema de arquivo 140). Em uma implementação, o processo 700 pode ser realizado por meio de um dos agrupamentos de armazenamento 120. Em outra implementação, alguns ou todo o processo 700 pode ser realizado por meio de outro dispositivo ou um grupo dos dispositivos, que incluem ou excluem o agrupamento de armazenamento 120. O processo 700 pode ser implementado periodicamente em cada agrupamento de armazenamento 120 e pode incluir uma varredura de todos ou de uma parte dos objetos no agrupamento de armazenamento 120. Para os exemplos específicos do processo 700 descrito abaixo, a referência pode ser feita para os agrupamentos de armazenamento 120-1 e 120-2 do sistema de arquivo 140, em que o agrupamento de armazenamento 120-1 inclui um agrupamento ID de “01” e o agrupamento de armazenamento 120-2 inclui um agrupamento ID de “02.”

Como ilustrado na Figura 7, o processo 700 pode começar com a condução de uma varredura do índice global (bloco 710). Por exemplo, o agrupamento de armazenamento 120-1 (empregando, por exemplo, lógica de desduplicação 420) pode conduzir uma varredura de todos ou uma parte dos objetos listados no índice global. A varredura pode identificar, por exemplo, diversas réplicas e/ou objetos marcados para a deleção.

Pode ser determinado se um pedido de deleção é encontrado (bloco 720). Por exemplo, o agrupamento de armazenamento 120-1 pode encontrar um objeto no índice global que inclui um pedido de designador de deleção (por exemplo, “02:Location:DeleteReqeust”) a partir de outro agrupamento de armazenamento (por exemplo, do agrupamento de armazenamento 120-2). Se for determinado que um pedido de deleção é encontrado (bloco 720 - SIM), em seguida o pedido de deleção pode ser processado (bloco 730). Por exemplo, o agrupamento de armazenamento 120-1 pode processar o pedido de deleção como descrito de forma mais detalhada no que diz respeito à Figura 8.

Se for determinado que um pedido de deleção não é encontrado (bloco 720 - NÃO), em seguida pode ser determinado se as réplicas redundantes existem (bloco 740). As réplicas redundantes podem ser os objetos replicados nos diferentes locais que não têm os pedidos de deleção indisponíveis para o objeto. Por exemplo, o agrupamento de armazenamento 120-1 pode identificar diversas réplicas para o mesmo objeto que corresponde a um ponto de apoio de conteúdo para o qual agrupamento de armazenamento 120-1 é responsável. As diversas réplicas podem ser armazenadas, por exemplo, nas diferentes agrupamentos de armazenamento (por exemplo, agrupamento de armazenamento 120-1 e agrupamento de armazenamento 120-2) ou nos diferentes locais dentro do mesmo agrupamento de armazenamento.

Se for determinado que as réplicas redundantes existem (bloco 740 - SIM), em seguida a réplica redundante (s) pode ser removida (bloco 750). Por exemplo, o agrupamento de armazenamento 120-1 pode remover a réplica redundante (s) como descrito de forma mais detalhada no que diz respeito à Figura 9. Se for determinado que as réplicas redundantes não existem (bloco 740 - NÃO), em seguida o processo pode retornar para o bloco 710, em que outra varredura do índice global pode ser conduzida (bloco 710).

A Figura 8 ilustra as operações exemplares associadas com o processamento de um pedido de deleção do bloco 660 da Figura 6. Um pedido de deleção pode ser encontrado para um objeto (bloco 810). Por exemplo, uma varredura sendo conduzida por meio do agrupamento de armazenamento 120-1 pode identificar um ponto de apoio de conteúdo no índice global com um pedido de designador de deleção previamente escrito por meio do agrupamento de armazenamento 120-1 para a deleção de uma réplica em um certo agrupamento de armazenamento (por exemplo, “02:Location:DeleteRequest”). Assumindo que o agrupamento de armazenamento 120-1 é responsável pelo ponto de apoio de conteúdo, o agrupamento de armazenamento 120-1 pode aplicar as operações para determinar se a réplica pode agora ser desduplicada.

Pode ser determinado se um designador de desduplicação e- xiste (bloco 820). Por exemplo, o agrupamento de armazenamento 120-1 pode rever outros registros no índice global associados com o ponto de apoio de conteúdo para determinar se um designador de desduplicação existe (por exemplo, 02:Location:Deduped”). Se for determinado que um designador de desduplicação existe (bloco 820 - SIM), em seguida a réplica e os registros relacionados no índice global podem ser desdupli- cados (bloco 830). Por exemplo, o agrupamento de armazenamento 120- 1 pode iniciar um pedido de deleção para a deleção da réplica no agrupamento de armazenamento 120-2 (se houver) e a deleção de todos os registros (por exemplo, “02:Location:*”, em que pode ser qualquer designador) do índice global que se referem ao ponto de apoio de conteúdo para a réplica deletada.

Se for determinado que um designador de desduplicação não existe (bloco 820 - NÃO), em seguida pode ser determinado se outra réplica ao vivo existe (bloco 840). Por exemplo, o agrupamento de armazenamento 120-1 pode rever o ponto de apoio de conteúdo para o índice global para determinar se outra réplica ao vivo existe para o objeto. O índice global pode incluir, por exemplo, um registro de dados quanto ao ponto de apoio de conteúdo do outro agrupamento de armazenamento (por exemplo, “03:Location:Data”).

Se outra réplica ao vivo existir (bloco 840 - SIM), em seguida a réplica pode ser desduplicada como descrito acima no que diz respeito a bloco 830. Se outra réplica ao vivo não existe (bloco 840 - NÃO), em seguida pode ser determinado se todas as réplicas têm os pedidos de deleção (bloco 850). Por exemplo, o agrupamento de armazenamento 120-1 pode rever o ponto de apoio de conteúdo para o índice global para determinar se todas as réplicas associadas com o ponto de apoio de conteúdo têm um pedido de deleção indisponível (por exemplo, “*:*:DeleteRequest”, em que “*” pode ser qualquer ClusterID e qualquer localização, respectivamente).

Se for determinado que todas as réplicas têm os pedidos de deleção (bloco 850 - SIM), em seguida a réplica pode ser desduplicada como descrito acima no que diz respeito ao bloco 830. Se for determinado que nenhumas réplicas têm os pedidos de deleção (bloco 850 - NÃO), em seguida o objeto pode ser copiado de um agrupamento de armazenamento que iniciou um pedido de deleção para um diferente agrupamento de armazenamento e o índice global pode ser atualizado (bloco 860). Por exemplo, em resposta ao registro “02:Location:DeleteRequest,” o agrupamento de armazenamento 120-1 pode copiar o objeto a partir do agrupamento de armazenamento 120-2 para outro agrupamento de armazenamento 120-3 para o qual existe um registro de desduplicação (por exemplo, “03:Location:Deduped”) e nenhum pedido de deleção indisponível. A agrupamento de armazenamento 120-1 pode deletar o registro de desduplicação prévio (por exemplo, “03:Location:Deduped”) associado com a réplica e grava um designador de dados (por exemplo, “03:Location:Data”) para o ponto de apoio de conteúdo correspondente do objeto no índice global.

A Figura 9 ilustra as operações exemplares associadas com a remoção das referências duplicadas do bloco 750 da Figura 7. As diversas réplicas sem pedidos de deleção podem ser identificadas (bloco 910). Por exemplo, o agrupamento de armazenamento 120-1 pode rever o índice global e identificar duas ou mais réplicas que não têm os pedidos de deleção indisponíveis correspondentes a um ponto de apoio de conteúdo para o qual agrupamento de armazenamento 120-01 é responsável.

Os critérios para determinar a réplica (s) ser desduplicada podem ser aplicados (bloco 920). Por exemplo, o agrupamento de armazenamento 120-1 pode aplicar os critérios para desduplicar a réplica redundante que pode ser armazenada dentro do agrupamento de armazenamento 120-1. Os critérios para desduplicar as réplicas redundantes pode ser com base em uma variedade de fatores, tal como, a proximidade geográfica das réplicas, a capacidade de armazenamento disponível em um agrupamento de armazenamento, ou outros fatores. O agrupamento de armazenamento 120-1 (por exemplo, empregando a lógica de desduplicação 420) pode aplicar os critérios para as duas ou mais réplicas que não têm os pedidos de deleção indisponíveis identificados acima. Em algumas implementações, as diversas réplicas podem ser identificadas serem desduplicadas. Em outras implementações, o agrupamento de armazenamento 120-1 pode deixar mais do que uma réplica ao vivo (por exemplo, uma réplica não marcada para a desduplicação).

O índice global pode ser atualizado para designar a réplica desduplicada (s) como “Deduped” (bloco 930). Por exemplo, para cada réplica desduplicada, o agrupamento de armazenamento 120-1 pode deletar o prévio registro de dados (por exemplo, “02:Location:Data”) associado com a réplica e gravar um designador de desduplicação (por exemplo, “02:Location:Deduped”) para o ponto de apoio de conteúdo correspondente no índice global.

A desduplicação das réplicas redundantes pode ser realizada empregando as mensagens de desduplicação que são replicadas como uma parte do índice global. As réplicas marcadas pela desduplicação podem ser armazenadas dentro do agrupamento de armazenamento 120-1 ou dentro de outro agrupamento de armazenamento (por exemplo, agrupamento de armazenamento 120- 2, 120-3, 120-4, etc.). Em uma implementação, o agrupamento de armazenamento 120-1 pode deletar as réplicas localmente armazenadas e o registro “01: Location :Data” correspondente a partir do índice global e adicionar “01 :Location:Deduped” no índice global. O agrupamento de armazenamento 120-1 pode, da mesma forma, iniciar as mensagens de deleção, empregando o índice global replicado, para a deleção das réplicas armazenadas em outros agrupamentos.

A Figura 10 proporciona um fluxograma de um processo exemplificative) 1000 para otimizar o consumo da largura da banda e reduzir a latência em um sistema de replicação de dados de mestre múltiplo distribuído (por exemplo, sistema de arquivo 140). Em uma implementação, o processo 1000 pode ser realizado por meio dos agrupamentos de armazenamento 120. Em outra implementação, algum ou todo o processo 1000 pode ser realizado por outro dispositivo ou grupo de dispositivos, que inclui ou exclui o agrupamento de armazenamento 120. Para os exemplos específicos do processo 1000 descrito abaixo, a referência pode ser feita para o agrupamento de armazenamento 120-1 do sistema de arquivo 140, em que o agrupamento de armazenamento 120-1 inclui um agrupamento ID de “01.”

Como ilustrado na Figura 1000, o processo 1000 pode começar com o recebimento de um pedido para um objeto (bloco 1010). Por exemplo, o agrupamento de armazenamento 120-1 pode receber um pedido de um cliente (por exemplo, cliente 110-1) para se obter um objeto.

As localizações do objeto podem ser vistas no índice global (bloco 1020). Por exemplo, o agrupamento de armazenamento 120-1 pode ver a localização (s) da réplica para o objeto no índice global replicado empregando o ponto de apoio de conteúdo do objeto.

A “melhor” localização da réplica pode ser identificada (bloco 1030). Por exemplo, assumindo que mais do que uma réplica está disponível, o agrupamento de armazenamento 120-1 pode determinar a “melhor” réplica para recuperar minimizar os recursos de rede. Por exemplo, a “melhor” réplica pode ser a réplica que tem a localização geográfica mais próxima ao agrupamento de armazenamento 120-1. Em outras implementações, a “melhor” réplica pode ser com base em uma combinação de conectividade de rede disponível, localização geográfica, e/ ou outros critérios. Deste modo, em algumas implementações, a “melhor” réplica para o objeto pode estar localmente armazenada dentro

do agrupamento de armazenamento 120-1.

O objeto pode ser recuperado a partir do local identificado (bloco 1040). Por exemplo, o agrupamento de armazenamento 120-1 pode pedir a “melhor” réplica do agrupamento de armazenamento mais próximo disponível e receber a réplica para satisfazer o pedido do cliente. O agrupamento de armazenamento 120-1 pode em seguida enviar a réplica para o cliente.

Exemplos

A Figura 11 proporciona uma parte 1100 de um índice global exemplificativo de acordo com uma implementação descrita aqui. O índice pode incluir, no meio de outra informação, uma coluna do ponto de apoio de conteúdo 1110 e uma coluna do registro de designação de Desduplicação 1120. Suponha-se, na parte do índice exemplificativo 1100, um sistema de replicação de dados de mestre múltiplo distribuído inclui três agrupamentos de armazenamento, XX, YY, e ZZ. Um algoritmo de desduplicação pode se executar periodicamente em cada em dos agrupamentos de armazenamento XX, YY, e ZZ e pode verificar todo ou uma parte do índice global. Da mesma forma, os registros (por exemplo, Data, DeleteRequest e Deduped) podem ser gravados por meio de um dos agrupamentos de armazenamento XX, YY, ou ZZ no índice global associado com um objeto específico do ponto de apoio de conteúdo. As modificações no índice global podem ser replicadas para todos os outros agrupamentos participantes (por exemplo, o restante dos agrupamentos de armazenamento XX, YY, e ZZ).

Como mostrado na Figura 11, à parte do índice 1100 inclui os pontos de apoio de conteúdo e registros de designação de deleção associados para quatro objetos. “Handle 11” tem os registros que indicam, as réplicas são armazenadas no agrupamento de armazenamento XX (“XX: Location© 1: Data”) e agrupamento de armazenamento YY (“YY:Location01:Data”), respectivamente. “Handle21” tem um registro que indica, uma réplica está armazenada no agrupamento de armazenamento XX (“XX:Location02:Data”) e outra réplica no agrupamento de armazenamento YY tem um pedido de deleção em andamento (“YY:Location:02:DeleteRequest”). “Handle31” tem os registros que indicam, as réplicas são armazenadas no agrupamento de armazenamento YY (“XX:Location03:Data”) e agrupamento de armazenamento ZZ (“ZZ:Location01:Data”), respectivamente. “Handle31”, da mesma forma, tem dois registros que indicam, as réplicas têm pedidos de deleção em andamento no agrupamento de armazenamento YY (“YY:Location03: DeleteRequest”) e agrupamento de armazenamento ZZ (“ZZ:Location01: DeleteRequest”). “Handle41” tem os registros que indicam, uma réplica está armazenada no agrupamento de armazenamento YY (“XX: Locati- on04:Data”) e um registro que indica, a réplica com um pedido de deleção em andamento no agrupamento de armazenamento YY (“YY:Location04: Delete Request”). Handle41, da mesma forma, tem um registro que indica, a desduplicação de uma réplica ter ocorrido (“ZZ:Location02: Deduped”). O algoritmo de desduplicação empregado pelos agrupamentos de armazenamento pode operar empregando diretrizes consistentes com os princípios descritos aqui. Suponha-se que o agrupamento de armazenamento XX é atribuída responsabilidade para a parte do índice global que inclui “Handle 11,” Handle21,” “Handles 1,” e “Handle41.”

Quando um objeto é completamente carregado em um agrupamento de armazenamento, o agrupamento de armazenamento pode gravar um registro de dados (por exemplo, “ClusterID:Location:Data”) no índice global replicado endereçado pelo ponto de apoio de conteúdo do objeto. Por exemplo, “XX:Location01:Data” e “YY:Location01:Data” ilustram os registros de dados para as réplicas de “Handle 11.” Da mesma forma, “XX:Location02:Data” ilustra um registro de dados para uma réplica de “Handle21.” Os registros de dados similares podem servistos para “Handle31” e “Handle 41.”

Quando um objeto é solicitado em um agrupamento de armazenamento, o agrupamento de armazenamento pode ver as localizações da réplica no índice global replicado empregando o ponto de apoio de conteúdo do objeto e buscam a réplica do “melhor” (por exemplo, mais próximo) agrupamento. Por exemplo, assumindo um objeto correspondente a “Handle 11” é solicitado no agrupamento de armazenamento ZZ e pelo fato de que o agrupamento de armazenamento YY está mais perto do agrupamento de armazenamento ZZ do que está o agrupamento de armazenamento XX, o agrupamento de armazenamento ZZ pode pedir a réplica objeto correspondente ao “Handlell” do agrupamento de armazenamento YY.

Quando um objeto é deletado em um agrupamento de armazenamento, o agrupamento de armazenamento pode escrever “Cluste- rID:Location:DeleteRequest” no índice global replicado endereçado pelo ponto de apoio de conteúdo do objeto. Por exemplo, “YY:Location02: DeleteRequest” ilustra um registro para uma réplica deletada de “Handle21” no agrupamento de armazenamento YY. De modo semelhante, “YY:Location03: DeleteRequest” e “ZZ: Location: 01 :DeleteRequest” ilustram os registros para as réplicas deletadas de “Handle31” para os agrupamentos de armazenamento YY e ZZ, respectivamente.

Se a varredura em um agrupamento de armazenamento encontra diversas réplicas que não têm os pedidos de deleção indisponíveis correspondentes a um ponto de apoio de conteúdo, o agrupamento de armazenamento é responsável por, o agrupamento de armazenamento pode deletar as réplicas redundantes do objeto (possivelmente deixando mais do que uma réplica ao vivo). Para cada réplica deletada em outro agrupamento de armazenamento, o agrupamento de armazenamento pode deletar o registro de dados e gravar um registro deifdesduplicação. Por exemplo, a varredura no agrupamento de armazenamento XX pode identificar que o “Handle 11” tem os registros que indicam, as réplicas estão armazenadas no agrupamento de armazena-mento XX (“XX:Location01:Data”) e no agrupamento de armazenamento YY (“YY:Location01:Data”), respectivamente. Com base nos critérios fornecidos para a remoção das referências redundantes, o agrupamento de armazenamento XX pode iniciar a deleção da réplica no agrupamento de armazenamento YY. O agrupamento de armazenamento XX podedeletar o registro “YY:Location01:Data” mostrado na Figura lie gravar no lugar “YY:Location01:Deduped”.

Se a varredura no agrupamento de armazenamento XX encontra um pedido de deleção (por exemplo, “ClusterID: Location: DeleteRe- quest”) para uma réplica em outro agrupamento de armazenamento (por exemplo, agrupamento de armazenamento YY ou ZZ) correspondente para um ponto de apoio de conteúdo em que o agrupamento de armazenamento XX é responsável por, o agrupamento de armazenamento XX pode aplicar a análise que segue. Se existe um registro “Deduped” para o mesmo agrupamento de armazenamento e localização como o pedido de deleção, se nesse ponto existe outra réplica ao vivo do objeto, ou se todas as réplicas têm os pedidos de deleção indisponíveis, o agrupamento de armazenamento XX pode deletar a réplica do objeto no agrupamento de armazenamento YY ou ZZ (se houver) e deletar os registros “YY:Location:*” ou “ZZrLocation:*.” Por exemplo, a réplica para “Handle21” no agrupamento de armazenamento YY e no registro “YY:Location02:DeleteRequest” pode de deletada por meio do agrupamento de armazenamento XX uma vez que outro objeto ao vivo (indicado pelo registro “XX:Location02:Data”) existe. De modo semelhante, a réplica para “Handle31” no agrupamento de armazenamento YY e o registro “YY:Location:03:DeleteRequest” pode ser deleta por meio do agrupamento de armazenamento XX uma vez que ambas as réplicas no agrupamento de armazenamento YY e no agrupamento de armazenamento ZZ têm os pedidos de deleção indisponíveis.

Se o agrupamento de armazenamento XX não pode deletar a réplica do objeto no agrupamento de armazenamento YY ou ZZ (por exemplo, não existe um registro “Deduped” ou outra réplica ao vivo do objeto, e todas as réplicas não têm os pedidos de deleção indisponíveis), o agrupamento de armazenamento XX pode copiar o objeto a partir de YY ou ZZ para outro agrupamento de armazenamento para o qual existe um registro de desduplicação e nenhum pedido de deleção indisponível, deletando o registro de desduplicação e gravar um registro de dados. Por exemplo, a réplica para “Handle41” no agrupamento de armazenamento YY (“YY:Location04: DeleteRequest”) pode causar o agrupamento de armazenamento XX para copiar o objeto associado com “Handle41” para o agrupamento de armazenamento ZZ. O agrupamento de armazenamento XX pode atualizar o índice global para mudar “ZZ:Location02: Deduped” para “ZZ:Location02:Data.”

A correção do algoritmo é direta como todas as operações de deleção no objeto são realizadas somente pelo processo de varredura no agrupamento de armazenamento responsável por seu ponto de apoio de conteúdo. O algoritmo, da mesma forma, transparentemente lida com as diversas réplicas objetos no mesmo agrupamento pelo fato de que o tem diferentes locais (por exemplo, XX:Locationl e XX:Location2).

Conclusão

Os sistemas e/ ou os métodos descritos aqui podem armazenar um índice global de objetos em um sistema de replicação de dados distribuídos e replicar o índice global e alguns dos objetos ao longo do sistema de replicação de dados distribuídos. Um agrupamento de armazenamento pode ser atribuído como a entidade responsável pela desduplicação dentro de um subconjunto particular do índice global. O agrupamento de armazenamento pode conduzir uma varredura do subconjunto do índice global e identificar as réplicas redundantes com base na varredura. O agrupamento de armazenamento pode desdupli- car as réplicas redundantes localmente armazenadas ou em um agrupamento de armazenamento remoto.

A descrição anterior das implementações fornece a ilustração e a descrição, mas não é entendida ser exaustiva ou limitar a invenção para a forma precisa divulgada. As modificações e as variações são possíveis à luz das técnicas acima ou podem ser adquiridas a partir da prática da invenção.

Por exemplo, em outra implementação, uma versão síncrona do algoritmo de desduplicação pode ser empregada em que diferentes agrupamentos de armazenamento se comunicam diretamente em vez de empregar a camada de replicação dentro de um sistema de replicação de dados distribuídos.

Da mesma forma, ao mesmo tempo em que a série de blocos têm sido descrita com relação às Figuras 6A- 10, a ordem dos blocos pode ser modificada em outras implementações. Além disso, os blocos não dependentes podem ser realizados em paralelo.

Deve ser evidente pelo fato de que as modalidades, como descrito aqui, podem ser implementados em muitas formas diferentes de software, firmware, e hardware nas implementações ilustradas nas figuras. O código de software atual ou hardware de controle especializado empregado para implementar as modalidades descritas aqui não é limitação da invenção. Deste modo, a operação e o procedimento das modalidades foram descritos sem a referência para o código de software específico - sendo compreendido que o software e o hardware de controle podem ser projetados para implementar as modalidades com base na descrição aqui.

Além disso, certas implementações descritas aqui podem ser implementados como “lógico” ou um “componente” que executa uma ou mais funções. Este lógico ou componente pode incluir hardware, tal como, um processador, microprocessador, uma aplicação do circuito integrado específico ou um arranjo de portas programáveis em campo, ou uma combinação de hardware e software (por exemplo, software executador por meio de um processador).

Deve ser enfatizado que o termo “compreende” e/ ou “que compreende”, quando empregado neste Relatório Descritivo, é considerado para especificar a presença das características indicadas, inteiros, etapas, ou componentes, mas não excluem a presença ou a adição de uma ou mais características, inteiros, etapas, componentes, ou grupos destes.

Embora as combinações específicas das características são recitadas nas reivindicações e/ ou divulgadas no Relatório Descritivo, essas combinações não são entendidas limitar a divulgação da invenção. Na verdade, muitas destas características podem ser combinadas de formas não especificamente recitadas nas reivindicações e/ ou divulgadas no Relatório Descritivo.

Nenhuma instrução, elemento ou ato empregado na descrição da presente aplicação deve ser construído como crítico ou essencial para a invenção a não ser que explicitamente descrito como tal. Da mesma forma, como empregado aqui, o artigo “um” é entendido incluir um ou mais itens. Onde apenas um item é entendido, o termo “um” ou linguagem similar é empregada. Além disso, a frase “com base em,” como empregada aqui é entendida significar “com base, pelo menos em parte, em” a não ser que explicitamente indicado em contrário.

Claims

1 - Método de Armazenamento, Varredura e Desduplicação de índices de Objetos em Sistema de Replicação de Dados Distribuídos, realizado por um dispositivo de uma pluralidade de dispositivos num sistema de replicação de dados distribuídos, caracterizado pelo fato de que o método compreende: armazenar (620) um índice de objetos no sistema de replicação de dados distribuídos, sendo o índice replicado ao mesmo tempo em que as réplicas de objetos são localmente armazenadas pela pluralidade de dispositivos no sistema de replicação de dados distribuídos;conduzir uma varredura (700) de pelo menos uma parte do índice;identificar (740) uma réplica redundante de pelo menos um dos objetos baseados na varredura do índice; e desduplicar (750) a réplica redundante escrevendo um registro de desduplicação numa parte do índice.

2 - Método de Armazenamento, Varredura e Desduplicação de índices de Objetos em Sistema de Replicação de Dados Distribuídos, de acordo com a Reivindicação 1, caracterizado pelo fato de que mudanças no índice são replicadas usando uma camada de replicação subjacente do sistema de replicação de dados distribuídos,

3 - Método de Armazenamento, Varredura e Desduplicação de índices de Objetos em Sistema de Replicação de Dados Distribuídos, de acordo com a Reivindicação 1, caracterizado pelo fato de que o dispositivo é o único dispositivo responsável por reduzir réplicas redundantes para objetos dentro de um subconjunto particular do índice.

4 - Método de Armazenamento, Varredura e Desduplicação de índices de Objetos em Sistema de Replicação de Dados Distribuídos, de acordo com a Reivindicação 1, caracterizado pelo fato de que o índice é um índice de conteúdo endereçável incluindo um ponto de apoio de conteúdo para cada Objeto dentro do índice.

5 - Método de Armazenamento, Varredura e Desduplicação de índices de Objetos em Sistema de Replicação de Dados Distribuídos, de acordo com a Reivindicação 4, caracterizado pelo fato de que compreende ainda: escrever (680) um registro de dados ou um registro de pedido de deleção numa parte do índice associado com a ponto de apoio do conteúdo do objeto; e replicar uma parte do índice associada ao ponto de apoio do conteúdo do objeto para um ou mais outros dispositivos da pluralidade de dispositivos.

6 - Método de Armazenamento, Varredura e Desduplicação de índices de Objetos em Sistema de Replicação de Dados Distribuídos, de acordo com a Reivindicação 1, caracterizado pelo fato de que compreende ainda: receber (1010) um pedido para outro objeto incluído no índice; determinar (1020), baseado no índice, um dispositivo selecionado fora da pluralidade de dispositivos a partir dos quais recuperar uma réplica do outro objeto; e recuperar (1040) a réplica do outro objeto do dispositivo selecionado.

7 - Método de Armazenamento, Varredura e Desduplicação de índices de Objetos em Sistema de Replicação de Dados Distribuídos, de acordo com a Reivindicação 1, caracterizado pelo fato de que a identificação da réplica redundante é ainda baseada em critérios para distinguir uma preferência entre duas ou mais réplicas.

8 - Método de Armazenamento, Varredura e Desduplicação de índices de Objetos em Sistema de Replicação de Dados Distribuídos, de acordo com a Reivindicação 1, caracterizado pelo fato de que o índice é armazenado separadamente da réplica dentro do dispositivo.

9 - Dispositivo (120) de uma Pluralidade de Dispositivos em Sistema de Replicação de Dados Distribuídos (140), caracterizado pelo fato de que o dispositivo compreende: meios (350) para armazenar um índice de objetos no sistema de replicação de dados distribuídos; meios para escrever mudanças no índice para designar uma condição de uma réplica de um dos objetos; meios para replicar as mudanças no índice para a pluralidade de dispositivos no sistema de replicação de dados distribuídos; meios (420) para conduzir uma varredura de pelo menos uma parte do índice; meios (420) para identificar uma réplica redundante de um dos objetos baseados na varredura do índice; e meios (420) para desduplicar a réplica redundante.

10 - Dispositivo (120) de Pluralidade de Dispositivos em Sistema de Replicação de Dados Distribuídos, de acordo com a Reivindicação 9, caracterizado pelo fato de que compreende ainda: meios para atualizar o índice para refletir a condição de uma réplica desduplicada.

11 - Sistema de Armazenamento, Varredura e Desduplicação de índices de Objetos (140) em Sistema de Replicação de Dados Distribuídos, caracterizado pelo fato de que compreende: uma memória (330) para armazenar instruções, uma memória de dados (410) de objeto, e um índice (412) dos objetos na memória de dados; e um processador (320) para executar as instruções na memória para: identificar (660) uma condição de um objeto na memória de dados, sendo a condição relativa a se o objeto tem uma réplica e se um pedido de deleção está associado ao objeto, escrever (680) um registro de designação de desduplicação no índice baseado na condição do objeto, replicar (930) o índice com o registro de designação de desduplicação para um ou mais dispositivos, e receber, a partir de um ou mais dispositivos, outros registros de designação de desduplicação associados ao objeto, onde o registro de designação de desduplicação e os outros registros de designação de desduplicação proporcionam uma base para a deleção de uma ou mais réplicas do objeto.

12 - Sistema de Armazenamento, Varredura e Desduplicação de índices de Objetos (140) em Sistema de Replicação de Dados Distribuídos, de acordo com a Reivindicação 11, caracterizado pelo fato de que o registro de designação de desduplicação e os outros registros de designação de desduplicação são permutados usando uma camada de replicação em um ambiente de replicação de dados de mestre múltiplo distribuído.

13 - Sistema de Armazenamento, Varredura e Desduplicação de índices de Objetos (140) em Sistema de Replicação de Dados Distribuídos, de acordo com a Reivindicação 11, caracterizado pelo fato de que o processador é ainda configurado para: conduzir uma varredura (710) de uma parte do índice para identificar réplicas redundantes do objeto.

14 - Sistema de Armazenamento, Varredura e Desduplicação de índices de Objetos (140) em Sistema de Replicação de Dados Distribuídos, de acordo com a Reivindicação 11, caracterizado pelo fato de que o dispositivo é somente responsável pela desduplicação de um subconjunto de objetos dentro do índice.

15 - Sistema de Armazenamento, Varredura e Desduplicação de índices de Objetos (140) em Sistema de Replicação de Dados Distribuídos, de acordo com a Reivindicação 11, caracterizado pelo fato de que o registro de designação de desduplicação compreende: uma identificação de agrupamento (510) para o dispositivo que armazena o objeto; uma identificação de local (520) para o local de armazenamento do objeto dentro do dispositivo; e uma seção de designação (530) para a condição de desduplicação do objeto.

16 - Sistema de Armazenamento, Varredura e Desduplicação de índices de Objetos (140) em Sistema de Replicação de Dados Distribuídos, de acordo com a Reivindicação 15, caracterizado pelo fato de que a seção de designação (530) inclui um dentre: uma designação de dados para indicar uma réplica ao vivo do objeto; uma designação de pedido de deleção para indicar um pedido de deleção em andamento para uma réplica e um designador de desduplicação para indicar uma réplica que foi selecionada para desduplicação.

17 - Método de Armazenamento, Varredura e Desduplicação de índices de Objetos em Sistema de Replicação de Dados Distribuídos, realizado por um ou mais dispositivos, caracterizado pelo fato de que compreende: armazenar (610) um índice de objetos nos dispositivos múltiplos (120) dentro de um sistema de replicação de dados distribuídos (140) e replicar o índice ao longo do sistema de replicação de dados distribuídos ao mesmo tempo em que armazena os objetos localmente, onde cada dispositivo é responsável pela desduplicação dos objetos dentro de um subconjunto particular do índice; conduzir (810) uma varredura de cada um dos subconjuntos do índice para identificar réplicas redundantes com base na varredura; desduplicar (830) as réplicas redundantes; e copiar automaticamente (860) um objeto a partir de um dispositivo com urna réplica tendo um pedido de deleção em andamento para um dispositivo com uma réplica tendo sido previamente desduplicada.

18 - Método de Armazenamento, Varredura e Desduplicação de índices de Objetos em Sistema de Replicação de Dados Distribuídos, de acordo com a Reivindicação 17, caracterizado pelo fato de que compreende ainda: escrever uma mudança numa parte do índice associado a um dos objetos, incluindo a mudança um registro de dados um registro de pedido de deleção ou um registro de desduplicação para uma réplica do objeto.

19 - Método de Armazenamento, Varredura e Desduplicação de índices de Objetos em Sistema de Replicação de Dados Distribuídos, de acordo com a Reivindicação 17, caracterizado pelo fato de que compreende ainda: replicar a mudança no índice usando uma camada de replicação subjacente do sistema de replicação de dados distribuídos.

20 - Método de Armazenamento, Varredura e Desduplicação de índices de Objetos em Sistema de Replicação de Dados Distribuídos, de acordo com a Reivindicação 17, caracterizado pelo fato de que o índice é um índice de conteúdo endereçável incluindo um ponto de apoio de conteúdo para cada objeto dentro do índice.

21 - Memória Legível em Computador, compreendendo instruções executáveis em computador, caracterizada pelo fato de que a memória legível em computador compreende: uma ou mais instruções para conduzir uma varredura (710) de uma parte de um índice de objetos num sistema de replicação de dados distribuídos; uma ou mais instruções para identificar (740) uma réplica redundante de um dos objetos com base na varredura da parte do índice; e uma ou mais instruções para desduplicar (750) a réplica redundante.

22 - Memória Legível em Computador, de acordo com a Reivindicação 21, caracterizada pelo fato de que compreende ainda: uma ou mais instruções para escrever uma mudança numa parte do índice associado à réplica redundante, incluindo a mudança um registro de desduplicação para a réplica redundante.

23 - Memória Legível em Computador, de acordo com a Reivindicação 21, caracterizada pelo fato de que compreende ainda: uma ou mais instruções para receber um pedido para outro objeto incluído no índice; uma ou mais instruções para selecionar, com base no índice, um agrupamento de 5 armazenamento a partir do qual recuperar uma réplica do outro objeto; e uma ou mais instruções para recuperar a réplica do outro objeto a partir do agrupamento de armazenamento selecionado.