ES2439731T3 - Estructura de recuperación de desastres - Google Patents

Estructura de recuperación de desastres Download PDF

Info

Publication number
ES2439731T3
ES2439731T3 ES06734786.4T ES06734786T ES2439731T3 ES 2439731 T3 ES2439731 T3 ES 2439731T3 ES 06734786 T ES06734786 T ES 06734786T ES 2439731 T3 ES2439731 T3 ES 2439731T3
Authority
ES
Spain
Prior art keywords
server
sequence
instruction
orders
computers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES06734786.4T
Other languages
English (en)
Inventor
Alexander Lazen
Phillip J. Brandenberger
Robert S. Adler
Rodney N. Brown
Michael Chung
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Barclays Capital Inc
Original Assignee
Barclays Capital Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Barclays Capital Inc filed Critical Barclays Capital Inc
Application granted granted Critical
Publication of ES2439731T3 publication Critical patent/ES2439731T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component

Abstract

Un sistema que comprende: un servidor primario (172, 174) para una comunicación con una red interna (150) de ordenadores, siendo elservidor primario para ejecutar una aplicación que proporciona un servicio (170) a la red interna (150) deordenadores; un servidor (182, 184) de reserva para una comunicación con la red interna (150) de ordenadores,configurado el servidor de reserva para ejecutar la aplicación; y un servidor (160) de RD para una comunicación con la red interna (150) de ordenadores; caracterizado por: una secuencia de órdenes de paso a unidad sustitutoria almacenada en el servidor (160) de RD, lasecuencia de órdenes de paso a unidad sustitutoria para llevar a cabo una operación de paso a unidadsustitutoria en el servidor (160) de reserva cuando se ejecuta en el servidor (160) de RD, en el que elservidor (160) de RD es operable para transmitir al menos una instrucción de una secuencia de órdenes dela secuencia de órdenes de paso a unidad sustitutoria al servidor (182, 184) de reserva y el servidor (182,184) de reserva es operable para ejecutar el al menos una instrucción de una secuencia de órdenesrecibida procedente del servidor (160) de RD, por lo que la ejecución del al menos una instrucción de unasecuencia de órdenes por medio del servidor (182, 184) de reserva provoca la operación de paso a unidadsustitutoria que va a ser llevada a cabo en el servidor (182, 184) de reserva.

Description

Estructura de recuperación de desastres
Antecedentes de la invención
1. Campo de la invención
La presente invención versa acerca de sistemas y procedimientos para la gestión de servicios en una red de sistemas de ordenador y, más específicamente, acerca de servicios para un intercambio entre el servidor y una unidad de reserva en tales sistemas.
2. Descripción de la técnica relacionada
Una organización requiere a menudo que ciertos servicios que soportan la misión de la organización estén disponibles durante todo el día. Los servicios pueden ser proporcionados a través de aplicaciones que se ejecutan en servidores conectados a la red interna de la organización, tal como, por ejemplo, intranet. La interrupción del servicio puede afectar de forma adversa a la operación de la organización. Se puede utilizar un sistema de servidor redundante para minimizar cualquier interrupción del servicio. Un sistema de servidor redundante incluye un servidor primario y un servidor de reserva, estando ambos configurados para ejecutar la aplicación que suministra el servicio. En una operación normal, el servicio es suministrado por la aplicación y ejecutado en el servidor primario. Si el servicio es interrumpido, el servidor de reserva puede suministrar el servicio iniciando la aplicación en el servidor de reserva. El proceso de intercambio del servidor primario al servidor de reserva se denomina “failover”. El proceso de intercambio entre el servidor primario y de reserva puede automatizarse instalando agentes de software en los servidores primario y de reserva para que ejecute el proceso de “failover” en sus respectivos servidores.
Una organización grande puede tener decenas o cientos de servicios que tienen que tener una disponibilidad elevada y requieren servidores de reserva y procedimientos para ejecutar la conmutación cuando sea requerida. Además, la organización puede utilizar una variedad de servidores y de aplicaciones cada uno de los cuales requiere un procedimiento distinto de parada o de arranque. Por lo tanto, subsiste la necesidad de sistemas y de procedimientos que puedan gestionar operaciones de paso a unidad sustitutoria en la red de la organización desde cualquier punto en la red.
El documento US 2002/0078182 versa acerca de un sistema de paso a unidad sustitutoria que incluye un servidor primario de servicios, un servidor de reserva de servicios, un servidor de configuración, y un servidor de monitorización. Cada uno del servidor primario de servicios y del servidor de reserva de servicios incluye un agente respectivo. El servidor de monitorización proporciona una identificación del servicio al servidor de reserva si determina que un módulo de servicio en el servidor primario de servicios está inactivo. El servidor de reserva implementa una rutina de reserva de servicios en respuesta a la identificación del servicio.
El documento US 2001/0054095 versa acerca de un procedimiento para gestionar componentes conscientes de alta disponibilidad en un sistema de ordenadores en red. El documento US 2001/0054095 define un componente como una encapsulación de un conjunto lógico de funciones llevadas a cabo por medio de soporte lógico, de soporte físico
o ambos. Un componente secundario puede actuar como un repuesto para un componente primario asociado. Un sistema de gestión de papeles de componentes y de tareas puede asignar una tarea al componente secundario.
El documento US 2004/0172574 versa acerca de un sistema de recuperación para soportar la operación de una pluralidad de ordenadores en red. Cuando un servidor falla, un ordenador “receptor” adopta de forma sustancialmente inmediata la identidad y el papel del servidor averiado. El receptor envía un fichero que contiene la identidad del servidor averiado a un terminal. El terminal aplica energía a un servidor de recuperación, haciendo que arranque y se ejecute su fichero de arranque. El fichero de arranque emite una instrucción al terminal, dándole instrucciones de que construya y ejecute un archivo por lotes de su unidad de disco duro. El archivo por lotes ordena que una imagen preparada de antemano del servidor averiado se transmita por una red y se cargue en la unidad de disco duro del servidor de recuperación. El archivo por lotes accede al servidor de recuperación, y arranca el mismo, creando de ese modo un entorno servidor sin ninguna aplicación ejecutándose.
Sumario de la invención
Según la invención, se proporciona: un sistema como se especifica en la reivindicación 1; y un procedimiento como se especifica en la reivindicación 7.
Un sistema y un procedimiento de orquestación de operaciones de paso a unidad sustitutoria de servidores que proporcionan servicios a una red interna de ordenadores incluye un servidor de RD configurado para ejecutar una secuencia de órdenes de control que lleva a cabo una operación de paso a unidad sustitutoria. La información necesaria para llevar a cabo la operación de paso a unidad sustitutoria está almacenada en el servidor de RD, eliminado de esa manera la necesidad de almacenar agentes en cada uno de los servidores primario y de reserva de la aplicación. El servidor de RD puede proporcionar una ubicación centralizada para el mantenimiento y la actualización de los procedimientos de paso a unidad sustitutoria para los servicios redundantes de la red interna. 2 10
Un usuario autorizado en comunicación con la red interna de ordenadores puede iniciar una operación de paso a unidad sustitutoria.
Una realización de la presente invención está dirigida a un sistema que comprende: un servidor primario en comunicación con una red interna de ordenadores, ejecutando el servidor primario una aplicación que proporciona un servicio a la red interna de ordenadores; un servidor de reserva en comunicación con la red interna de ordenadores, siendo capaz el servidor de reserva de ejecutar la aplicación, y estando configurado para ello; un servidor de RD en comunicación con la red interna de ordenadores; y una secuencia de órdenes de paso a unidad sustitutoria almacenada en el servidor de RD, llevando a cabo la secuencia de órdenes de paso a unidad sustitutoria una operación de paso a unidad sustitutoria en el servidor de reserva cuando es ejecutada en el servidor de RD.
Otra realización de la presente invención está dirigida a un procedimiento de orquestación de una operación de paso a unidad sustitutoria desde un servidor de RD en comunicación con una red interna de ordenadores, un servidor primario y un servidor de reserva, configurados el servidor primario y el servidor de reserva para ejecutar una aplicación que proporciona un servicio a la red interna de ordenadores, comprendiendo el procedimiento: recibir una instrucción a través de la red interna de ordenadores procedente de un usuario para llevar a cabo una operación de paso a unidad sustitutoria para la aplicación; recuperar una ficha de seguridad del servidor primario en función del usuario; leer un fichero de configuración almacenado en el servidor de RD, conteniendo el fichero de configuración información para la operación de paso a unidad sustitutoria de la aplicación; y ejecutar una operación de paso a unidad sustitutoria de la aplicación en función de la información leída del fichero de configuración.
Breve descripción de los dibujos
Se describirá la invención por referencia a las realizaciones preferentes y alternativas de la misma junto con los dibujos, en los que:
la Fig. 1 es un diagrama que ilustra una red de ordenadores utilizada en algunas realizaciones de la presente invención; la Fig. 2 es un diagrama de flujo que ilustra una realización de la presente invención; y la Fig. 3 muestra una porción de un fichero de configuración utilizado en algunas realizaciones de la presente invención.
Descripción detallada
Una realización de la presente invención permite la orquestación de una red interna de ordenadores de una organización. Se genera un registro del procedimiento de recuperación y se almacena para una revisión posterior del estado del procedimiento de recuperación. Preferentemente, la operación de recuperación es orquestada por medio de una secuencia de órdenes de control que contiene subrutinas que ejecutan porciones del procedimiento de recuperación en un servidor de destino. Se puede almacenar en un fichero de configuración información específica del destino para el procedimiento de recuperación. La secuencia de órdenes de control puede ser activada por medio de una interfaz de línea de instrucciones o por medio de una interfaz de páginas electrónicas a la que se accede a través de la red interna de ordenadores de la organización. Las realizaciones de la presente invención no requieren la modificación de las aplicaciones que proporcionan el servicio o la instalación de agentes en los servidores de destino.
La Fig. 1 es un diagrama que ilustra una red de ordenadores utilizada en algunas realizaciones de la presente invención. En una realización preferente, un ordenador externo 115 puede acceder a la red 120 de ordenadores de una organización por medio de una red externa 110 de comunicaciones, tal como, por ejemplo, la Internet. Un servidor 130 de pasarela proporciona un puente entre la red externa 110 y la red interna 150 de ordenadores de la organización. En una realización preferente, la red interna 150 de ordenadores es una intranet. El servidor 130 de pasarela también proporciona seguridad a la red 120 de ordenadores al evitar un acceso no autorizado a la red 120. La estructura y la operación de las redes de ordenadores son conocidas y descritas en numerosas publicaciones tales como, por ejemplo, Craig Zacker, Networking: The Complete Reference, The McGraw-Hill Companies, Berkeley, California, EE. UU. (2001).
Los usuarios pueden acceder a los recursos y a los servicios de la red 120 de ordenadores a través de un ordenador 140 que está conectado directamente a la intranet 150 o a través del ordenador externo 115 por medio de la Internet
110. Se proporcionan servicios por medio de aplicaciones que se ejecutan en uno o más servidores. En el ejemplo ilustrativo de la Fig. 1, se proporciona un servicio 170 por medio de los servidores primarios 172 y 174. Cada servidor primario 172 y 174 puede ejecutar una porción de una aplicación que proporciona el servicio 170. La organización puede considerar al servicio 170 suficientemente importante como para proporcionar servidores 182 y 184 de reserva que son capaces de proporcionar el servicio si se interrumpe el servicio desde los servidores primarios. En algunas realizaciones, la ubicación de los servidores 182 y 184 de reserva se encuentra en una región geográfica distinta y es denominada, normalmente, un sitio 180 de paso a unidad sustitutoria.
En general, el procedimiento de conmutación de servidores que proporcionan un servicio es denominado procedimiento de paso a unidad sustitutoria. En algunas realizaciones de la presente invención, el procedimiento de
paso a unidad sustitutoria puede incluir tres tipos de operaciones de paso a unidad sustitutoria cada uno de los cuales cubre una posible situación de desastre.
En una primera situación, denominada en el presente documento una migración, tanto el sitio primario como el paso a unidad sustitutoria están disponibles y se conmuta el servicio del sitio primario al sitio de paso a unidad sustitutoria. Durante la operación de migración, primero se para la aplicación que proporciona el servicio en el sitio primario, seguido de una copia de cualquier dato necesario antes de que se arranque la aplicación en el sitio de paso a unidad sustitutoria.
En una segunda situación, denominada en el presente documento toma de control, el sitio primario no está disponible, evitando de ese modo una parada ordenada de la aplicación en el sitio primario o la copia de cualquier dato necesario para el sitio de paso a unidad sustitutoria. El sitio primario puede dejar de estar disponible por diversas razones, tales como, por ejemplo, una pérdida de energía en el sitio primario, la interrupción de un enlace de comunicaciones entre el sitio primario y la intranet de la organización, o un daño físico a los servidores o los dispositivos de almacenamiento de datos en el sitio primario. Durante la operación de toma de control, se arranca la aplicación en el sitio de paso a unidad sustitutoria.
En una tercera situación, denominada en el presente documento un paso a unidad sustitutoria, el servicio está siendo proporcionado por el sitio de paso a unidad sustitutoria y se vuelve a conmutar el servicio al sitio primario. Durante la operación de paso a unidad sustitutoria, primero se para la aplicación que proporciona el servicio en el sitio de paso a unidad sustitutoria, seguido de un replicación de cualquier dato necesario antes de que se arranque la aplicación en el sitio primario.
La autorización para iniciar un paso a unidad sustitutoria es controlada estrechamente y normalmente solo se otorga a algunos administradores autorizados. Cuando uno de los administradores autorizados determina que es necesario un paso a unidad sustitutoria, introduce las instrucciones necesarias para lograr el procedimiento de paso a unidad sustitutoria. Para reducir los errores, la serie de instrucciones está impresa en un manual de recuperación de desastres que es accesible al administrador autorizado. La operación de paso a unidad sustitutoria puede requerir que el administrador autorizado se identifique en varios servidores distintos para completar la operación de paso a unidad sustitutoria. Por ejemplo, además de identificarse en los servidores primario y de reserva, el administrador autorizado también puede requerir el acceso a un servidor que gestiona el servicio de nombres de dominio (DNS) para la red de ordenadores de la organización y a un servidor que gestiona una red de área de almacenamiento (SAN) para la red de ordenadores de la organización.
En una realización preferente, se almacena la serie de instrucciones como una secuencia de órdenes en un servidor 160 de RD. Preferentemente, el servidor 160 de RD almacena una secuencia de órdenes de paso a unidad sustitutoria para cada servicio que tiene un sitio de paso a unidad sustitutoria. En algunas realizaciones, el servidor 160 de RD puede actuar como un depósito central para secuencias de órdenes de recuperación para una región, permitiendo de ese modo un mantenimiento y actualizaciones más sencillos de las secuencias de órdenes de recuperación.
La Fig. 2 es un diagrama de flujo que ilustra el procedimiento de paso a unidad sustitutoria. En una realización preferente, una secuencia de órdenes de control gestiona el procedimiento de paso a unidad sustitutoria y llama a otras secuencias de órdenes o subrutinas que ejecutan procedimientos específicos del destino en el servidor de destino. Después de que el administrador autorizado activa la secuencia de órdenes de control, la etapa 210 realiza una comprobación para confirmar que la secuencia de órdenes está ejecutándose como el usuario debido en el ordenador central o servidor de destino debido. En algunas realizaciones, solo se permite que combinaciones específicas de usuario/ordenador central ejecuten el procedimiento de paso a unidad sustitutoria. Si la combinación de usuario/ordenador central es inválida, la secuencia de órdenes termina, registra el resultado en un archivo de registros, y representa visualmente el resultado al administrador autorizado. Si la combinación de usuario/ordenador central es válida, la secuencia de órdenes comprueba la validez de cualquier argumento u opción especificados con la invocación de la secuencia de órdenes de control. Por ejemplo, se puede especificar una opción de acción cuando se inicia la secuencia de órdenes de control. La opción de acción identifica la operación que va a ser llevada a cabo por la secuencia de órdenes de control y, por lo tanto, debería especificar una operación válida. La secuencia de órdenes de control confirma que la opción de acción especifica una de las operaciones válidas en la etapa 210. Si la opción de acción es inválida, la secuencia de órdenes termina, registra los resultados en un archivo de registros y representa visualmente el resultado al administrador autorizado.
En la etapa 220, se lee y verifica un fichero de configuración para la aplicación. Se verifica el fichero de configuración al comparar el fichero de configuración con un fichero de plantilla que refleja las reglas para datos válidos de configuración. Si el fichero de configuración contiene datos inválidos, la secuencia de órdenes termina, registra el resultado en un archivo de registros, y representa visualmente el resultado al administrador autorizado.
Si el fichero de configuración contiene datos válidos, se lleva a cabo un procedimiento de autentificación y de autorización en la etapa 230 antes de que se ejecuten las instrucciones de la secuencia de órdenes de control en el ordenador central de destino. La autentificación y la autorización pueden seguir cualquiera de los procedimientos conocidos de seguridad para redes. En una realización preferente, la autentificación y la autorización son logradas 4 10
utilizando un protocolo Kerberos descrito en el documento RFC 1510 disponible en http://www.freesoft.org/CIE/RFC/1510/ (septiembre de 1993). Se almacena una ficha Kerberos para la aplicación que proporciona el servicio en el servidor de RD para cada usuario autorizado. Cada servidor primario y de reserva almacena un fichero que contiene una lista de fichas Kerberos que serán aceptadas. Cada ficha Kerberos solo permite que la combinación específica de usuario/ordenador central/aplicación establezca un canal seguro con el ordenador central de destino.
Una vez se ha establecido el canal seguro entre el ordenador central de destino y el servidor de RD, el servidor de RD transmite una instrucción de una secuencia de órdenes al ordenador central de destino para ser ejecutado en el ordenador central de destino en la etapa 240. El ordenador central de destino devuelve una señal al servidor de RD que indica un estado de la instrucción ejecutada, es decir, si se ejecutó con éxito o falló la instrucción de una secuencia de órdenes. El servidor de RD comprueba la señal devuelta en la etapa 250. Si la señal devuelta indica una ejecución con éxito de la instrucción, el servidor de RD determina si la instrucción ejecutada fue la última instrucción en la secuencia de órdenes en la etapa 255. Si la instrucción ejecutada es la última instrucción, el servidor de RD registra el resultado, representa visualmente el resultado al usuario, y termina la secuencia de órdenes. Si la instrucción ejecutada no es la última instrucción, la secuencia de órdenes vuelve a la etapa 240 para ejecutar la siguiente instrucción de una secuencia de órdenes.
Si la señal devuelta indica una ejecución sin éxito de la instrucción, el servidor de RD analiza una opción enCasoDeFallo asociada con la instrucción en la etapa 260. Si la opción enCasoDeFallo está puesta a MORIR, el servidor de RD escribe un mensaje de error en el archivo de registros en la etapa 280, representa visualmente el mensaje de error al usuario, y termina la secuencia de órdenes en la etapa 290. Si la opción enCasoDeFallo está puesta a AVISAR, el servidor de RD escribe un mensaje de error en el archivo de registros en la etapa 290 y vuelve a la etapa 240 para ejecutar la siguiente instrucción de una secuencia de órdenes. Si la opción enCasoDeFallo está puesta a REINTENTAR, el servidor de RD vuelve a ejecutar la instrucción en la etapa 265 antes de volver a la etapa 250 para determinar si la instrucción ejecutada de nuevo fue ejecutada con éxito. La bandera REINTENTAR puede estar seguida por un número de repeticiones y por una bandera MORIR o AVISAR. Por ejemplo, si enCasoDeFallo = REINTENTAR, 2 MORIR, el servidor de RD volverá a enviar la instrucción al ordenador central de destino para una nueva ejecución dos veces y si la instrucción sigue sin tener éxito después del segundo reintento, el servidor de RD regresará según la bandera MORIR.
La Fig. 3 muestra una porción de un fichero de configuración que puede ser utilizado en algunas realizaciones de la presente invención. En una realización preferente, el fichero de configuración es un fichero de texto plano en un formato clave-valor que contiene un destino 312, una clave 314 y un valor emparejado 316. Cada destino contiene una clave para enCasoDeFallo que describe una acción que se debe adoptar si falla la subrutina para el destino. En la FIG. 3, se muestra un destino 350 MIGRAR con claves de número entero que se corresponden con una etapa de una secuencia de órdenes que es ejecutada cuando se selecciona la operación de migración para el procedimiento de paso a unidad sustitutoria. En el ejemplo mostrado en la Fig. 3, suponiendo que el administrador autorizado ha seleccionado la operación de migración y después de que se ha establecido un canal seguro, el servidor de RD ejecuta la primera instrucción de una secuencia de órdenes en el destino MIGRAR, que en este ejemplo es cnombre -> borrar (CNOMBRE1). El módulo cnombre requiere cinco parámetros que identifican el ordenador central primario, el ordenador central de paso a unidad sustitutoria, un seudónimo, un nombre de usuario, y una contraseña. En el ejemplo mostrado en la Fig. 3, las etapas 1 – 4 conmutan los nombres de seudónimos entre el servidor primario y el servidor de paso a unidad sustitutoria al borrar primero el seudónimo de los servidores primario y de paso a unidad sustitutoria (etapas 1 – 2) y al añadir el nuevo seudónimo a los servidores primario y de paso a unidad sustitutoria (etapas 3 – 4). El nombre de usuario y la contraseña especificados en CNOMBRE1 310 y CNOMBRE2 320 permiten que el administrador autorizado se identifique en el servidor DNS de la organización que gestiona los nombres de dominio para los servidores de la organización. Tanto CNOMBRE1 310 como CNOMBRE2 320 especifican que enCasoDeFallo = AVISAR, que es utilizado por la secuencia de órdenes de control para determinar una acción si no se ejecuta con éxito la instrucción.
En la etapa 5, el servidor de RD envía una instrucción al servidor primario para desmontar el directorio del sistema de archivos de la aplicación y en la etapa 6, el servidor de RD envía una instrucción al servidor primario para exportar el grupo de discos de la aplicación. En la etapa 7, el servidor de RD ejecuta la instrucción, srdf -> paso a unidad sustitutoria (SRDF) que conmuta el estado del almacenamiento primario y secundario para permitir que se monte el almacenamiento secundario para el ordenador central de paso a unidad sustitutoria. El módulo srdf utiliza dos parámetros que están definidos en el módulo SRDF 330 que identifica un ordenador central portero que gestiona los dispositivos de almacenamiento primario y de paso a unidad sustitutoria y define los dispositivos específicos de almacenamiento que son conmutados. Las instrucciones particulares en el módulo srdf dependen del gestor de SAN utilizado para controlar los dispositivos de almacenamiento primario y de paso a unidad sustitutoria. En la etapa 6, el servidor de RD envía una instrucción al servidor de paso a unidad sustitutoria para portar el grupo de discos de la aplicación en el servidor de paso a unidad sustitutoria. En la etapa 7, el servidor de RD envía una instrucción al servidor de paso a unidad sustitutoria para montar el sistema de archivos de la aplicación en el servidor de paso a unidad sustitutoria.
Habiendo descrito de esta manera al menos realizaciones ilustrativas de la invención, a los expertos en la técnica se les ocurrirán diversas modificaciones y mejoras y se pretende que se encuentren dentro del ámbito de la invención. En consecuencia, la anterior descripción es únicamente a título de ejemplo y no se pretende que sea limitante. La invención solo está limitada como se define en las siguientes reivindicaciones.

Claims (12)

  1. REIVINDICACIONES
    1. Un sistema que comprende:
    un servidor primario (172, 174) para una comunicación con una red interna (150) de ordenadores, siendo el servidor primario para ejecutar una aplicación que proporciona un servicio (170) a la red interna (150) de
    5 ordenadores; un servidor (182, 184) de reserva para una comunicación con la red interna (150) de ordenadores, configurado el servidor de reserva para ejecutar la aplicación; y un servidor (160) de RD para una comunicación con la red interna (150) de ordenadores;
    caracterizado por:
    10 una secuencia de órdenes de paso a unidad sustitutoria almacenada en el servidor (160) de RD, la secuencia de órdenes de paso a unidad sustitutoria para llevar a cabo una operación de paso a unidad sustitutoria en el servidor (160) de reserva cuando se ejecuta en el servidor (160) de RD, en el que el servidor (160) de RD es operable para transmitir al menos una instrucción de una secuencia de órdenes de la secuencia de órdenes de paso a unidad sustitutoria al servidor (182, 184) de reserva y el servidor (182,
    15 184) de reserva es operable para ejecutar el al menos una instrucción de una secuencia de órdenes recibida procedente del servidor (160) de RD, por lo que la ejecución del al menos una instrucción de una secuencia de órdenes por medio del servidor (182, 184) de reserva provoca la operación de paso a unidad sustitutoria que va a ser llevada a cabo en el servidor (182, 184) de reserva.
  2. 2. El sistema de la reivindicación 1, en el que la red interna (150) de ordenadores es una intranet.
    20 3. El sistema de la reivindicación 1, en el que la operación de paso a unidad sustitutoria comprende una migración del servicio desde el servidor primario (172, 174) hasta el servidor (182, 184) de reserva.
  3. 4. El sistema de la reivindicación 1, en el que la operación de paso a unidad sustitutoria comprende una toma de control del servicio por medio del servidor (182, 184) de reserva.
  4. 5. El sistema de la reivindicación 1, en el que la operación de paso a unidad sustitutoria comprende una vuelta del 25 servicio del servidor (182, 184) de reserva al servidor primario (172, 174).
  5. 6.
    El sistema de la reivindicación 1, en el que se inicia la secuencia de órdenes de paso a unidad sustitutoria para comenzar la ejecución en el servidor (160) de RD desde el ordenador (115, 140) en comunicación con la red interna (150) de ordenadores.
  6. 7.
    Un procedimiento de orquestación de una operación de paso a unidad sustitutoria desde un servidor (160) de
    30 RD en comunicación con una red interna (150) de ordenadores, un servidor primario (172, 174) y un servidor (182, 184) de reserva, configurados el servidor primario (172, 174) y el servidor (182, 184) de reserva para ejecutar una aplicación que proporciona un servicio (170) a la red interna (150) de ordenadores,
    caracterizado porque el servidor (160) de RD almacena una secuencia de órdenes de paso a unidad sustitutoria que comprende al menos una instrucción de una secuencia de órdenes, y caracterizado,
    35 además, porque el procedimiento comprende: transmitir al menos una instrucción de una secuencia de órdenes desde el servidor (160) de RD hasta el servidor (182, 184) de reserva; y ejecutar el al menos una instrucción de una secuencia de órdenes recibida desde el servidor (160) de RD en el servidor (182, 184) de reserva, por lo que la ejecución del al menos una instrucción de una secuencia
    40 de órdenes por medio del servidor (182, 184) de reserva provoca que se lleve a cabo la operación de paso a unidad sustitutoria en el servidor (182, 184) de reserva.
  7. 8. El procedimiento de la reivindicación 7, que comprende, además:
    recibir una instrucción a través de la red interna (150) de ordenadores procedente de un usuario para llevar a cabo una operación de paso a unidad sustitutoria para la aplicación;
    45 recuperar una ficha de seguridad del servidor primario (172, 174) en función del usuario; leer un fichero de configuración almacenado en el servidor (160) de RD, conteniendo el fichero de configuración información para la operación de paso a unidad sustitutoria para la aplicación; y ejecutar la operación de paso a unidad sustitutoria para la aplicación en función de la información leída del fichero de configuración.
    50 9. El procedimiento de la reivindicación 8, en el que la etapa de ejecución de la operación de paso a unidad sustitutoria comprende, además:
    identificarse en un servidor DNS que proporciona un servicio de nombres de dominio a la red interna (150) de ordenadores; y conmutar un seudónimo DNS del servidor primario (172, 174) con un seudónimo DNS del servidor (182, 184) de reserva.
  8. 10. El procedimiento de la reivindicación 8, en el que la etapa de ejecución de la operación de paso a unidad sustitutoria comprende, además:
    5 identificarse en un ordenador central portero que proporciona un servicio de gestión de la red de área de almacenamiento a la red interna (150) de ordenadores; y conmutar un estado de un almacenamiento primario con un estado de un almacenamiento secundario, habilitando de ese modo el montaje del almacenamiento secundario para el servidor (182, 184) de reserva.
  9. 11. El procedimiento de la reivindicación 8, en el que la etapa de ejecución de la operación de paso a unidad
    10 sustitutoria comprende, además, ejecutar una instrucción de una secuencia de órdenes del fichero de configuración.
  10. 12. El procedimiento de la reivindicación 11, en el que la etapa de ejecución de la operación de paso a unidad sustitutoria comprende, además:
    recibir una señal de retorno que indica un estado de la instrucción de una secuencia de órdenes ejecutada; 15 registrar el estado en un fichero de registros; y representar visualmente el estado al usuario.
  11. 13.
    El procedimiento de la reivindicación 12, en el que se vuelve a ejecutar la instrucción de una secuencia de órdenes si el estado de la instrucción de una secuencia de órdenes ejecutada indica un fallo.
  12. 14.
    El procedimiento de la reivindicación 12, en el que si el estado de la instrucción de una secuencia de órdenes
    20 ejecutada indica un fallo, se ejecuta una siguiente instrucción de una secuencia de órdenes del fichero de configuración.
ES06734786.4T 2005-02-23 2006-02-10 Estructura de recuperación de desastres Active ES2439731T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US63492 1998-04-20
US11/063,492 US8572431B2 (en) 2005-02-23 2005-02-23 Disaster recovery framework
PCT/US2006/004806 WO2006091400A2 (en) 2005-02-23 2006-02-10 Disaster recovery framework

Publications (1)

Publication Number Publication Date
ES2439731T3 true ES2439731T3 (es) 2014-01-24

Family

ID=36914246

Family Applications (1)

Application Number Title Priority Date Filing Date
ES06734786.4T Active ES2439731T3 (es) 2005-02-23 2006-02-10 Estructura de recuperación de desastres

Country Status (6)

Country Link
US (2) US8572431B2 (es)
EP (1) EP1851632B1 (es)
JP (1) JP2008537203A (es)
ES (1) ES2439731T3 (es)
HK (1) HK1111238A1 (es)
WO (1) WO2006091400A2 (es)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7447940B2 (en) * 2005-11-15 2008-11-04 Bea Systems, Inc. System and method for providing singleton services in a cluster
WO2007061440A2 (en) * 2005-11-15 2007-05-31 Bea Systems, Inc. System and method for providing singleton services in a cluster
US7702947B2 (en) * 2005-11-29 2010-04-20 Bea Systems, Inc. System and method for enabling site failover in an application server environment
US8799446B2 (en) * 2006-08-18 2014-08-05 Microsoft Corporation Service resiliency within on-premise products
JP4819644B2 (ja) * 2006-10-12 2011-11-24 株式会社日立製作所 情報処理システム、情報処理方法、情報処理装置
US8554981B2 (en) 2007-02-02 2013-10-08 Vmware, Inc. High availability virtual machine cluster
JP4727614B2 (ja) * 2007-03-30 2011-07-20 シャープ株式会社 画像処理装置、制御プログラム、コンピュータ読み取り可能な記録媒体、電子機器及び画像処理装置の制御方法
US8276208B2 (en) * 2007-12-31 2012-09-25 Intel Corporation Security-level enforcement in virtual-machine fail-over
US8930497B1 (en) * 2008-10-31 2015-01-06 Netapp, Inc. Centralized execution of snapshot backups in a distributed application environment
US8266433B1 (en) * 2009-04-30 2012-09-11 Netapp, Inc. Method and system for automatically migrating encryption keys between key managers in a network storage system
JP5016696B2 (ja) * 2010-03-05 2012-09-05 日本電信電話株式会社 高可用性システム、サーバ、高可用性維持方法及びプログラム
US8751878B1 (en) * 2010-03-30 2014-06-10 Emc Corporation Automatic failover during online data migration
US8438418B2 (en) * 2010-06-30 2013-05-07 Oracle International Corporation Simplifying automated software maintenance of data centers
JP5280587B2 (ja) * 2010-11-30 2013-09-04 独立行政法人科学技術振興機構 ディペンダビリティ維持システム、変化対応サイクル実行装置、障害対応サイクル実行装置、ディペンダビリティ維持システムの制御方法、制御プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体
US10581763B2 (en) 2012-09-21 2020-03-03 Avago Technologies International Sales Pte. Limited High availability application messaging layer
US9967106B2 (en) 2012-09-24 2018-05-08 Brocade Communications Systems LLC Role based multicast messaging infrastructure
US9092395B2 (en) 2012-12-20 2015-07-28 International Business Machines Corporation Provide an appliance like test vehicle for IT disaster recovery
US9225595B2 (en) * 2013-06-28 2015-12-29 Arista Networks, Inc. Method and system for zero touch replacement of network infrastructure
US9317380B2 (en) * 2014-05-02 2016-04-19 International Business Machines Corporation Preserving management services with self-contained metadata through the disaster recovery life cycle
US9846624B2 (en) * 2014-09-26 2017-12-19 Microsoft Technology Licensing, Llc Fast single-master failover
US9619349B2 (en) * 2014-10-14 2017-04-11 Brocade Communications Systems, Inc. Biasing active-standby determination
KR102264992B1 (ko) 2014-12-31 2021-06-15 삼성전자 주식회사 무선 통신 시스템에서 서버 할당 방법 및 장치
US9519553B2 (en) 2014-12-31 2016-12-13 Servicenow, Inc. Failure resistant distributed computing system
US10185637B2 (en) 2015-02-16 2019-01-22 International Business Machines Corporation Preserving management services with distributed metadata through the disaster recovery life cycle
US11223537B1 (en) * 2016-08-17 2022-01-11 Veritas Technologies Llc Executing custom scripts from the host during disaster recovery
US10270654B2 (en) 2016-08-19 2019-04-23 Bank Of America Corporation System for increasing computing efficiency of communication between applications running on networked machines
US10459811B2 (en) 2016-08-19 2019-10-29 Bank Of America Corporation System for increasing intra-application processing efficiency by transmitting failed processing work over a processing recovery network for resolution
US10180881B2 (en) 2016-08-19 2019-01-15 Bank Of America Corporation System for increasing inter-application processing efficiency by transmitting failed processing work over a processing recovery network for resolution
DE102016225424A1 (de) * 2016-12-19 2018-06-21 Siemens Aktiengesellschaft Eisenbahnanlage sowie Verfahren zu deren Betrieb
US10705831B2 (en) 2017-07-20 2020-07-07 Vmware, Inc. Maintaining unallocated hosts of a pre-configured hyper-converged computing device at a baseline operating system version
US10838776B2 (en) 2017-07-20 2020-11-17 Vmware, Inc. Provisioning a host of a workload domain of a pre-configured hyper-converged computing device
US10705830B2 (en) 2017-07-20 2020-07-07 Vmware, Inc. Managing hosts of a pre-configured hyper-converged computing device
US10416986B2 (en) * 2017-07-20 2019-09-17 Vmware, Inc. Automating application updates in a virtual computing environment
US10977274B2 (en) 2017-10-05 2021-04-13 Sungard Availability Services, Lp Unified replication and recovery
US11847479B2 (en) 2018-03-23 2023-12-19 Vmware, Inc. Allocating a host of a pre-configured hyper-converged computing device to a workload domain
US10769174B2 (en) 2018-05-31 2020-09-08 International Business Machines Corporation Site-consolidated disaster-recovery with synchronous-to-asynchronous traffic conversion
US10776394B2 (en) 2018-05-31 2020-09-15 International Business Machines Corporation Synchronous site-consolidated data backup with synchronous-to-asynchronous traffic conversion
US11748206B2 (en) 2019-08-28 2023-09-05 International Business Machines Corporation Data recovery modification based on performance data exhibited by a network of data centers and data recovery requirement
US10802868B1 (en) 2020-01-02 2020-10-13 International Business Machines Corporation Management of transactions from a source node to a target node through intermediary nodes in a replication environment
WO2022096100A1 (en) * 2020-11-05 2022-05-12 Telefonaktiebolaget Lm Ericsson (Publ) Methods and apparatuses for providing a back-up service
US11347601B1 (en) * 2021-01-28 2022-05-31 Wells Fargo Bank, N.A. Managing data center failure events
US11762743B2 (en) * 2021-06-28 2023-09-19 International Business Machines Corporation Transferring task data between edge devices in edge computing

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3885896D1 (de) * 1988-09-12 1994-01-05 Siemens Ag Einrichtung zum Betrieb eines redundanten Mehrrechnersystems für die Steuerung eines elektronischen Stellwerkes in der Eisenbahnsignaltechnik.
US5938732A (en) * 1996-12-09 1999-08-17 Sun Microsystems, Inc. Load balancing and failover of network services
US5951695A (en) * 1997-07-25 1999-09-14 Hewlett-Packard Company Fast database failover
US6477663B1 (en) * 1998-04-09 2002-11-05 Compaq Computer Corporation Method and apparatus for providing process pair protection for complex applications
US6144999A (en) * 1998-05-29 2000-11-07 Sun Microsystems, Incorporated Method and apparatus for file system disaster recovery
DE69927223T2 (de) 1998-09-08 2006-07-13 Fujitsu Services Ltd. Ausfallsicherheit eines Mehrrechnersystems
US20020138389A1 (en) * 2000-02-14 2002-09-26 Martone Brian Joseph Browser interface and network based financial service system
AU2001257484A1 (en) * 2000-05-02 2001-11-12 Sun Microsystems, Inc. Method and system for managing high-availability-aware components in a networked computer system
JP2003533812A (ja) * 2000-05-17 2003-11-11 インターウォーヴェン インコーポレイテッド コンピュータ・ネットワークにおいてデータを自動的にディプロイし、および同時にコンピュータ・プログラム・スクリプトを実行するための方法および装置
US20020078182A1 (en) * 2000-12-15 2002-06-20 International Business Machines Corporation Failover service method and system
WO2002065309A1 (en) * 2001-02-13 2002-08-22 Candera, Inc. System and method for policy based storage provisioning and management
JP2002247619A (ja) 2001-02-19 2002-08-30 Nippon Telegr & Teleph Corp <Ntt> コールデータ引き継ぎ装置
GB0112781D0 (en) * 2001-05-25 2001-07-18 Global Continuity Plc Method for rapid recovery from a network file server failure
JP3883452B2 (ja) * 2002-03-04 2007-02-21 富士通株式会社 通信システム
JP2004032103A (ja) 2002-06-21 2004-01-29 Ntt Docomo Tokai Inc ネットワークシステム及びサーバ切り替え方法
US7260737B1 (en) * 2003-04-23 2007-08-21 Network Appliance, Inc. System and method for transport-level failover of FCP devices in a cluster
US20050215128A1 (en) * 2004-03-10 2005-09-29 Intel Corporation Remote device probing for failure detection
US7523341B2 (en) * 2004-05-13 2009-04-21 International Business Machines Corporation Methods, apparatus and computer programs for recovery from failures in a computing environment
US7383405B2 (en) * 2004-06-30 2008-06-03 Microsoft Corporation Systems and methods for voluntary migration of a virtual machine between hosts with common storage connectivity
EP1719056A4 (en) * 2004-08-26 2009-04-08 Availigent Inc METHOD AND SYSTEM FOR PROVIDING HIGH AVAILABILITY TO COMPUTING APPLICATIONS

Also Published As

Publication number Publication date
EP1851632B1 (en) 2013-10-02
US20140040658A1 (en) 2014-02-06
EP1851632A4 (en) 2012-07-11
WO2006091400A3 (en) 2009-04-16
US20060190766A1 (en) 2006-08-24
JP2008537203A (ja) 2008-09-11
US8572431B2 (en) 2013-10-29
HK1111238A1 (en) 2008-08-01
EP1851632A2 (en) 2007-11-07
WO2006091400A2 (en) 2006-08-31

Similar Documents

Publication Publication Date Title
ES2439731T3 (es) Estructura de recuperación de desastres
US11693746B2 (en) Systems and methods for enabling a highly available managed failover service
US9563682B2 (en) System and method for supporting configuration daemon (CD) in a network environment
EP1370945B1 (en) Failover processing in a storage system
US7730180B1 (en) Resolving multiple master node conflict in a DDB
US6119244A (en) Coordinating persistent status information with multiple file servers
US8069229B2 (en) Topology static zones
JP2006500693A (ja) 動的rdfグループ
RU2425414C2 (ru) Автоматизированная миграция состояния при развертывании операционной системы
CN101232375A (zh) 单点登录系统、信息终端设备、单点登记服务器及方法
US8700575B1 (en) System and method for initializing a network attached storage system for disaster recovery
CN101137993A (zh) 网络系统、对存储装置的访问控制方法、管理服务器、存储装置、登录控制方法、网络引导系统及单位存储单元的访问方法
US11405222B2 (en) Methods and systems for enrolling device identifiers (DEVIDs) on redundant hardware
JP5733387B2 (ja) 管理装置、管理プログラムおよび管理方法
JP2016200961A (ja) サーバー障害監視システム
US20220329435A1 (en) METHODS AND SYSTEMS FOR ENROLLING DEVICE IDENTIFIERS (DEVIDs) ON REDUNDANT HARDWARE
Bell et al. InnoDB Cluster Administration
Headquarters et al. Brocade Communications Systems, Incorporated
JP2006059273A (ja) コンピュータプログラム