FR2925722A1

FR2925722A1 - Computer network, has archiving server whose file collection agent does not transfers data of source server in collected file, if search result represents presence of data corresponding to calculated code in mass memory of archiving server

Info

Publication number: FR2925722A1
Application number: FR0708952A
Authority: FR
Inventors: Jean Pierre Adi; Nicolas Froment; Christophe Graulle; Francois Christophe Jean; Fernando Moreira; Abadie Andre Pouget; Jerome Trescazes
Original assignee: HI STOR TECHNOLOGIES SA
Current assignee: HI STOR TECHNOLOGIES SA
Priority date: 2007-12-20
Filing date: 2007-12-20
Publication date: 2009-06-26

Abstract

The network has a source server (2) e.g. computer system, with a file collection agent (8), and an archiving server (5) comprising an archiving management module (9) for permitting archiving of files on a mass memory (3) e.g. magnetic hard disc. A communication connection system (1) exchanges information between the servers. The agent does not transfers data of the source server contained in a collected file and corresponds to a calculated digital code, if search result carried out by the module represents presence of data corresponding to the calculated digital code in the mass memory. The communication connection system is constituted by a wired connection system or radiofrequency connection system.

Description

RÉSEAU INFORMATIQUE DOTÉ D'UN ARCHIVAGE AUTOMATIQUE DE FICHIERS L'invention concerne un réseau informatique doté de fonctions avancées d'archivage automatique de fichiers. The invention relates to a computer network with advanced functions of automatic file archiving.

Dans tout le texte, le terme fichiers désigne des fichiers tels que mémorisés en mémoire de masse et susceptibles d'être gérés comme tels par au moins un système d'exploitation et de gestion de fichiers ( OS ) de dispositif informatique. Un fichier est désigné par un identificateur unique (nom du fichier) permettant d'accéder aux données de ce fichier mémorisées en mémoire de masse. Un fichier inclut un ensemble de données utiles pour au moins un dispositif informatique et/ou au moins un utilisateur, constituant un contenu de ce fichier. Sauf indication contraire, le terme données utilisé en référence à un fichier, désigne des données de contenu d'un fichier. L'archivage de fichiers vise pour l'essentiel à mémoriser en mémoire de masse spécifique les données de contenu de fichiers. Par ailleurs, de façon connue en soi, certaines données, dites métadonnées, sont descriptives de fichiers, de certaines de ses propriétés et/ou de tout ou partie de son contenu. Les métadonnées de fichiers peuvent être une partie du contenu de ce dernier, tout ou partie du contenu d'un autre fichier, ou générées de façon dynamique par un traitement logiciel -notamment par un système d'exploitation- à partir du fichier considéré. De façon générale, l'invention concerne un réseau informatique comprenant : - au moins un serveur de fichiers, dit serveur source, 25 doté d'au moins un agent de collecte de fichiers à archiver, û au moins un serveur d'archivage adapté pour permettre l'archivage de fichiers sur au moins une mémoire de masse associée à ce serveur d'archivage, û et au moins une liaison numérique de réseau adaptée pour permettre l'échange d'informations numériques entre les serveurs. On connaît déjà (cf. par exemple US 2004/0236801) de tels réseaux informatiques dans lesquels : û le serveur d'archivage est doté d'au moins un agent de gestion d'archivage adapté pour pouvoir émettre une commande de déclenchement de collecte à destination d'un agent de collecte d'un serveur source, cette commande de déclenchement incorporant des données représentatives de critères de collecte prédéterminés, - ledit agent de collecte est adapté pour exécuter sur le serveur source une recherche de fichiers correspondant aux critères de collecte d'une commande reçue de l'agent de gestion d'archivage. Ces réseaux informatiques, et les systèmes d'archivage connus qu'ils comprennent, présentent plusieurs séries d'inconvénients. Tout d'abord, ils nécessitent l'établissement d'une liaison numérique performante, c'est-à-dire de bande passante élevée, entre chaque serveur source et le serveur d'archivage pour le transfert des fichiers. Or, le développement des réseaux informatiques modernes implique d'optimiser au maximum la bande passante des liaisons numériques, en affectant au maximum cette bande passante à la transmission de données utiles aux différents utilisateurs du réseau. En particulier, il est à noter que ces systèmes connus nécessitent de nombreux transferts de données qui, en réalité, ne sont pas strictement nécessaires pour l'archivage de fichiers. En effet, par exemple, un même ensemble de données représentant un contenu de fichier peut être dupliqué sur différents serveurs source, voire même sur un même serveur source. Dans ce cas, les différents fichiers correspondants sont systématiquement archivés par les systèmes connus indépendamment de leur contexte. Il est aussi à noter à ce titre que l'archivage des fichiers est considéré essentiellement, du point de vue d'un utilisateur, comme une tâche d'administration secondaire du système informatique. Par ailleurs, dans le même sens, il est important de veiller à ce que l'agent de collecte n'occupe qu'un minimum des ressources informatiques du serveur source, de façon à ne pas en perturber le fonctionnement, et à laisser le maximum de ces ressources disponibles pour l'utilisateur de ce serveur source. Également, les réseaux informatiques modernes sont de plus en plus hétérogènes, et permettent la communication de stations de travail très diverses aussi bien en ce qui concerne le format des fichiers contenus, que les systèmes d'exploitation et de gestion de fichiers. Le système d'archivage de fichiers sur le réseau doit donc être compatible avec ces différents formats et systèmes d'exploitation. Or, la plupart des systèmes d'archivage connus sont au contraire étroitement dépendants du système d'exploitation et de gestion des fichiers, et ne sont pas compatibles avec d'autres systèmes de gestion de fichiers. Par exemple, les systèmes d'archivage connus compatibles avec le système d'exploitation Windows ne sont en général pas compatibles avec le système d'exploitation Linux ou Unix . Ce problème se pose de façon d'autant plus accru avec le développement des fichiers auxquels sont associées des métadonnées, qui sont des données décrivant le contenu du fichier et/ou des propriétés informatiques du fichier et/ou d'autres informations associées aux fichiers et utiles à l'utilisateur et/ou aux applications logicielles susceptibles de travailler sur ce fichier. À ce titre, les inventeurs ont déterminé qu'un système 20 d'archivage réseau performant devrait être compatible avec : ù les différentes catégories de métadonnées pouvant être rencontrées, et les différents formats dans lesquels ces métadonnées peuvent être enregistrées, ù tout système d'information doté d'au moins un serveur de fichiers, et ce, indépendamment des applications logicielles qui gèrent et traitent l'information 25 et le contenu des données (par exemple les applications de gestion électronique de documentations ou documents), ù l'archivage de données non structurées en association avec des métadonnées collectées et/ou enrichies par le serveur d'archivage, de façon notamment à offrir ultérieurement la possibilité d'effectuer des recherches L contextuelles sur l'information archivée et/ou de présenter l'information restaurée en fonction du contexte. L'invention vise à proposer une solution à ces problèmes. En conséquence, l'invention vise en particulier à proposer un réseau informatique doté d'un système d'archivage qui, d'une part, soit compatible avec une faible bande passante dans la liaison numérique entre chaque serveur d'archivage et chaque serveur source, et/ou qui, en tout état de cause, n'occupe qu'une faible partie de cette bande passante ; évite la multiplication des transferts d'ensembles de données identiques dupliqués sur différents fichiers source, mais permette cependant l'archivage de métadonnées associées à chacun de ces fichiers source ; d'autre part, n'utilise qu'une très faible partie des ressources informatiques de chaque serveur source et soit extrêmement peu perturbateur du fonctionnement de chaque serveur source ; par ailleurs, soit compatible avec des architectures informatiques et des applications logicielles très diverses ; permette l'acquisition et/ou la création et/ou l'association, aux données et fichiers archivés, de métadonnées diverses, notamment de métadonnées permettant une gestion contextuelle des informations archivées ; permette une gestion dynamique et automatique, évolutive dans le temps, de chaque serveur d'archivage. Pour ce faire, l'invention concerne un réseau informatique 20 comprenant : ù au moins un serveur de fichiers, dit serveur source, doté d'un agent de collecte de fichiers à archiver, ù au moins un serveur d'archivage adapté pour permettre l'archivage de fichiers sur au moins une mémoire de masse associée à ce serveur 25 d'archivage, et doté d'un module de gestion d'archivage, ù et au moins une liaison numérique de réseau adaptée pour permettre l'échange d'informations numériques entre les serveurs, dans lequel : ù ledit module de gestion d'archivage est adapté pour pouvoir émettre une commande de collecte à destination d'au moins un agent de collecte d'au moins un serveur source, cette commande de collecte incorporant des données représentatives de critères de collecte prédéterminés -comprenant notamment des données identifiant au moins un instant de déclenchement de la collecte et/ou au moins une fenêtre temporelle de réalisation de la collecte par ledit agent de collecte-, ledit agent de collecte étant adapté pour exécuter sur le serveur source une recherche de fichiers correspondant aux critères de collecte d'une commande reçue par ledit agent de collecte et émise par l'agent de gestion d'archivage, caractérisé en ce que, pour chaque fichier collecté par ledit agent de collecte, ce dernier est adapté pour : û calculer, à partir de données contenues dans le fichier collecté et enregistrées sur le serveur source (c'est-à-dire sur au moins une mémoire de masse de ce dernier), et selon un procédé de calcul unique prédéterminé, un code numérique, dit code calculé, comprenant au moins un nombre, dit code identifiant, dont la valeur dépend uniquement des dites données et dudit procédé de calcul et est propre aux dites données, û transmettre le code calculé au module de gestion d'archivage, en ce que le serveur d'archivage est adapté pour pouvoir, à réception d'un code calculé, rechercher s'il existe, en mémoire de masse du serveur d'archivage, des données correspondant à ce code calculé -notamment au moins un enregistrement contenant ce code calculé et/ou le code identifiant-, en ce qu'il est adapté pour réaliser un transfert au serveur d'archivage des dites données du serveur source contenues dans le fichier collecté et correspondant au code calculé, si le résultat de la recherche effectuée par le module de gestion d'archivage est représentatif du fait que des données correspondant au code calculé ne sont pas présentes en mémoire de masse du serveur d'archivage, ledit module de gestion d'archivage étant adapté pour mémoriser en mémoire de masse ces données contenues dans le fichier collecté et le code calculé associé à ces données, et en ce qu'il est adapté pour ne pas transférer au serveur d'archivage lesdites données du serveur source contenues dans le fichier collecté et correspondant au code calculé, si le résultat de la recherche effectuée par le module de gestion d'archivage est représentatif du fait que des données correspondant au code calculé sont présentes en mémoire de masse du serveur d'archivage. Avantageusement et selon l'invention, ledit module de gestion d'archivage est adapté pour pouvoir transmettre à l'agent de collecte des données numériques représentatives du résultat de ladite recherche de données mémorisées en mémoire de masse du serveur d'archivage et correspondant au code calculé, et en ce que ledit agent de collecte est adapté pour : ù si le résultat de la recherche effectuée par le module de gestion d'archivage est représentatif du fait que des données correspondant au code calculé ne sont pas présentes en mémoire de masse du serveur d'archivage, générer une commande d'autorisation de transfert au serveur d'archivage des données du serveur source contenues dans le fichier collecté, ledit module de gestion d'archivage étant adapté pour mémoriser en mémoire de masse ces données contenues dans le fichier collecté et ce code calculé associé à ces données, si le résultat de la recherche effectuée par le module de gestion d'archivage est représentatif du fait que des données correspondant au code calculé son présentes en mémoire de masse du serveur d'archivage, ne pas générer une commande d'autorisation de transfert des données contenues dans le fichier collecté. Par ailleurs, avantageusement et selon l'invention, le module de gestion d'archivage est adapté pour réaliser ladite recherche en recherchant s'il existe, en mémoire de masse du serveur d'archivage, au moins un enregistrement contenant le code identifiant. Plus particulièrement, avantageusement, un réseau selon l'invention est adapté pour : si le résultat de la recherche effectuée par le module de gestion d'archivage est représentatif du fait que le code identifiant n'est pas présent en mémoire de masse du serveur d'archivage, générer une commande de transfert au serveur d'archivage des données du serveur source contenues dans le fichier collecté, ledit module de gestion d'archivage étant adapté pour mémoriser en mémoire de masse ces données contenues dans le fichier collecté et ce code identifiant associé à ces données, ù si le résultat de la recherche effectuée par le module de gestion d'archivage est représentatif du fait que le code identifiant est présent en mémoire de masse du serveur d'archivage, ne pas générer une commande de transfert des données contenues dans le fichier collecté. Avantageusement et selon l'invention, le code calculé, et notamment le code identifiant, est calculé à partir des données du fichier collecté autres que des métadonnées de ce fichier collecté. En particulier, la valeur du code identifiant dépend uniquement des données du fichier collecté autres que des métadonnées de ce fichier collecté, et est représentatif uniquement des données de contenu du fichier collecté, mais non des métadonnées de ce fichier collecté. En outre, avantageusement et selon l'invention, pour chaque fichier collecté, l'agent de collecte de fichiers est adapté pour collecter des métadonnées associées à ce fichier et, si le résultat de la recherche effectuée par le module de gestion d'archivage est représentatif du fait que des données correspondant au code calculé sont présentes en mémoire de masse du serveur d'archivage, générer une commande d'autorisation de transfert partiel adaptée pour autoriser uniquement le transfert de tout ou partie de ces métadonnées au module de gestion d'archivage, ledit module de gestion d'archivage étant adapté pour mémoriser en mémoire de masse ces métadonnées en association avec les données du fichier collecté. Ainsi, dans un réseau selon l'invention, les métadonnées associées à un fichier collecté sont transmises quel que soit le résultat de ladite recherche effectuée par le module de gestion d'archivage en ce qui concerne le code calculé. Il est à noter par ailleurs que la valeur du code calculé, et en particulier la valeur du code identifiant, ne dépend pas des métadonnées associées au fichier collecté, ces métadonnées, qu'elles soient ou non contenues dans le fichier collecté, n'étant pas utilisées dans le procédé de calcul du code calculé, en particulier dans le procédé de calcul du code identifiant. Par ailleurs, avantageusement et selon l'invention, pour chaque fichier collecté, l'agent de collecte de fichiers est adapté pour collecter et associer à ce fichier collecté, des métadonnées résultant de données et/ou métadonnées enregistrées sur le serveur source concerné. En particulier, il s'agit de métadonnées collectées sur le serveur source autres que des métadonnées techniques. Avantageusement et selon l'invention, pour chaque fichier collecté, l'agent de collecte de fichiers est adapté pour collecter et associer à ce fichier collecté, des métadonnées choisies parmi : û des métadonnées techniques MDT décrivant tout ou partie du contenu technique du fichier lui-même et associées à ce fichier ; û des métadonnées élaborées par une application logicielle distincte et enregistrées selon une structure prédéterminée, par exemple des métadonnées d'en-tête et/ou des métadonnées enregistrées dans une base de données et/ou de métadonnées enregistrées dans un fichier distinct (par exemple des métadonnées relatives à un style ou un format...) ; û des métadonnées générées selon au moins un traitement informatique prédéterminé par l'agent de collecte, par exemple : • des métadonnées contextuelles générées à partir de données représentant la position du fichier collecté dans le système de gestion de fichiers du serveur source, et/ou l'environnement informatique de ce fichier collecté dans le système de gestion de fichiers du serveur source, et/ou des attributs du fichier collecté et/ou, • des métadonnées statiques correspondant à une ou plusieurs valeurs saisies par l'utilisateur, à exemple lors de la configuration de la collecte, • des métadonnées calculées obtenues par un calcul simple à partir des données du fichier collecté, par exemple par un calcul d'indexation simple. L'utilisation de telles métadonnées dans un réseau selon l'invention, enregistrées dans le serveur d'archivage en association avec les données d'un fichier collecté procure de nombreux avantages. En particulier, ces métadonnées peuvent faire l'objet ultérieurement d'analyses, de croisements et de déductions logiques. Plus généralement, l'archivage ainsi réalisé devient dynamique en ce sens qu'il est susceptible d'évoluer dans le temps. Les données et métadonnées enregistrées dans le serveur d'archivage peuvent être indexées, immédiatement à chaque enregistrement, ou en différé. Des procédés d'indexation peuvent être à tout moment ajoutés, en fonction des besoins, dans un serveur d'archivage selon l'invention. En outre, il est possible d'utiliser des outils d'optimisation de l'enregistrement des données, et en particulier pour l'optimisation des ressources des mémoires de masse du serveur d'archivage, en fonction de cycles de vie des données et/ou des métadonnées associées, de plans de stockage des données (en fonction par exemple des durées de conservation des données ; des migrations et conversions de format, notamment selon les évolutions logicielles ; des stratégies de destruction des données...). Dans un réseau selon l'invention, il est même possible de piloter intégralement le serveur d'archivage à l'aide des différentes métadonnées associées aux fichiers archivés. Il est à noter à ce titre que ce pilotage du serveur d'archivage peut être réalisé de façon automatique par une application logicielle en fonction des métadonnées, sans aucune intervention d'un opérateur. Par ailleurs, il est possible d'intégrer des moteurs de recherches avancées utilisant les différentes métadonnées et/ou des résultats d'indexation pour faciliter ultérieurement la recherche et/ou la présentation contextuelle des données archivées. Throughout the text, the term files refers to files as stored in mass memory and likely to be managed as such by at least one operating system and file management (OS) device. A file is designated by a unique identifier (file name) allowing access to the data of this file stored in mass memory. A file includes a set of useful data for at least one computing device and / or at least one user, constituting a content of this file. Unless otherwise specified, the term data used in reference to a file designates content data of a file. The archiving of files essentially aims at storing the file content data in mass memory. Moreover, in a manner known per se, certain data, called metadata, are descriptive files, some of its properties and / or all or part of its content. The file metadata can be part of the contents of the file, all or part of the contents of another file, or dynamically generated by a software process-especially an operating system-from the file. In general, the invention relates to a computer network comprising: at least one file server, said source server, equipped with at least one file collection agent to be archived, at least one archiving server adapted to enable the archiving of files on at least one mass memory associated with this archiving server, and at least one network digital link adapted to allow the exchange of digital information between the servers. It is already known (see for example US 2004/0236801) such computer networks in which: the archive server is provided with at least one archive management agent adapted to be able to issue a collection trigger command to destination of a collection agent of a source server, this trigger command incorporating data representative of predetermined collection criteria, - said collection agent is adapted to execute on the source server a file search corresponding to the collection criteria of the collection server. a command received from the archive management agent. These computer networks, and known archival systems they include, have several series of disadvantages. First, they require the establishment of a high-performance digital link, that is, high bandwidth, between each source server and the archive server for file transfer. However, the development of modern computer networks involves optimizing the bandwidth of the digital links as much as possible, by allocating this bandwidth as much as possible to the transmission of useful data to the different users of the network. In particular, it should be noted that these known systems require many data transfers which, in reality, are not strictly necessary for archiving files. Indeed, for example, the same set of data representing a file content can be duplicated on different source servers, or even on the same source server. In this case, the corresponding files are systematically archived by known systems regardless of their context. It should also be noted that file archiving is essentially considered, from the point of view of a user, as a secondary administration task of the computer system. Moreover, in the same way, it is important to ensure that the collection agent occupies only a minimum of the computing resources of the source server, so as not to disrupt the operation, and to leave the maximum of these resources available to the user of this source server. Also, modern computer networks are increasingly heterogeneous, and allow the communication of a variety of workstations as well as the format of the files contained, the operating systems and file management. The file archiving system on the network must therefore be compatible with these different formats and operating systems. However, most known archiving systems are closely dependent on the operating system and file management, and are not compatible with other file management systems. For example, known archiving systems that are compatible with the Windows operating system are generally not compatible with the Linux or Unix operating system. This problem arises even more with the development of the files associated with metadata, which are data describing the contents of the file and / or computer properties of the file and / or other information associated with the files and useful to the user and / or software applications that may work on this file. As such, the inventors have determined that a successful network archiving system should be compatible with: the different categories of metadata that may be encountered, and the different formats in which this metadata may be recorded, any system of information provided with at least one file server, independently of the software applications that manage and process the information and content of the data (e.g., electronic document management applications or documents), unstructured data in association with metadata collected and / or enriched by the archiving server, in particular to subsequently provide the possibility of performing contextual searches on the archived information and / or presenting the restored information in context function. The invention aims to propose a solution to these problems. Accordingly, the invention aims in particular to provide a computer network with an archiving system which, on the one hand, is compatible with a low bandwidth in the digital link between each archiving server and each source server , and / or which, in any case, occupies only a small part of this bandwidth; avoids the multiplication of identical duplicate data set transfers on different source files, but allows the archiving of metadata associated with each of these source files; on the other hand, uses only a very small portion of the computing resources of each source server and is extremely undisturbed by the operation of each source server; moreover, it is compatible with computer architectures and very diverse software applications; allows the acquisition and / or creation and / or association, with archived data and files, of various metadata, including metadata for contextual management of archived information; enables dynamic and automatic, scalable management of each archive server. To do this, the invention relates to a computer network 20 comprising: at least one file server, said source server, with a file collection agent to archive, at least one archive server adapted to allow storing files on at least one mass memory associated with this archive server, and having an archive management module, and at least one network digital link adapted to allow the exchange of information between the servers, wherein: said archive management module is adapted to be able to issue a collection command to at least one collection agent of at least one source server, this collection command incorporating data representative of predetermined collection criteria -including in particular data identifying at least one start time of the collection and / or at least one time window of realization of the collection by said collection agent, said collection agent being adapted to execute on the source server a file search corresponding to the collection criteria of a command received by said collection agent and sent by the archive management agent, characterized in for each file collected by said collection agent, the latter is adapted to: calculate, from data contained in the collected file and stored on the source server (that is to say on at least one memory mass of the latter), and according to a predetermined single calculation method, a numerical code, said calculated code, comprising at least a number, said identifier code, whose value depends solely on said data and said calculation method and is clean to said data, to transmit the calculated code to the archiving management module, in that the archiving server is adapted to be able, on receipt of a calculated code, to find out if it exists, in memory of mass of the archive server, data corresponding to this calculated code-in particular at least one record containing this calculated code and / or the identifier code-, in that it is adapted to perform a transfer to the archive server said data from the source server contained in the collected file and corresponding to the calculated code, if the result of the search performed by the archive management module is representative of the fact that data corresponding to the calculated code are not present in the memory of mass of the archive server, said archive management module being adapted to store in mass memory the data contained in the collected file and the calculated code associated with these data, and in that it is adapted not to transfer to the archiving server said data of the source server contained in the collected file and corresponding to the calculated code, if the result of the search carried out by the The archive management odule is representative of the fact that data corresponding to the calculated code are present in mass memory of the archive server. Advantageously and according to the invention, said archiving management module is adapted to be able to transmit to the collection agent digital data representative of the result of said search of data stored in mass memory of the archive server and corresponding to the code calculated, and in that said collection agent is adapted to: where the result of the search performed by the archive management module is representative of the fact that data corresponding to the calculated code are not present in the mass memory of the archiving server, generating a transfer authorization command to the archiving server of the data of the source server contained in the file collected, said archiving management module being adapted to memorize in mass memory that data contained in the file collected and this calculated code associated with these data, if the result of the search carried out by the archiving management module is representative of the fact that data corresponding to the calculated code are present in mass memory of the archive server, do not generate an authorization command transfer of data contained in the file collected. Furthermore, advantageously and according to the invention, the archiving management module is adapted to carry out said search by searching whether there exists, in mass memory of the archive server, at least one record containing the identifier code. More particularly, advantageously, a network according to the invention is suitable for: if the result of the search carried out by the archiving management module is representative of the fact that the identifier code is not present in the mass memory of the server d archiving, generating a transfer command to the archiving server of the data of the source server contained in the file collected, said archiving management module being adapted to memorize in mass memory this data contained in the file collected and this identifier code associated with these data, if the result of the search performed by the archive management module is representative of the fact that the identifier code is present in the mass memory of the archive server, do not generate a data transfer command contained in the collected file. Advantageously and according to the invention, the calculated code, and in particular the identifier code, is calculated from the collected file data other than the metadata of this collected file. In particular, the value of the identifier code depends only on the data of the collected file other than the metadata of this collected file, and is representative only of the content data of the collected file, but not the metadata of this collected file. In addition, advantageously and according to the invention, for each file collected, the file collection agent is adapted to collect metadata associated with this file and, if the result of the search performed by the archiving management module is representative of the fact that data corresponding to the calculated code are present in the mass memory of the archiving server, generating a partial transfer authorization command adapted to allow only the transfer of all or part of these metadata to the management module of archiving, said archiving management module being adapted to memorize in mass memory these metadata in association with the data of the file collected. Thus, in a network according to the invention, the metadata associated with a collected file are transmitted irrespective of the result of said search carried out by the archiving management module with regard to the calculated code. It should also be noted that the value of the calculated code, and in particular the value of the identifier code, does not depend on the metadata associated with the file collected, these metadata, whether or not contained in the file collected, being not used in the calculation method of the calculated code, in particular in the method for calculating the identifier code. Furthermore, advantageously and according to the invention, for each file collected, the file collection agent is adapted to collect and associate with this collected file, metadata resulting from data and / or metadata recorded on the source server concerned. In particular, it is metadata collected on the source server other than technical metadata. Advantageously and according to the invention, for each file collected, the file collection agent is adapted to collect and associate with this collected file, metadata chosen from: - MDT technical metadata describing all or part of the technical content of the file itself and associated with this file; metadata developed by a separate software application and recorded according to a predetermined structure, for example header metadata and / or metadata stored in a database and / or metadata recorded in a separate file (eg metadata about a style or format ...); metadata generated according to at least one predetermined computer processing by the collection agent, for example: contextual metadata generated from data representing the position of the file collected in the source server file management system, and / or the computer environment of this file collected in the source server file management system, and / or attributes of the collected file and / or, • static metadata corresponding to one or more values entered by the user, for example during of the configuration of the collection, • computed metadata obtained by a simple calculation from the data of the collected file, for example by a simple indexing calculation. The use of such metadata in a network according to the invention, recorded in the archive server in association with the data of a file collected provides many advantages. In particular, these metadata can be the subject of subsequent analyzes, cross-checks and logical deductions. More generally, the archiving thus achieved becomes dynamic in the sense that it is likely to evolve over time. The data and metadata stored in the archive server can be indexed, immediately after each record, or offline. Indexing methods may be added at any time, as needed, in an archiving server according to the invention. In addition, it is possible to use tools for optimizing the recording of data, and in particular for optimizing the resources of the archive server mass memories, according to data lifecycles and / or or associated metadata, data storage plans (based on, for example, data retention times, migrations and format conversions, in particular according to software evolutions, data destruction strategies, etc.). In a network according to the invention, it is even possible to fully control the archive server using the different metadata associated with the archived files. It should be noted in this respect that this control of the archiving server can be performed automatically by a software application according to the metadata, without any intervention of an operator. In addition, it is possible to integrate advanced search engines using different metadata and / or indexing results to facilitate subsequent search and / or contextual presentation of archived data.

Par ailleurs, avantageusement et selon l'invention, pour chaque fichier collecté et transféré au serveur d'archivage avec au moins un code calculé, ledit module de gestion d'archivage est adapté : ù pour calculer un code de vérification, à partir des données contenues dans le fichier collecté telles que reçues par le serveur 9 d'archivage et selon ledit procédé de calcul unique prédéterminé utilisé par l'agent de collecte pour calculer ledit code identifiant correspondant, û pour comparer la valeur de ce code de vérification calculée à partir des données reçues, avec la valeur de ce code identifiant transmise avec lesdites données du fichier collecté, û et pour mémoriser en mémoire de masse les données contenues dans le fichier collecté (de préférence avec le code calculé, ou en tout cas au moins le code identifiant) si et seulement si ces deux valeurs du code de vérification et du code identifiant sont égales. Moreover, advantageously and according to the invention, for each file collected and transferred to the archive server with at least one calculated code, said archive management module is adapted: to calculate a verification code, from the data contained in the collected file as received by the archive server 9 and according to said predetermined single calculation method used by the collection agent to calculate said corresponding identifier code, - to compare the value of this verification code calculated from received data, with the value of this identifier code transmitted with said data of the collected file, and for memorizing in mass memory the data contained in the collected file (preferably with the calculated code, or at least at least the code identifier) if and only if both values of the verification code and the identifier code are equal.

Ainsi, ledit code calculé, et plus particulièrement le code identifiant, est utilisé pour vérifier l'intégrité des données de chaque fichier collecté après chaque transfert vers le serveur d'archivage. Également, ce même code calculé, et plus particulièrement le code identifiant, peut être utilisé pour vérifier l'intégrité des données transférées en cas de restauration d'un fichier, c'est-à-dire de transfert depuis le serveur d'archivage vers un serveur source. Par ailleurs, selon un mode de réalisation avantageux, le module de gestion d'archivage comprend un module de gestion de collecte adapté pour centraliser les communications entre le module de gestion d'archivage et chaque agent de collecte. Thus, said calculated code, and more particularly the identifier code, is used to check the integrity of the data of each file collected after each transfer to the archiving server. Also, this same calculated code, and more particularly the identifier code, can be used to check the integrity of the data transferred in the event of a file being restored, that is to say from the archiving server to the archive. a source server. Furthermore, according to an advantageous embodiment, the archiving management module includes a collection management module adapted to centralize the communications between the archiving management module and each collection agent.

De préférence, le module de gestion de collecte comprend un module de transfert de fichiers adapté pour contrôler le transfert des données de chaque fichier collecté entre un serveur source et le serveur d'archivage. Il est à noter que dans un réseau selon l'invention, les données d'un même fichier peuvent être enregistrées en mémoire de masse d'un seul serveur source et transférées alors entièrement en mode point-à-point traditionnel, c'est-à-dire par exemple par un transfert de type FTP, ou au contraire dupliquées sur divers serveurs source (par exemple formés de stations de travail utilisateurs). Dans ce dernier cas, le code calculé permet d'éviter de transférer plusieurs fois le même fichier vers le serveur d'archivage à partir de plusieurs serveurs source. Preferably, the collection management module comprises a file transfer module adapted to control the transfer of data from each file collected between a source server and the archive server. It should be noted that in a network according to the invention, the data of the same file can be stored in mass memory of a single source server and then transferred entirely in traditional point-to-point mode, that is, for example, by FTP transfer, or on the contrary duplicated on various source servers (for example formed of user workstations). In the latter case, the calculated code makes it possible to avoid transferring the same file several times to the archiving server from several source servers.

En outre, avantageusement et selon l'invention, le module de transfert de fichiers est adapté pour limiter le nombre de transferts simultanés vers le serveur d'archivage et/ou le taux de transfert des données à une valeur seuil maximum prédéterminée. In addition, advantageously and according to the invention, the file transfer module is adapted to limit the number of simultaneous transfers to the archive server and / or the data transfer rate to a predetermined maximum threshold value.

L'invention concerne également un réseau caractérisé en combinaison par tout ou partie des caractéristiques mentionnées ci-dessus ou ci-après. D'autres buts, caractéristiques et avantages de l'invention apparaîtront à la lecture de la description suivante de ses modes de réalisation préférentiels, donnée uniquement à titre d'exemple non illustratif et qui se réfère aux figures annexées dans lesquelles : la figure 1 est un schéma synoptique d'un réseau informatique selon l'invention, û la figure 2 est un organigramme schématique représentant un mode de réalisation des principales étapes réalisées par un agent de collecte dans un réseau selon l'invention pour l'initialisation d'une collecte, û la figure 3 est un schéma synoptique illustrant un exemple de dialogue entre un agent de collecte et un module de gestion d'archivage d'un réseau selon l'invention pour l'initialisation d'une collecte, la figure 4 est un organigramme schématique représentant un mode de réalisation 20 des principales étapes réalisées par un agent de collecte dans un réseau selon l'invention lors d'une étape de collecte, la figure 5 est un schéma synoptique illustrant un exemple de dialogue entre un agent de collecte et un module de gestion d'archivage d'un réseau selon l'invention lors d'une étape de collecte, 25 la figure 6 est un schéma d'un exemple de fichier illustrant sa constitution (données et métadonnées) et les métadonnées pouvant être associées aux données de ce fichier dans le serveur d'archivage d'un réseau selon l'invention, la figure 7 est un organigramme schématique représentant un exemple de réalisation d'étapes réalisées par un module de vérification du code calculé dans un réseau selon l'invention. L'organisation générale d'un réseau informatique selon l'invention est représentée schématiquement figure 1. Le réseau comprend tout d'abord un système 1 de liaisons de communication adaptées pour permettre l'échange de données et informations numériques, c'est-à-dire formant un réseau numérique. Ce système 1 de liaisons peut présenter une architecture quelconque, incorporer ou non des liaisons spécifiques point-à-point, des accès à un ou plusieurs réseau(x) public(s) tel que le réseau Internet, des accès à un ou plusieurs réseau(x) informatique(s) privé(s)... Par ailleurs, l'invention est compatible avec toute(s) technologie(s) de réalisation d'un tel système 1 de liaisons (filaires, radiofréquences, par satellites, via un réseau de téléphonie mobile...). Au moins un serveur de fichiers, dit serveur source 2 est relié à ce système 1 de liaisons. Un tel serveur source 2 est un système informatique comprenant au moins une unité centrale dotée d'une capacité de traitement de données numériques à microprocesseur(s) et mémoire(s) vive(s) associée(s), et au moins un système d'exploitation OS, c'est-à-dire un ensemble logiciel adapté pour réaliser des fonctions d'administration et de gestion de fonctionnement du système informatique, et en particulier des fonctions de gestion de fichiers enregistrés sur au moins une mémoire de masse 3, 4 associée (par le système d'exploitation OS) à ce serveur source 2. Une telle mémoire de masse peut-être une mémoire de masse 3 reliée localement au serveur source 2, (par exemple un ou plusieurs disque(s) dur(s) magnétique(s) et/ou électronique(s) et/ou optique(s), interne(s) ou externe(s), ou autre). La mémoire de masse associée au serveur source 2 peut comprendre une mémoire de masse 4 de type réseau, c'est-à-dire directement reliée au système 1 de liaisons, le serveur source 2 accédant à cette mémoire de masse 4 via le système 1 de liaisons. Une telle mémoire de masse 4 réseau peut également comporter un ou plusieurs disque(s) dur(s) magnétique(s) et/ou électronique(s) et/ou optique(s), et/ou une ou plusieurs unité(s) regroupant plusieurs disques durs (par exemple de type RAID) ou toute autre mémoire de masse 4 susceptible d'être reliée de façon autonome à un réseau. Bien sûr, plusieurs mémoires de masse 3, 4 distinctes peuvent être associées au même serveur source 2. Un serveur source 2 au sens de la présente invention peut être constitué de tout système informatique connu, non seulement du type micro- ordinateur personnel, fixe, portable ou portatif, mais également par exemple du type assistant personnel numérique, téléphone numérique portatif, ou au contraire de type centre de calcul ou autre. Par ailleurs, le réseau selon l'invention comprend également au moins un serveur d'archivage 5 relié audit système 1 de liaisons. The invention also relates to a network characterized in combination by all or some of the characteristics mentioned above or below. Other objects, features and advantages of the invention will appear on reading the following description of its preferred embodiments, given solely by way of non-illustrative example and which refers to the appended figures in which: FIG. FIG. 2 is a schematic flow chart showing an embodiment of the main steps performed by a collection agent in a network according to the invention for initializing a collection. FIG. 3 is a block diagram illustrating an example of a dialogue between a collection agent and an archiving management module of a network according to the invention for the initialization of a collection, FIG. 4 is a flowchart. schematic representation of an embodiment 20 of the main steps performed by a collection agent in a network according to the invention during a collection step, the f Fig. 5 is a block diagram illustrating an example of a dialogue between a collection agent and an archive management module of a network according to the invention in a collection step, Fig. 6 is a diagram of a example of a file illustrating its constitution (data and metadata) and the metadata that can be associated with the data of this file in the archive server of a network according to the invention, FIG. 7 is a schematic flowchart representing an exemplary embodiment of FIG. steps performed by a code verification module calculated in a network according to the invention. The general organization of a computer network according to the invention is shown schematically in FIG. 1. The network firstly comprises a system 1 of communication links adapted to allow the exchange of data and digital information, that is to say say, forming a digital network. This link system 1 may have any architecture, incorporate or not specific point-to-point links, access to one or more public network (s) such as the Internet, access to one or more networks (x) private computer (s) ... Moreover, the invention is compatible with any technology (s) for the realization of such a system 1 of links (wired, radiofrequency, satellite, via a mobile phone network ...). At least one file server, said source server 2 is connected to this system 1 of links. Such a source server 2 is a computer system comprising at least one central unit equipped with a microprocessor-based digital data processor (s) and associated random memory (s), and at least one data processing system. OS operation, that is to say a set of software adapted to perform administration and management functions of the computer system, and in particular file management functions recorded on at least one mass memory 3, 4 associated (by the operating system OS) to this source server 2. Such mass memory may be a mass memory 3 connected locally to the source server 2, (for example one or more hard disk (s) ) magnetic (s) and / or electronic (s) and / or optical (s), internal (s) or external (s), or other). The mass memory associated with the source server 2 may comprise a mass memory 4 of network type, that is to say directly connected to the link system 1, the source server 2 accessing this mass memory 4 via the system 1 of links. Such a network memory 4 may also include one or more magnetic hard disk (s) and / or electronic (s) and / or optical (s), and / or one or more unit (s) combining several hard disks (for example RAID type) or any other mass memory 4 capable of being connected autonomously to a network. Of course, several separate mass memories 3, 4 may be associated with the same source server 2. A source server 2 within the meaning of the present invention may consist of any known computer system, not only of the personal microcomputer type, fixed, portable or portable, but also for example of the type personal digital assistant, portable digital phone, or otherwise type of computing center or other. Furthermore, the network according to the invention also comprises at least one archive server 5 connected to said link system 1.

Un tel serveur d'archivage 5 est un système informatique comprenant au moins une unité centrale dotée d'une capacité de traitement de données numériques à microprocesseur(s) et mémoire(s) vive(s) associée(s), et au moins un système d'exploitation (non représenté figure 1), c'est-à-dire un ensemble logiciel adapté pour réaliser des fonctions d'administration et de gestion de fonctionnement du système informatique, et en particulier des fonctions de gestion de fichiers enregistrés sur au moins une mémoire de masse 6, 7 associée (par le système d'exploitation) à ce serveur d'archivage 5. Une telle mémoire de masse peut-être une mémoire de masse 6 reliée localement au serveur d'archivage 5, (par exemple un ou plusieurs disque(s) dur(s) magnétique(s) et/ou électronique(s) et/ou optique(s), interne(s) ou externe(s), ou autre). La mémoire de masse associée au serveur d'archivage 5 peut comprendre une mémoire de masse 7 de type réseau, c'est-à-dire directement reliée au système 1 de liaisons, le serveur d'archivage 5 accédant à cette mémoire de masse 7 via le système 1 de liaisons. Une telle mémoire de masse 7 réseau peut également comporter un ou plusieurs disque(s) dur(s) magnétique(s) et/ou électronique(s) et/ou optique(s), et/ou une ou plusieurs unité(s) regroupant plusieurs disques durs (par exemple de type RAID) ou toute autre mémoire de masse 7 susceptible d'être reliée de façon autonome à un réseau. Bien sûr, plusieurs mémoires de masse 6, 7 distinctes peuvent être associées au même serveur d'archivage 5. Such an archiving server 5 is a computer system comprising at least one central unit equipped with digital processing capacity with microprocessor (s) and associated random memory (s), and at least one operating system (not shown in FIG. 1), that is to say a set of software adapted to perform administration and management functions of the computer system, and in particular file management functions recorded on the minus a mass memory 6, 7 associated (by the operating system) with this archiving server 5. Such a mass memory may be a mass memory 6 connected locally to the archive server 5, (for example one or more hard disk (s) magnetic (s) and / or electronic (s) and / or optical (s), internal (s) or external (s), or other). The mass memory associated with the archive server 5 can comprise a mass memory 7 of network type, that is to say directly connected to the link system 1, the archive server 5 accessing this mass memory 7 via the system 1 of links. Such a network mass memory 7 may also include one or more magnetic hard disk (s) and / or electronic (s) and / or optical (s), and / or one or more unit (s) combining several hard disks (for example RAID type) or any other mass memory 7 may be connected autonomously to a network. Of course, several separate mass memories 6, 7 can be associated with the same archive server 5.

Chaque serveur source 2 comprend un agent de collecte 8 de fichiers à archiver, qui est adapté pour exécuter sur le serveur source 2 une recherche de fichiers correspondant à des critères de collecte d'une commande de collecte reçue par cet agent de collecte 8 via le système 1 de liaisons depuis le serveur d'archivage 5. Le serveur d'archivage 5 est quant à lui doté d'un module de gestion d'archivage 9 qui est adapté pour permettre la définition et l'enregistrement d'une commande de collecte incorporant des données représentatives de critères de collecte prédéterminés, et pour pouvoir émettre une telle commande de collecte sur le système 1 de liaisons à destination d'au moins un agent de collecte 8 d'au moins un serveur source 2. Le module de gestion d'archivage 9 du serveur d'archivage 5 comprend un module de gestion de collecte 10 qui est le seul point d'accès au serveur d'archivage 5 par les agents de collecte 8 des différents serveurs source 2. En outre, le module de gestion de collecte 10 est adapté pour permettre à un utilisateur de définir une commande de collecte, c'est-à-dire de saisir des critères de collecte prédéterminés. Par exemple, les critères de collecte d'une commande de collecte peuvent être choisis parmi : û le (ou les) serveur(s) source 2 concerné(s) par la collecte, û la date et l'heure du premier lancement de la collecte sur chaque serveur source 2, û chaque période de temps (fenêtre temporelle définie par une date et une heure de début et une date et une heure de fin, ces dates et heures pouvant être définies de façon absolue ou au contraire de façon relative par rapport à des événements prédéterminés tels que l'allumage d'un serveur, l'extinction d'un serveur, une périodicité...) au cours de laquelle la collecte est autorisée à s'exécuter, û des critères portant sur tout ou partie du chemin d'accès des fichiers concernés par la collecte, û des critères d'incorporation et/ou d'exclusion des fichiers dans la collecte, notamment en fonction de métadonnées techniques (type de fichier, taille du fichier, auteur, propriétaire, date de création, date de modification, date du dernier accès,...) et/ou de métadonnées d'en-tête du fichier et/ou de données d'indexation... Each source server 2 comprises a file collection agent 8 to be archived, which is adapted to execute on the source server 2 a search of files corresponding to collection criteria of a collection command received by this collection agent 8 via the System 1 links from the archive server 5. The archive server 5 is meanwhile has an archive management module 9 which is adapted to allow the definition and registration of a collection command incorporating data representative of predetermined collection criteria, and for issuing such a collection command on the system 1 of links to at least one collection agent 8 of at least one source server 2. The management module Archiving 9 of the archiving server 5 includes a collection management module 10 which is the only point of access to the archiving server 5 by the collection agents 8 of the different source servers 2. In addition, Collection management dule 10 is adapted to allow a user to define a collection command, i.e. to enter predetermined collection criteria. For example, the collection criteria of a collection order can be chosen from: - the source server (s) 2 concerned by the collection, - the date and time of the first launch of the collection command. collection on each source server 2, at each time period (time window defined by a start date and time and an end date and time, these dates and times being definitively definable or, on the contrary, relatively report to predetermined events such as the ignition of a server, the shutdown of a server, a periodicity ...) during which the collection is authorized to run, or criteria relating to all or part of the path of the files involved in the collection, - criteria for the inclusion and / or exclusion of the files in the collection, in particular according to technical metadata (file type, file size, author, owner, date of creation, date of modification ion, date of last access, ...) and / or file header metadata and / or indexing data ...

Le module de gestion de collecte 10 du module de gestion d'archivage 9 est par ailleurs adapté pour émettre à destination de chaque serveur source 2 concerné sur le système 1 de liaisons, une commande de déclenchement de la collecte correspondante. Le déclenchement d'une collecte par un agent de collecte 8 10 peut être commandé par le module de gestion de collecte 9 selon différents critères qui sont par exemple choisis parmi : û des propriétés temporelles (date fixe, périodicité journalière, hebdomadaire, mensuelle, annuelle,...), û des commandes de déclenchement externes telles que 15 des interventions manuelles d'un administrateur, ou une commande en provenance d'une application logicielle spécifique du serveur d'archivage 5 ou externe à ce serveur d'archivage 5 (via le système 1 de liaisons)... Chaque agent de collecte 8 est préalablement configuré de façon à ce que l'adresse du serveur d'archivage 5 qui lui était associé lui soit connue 20 (cette adresse étant enregistrée sur le serveur source 2). Ainsi, dans un réseau selon l'invention, les agents de collecte 8 des différents serveurs source 2 ne sont pas autonomes, mais au contraire entièrement sous le contrôle du module de gestion d'archivage 9 d'un serveur d'archivage. Autrement dit, le fonctionnement du module de gestion d'archivage 9 et 25 des agents de collecte 8 est du type maître/esclave, le module de gestion d'archivage 9 constituant un maître apte à contrôler le fonctionnement des agents de collecte 8, et les agents de collecte 8 ayant un fonctionnement en esclave commandé à distance via le système 1 de liaisons par le module de gestion d'archivage 9. Ce type de fonctionnement apparaît en particulier sur les figures 2 et 3. Après une étape 20 de démarrage suivie d'une étape 21 d'initialisation des collectes, l'agent de collecte 8 se place sur une étape de test 22 d'arrêt dans laquelle il est examiné si l'agent de collecte 8 doit être arrêté ou non, c'est à dire s'il a reçu ou non un signal de commande d'arrêt de la part du module de gestion d'archivage 9. Dans l'affirmative, une étape d'arrêt 23 de l'agent de collecte 8 est exécutée. Dans la négative, deux processus sont exécutés en parallèle. Dans un premier processus 24, 25 de configuration des collectes actives, la première étape 24 examine si un message 33 est reçu du module de gestion d'archivage 9. Ce message 33 peut être un signal d'arrêt d'une collecte en cours et/ou de désactivation d'une collecte déjà active, un signal d'activation d'une nouvelle collecte ou un signal de modification d'une collecte active. Si un tel message 33 est reçu, une étape 25 de configuration de collecte est ensuite exécutée, dans laquelle des données représentatives de la définition de collecte 34 sont reçues du serveur d'archivage 5 si cette étape 25 correspond à une nouvelle collecte à configurer ou à une modification de collecte active. Ensuite, les paramètres de la collecte active correspondante sont créés ou modifiés. Ensuite, l'agent de collecte 8 retourne à l'étape 22. Si aucun message 33 n'est reçu à l'étape 24, l'étape 25 n'est pas 20 effectuée. Le deuxième processus 26, 27 d'exécution des collectes effectué en parallèle permet d'exécuter les différentes collectes actives configurées par le premier processus 24, 25. Ce processus 26, 27 d'exécution des collectes comprend une première étape lors de laquelle il est examiné si une collecte active 25 doit être démarrée ou non. Par exemple, lors de l'étape 26, un instant de début de collecte prédéterminé et enregistré dans les données de définition de la collecte 34 peut être comparé à la date et à l'heure du système en cours. Si l'instant de début de collecte est atteint, cette collecte est lancée lors de l'étape 27. À défaut, l'agent de collecte 8 retourne à l'étape 22 de test d'arrêt. 16 Ainsi, dans un réseau selon l'invention, les processus de configuration des collectes et d'exécution de collecte s'exécutent de façon concurrente. De la sorte, plusieurs collectes peuvent être activées en parallèle, ainsi que la configuration de nouvelles collectes. Une fois activée, une collecte reste active sauf si cette collecte a été programmée pour n'être exécutée qu'une seule fois, ou si le module de gestion d'archivage 9 émet un signal d'interruption de cette collecte. Comme on le voit sur la figure 3, lorsque le module de gestion de collecte 10 du module de gestion d'archivage 9 détermine qu'une commande de collecte doit être adressée à un agent de collecte 8 sur un serveur source 2, il émet une requête de connexion 31 sur le réseau, c'est-à-dire à destination du serveur source 2 via le système 1 de liaisons. Dans l'hypothèse où une connexion peut être établie, l'agent de collecte 8 émet un signal 32 d'acquittement validant l'établissement de la connexion, à destination du serveur d'archivage 5. The collection management module 10 of the archive management module 9 is also adapted to send to each source server 2 concerned on the system 1 of links, a triggering command of the corresponding collection. The triggering of a collection by a collection agent 8 10 can be controlled by the collection management module 9 according to various criteria which are for example chosen from: - temporal properties (fixed date, daily, weekly, monthly, annual periodicity , etc.), external trigger commands such as manual operations by an administrator, or a command from a specific software application of the archive server 5 or external to this archive server 5 ( via the system 1 of links) ... Each collection agent 8 is previously configured so that the address of the archiving server 5 associated with it is known to it (this address being recorded on the source server 2 ). Thus, in a network according to the invention, the collection agents 8 of the different source servers 2 are not autonomous, but on the contrary entirely under the control of the archiving management module 9 of an archive server. In other words, the operation of the archive management module 9 and 25 of the collection agents 8 is of the master / slave type, the archive management module 9 constituting a master able to control the operation of the collection agents 8, and the collection agents 8 having a slave operation remotely controlled via the link system 1 by the archiving management module 9. This type of operation appears in particular in FIGS. 2 and 3. After a start-up step 20 followed of a collection initialization step 21, the collection agent 8 is placed on a stop test step 22 in which it is examined whether the collection agent 8 must be stopped or not, whether or not it has received a stop command signal from the archive management module 9. If yes, a stopping step 23 of the collection agent 8 is executed. If not, two processes are run in parallel. In a first process 24, 25 of active collections configuration, the first step 24 examines whether a message 33 is received from the archive management module 9. This message 33 can be a stop signal of a collection in progress and / or deactivation of an already active collection, an activation signal of a new collection or a modification signal of an active collection. If such a message 33 is received, then a collection configuration step 25 is performed, in which data representative of the collection definition 34 is received from the archive server 5 if this step corresponds to a new collection to be configured or an active collection change. Then, the parameters of the corresponding active collection are created or modified. Then, collection agent 8 returns to step 22. If no message 33 is received in step 24, step 25 is not performed. The second parallel collection execution process 26, 27 makes it possible to execute the various active collections configured by the first process 24, 25. This process 26, 27 for executing the collections comprises a first step in which it is examined whether an active collection 25 should be started or not. For example, in step 26, a predetermined collection start time recorded in the collection definition data 34 can be compared to the date and time of the current system. If the collection start time is reached, this collection is started in step 27. Otherwise, the collection agent 8 returns to the stop test step 22. Thus, in a network according to the invention, the collection configuration and collection execution processes execute concurrently. In this way, several collections can be activated in parallel, as well as the configuration of new collections. Once activated, a collection remains active unless this collection has been scheduled to be executed only once, or if the archive management module 9 emits a signal of interruption of this collection. As seen in FIG. 3, when the collection management module 10 of the archive management module 9 determines that a collection command must be sent to a collection agent 8 on a source server 2, it issues a connection request 31 on the network, that is to say to the source server 2 via the system 1 links. In the event that a connection can be established, the collection agent 8 transmits an acknowledgment signal 32 validating the establishment of the connection, to the archiving server 5.

Simultanément, l'étape de démarrage 20 de l'agent de collecte 8 est effectuée comme mentionné ci-dessus. Le module de gestion de collecte 10 du module de gestion d'archivage 9 adresse ensuite une commande 33 de déclenchement et d'identification de collecte permettant de déclencher la réalisation d'une nouvelle collecte par l'agent de collecte 8 comme mentionné ci-dessus, cette commande 33 étant traitée par le test 24. Le module de gestion de collecte 10 du module de gestion d'archivage 9 du serveur d'archivage 5 adresse ensuite au serveur source 2 l'ensemble des données représentatives de la définition de la collecte 34 à effectuer, qui permettent la configuration 25 de la collecte par l'agent de collecte 8 comme décrit ci-dessus. Lorsque la collecte est terminée, l'agent de collecte 8 adresse un signal de fin de collecte 35 au module de gestion de collecte 10 du serveur d'archivage 5. La figure 4 illustre les principales étapes effectuées par l'agent de collecte 8 au cours d'une étape de collecte 27. La figure 5 illustre les échanges intervenant entre l'agent de collecte 8 et le module de gestion d'archivage 9 du serveur d'archivage 5 au cours de cette étape de collecte 27. L'étape 40 correspond au démarrage de la collecte. Au cours du test 41 subséquent, l'agent de collecte 8 exécute un module de collecte 13 qui parcourt le système de fichiers du serveur source 2 en tant que tâche de fond de ce serveur source 2. Si aucun nouveau fichier à archiver n'est détecté, un signal d'arrêt de la collecte est émis lors de l'étape 42, ce qui permet de commander le test 29 décrit ci-dessus déclenchant la fin de la collecte. Si un nouveau fichier à archiver est détecté, le test 43 examine si ce fichier est éligible pour la collecte compte tenu des paramètres de collecte reçus dans la définition de collecte 34. Si le fichier n'est pas éligible pour cette collecte, le processus retourne au test 41 pour détecter un nouveau fichier. Si le fichier est éligible, une étape 44 est exécutée lors de laquelle un code numérique, dit code calculé, est calculé à partir des données contenues dans le fichier telles que mémorisées sur la mémoire de masse 3 et/ou 4 correspondante du serveur source 2. Ce code calculé comprend au moins un nombre, dit code identifiant, dont la valeur dépend uniquement de ces données et d'un procédé de calcul prédéterminé exécuté par un module de calcul 12 de l'agent de collecte 8. La valeur du code identifiant ne dépend pas en particulier des métadonnées pouvant être associées au fichier collecté, les données du fichier correspondant à son contenu, c'est-à-dire les données autres que des métadonnées, étant extraites du fichier pour procéder au calcul du code identifiant, ou plus généralement au calcul de chaque nombre correspondant au code calculé. Le procédé de calcul utilisé lors de cette étape 44 peut être quelconque, dès lors qu'il permet d'identifier de façon biunivoque le contenu des données, dites données de contenu, du fichier qui ne sont pas des métadonnées. Simultaneously, the step of starting the collection agent 8 is performed as mentioned above. The collection management module 10 of the archiving management module 9 then sends a command 33 for triggering and identification of collection, making it possible to trigger a new collection by the collection agent 8 as mentioned above. , this command 33 being processed by the test 24. The collection management module 10 of the archiving management module 9 of the archive server 5 then sends the source server 2 all of the data representative of the definition of the collection. 34 to perform, which allow the collection 25 to be configured by the collection agent 8 as described above. When the collection is complete, the collection agent 8 sends an end of collection signal 35 to the collection management module 10 of the archive server 5. FIG. 4 illustrates the main steps performed by the collection agent 8 at the end of the collection period. During a collection step 27. FIG. 5 illustrates the exchanges occurring between the collection agent 8 and the archiving management module 9 of the archive server 5 during this collection step 27. The step 40 corresponds to the start of the collection. During the subsequent test 41, the collection agent 8 executes a collection module 13 which traverses the file system of the source server 2 as the background task of this source server 2. If no new file to be archived is detected, a stop signal of the collection is issued in step 42, which allows to control the test 29 described above triggering the end of the collection. If a new file to be archived is detected, the test 43 examines whether this file is eligible for collection considering the collection parameters received in the collection definition 34. If the file is not eligible for this collection, the process returns in test 41 to detect a new file. If the file is eligible, a step 44 is executed in which a numerical code, said calculated code, is calculated from the data contained in the file as stored on the corresponding mass memory 3 and / or 4 of the source server 2 This calculated code comprises at least one number, said identifier code, whose value depends solely on these data and a predetermined calculation method executed by a calculation module 12 of the collection agent 8. The value of the identifier code does not depend in particular on the metadata that may be associated with the file collected, the data of the file corresponding to its content, that is to say the data other than metadata, being extracted from the file to proceed with the calculation of the identifier code, or more generally to the calculation of each number corresponding to the calculated code. The calculation method used in this step 44 may be arbitrary, since it makes it possible to identify in a one-to-one way the content of the data, called content data, of the file that are not metadata.

Autrement dit, si la valeur des données de contenu varie, le code calculé, et en particulier le code identifiant, doit varier. Au contraire, si toutes les données de contenu restent les mêmes, deux calculs successifs effectués avec le même procédé de calcul doit fournir la même valeur pour le code calculé, et en particulier pour le code identifiant. In other words, if the value of the content data varies, the calculated code, and in particular the identifier code, must vary. On the contrary, if all the content data remain the same, two successive calculations performed with the same calculation method must provide the same value for the calculated code, and in particular for the identifier code.

Dans un exemple de réalisation, le code calculé comprend : une valeur numérique indiquant la taille totale des données de contenu mémorisées en mémoire de masse ; un code intermédiaire qui est le résultat d'un premier calcul de vérification effectué sur les données de contenu , par exemple du type calcul d'une somme simple ou CRC (calcul de vérification de redondance cyclique (en anglais cyclic redundancy code )) ; un code d'identification qui est le résultat d'un calcul complet dépendant de façon biunivoque des données de contenu, par exemple un calcul de vérification de redondance cyclique plus élaboré (CRC-8,..., CRC-16, CRC-32, CRC64-ISO, CRC64-ECMA-182) et/ou un calcul fondé sur au moins une fonction de hachage cryptographique (SHA-0, SHA-1, SHA-2, SHA-256, SHA-3 84, MD2, MD4, MD5, RIPEND, Tiger, Whirlpool) appliquée aux données de contenu. De préférence, tous les serveurs source 2 dont l'agent de collecte 8 réalise l'archivage des fichiers dans un même serveur d'archivage 5 utilisent un même procédé de calcul du code calculé. In an exemplary embodiment, the calculated code comprises: a numerical value indicating the total size of the content data stored in mass memory; an intermediate code which is the result of a first verification calculation carried out on the content data, for example of the simple sum calculation type or CRC (cyclic redundancy verification calculation); an identification code that is the result of a complete one-to-one calculation of the content data, for example a more elaborate cyclic redundancy check calculation (CRC-8, ..., CRC-16, CRC-32 , CRC64-ISO, CRC64-ECMA-182) and / or a calculation based on at least one cryptographic hashing function (SHA-0, SHA-1, SHA-2, SHA-256, SHA-384, MD2, MD4 , MD5, RIPEND, Tiger, Whirlpool) applied to the content data. Preferably, all the source servers 2 whose collection agent 8 performs the archiving of the files in the same archive server 5 use the same method of calculating the calculated code.

Le code calculé lors de l'étape 44 est adressé en 53 au serveur d'archivage 5. Préalablement, l'agent de collecte 8 adresse un signal de requête de connexion 51 au module de gestion d'archivage 9, et ce dernier émet un signal 52 d'acquittement de validation de connexion si cette connexion peut être établie. Le module de gestion d'archivage 9 déclenche alors, à réception de ce code calculé, un module 11 de vérification de la présence de ce code calculé mémorisé sur l'une ou l'autre de ses mémoires de masse 6, 7 associées. La figure 7 donne un exemple de réalisation du module I1 de vérification. Lors de l'étape 71, il est examiné si la taille des données (et qui est le premier nombre contenu dans le code calculé dans l'exemple mentionné ci- dessus) correspond à une taille de données de contenu déjà archivées en mémoire de masse 6, 7 du serveur d'archivage 5. Si la taille des données de contenu du fichier collecté est nouvelle, cela signifie que ces données de contenu n'ont jamais été archivées. Dans ce cas, on enregistre lors de l'étape 77 un signal 54 selon lequel les données de contenu du fichier collecté n'ont pas déjà été archivées, ce qui permet de procéder ensuite à l'étape 48 de transfert de ces données de contenu vers le serveur d'archivage 9. Par contre, s'il existe déjà des données de contenu correspondant à cette taille mémorisées en mémoire de masse 6, 7, il est examiné, lors d'une étape de test 73, parmi les différentes données de contenu correspondant à cette taille, s'il existe des données de contenu archivées en mémoire de masse 6, 7 du serveur d'archivage 5 pour lesquelles la valeur du code intermédiaire obtenu à partir du premier calcul de vérification (qui est un calcul simple, par exemple de type CRC), est la même que celle contenue dans le code calculé. Cette valeur de code intermédiaire peut être enregistrée en mémoire de masse 6, 7 du serveur d'archivage 5 en association avec les données de contenu correspondantes. Dans ce cas, il suffit dans une étape 72 précédant immédiatement l'étape de test 73, de lire cette valeur de code intermédiaire telle qu'elle est enregistrée et de la comparer à la valeur reçue dans le code calculé reçu correspondant aux données de contenu du fichier collecté. The code calculated in step 44 is sent to the archiving server 5 at 53. Prior to this, the collection agent 8 sends a connection request signal 51 to the archive management module 9, and the latter issues a signal 52 of acknowledgment of connection validation if this connection can be established. The archiving management module 9 then triggers, upon receipt of this calculated code, a module 11 for checking the presence of this calculated code stored on one or the other of its associated mass memories 6, 7. FIG. 7 gives an exemplary embodiment of the verification module I1. In step 71, it is examined whether the size of the data (and which is the first number contained in the computed code in the example mentioned above) corresponds to a content data size already archived in mass memory. 6, 7 of the archive server 5. If the size of the content data of the collected file is new, it means that this content data has never been archived. In this case, a signal 54 is recorded in step 77 according to which the content data of the file collected has not already been archived, which then makes it possible to proceed to step 48 of transferring these content data. 9. On the other hand, if there already exists content data corresponding to this size stored in mass memory 6, 7, it is examined, during a test step 73, among the various data items. of content corresponding to this size, if there exists archived content data stored in mass memory 6, 7 of the archive server 5 for which the value of the intermediate code obtained from the first verification calculation (which is a simple calculation , for example of the CRC type), is the same as that contained in the calculated code. This intermediate code value can be stored in mass memory 6, 7 of the archive server 5 in association with the corresponding content data. In this case, it suffices in a step 72 immediately preceding the test step 73, to read this intermediate code value as it is recorded and to compare it with the value received in the calculated code received corresponding to the content data. of the collected file.

Si cette valeur de code intermédiaire n'est pas enregistrée avec les données de contenu, il suffit, lors de l'étape 72, de la calculer en utilisant bien sûr le même procédé de calcul que celui qui a été utilisé pour calculer la valeur du code intermédiaire contenu dans le code calculé reçu correspondant aux données de contenu du fichier calculé. Si la valeur du code intermédiaire contenu dans le code calculé reçu ne correspond à aucune des données de contenu enregistrées en mémoire de masse 6, 7 du serveur d'archivage 5, cela signifie que les données de contenu du fichier collecté n'ont jamais été archivées, et on enregistre lors de l'étape 77 un signal 54 selon lequel les données de contenu du fichier collecté n'ont pas déjà été archivées, ce qui permet de procéder ensuite à l'étape 48 de transfert de ces données de contenu. Si au contraire, il existe des données de contenu archivées pour lesquelles la valeur du code intermédiaire correspond à celle du code calculé reçu, on détermine lors de l'étape 74, la valeur du code d'identification pour ces différentes données de contenu archivées. Cette détermination peut être effectuée soit par simple lecture lorsque la valeur du code d'identification est enregistrée en association avec les données de contenu dans la mémoire de masse 6, 7 du serveur d'archivage 5, soit par un nouveau calcul effectué sur les données de contenu à partir du même procédé de calcul que celui qui est utilisé pour calculer le code identification des données de contenu du fichier collecté. On compare ensuite lors de l'étape 75 de la valeur du code identification contenu dans le code calculé reçu correspondant au fichier collecté, avec la valeur du code d'identification ainsi déterminée pour les différentes données de contenu archivées. S'il existe des données de contenu archivées qui présentent la même valeur de code identification, on enregistre lors de l'étape 76 un signal selon lequel les données de contenu du fichier sont déjà présentes en mémoire de masse 6, 7 du serveur d'archivage. Dans le cas contraire, on effectue l'étape 48 de transfert. Le module 11 de vérification effectue donc une recherche sur les mémoires de masse 6, 7 pour déterminer s'il existe un fichier archivé pour lequel un tel code calculé présentant cette valeur a déjà été enregistré. Le résultat de cette vérification est ensuite communiqué en 54 ou 55 à l'agent de collecte 8 du serveur source 2 correspondant via le système 1 de liaison. L'agent de collecte 8 effectue alors un test 47 à partir du résultat qu'il reçoit. Si ce résultat 54 indique que le code calculé n'est pas déjà présent sur l'une des mémoires de masse 6, 7 du serveur d'archivage 5, l'agent de collecte 8 autorise le transfert des données de contenu de ce fichier collecté à destination du serveur d'archivage 5, lors de l'étape 48 de transfert. Au contraire, si le résultat 55 indique que le code calculé est déjà présent sur l'une des mémoires de masse 6, 7 du serveur d'archivage 5, l'étape 48 n'est pas effectuée et le processus est replacé au test 41 pour la détection d'un nouveau fichier. En parallèle, après l'étape 44 de calcul du code calculé, l'agent de collecte 8 réalise une étape 45 de création de métadonnées associées au fichier collecté, puis une étape 46 de transfert systématique de ces métadonnées au serveur d'archivage 5. À l'issue de l'étape 46, le processus est replacé au test 41 pour la détection d'un nouveau fichier à collecter. Ainsi, quelle que soit la valeur du code calculé, les métadonnées d'un fichier collecté sont toujours transférées au serveur d'archivage 5. Si le module 11 de vérification du code calculé détermine que les données de contenu du fichier collecté ont déjà été archivées sur le serveur d'archivage 5, seules ces métadonnées sont transférées. Elles sont ensuite ajoutées à l'ensemble des informations concernant le fichier collecté et déjà préalablement enregistrées sur l'une ou l'autre des mémoires de masse 6, 7 du serveur d'archivage 5. À l'inverse, si le module 11 de vérification du code calculé indique que les données de contenu du fichier collecté n'ont pas été préalablement archivées ou ont été modifiées depuis le dernier archivage (code calculé absent des mémoires de masse 6, 7 associées au serveur d'archivage 5), les données de contenu constitutives du fichier collecté et enregistrées sur les mémoires de masse 3, 4 associées au serveur source 2, sont transférées avec les métadonnées pour être archivées. Lors de l'étape 45 de création des métadonnées associées au 15 fichier collecté, l'agent de collecte 8 exécute un module 14 d'extraction et de calcul de métadonnées. Les métadonnées collectées par ce module 14 comprennent des métadonnées techniques MDT qui sont mémorisées en association avec les données de contenu du fichier sur la mémoire de masse 3, 4 associée au serveur 20 source 2. Ces métadonnées MDT sont générées par le système d'exploitation OS du serveur source 2, par exemple des métadonnées décrivant le contenu technique du fichier lui-même, sa date de création, son volume (nombre de bits),... Par ailleurs, le fichier peut également être associé à une ou plusieurs application(s) logicielle(s) spécifique(s) 19 susceptible(s) de générer des 25 métadonnées d'en-tête MDE en association avec ce fichier, ces métadonnées MDE étant enregistrées dans ce fichier, avec les données de contenu du fichier, sur la mémoire de masse 3, 4 du serveur source 2. Par exemple, un fichier de traitement de texte, qui peut être identifié en tant que tel par son extension, peut faire l'objet de métadonnées MDE générées et enregistrées par un logiciel de traitement de texte qui permet de le créer ou de le modifier (par exemple un titre, un résumé, des mots-clés, l'identification d'un auteur,...). Il peut s'agir également par exemple de données représentatives de l'état d'un document, de droits d'accès à un fichier, d'une signature numérique, de certificats d'authentification... Ces métadonnées d'en-tête MDE sont accessibles par l'ouverture du fichier lui-même, ou grâce à un module logiciel API extracteur d'en-tête. Le module 14 d'extraction et de calcul de métadonnées de l'agent de collecte 8 est adapté pour pouvoir identifier ces métadonnées d'en-tête MDE, les collecter (en émettant des requêtes ciblées par exemple sur des bases de données, ou une requête directe, par exemple via une API extracteur d'en-tête, concernant le fichier collecté) et les enregistrer avec l'ensemble des métadonnées associées au fichier qui seront transférés au serveur d'archivage 5. De surcroît, le module 14 d'extraction et de calcul de métadonnées est adapté pour pouvoir générer lui-même des métadonnées MDG selon au moins traitement informatique prédéterminé, et les associer au fichier collecté, ces métadonnées MDG étant par exemple des métadonnées représentatives du contexte, sur le serveur source 2, du fichier collecté. Par exemple, les métadonnées MDG générés par le module 14 d'extraction et de calcul de métadonnées sont choisies parmi : û des métadonnées, dites métadonnées statiques MDGS, qui peuvent être définies par une saisie de l'utilisateur lors de la configuration de la collecte, par exemple par l'intermédiaire du module de gestion d'archivage 9 ; par exemple, il est possible de faire ajouter des métadonnées permettant de qualifier l'ensemble des fichiers correspondant à une collecte prédéterminée ou à une partie de collecte prédéterminée (par exemple on peut vouloir associer la qualification commercial à tous les fichiers de tous les répertoires correspondant à une collecte prédéterminée) ; des métadonnées, dites métadonnées calculées MDGC, obtenues par un calcul, de préférence un calcul simple, effectué sur les données de contenu du fichier concerné : par exemple, dans le cas de fichier texte, il est possible de réaliser une indexation textuelle légère fournissant des résultats statistiques sur les mots du texte ; dans le cas d'un fichier image, il est possible d'indiquer si les données de contenu du fichier correspondent ou non à une image noire, ou à une image blanche, ou autres... La figure 6 illustre un exemple de fichier, et de différentes catégories de métadonnées pouvant être extraites et calculées à partir de ce fichier. Dans l'exemple, le fichier 61 est par exemple un fichier au format MXF. Ce fichier inclut des données de contenu Dl, D2, D3. Il contient également des métadonnées qui nécessitent l'ouverture du fichier 61 ou un extracteur de métadonnées pour y accéder, à savoir des métadonnées d'en-tête MDE : MDE1, MDE2, MDE3, des métadonnées intermédiaires MDI4, MDI5 séparant les groupes de données de contenu, et des métadonnées MDF de fin de fichier. Par ailleurs, le système d'exploitation du serveur source 2 sur lequel le fichier 61 est initialement enregistré a associé des métadonnées MDT techniques à ce fichier 61. Le module 14 d'extraction et de calcul de métadonnées rassemble tout d'abord les différentes métadonnées d'en-tête MDE, techniques MDT, et les métadonnées intermédiaires MDI4, MDI5, et de fin MDF. Par ailleurs, un module 62 de création de métadonnées permet, par un ou plusieurs calculs simples, de générer des métadonnées MDGC calculées qui sont également associées aux métadonnées du fichier 61 par le module 14 d'extraction et de calcul de métadonnées. Également, le module 14 d'extraction et de calcul de métadonnées associe des métadonnées MDGS de type statique et saisies par un utilisateur lors de la configuration de la collecte pour qualifier des propriétés des fichiers collectés. Également, le module 14 d'extraction et de calcul de métadonnées peut associer au fichier 61 des métadonnées, dites métadonnées contextuelles MDC. Ces métadonnées contextuelles MDC sont générées par un module 63 de calcul de métadonnées contextuelles à partir des métadonnées MDT techniques et/ou par exemple de tout ou partie des métadonnées d'en-tête MDE1, MDE2. Ces métadonnées contextuelles MDC sont par exemple des métadonnées représentant la position du fichier collecté dans le système de gestion de fichiers du serveur source 2 et/ou l'environnement informatique de ce fichier collecté dans le système de gestion de fichiers du serveur source 2 et/ou des attributs du fichier collecté... If this intermediate code value is not recorded with the content data, it is sufficient, in step 72, to calculate it using, of course, the same calculation method that was used to calculate the value of the content. intermediate code contained in the received calculated code corresponding to the content data of the calculated file. If the value of the intermediate code contained in the calculated code received does not correspond to any of the content data stored in mass memory 6, 7 of the archiving server 5, this means that the content data of the file collected have never been archived, and recorded in step 77 a signal 54 according to which the content data of the file collected have not already been archived, which then proceeds to step 48 of transferring these content data. If, on the other hand, there are archived content data for which the value of the intermediate code corresponds to that of the received computation code, the value of the identification code for these various archived content data is determined during step 74. This determination can be made either by simple reading when the value of the identification code is recorded in association with the content data in the mass memory 6, 7 of the archiving server 5, or by a new calculation performed on the data. content from the same calculation method as that used to compute the identification code of the content data of the collected file. Then, in step 75, the value of the identification code contained in the received calculated code corresponding to the file collected is compared with the value of the identification code thus determined for the various archived content data. If there is archived content data that has the same identification code value, a signal is recorded in step 76 that the file content data is already present in the server's mass memory 6, 7. archiving. Otherwise, the transfer step 48 is performed. The verification module 11 therefore performs a search on the mass memories 6, 7 to determine if there exists an archived file for which such calculated code having this value has already been recorded. The result of this verification is then communicated in 54 or 55 to the collection agent 8 of the corresponding source server 2 via the link system 1. The collection agent 8 then performs a test 47 from the result it receives. If this result 54 indicates that the calculated code is not already present on one of the mass memories 6, 7 of the archive server 5, the collection agent 8 authorizes the transfer of the content data of this collected file. to the archiving server 5, during the transfer step 48. On the other hand, if the result 55 indicates that the calculated code is already present on one of the mass memories 6, 7 of the archiving server 5, step 48 is not performed and the process is put back to the test 41 for detecting a new file. In parallel, after the step 44 of calculating the calculated code, the collection agent 8 performs a step 45 of creation of metadata associated with the file collected, then a step 46 of systematic transfer of these metadata to the archive server 5. At the end of step 46, the process is returned to test 41 for the detection of a new file to be collected. Thus, regardless of the value of the calculated code, the metadata of a collected file is always transferred to the archiving server 5. If the module 11 for verifying the computed code determines that the content data of the file collected have already been archived on the archive server 5, only these metadata are transferred. They are then added to all the information concerning the file collected and already previously recorded on one or other of the mass memories 6, 7 of the archiving server 5. On the other hand, if the module 11 of verification of the calculated code indicates that the content data of the collected file have not been previously archived or have been modified since the last archiving (computation code not present in the mass memories 6, 7 associated with the archiving server 5), the data content of the file collected and stored on the mass memories 3, 4 associated with the source server 2, are transferred with the metadata to be archived. In step 45 of creating the metadata associated with the collected file, the collection agent 8 executes a module 14 for extracting and calculating metadata. The metadata collected by this module 14 includes MDT technical metadata that are stored in association with the file content data on the mass memory 3, 4 associated with the source server 2. These MDT metadata are generated by the operating system. OS of the source server 2, for example metadata describing the technical content of the file itself, its date of creation, its volume (number of bits), ... Moreover, the file can also be associated with one or more applications (s) specific software (s) 19 likely (s) to generate MDE header metadata in association with this file, these MDE metadata being recorded in this file, with the file content data, on the mass memory 3, 4 of the source server 2. For example, a word processor file, which can be identified as such by its extension, can be the subject of generated MDE metadata and recorded by a word processing software that allows you to create or modify it (for example a title, a summary, keywords, the identification of an author, ...). It can also be for example data representative of the state of a document, access rights to a file, a digital signature, authentication certificates ... This header metadata MDE are accessed by opening the file itself, or through a header extractor API software module. The metadata extraction and calculation module 14 of the collection agent 8 is adapted to be able to identify these MDE header metadata, to collect them (by sending targeted queries, for example on databases, or a direct request, for example via a header extractor API, concerning the collected file) and save them with all the metadata associated with the file that will be transferred to the archiving server 5. In addition, the module 14 of extraction and calculation of metadata is adapted to be able to generate MDG metadata itself according to at least predetermined computer processing, and to associate them with the file collected, these metadata MDG being for example metadata representative of the context, on the source server 2, the collected file. For example, the MDG metadata generated by the metadata extraction and calculation module 14 are chosen from: metadata, called MDGS static metadata, which can be defined by a user input during the configuration of the collection for example via the archive management module 9; for example, it is possible to add metadata to qualify all the files corresponding to a predetermined collection or to a predetermined collection part (for example one may want to associate the commercial qualification to all the files of all the corresponding directories to a predetermined collection); metadata, called MDGC calculated metadata, obtained by a calculation, preferably a simple calculation, performed on the content data of the file concerned: for example, in the case of a text file, it is possible to perform a light text indexing providing statistical results on the words of the text; in the case of an image file, it is possible to indicate whether or not the content data of the file corresponds to a black image, or to a blank image, or others ... FIG. 6 illustrates an example of a file, and different categories of metadata that can be extracted and calculated from this file. In the example, the file 61 is for example a file in the MXF format. This file includes content data D1, D2, D3. It also contains metadata that requires the opening of the file 61 or a metadata extractor to access it, namely MDE header metadata: MDE1, MDE2, MDE3, intermediate metadata MDI4, MDI5 separating the groups of data content, and end-of-file MDF metadata. Moreover, the operating system of the source server 2 on which the file 61 is initially recorded has associated technical metadata MDT with this file 61. The module 14 for extracting and calculating metadata first gathers the different metadata. MDE header, MDT techniques, and the intermediate MDI4, MDI5, and MDF end metadata. Moreover, a metadata creation module 62 makes it possible, by one or more simple calculations, to generate computed MDGC metadata that are also associated with the metadata of the file 61 by the module 14 for extracting and calculating metadata. Also, the metadata extraction and calculation module 14 associates static type MDGS metadata entered by a user during collection configuration to qualify the properties of the collected files. Also, the metadata extraction and calculation module 14 can associate with the file 61 metadata, called MDC contextual metadata. These contextual MDC metadata are generated by a module 63 for calculating contextual metadata from the technical metadata MDT and / or for example all or part of the header metadata MDE1, MDE2. These contextual metadata MDC are for example metadata representing the position of the file collected in the file management system of the source server 2 and / or the computer environment of this file collected in the file management system of the source server 2 and / or attributes of the collected file ...

Par ailleurs, le module 14 d'extraction et de calcul de métadonnées peut extraire des métadonnées, dites métadonnées extraites MDEX, d'un autre fichier 64, distinct du fichier 61 mais associé à ce dernier en tant que fichier de métadonnées. En effet, certains formats de fichiers prévoient des fichiers spécifiques de métadonnées, le contenu de ce fichier spécifique de métadonnées constituant des métadonnées pour le contenu d'un deuxième fichier. Tel est le cas par exemple de fichiers XML, ou de fichiers d'éditeurs de textes associés à des feuilles de style... Comme on le voit, l'agent de collecte 8 permet de regrouper toutes ces métadonnées dans un ensemble de métadonnées 65 associées au fichier collecté. Ainsi, l'agent de collecte 8 permet d'associer un grand nombre de métadonnées différentes à chaque fichier collecté, puis de transférer ces métadonnées 65 au serveur d'archivage 5, de sorte que ces métadonnées 65 sont archivées en association avec le code calculé et donc avec le fichier archivé. Cela permet ensuite d'obtenir un serveur d'archivage géré et piloté à partir de métadonnées de façon souple, dynamique et rapide. Il est à noter que tout ou partie des traitements mentionnés sur la figure 6 peuvent être effectués au niveau du module de gestion d'archivage 9, en temps réel lors de l'enregistrement du fichier archivé ou au contraire en différé, dès lors que les métadonnées correspondantes auront été préalablement transférées au serveur d'archivage 5. Sur la figure 1, on a représenté schématiquement des métadonnées MD 1 d'un fichier 61 collecté contenues dans ce même fichier 61 en association avec les données DATA correspondantes (c'est-à-dire pouvant comprendre des métadonnées techniques MDT et/ou de métadonnées d'en-tête MDE et/ou de métadonnées intermédiairesMDI4, MDI5 et/ou de métadonnées MDF de fin de fichier) ; des métadonnées MD2 enregistrées en mémoire de masse 3 du serveur source 2 mais en dehors du fichier 61 (par exemple pouvant comprendre des métadonnées d'en-tête MDE', les métadonnées extraites MDEX , et des métadonnées de fin de fichier MDF' d'un fichier 64 distinct de métadonnées), et des métadonnées MD3 générées par le module de gestion d'archivage 9 et/ou par l'agent de collecte 8 (par exemple comprenant des métadonnées contextuelles MDC, et des métadonnées calculées MDGC, et des métadonnées saisies MDGS). Le module de gestion d'archivage 9 comprend un module 15 de transfert de fichiers adapté pour contrôler le transfert de l'ensemble des données de contenu et des métadonnées du fichier collecté entre chaque serveur source 2 et le serveur d'archivage 5. Ce module 15 de transfert de fichiers a en particulier pour fonction de contrôler les différents transferts simultanés vers le même serveur d'archivage 5, par exemple selon un protocole de type FTP, notamment pour en limiter le nombre, ainsi que le taux de transfert des données à partir de chaque serveur source 2, en limitant le taux de transfert à une valeur seuil maximum prédéterminée, afin d'empêcher notamment l'occupation trop importante de la bande passante de la liaison par la fonction d'archivage. Les transferts de données de contenu et métadonnées peuvent être effectués par le module 15 de transfert de fichiers selon d'autres types de protocoles que le protocole FTP, par exemple selon des protocoles spécifiques au serveur source 2 concerné et/ou au serveur d'archivage 5. En outre, le module de gestion d'archivage 9 comprend un module 16 d'association des métadonnées adapté pour rassembler les données de contenu et les métadonnées d'un fichier collecté (dans le cas où un fichier collecté comprenant des données de contenu a été transféré au serveur d'archivage 5) et pour enregistrer de nouvelles métadonnées correspondant à un fichier déjà archivé en association avec ce fichier déjà archivé. Dans le cas où il reçoit un fichier collecté archivé comprenant à la fois des données de contenu et des métadonnées, le module de gestion d'archivage 9 active un module 17 de validation du code calculé -notamment du code identifiant- transmis préalablement aux données de contenu du fichier collecté. Ce module 17 de validation applique le même procédé de calcul que le module 12 de calcul de ce code par chaque serveur source 2. Le module de gestion d'archivage 9 connaissant l'identité du serveur source 2 d'où provient le fichier collecté, connaît également le procédé de calcul utilisé pour obtenir le code calculé -notamment le code identifiant-. Le module 17 de validation du code calculé est adapté pour appliquer ce même procédé de calcul sur les données de contenu qu'il reçoit. Si le résultat du calcul effectué par le module 17 de validation est différent du code calculé -notamment du code identifiant- transmis préalablement par le serveur source 2 en ce qui concerne les données de contenu de ce fichier collecté, un message d'erreur est adressé et les données de contenu ne sont pas archivées. Au contraire, si le résultat du calcul effectué par le module 17 de validation correspond au même code calculé -notamment au même code identifiant- que celui reçu en association avec les données de contenu du fichier collecté, ces données de contenu peuvent être archivées, c'est-à-dire enregistrées sur l'une des mémoires de masse 6, 7 associées au serveur d'archivage 5. Dans ce cas, les métadonnées MDT, MDE, MDG reçues également en association avec ce fichier collecté sont reliées aux données de contenu correspondantes et au code calculé, et l'ensemble est enregistré comme représenté figure 1 en mémoire de masse 6, 7. Dans l'exemple représenté figure 1, le code calculé est enregistré dans un champ 18 à la suite des données de contenu du fichier archivé. Ainsi, le code calculé est utilisé dans un réseau selon l'invention pour réaliser une vérification d'intégrité des données de contenu transférées au serveur d'archivage 5. Il est à noter que contrairement à ce qui est représenté schématiquement figure 1, les métadonnées MDT, MDE, MDG, les données de contenu et le code calculé ne sont pas nécessairement enregistrés ensemble en un même emplacement d'une mémoire de masse 6, 7 ou dans un même fichier. Ces différentes informations et données peuvent être réparties dans différents emplacements de la mémoire de masse, par exemple enregistrées dans différentes tables d'une base de données d'archivage. Dans le cas où le module de gestion d'archivage 9 ne reçoit que des métadonnées MDT et/ou MDE et/ou MDG correspondant à un fichier collecté, le module 16 d'association de métadonnées enregistre ces métadonnées reçues en association avec les données de contenu du fichier collecté déjà préalablement archivées en mémoire de masse d'archivage 6, 7. Il est à noter qu'un réseau selon l'invention est également compatible avec l'archivage de fichiers dont les métadonnées et/ou les données sont dupliquées sur différents serveurs source 2 eux-mêmes reliés via le système 1 de liaison, par exemple par un mode de communication du type pair à pair . En effet, dans ce cas, l'archivage d'un même fichier à partir de chaque serveur source 2 sur lequel permet d'associer, aux données du fichier enregistrées sur le serveur d'archivage, des métadonnées associées générées par chaque agent de collecte 8 concerné, notamment des métadonnées contextuelles permettant de connaître les différents serveurs source sur lesquels le fichier est enregistré. Par ailleurs, un serveur d'archivage 5 selon l'invention peut être doté de fonctionnalités d'indexation des données de contenu et/ou des métadonnées et/ou des fichiers archivés, de façon à faciliter les recherches et restaurations ultérieures. L'indexation peut intervenir avant l'enregistrement des informations correspondantes en mémoire de masse d'archivage 6, 7 pour les nouveaux fichiers collectés, ou au contraire peut être réalisée a posteriori sur les données de contenu et/ou métadonnées correspondant à des fichiers déjà archivés. Furthermore, the metadata extraction and calculation module 14 can extract metadata, called MDEX extracted metadata, from another file 64, separate from the file 61 but associated with the latter as a metadata file. Indeed, some file formats provide for specific metadata files, the contents of this specific metadata file constituting metadata for the content of a second file. This is the case, for example, of XML files, or of text editor files associated with style sheets. As can be seen, the collection agent 8 makes it possible to group all these metadata in a set of metadata. associated with the collected file. Thus, the collection agent 8 makes it possible to associate a large number of different metadata with each file collected, and then to transfer these metadata 65 to the archiving server 5, so that these metadata 65 are archived in association with the calculated code. and so with the archived file. This then makes it possible to obtain an archive server managed and controlled from metadata in a flexible, dynamic and fast manner. It should be noted that all or some of the processes mentioned in FIG. 6 can be carried out at the level of the archiving management module 9, in real time during the recording of the archived file or, on the contrary, at a later time, since the The corresponding metadata will have been previously transferred to the archiving server 5. In FIG. 1, there is shown schematically MD 1 metadata of a collected file 61 contained in this same file 61 in association with the corresponding DATA data (ie that may include MDT technical metadata and / or MDE header metadata and / or MDI4, MDI5 and / or end-of-file MDF metadata); MD2 metadata stored in the mass memory 3 of the source server 2 but outside the file 61 (for example may include header metadata MDE ', metadata extracted MDEX, and end-of-file metadata MDF' d ' a separate metadata file 64), and MD3 metadata generated by the archive management module 9 and / or by the collection agent 8 (e.g. including contextual metadata MDC, and calculated metadata MDGC, and metadata MDGS entries). The archive management module 9 comprises a file transfer module 15 adapted to control the transfer of all the content data and the metadata of the file collected between each source server 2 and the archive server 5. This module In particular, the file transfer function has the function of controlling the different simultaneous transfers to the same archive server 5, for example according to an FTP type protocol, in particular to limit the number thereof, as well as the data transfer rate. from each source server 2, limiting the transfer rate to a predetermined maximum threshold value, in particular to prevent the excessive occupation of the bandwidth of the link by the archiving function. The content and metadata data transfers can be carried out by the file transfer module 15 according to other types of protocols than the FTP protocol, for example according to protocols specific to the source server 2 concerned and / or to the archive server. 5. In addition, the archive management module 9 includes a metadata association module 16 adapted to gather the content data and the metadata of a collected file (in the case where a file collected containing content data has been transferred to the archive server 5) and to record new metadata corresponding to an already archived file in association with this already archived file. In the case where it receives an archived collected file comprising both content data and metadata, the archiving management module 9 activates a module 17 for validating the calculated code-in particular the identifier code-transmitted prior to the data of content of the collected file. This validation module 17 applies the same calculation method as the module 12 for calculating this code by each source server 2. The archive management module 9 knowing the identity of the source server 2 from which the collected file originates, also knows the calculation method used to obtain the calculated code - in particular the identifier code -. The module 17 for validating the calculated code is adapted to apply this same calculation method to the content data it receives. If the result of the computation performed by the validation module 17 is different from the calculated code-in particular of the identifier code transmitted previously by the source server 2 with regard to the content data of this collected file, an error message is sent and the content data is not archived. On the other hand, if the result of the calculation performed by the validation module 17 corresponds to the same calculated code - in particular to the same identifier code - as that received in association with the content data of the file collected, these content data can be archived, c ie, stored on one of the mass memories 6, 7 associated with the archive server 5. In this case, the MDT, MDE, MDG metadata also received in association with this collected file are related to the data of corresponding content and the calculated code, and the set is recorded as represented in FIG. 1 in mass memory 6, 7. In the example represented in FIG. 1, the calculated code is recorded in a field 18 following the data of the contents of the archived file. Thus, the calculated code is used in a network according to the invention to perform an integrity check of the content data transferred to the archiving server 5. It should be noted that contrary to what is shown schematically in FIG. 1, the metadata MDT, MDE, MDG, the content data and the calculated code are not necessarily saved together in the same location of a mass memory 6, 7 or in the same file. These different information and data can be distributed in different locations of the mass memory, for example recorded in different tables of an archive database. In the case where the archiving management module 9 only receives MDT and / or MDE and / or MDG metadata corresponding to a file collected, the metadata association module 16 records this metadata received in association with the data of the metadata. content of the file collected already previously archived in mass storage memory 6, 7. It should be noted that a network according to the invention is also compatible with the archiving of files whose metadata and / or data are duplicated on different source servers 2 themselves connected via the link system 1, for example by a peer-to-peer communication mode. In this case, the archiving of the same file from each source server 2 on which to associate, with the file data recorded on the archiving server, associated metadata generated by each collection agent 8, including contextual metadata to know the different source servers on which the file is saved. Moreover, an archiving server 5 according to the invention may be provided with indexing features of the content data and / or metadata and / or archived files, so as to facilitate subsequent searches and restorations. The indexing can take place before the recording of the corresponding information in mass storage memory 6, 7 for the new files collected, or on the contrary can be carried out retrospectively on the content data and / or metadata corresponding to files already archives.

En outre, dans un réseau selon l'invention, le module de gestion d'archivage 9 est adapté pour pouvoir récupérer toute collecte de fichiers interrompue à un moment donné pour une raison quelconque. En effet, lors du redémarrage de la collecte, l'étape d'initialisation 21 de l'agent de collecte 8 replace cet agent de collecte 8 à l'état initial précédent. La collecte redémarre alors au prochain fichier non précédemment traité. En outre, si l'interruption de la collecte intervient au cours d'un transfert de fichier, le module 17 de validation du code calculé du serveur d'archivage 5 indiquera que ce fichier n'a pas été correctement transféré, de sorte que les données de contenu de ces fichiers seront à nouveau transférées. L'invention peut faire l'objet de très nombreuses variantes de réalisations et applications différentes. En particulier, différents modules logiciels peuvent être incorporés, sans limitation, pour l'extraction ou la gestion de métadonnées, ou encore pour l'indexation. Par ailleurs, elle s'applique aussi bien quel que soit le sens que l'utilisateur pourra vouloir donner à la notion de données de contenu et à celle de métadonnées. L'invention permet en tout état de cause en effet de n'archiver en mémoire de masse des serveurs d'archivage qu'une seule fois les données considérées comme des données de contenu dans l'application considérée et définies comme telles par le fait que le procédé de calcul du code calculé, et plus particulièrement du code identifiant, s'applique uniquement sur ces données. Ainsi, rien n'empêche de prévoir que seule une partie des données de chaque fichier collecté n'est traitée comme des données de contenu. Furthermore, in a network according to the invention, the archive management module 9 is adapted to be able to recover any interrupted file collection at a given moment for any reason. Indeed, when restarting the collection, the initialization step 21 of the collection agent 8 replaces this collection agent 8 to the previous initial state. The collection then restarts to the next file not previously processed. In addition, if the interruption of the collection occurs during a file transfer, the module 17 for validating the calculated code of the archiving server 5 will indicate that this file has not been correctly transferred, so that the Content data from these files will be transferred again. The invention can be the subject of many variants of different embodiments and applications. In particular, various software modules may be incorporated, without limitation, for extracting or managing metadata, or for indexing. Moreover, it applies as well regardless of the meaning that the user may want to give to the concept of content data and that of metadata. In any case, the invention makes it possible to archive archive servers in bulk memory only once the data considered as content data in the application in question and defined as such by the fact that the method for calculating the calculated code, and more particularly the identifier code, applies only to these data. Thus, nothing prevents us from predicting that only part of the data of each file collected is treated as content data.

Claims

1 / - Computer network comprising: at least one file server, said source server (2), provided with an agent (8) for file collection to be archived, at least one archive server (5) adapted for allow the archiving of files on at least one mass memory (6, 7) associated with this archiving server, and provided with an archiving management module (9), and at least one digital link (1). ) network adapted to allow the exchange of digital information between the servers, wherein: said archive management module (9) is adapted to be able to issue a collection command to at least one agent (8) for collecting at least one source server (2), this collection command incorporating data representative of predetermined collection criteria, said collection agent (8) being adapted to execute on the source server (2) a search for corresponding files the criteria for collecting an order received by the said ag collection and issued by the archive management module, characterized in that, for each file collected by said collection agent (8), the latter is adapted to: calculate, from data contained in the file collected and stored on the source server (2), and according to a predetermined single calculation method, a numerical code, said calculated code, comprising at least one number, said identifier code, the value of which depends solely on said data and said method of calculation and is specific to said data, transmitting the calculated code to the archiving management module, in that the archiving server (5) is adapted to be able, on receiving a computed code, to find out if it exists, in memory of the archiving server, data corresponding to this calculated code, in that it is adapted to perform a transfer to the archiving server (5) of said data of the source server contained in the file collected and corresponds to nt to the calculated code, if the result of the search performed by the archiving management module (9) is representative of the fact that data corresponding to the calculated code are not present in mass memory of the archive server, said module management system being adapted to memorize in mass memory this data contained in the collected file and the calculated code associated with these data, and in that it is adapted not to transfer to the archiving server (5) said data from the source server contained in the collected file and corresponding to the calculated code, if the result of the search carried out by the archiving management module (9) is representative of the fact that data corresponding to the calculated code are present in mass memory the archive server.

2 / - Network according to claim 1, characterized in that said archive management module (9) is adapted to be able to transmit to the agent (8) for collecting digital data representative of the result of said search for data stored in memory. mass storage of the archiving server and corresponding to the calculated code, and in that the collection agent is adapted to: if the result of the search carried out by the archive management module is representative of the fact that corresponding data to the computed code are not present in the mass memory of the archiving server, generate a transfer authorization command to the archiving server of the data of the source server contained in the collected file, the said archiving management module being adapted to memorize in mass memory this data contained in the collected file and this calculated code associated with these data, if the result of the search carried out by the modu the archiving management is representative of the fact that data corresponding to the calculated code are present in mass memory of the archive server, do not generate an authorization command for transfer of data contained in the file collected.

3 / - Network according to one of claims 1 or 2, characterized in that the archive management module (9) is adapted to perform said search by searching if there is in mass storage of the archive server at least one record containing the identifier code.

4 / - Network according to claim 3, characterized in that it is adapted for: if the result of the search performed by the archive management module (9) is representative of the fact that the identifier code is not present in mass memory of the archiving server, generating a transfer command to the archiving server of the data of the source server contained in the file collected, said archiving management module being adapted to memorize in mass memory the data contained in the file collected and the identifier code associated with these data, if the result of the search carried out by the archiving management module (9) is representative of the fact that the identifier code is present in the mass memory of the archive server, do not generate a command to transfer the data contained in the collected file.

5 / -Network according to one of claims 1 to 4, characterized in that the calculated code is calculated from the collected file data other than the metadata of the collected file, and in that, for each file collected, the agent (8) for collecting files is adapted to collect metadata associated with this file and, if the result of the search carried out by the archiving management module (9) is representative of the fact that data corresponding to the computed code are present in the mass memory of the archiving server, generating a partial transfer authorization command adapted to allow only the transfer of all or part of these metadata to the archiving management module, said archiving management module being adapted to memorize in mass memory these metadata in association with the data of the collected file. 326 / - Network according to one of claims 1 to 5, characterized in that, for each file collected, the file collection agent (8) is adapted to collect and associate with this collected file, data metadata resulting from and / or metadata stored on the source server (2) concerned. 7 / - Network according to one of claims 1 to 6, characterized in that, for each file collected, the file collection agent (8) is adapted to collect and associate with this collected file, metadata chosen from: technical metadata (MDT) describing all or part of the technical content of the file itself and associated with this file; metadata (MDE) developed by a separate software application and recorded according to a predetermined structure; metadata (MDG, MDC) generated according to at least one computer processing predetermined by the collection agent. 8 / - Network according to one of claims 1 to 7, characterized in that for each file collected and transferred to the archive server (5) with at least one calculated code, said archive management module (9) is adapted: to calculate a verification code, from the data contained in the collected file as received by the archive server and according to said predetermined single calculation method used by the collection agent to calculate said corresponding identifier code, to compare the value of this verification code calculated from the received data with the value of this identifier code transmitted with said data of the collected file, and to store in mass memory the data contained in the collected file if and only if these two values of the verification code and the identifier code are equal. 9 / - Network according to one of claims 1 to 8, characterized in that the archive management module (9) comprises a collection management module (10) adapted to centralize communications between the archive management module (9) and each collection agent (8). 10 / - Network according to claim 9, characterized in that the collection management module (10) comprises a file transfer module adapted to control the transfer of data from each file collected between a source server (2) and the server archiving (5). 11 / - Network according to claim 10, characterized in that the file transfer module is adapted to limit the number of simultaneous transfers to the archive server (5) and / or the data transfer rate to a threshold value predetermined maximum.