EP2661715A1 - Dispositif et procède de stockage en ligne, dispositif et procède d'émission, dispositif et procède de réception - Google Patents

Dispositif et procède de stockage en ligne, dispositif et procède d'émission, dispositif et procède de réception

Info

Publication number
EP2661715A1
EP2661715A1 EP11817523.1A EP11817523A EP2661715A1 EP 2661715 A1 EP2661715 A1 EP 2661715A1 EP 11817523 A EP11817523 A EP 11817523A EP 2661715 A1 EP2661715 A1 EP 2661715A1
Authority
EP
European Patent Office
Prior art keywords
encrypted
multimedia data
data
user
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP11817523.1A
Other languages
German (de)
English (en)
Inventor
Luis Montalvo
Nicolas Le Scouarnec
Serge Defrance
Frédéric Lefebvre
Patrick Perez
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of EP2661715A1 publication Critical patent/EP2661715A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6272Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database by registering files or documents with a third party
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3236Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption

Definitions

  • the invention relates to a device and a shared storage method.
  • the invention further relates to a device and method for issuing encrypted documents for deduplication and similar search.
  • the invention relates to a receiving device and method for decrypting shared documents and performing a similar search.
  • the performance interests of the storage service provider, and the protection of the privacy of service users may conflict. Indeed, if users entrust their collections of photos in clear to the storage service provider, it can identify the identical images and store them in the space corresponding to a single image, and this regardless of the owners of photos identical; on the other hand, the confidentiality of the users is compromised. On the other hand, if the users of the storage service encrypt their images before sending them to the service provider, the service provider can no longer identify the identical images if they have been encrypted with different keys.
  • Storage Service Providers can apply file deduplication techniques to user data.
  • Deduplication means not duplicating the same content.
  • Some FSSs apply these techniques not only to data belonging to the same user account (intra-account deduplication) but also to data belonging to different user accounts (inter-account deduplication). This way of managing unencrypted user data can be perceived as an invasion of privacy by users.
  • a countermeasure to clear data manipulation is data encryption. Users could encrypt the images before sending them to the online storage service provider. Unfortunately, the same content in clear encrypted with two different keys, produces two very different encrypted contents. The privacy of the users is preserved but the FSS can not detect that the two encrypted messages correspond to the same message in clear and it can no longer optimize the storage space.
  • the invention proposes to overcome at least one of the disadvantages of the prior art.
  • the invention relates to an online storage system that reconciles these two seemingly conflicting interests.
  • the online storage service provider has the ability to identify not only the identical multimedia data but also the similar multimedia data, even if they are encrypted with different keys, without compromising the privacy of the users.
  • the invention relates to an on-line storage device capable of storing multimedia data.
  • the device comprises means for recording the multimedia data in encrypted form and for each of the encrypted multimedia data, an associated fingerprint.
  • Encrypted multimedia data is encrypted using a hash value.
  • the hash value is obtained by hashing unencrypted multimedia data.
  • the fingerprint includes an unencrypted search vector.
  • the fingerprint comprises an encrypted verification vector.
  • the encrypted verification vector is obtained by encrypting the verification vector with the hash value.
  • the device is capable of storing at least one user identifier and a user-encrypted hash, the encrypted hash being encrypted using a public encryption key of the user.
  • the device is able to store at least one user identifier and for each user an encrypted hash, the encrypted hash and the encrypted verification vector are encrypted using a public encryption key of the user.
  • the device comprises means for comparing, during each recording of multimedia data, the encrypted multimedia data recorded with the encrypted multimedia data to be recorded so as not to duplicate the recorded multimedia data.
  • the device comprises means:
  • This request for a desired target multimedia document comprises at least the fingerprint associated with the encrypted document
  • the device comprises means • to receive a second request from the issuer of the first.
  • the request for at least one searched multimedia document, comprises at least one search vector selected from the at least one transmitted search vector.
  • At least one encrypted verification vector corresponding to at least one selected search vector To transmit to the transmitter of the second request, at least one encrypted verification vector corresponding to at least one selected search vector.
  • the device comprises means:
  • the request for a desired target multimedia document, comprises at least the fingerprint associated with the encrypted document,
  • the device comprises means:
  • the request comprises at least one verification vector selected from at least one transmitted verification vector.
  • the device comprises means: • receive a request issued following the decryption of the verification vectors by the issuer of the first request and the elimination of false positives.
  • the second request includes an identifier of the selected data following the elimination of false positives;
  • the invention also relates to an on-line storage method capable of storing multimedia data. This process comprises the steps of:
  • Receiving data comprising multimedia content in encrypted form according to convergent encryption, an associated fingerprint.
  • the method also includes the steps of:
  • the data includes a recipient user identifier, an encrypted hash value for the user, an associated fingerprint.
  • the imprint includes an unencrypted search vector;
  • the transmitted data includes the encrypted multimedia content, the encrypted hash value
  • the transmitted data also includes the fingerprint associated with the encrypted multimedia content.
  • a method of online storage of multimedia data comprising the steps of:
  • the invention also proposes a method for transmitting multimedia data.
  • This method is used by the user wishing to store his data on the FSS.
  • the method includes the steps of: ⁇ encrypting the multimedia data using a convergent encryption method;
  • the imprint includes an unencrypted search vector
  • the data set sent comprises at least one user pair and an encrypted hash key associated with the user.
  • the user is the recipient of the data.
  • the encrypted hash key is obtained from the hash value of the unencrypted multimedia data, encrypted with the user's public key.
  • the fingerprint obtained during the calculation step comprises a search vector and an encrypted verification vector.
  • the encrypted verification vector is obtained by encrypting this verification vector with the hash value.
  • the encrypted verification vector is obtained by encrypting this verification vector with the public encryption key of the user.
  • the invention also relates to a device for transmitting multimedia data.
  • This device comprises:
  • the data set sent by this device comprises at least one user pair and an encrypted hash key associated with this user.
  • the encrypted hash is intended to allow the user to decrypt the multimedia data.
  • This encrypted hash key is obtained from the hash value of the unencrypted multimedia data, encrypted with the user's public key.
  • the invention proposes a method for receiving multimedia data. This method is intended for a user receiving the multimedia data and having a public key and an associated private key. This process comprises the steps of:
  • the data set received at the receiving step also comprises a search vector.
  • the reception method comprises the steps of:
  • Similar fingerprints are composed of doublets comprising a search vector, an encrypted verification vector for the user;
  • the reception method comprises the steps of:
  • the multimedia data is encrypted by a convergent encryption method.
  • the encrypted hash value is for the user;
  • the invention also relates to a device for receiving multimedia data, intended for a user having a public key and an associated private key, comprising means: Receiving a set of data comprising at least multimedia data in encrypted form by a convergent method and an encrypted hash value associated with the multimedia data, intended for the user;
  • the data set also comprises a search vector.
  • the receiving device comprises means:
  • Receiving doublets comprising a search vector, an encrypted verification vector for the user.
  • the receiving device comprises means:
  • FIG. 1 represents a storage device according to a preferred embodiment of the invention
  • FIG. 2 represents a system implementing a preferred embodiment relating to the consultation of multimedia data
  • FIG. 3 represents a system implementing a second embodiment relating to the consultation of multimedia data
  • FIG. 4 represents an operating flow diagram of a preferred embodiment of an aspect of the invention relating to the encryption of data
  • FIG. 5 represents an operating flow chart of a preferred embodiment of deduplication
  • FIG. 6 represents an operating flow chart of the invention according to a first embodiment related to storage
  • FIG. 7 represents an operating flow diagram of the invention according to a second embodiment related to storage.
  • FIG. 8 represents an operating flowchart of the encryption of the hash key for a recipient user.
  • FIG. 9 represents an operating flow chart of a preferred embodiment of the invention related to decryption
  • FIG. 10 represents a similar multimedia search operation flowchart according to a preferred embodiment. 4. Detailed description of the invention.
  • multimedia data, documents and contents will be used interchangeably to designate the same thing. These terms will mean on the one hand images or photos, but also all the multimedia content with which this problem arises such as text, audio and video documents.
  • encryption and data encoding are used interchangeably to refer to data encryption for the purpose of protecting them from viewing by anyone. It should be noted that for the entire description, the data or multimedia contents are stored systematically encrypted by the FSS.
  • hash and cryptographic hash are used as synonyms.
  • the term reference (multimedia) document is used in the context of the search for similar content. It refers to the multimedia content whose fingerprint is used to compare with the fingerprints of the multimedia content stored by the FSS, in order to identify similar content available at the FSS.
  • Figure 1 shows a system embodying a preferred embodiment of the invention.
  • a first user wishes to transmit I data to a recipient correspondent.
  • An online storage provider FSS 120
  • FSS offers services for sharing and archiving multimedia content between several users. Users can use the service to archive their collections of multimedia content, but they can also use it to share either all or part of their collections with other authorized users.
  • the online storage system has the following characteristics:
  • the FSS has access only to encrypted multimedia data l c users and the FSS must not be able to decrypt them.
  • the FSS receives and stores only encrypted data.
  • the FSS can detect that two encrypted multimedia contents correspond to two strictly identical multimedia documents.
  • the device (100) of the first user includes encryption means (103) that encrypts the multimedia content to be recorded.
  • Encryption E s used by the encryption means (103) is an encryption of the convergent type, there is disclosed in Figure 4.
  • the device (100) comprises calculation means (102) a hash value H.
  • the convergent type encryption E s will allow the FSS to apply file deduplication methods even if the files are encrypted with different keys. Encryption can also be implemented on a device other than a computer and by hardware means rather than a computer program.
  • the invention also relates to the possibility of requesting a search for multimedia content similar to the multimedia content accessed. In this context, to define the multimedia content accessed, the term reference multimedia content will be used in the following description. To meet the need for research similar multimedia content, the encrypted media content l c transmitted is accompanied by a digital fingerprint E.
  • the E-footprint enables efficient search, eliminates false positives and preserves the confidentiality of the reference content.
  • the device (100) of the first user comprises calculation means (104) for calculating the fingerprint E from the unencrypted multimedia content I, as described in FIG. 6 and FIG. 7. During the calculation, the fingerprint E just like the unencrypted hash value H can be stored locally for later use.
  • Figure 2 represents an aspect of the invention relating to data retrieval.
  • a first user wishes to allow access to data I, already stored at a FSS (120) to a recipient user U.
  • Said FSS provides features associated with its storage services as presented in the description of Figure 1.
  • the first user needs the recipient user to communicate to him his public encryption key K p by any means of communication known to those skilled in the art, for example an e-mail.
  • the encryption means (105) encrypts the hash value of said data and forwards it to the recipient user by means of the communication interface (101) via the FSS. (220) the encrypted hash value H c , as described in FIG. 8.
  • Means (102) recalculate the unencrypted hash value H from the multimedia data still stored by the device (100) of the first user.
  • the hash value H has been stored unencrypted on the device (100) during the step described in FIG. 1 and is reused.
  • the device of the first user also transmits an identifier of the user U and a fingerprint E of the multimedia data.
  • the imprint is recalculated as described in FIG. 1.
  • the imprint E has been stored as described in FIG. 1 by the calculation means (104) and is reused by the device as described in Figure 2.
  • the means (206) prepares data comprising a triplet ⁇ E, U, Hc> corresponding to a U identifier of the recipient user, the hash value H c of the multimedia content and the fingerprint E of the multimedia content.
  • This identifier may for example be an email address of the recipient user of the multimedia contents.
  • the FSS stores in a database (123) the pair ⁇ U, H c >, user identifier, hash value and it establishes a link between this pair and the multimedia data.
  • corresponding encryption in the database contains encrypted multimedia contents (121).
  • the FSS (220) relies on the fingerprint database (122) and the fingerprint E received in said triplet.
  • the communication interface (241) implemented by the recipient user's device (140) receives data that includes the encrypted content l c , the associated encrypted hash value H c .
  • the data is provided to decryption means (142) by an extracting means (244).
  • the decryption means (142) decrypts the hash value H c . to obtain H.
  • means (143) for decrypting the content uses the hash value H to decrypt the multimedia content according to the description of FIG. data received by the recipient user's device may also include a fingerprint E on the multimedia data to allow searching for similar contents.
  • Transmission by the FSS (220) of the imprint E is optional. It is not necessary to decrypt the multimedia content. The optional side of the transmission is symbolized by a representation in square brackets in the figure, between the FSS (220), the communication interface (241) and the extraction means (244).
  • FIG. 3 represents a variant of the second aspect of the invention relating to the data consultation described in FIG. 2.
  • the first user wishes to transmit multimedia data I to the recipient user.
  • the scenario is similar. It differs, however, by the transmission method applied by the communication interface (301) of the encrypted hash value H c and the fingerprint E. And secondly by an additional action performed by the interface of communication (341) implemented by said program contained on the recipient user's computer, in the form of a request sent to the FSS (120), to obtain the multimedia content.
  • the communication interface (301) of the first user after receiving the pair ⁇ H c , E> constituted by the means (306), transmits the pair directly to the device (140) of the destination user U.
  • the encrypted hash value H c is obtained according to the method (105) described in FIG. 2.
  • the fingerprint E like that of FIG. 2, comprises a search fingerprint V (or search vector). It may also include a verification fingerprint S c (or verification vector), to enable the recipient user U to request a search for similar content.
  • the receiving device (140) After receiving the pair ⁇ H c , E>, the receiving device (140), using the means of the communications interface (341) sends a request to the FSS to obtain the encrypted multimedia content l c .
  • the request of the recipient user includes the search fingerprint E.
  • this request includes the encrypted hash value H c associated with the identifier U of the recipient user, to allow storage by the FSS.
  • the FSS uses the search fingerprint to identify the encrypted multimedia content l c to be provided.
  • the FSS can also transmit the associated fingerprint E contained in the fingerprint database (122), including a verification vector, to allow a search for similar contents later.
  • the FSS In the case where the FSS also receives the pair ⁇ U, H c > encrypted hash value, identifier of the user U, the FSS stores the pair in the database of hash values. It also creates the link between said pair and the encrypted multimedia content 1c , as described in FIG.
  • FIG. 4 gives a convergent encryption flow chart also called convergent encryption implemented by the encryption means (102, 103) in the device (100).
  • a cryptographic hash value H is computed by the computer of the first user, this cryptographic hash value H may be of the SHA-256 type. It is possible to choose another hash length, for example SHA-512, but also any other hash method like MD5.
  • This cryptographic hash value H is then used as an encryption key, for encrypting with a symmetrical algorithm E s , the content I that the first user wishes to transmit during a step C3, and obtain the encrypted content I c .
  • the resulting encrypted content will be transmitted to the FSS (120,220) in Figure 6 and Figure 7.
  • the proposed system advantageously allows to keep the confidentiality of the data recorded by the FSS while allowing the FSS not to duplicate the recorded data unnecessarily.
  • the storage service provider (FSS), without knowledge of the private keys of the users, can detect that two files are strictly identical and store them in the space corresponding to a single file.
  • the FSS minimizes the storage space needed to store all the data to be stored.
  • step D1 When the FFS receives a content to be recorded, step D1, it receives according to the invention, an encrypted content I c and an associated footprint E.
  • step D3 the FSS makes a comparison of the encrypted content I c received with the contents of the FSS. If this comparison is successful the content c is already stored, it is not registered again. However, if this comparison is unsuccessful, the new encrypted content is saved with the associated fingerprint.
  • Fig. 6 shows an embodiment implementing the search for similar contents in the FSS.
  • the search for duplicates aims at optimizing the storage at the FSS and it uses cryptographic hashing techniques, and for illustrative purposes a hash of the SHA-256 type.
  • the result of the hash function changes dramatically if only one input bit changes.
  • the hash values of these two files are completely different while the images are visually similar.
  • This problem exists with all multimedia content, including audio (eg Mp3, Flac), or video. (MPEG, Ogg, QuickTime).
  • cryptographic hashing techniques are useful for identifying strictly identical (bit-to-bit) copies of an image, but they are useless for searching images visually similar to a reference image.
  • the FSS can perform search queries for similar multimedia content, by the so-called nearest neighbor method, in the collections of the multimedia data of the users without having access to the multimedia documents in the clear.
  • the result of such queries is equivalent to the result that the user would have obtained if he had executed such queries on a collection of unencrypted multimedia documents.
  • the overall approach such as the grayscale histogram, describes the content of the image as a whole. This algorithm is fast but its image descriptor is not very resistant to distortions of the image.
  • the local approach such as points of interest, describes the image content as a collection of fingerprints of image pieces belonging to the same image. This algorithm is complex and slow but its image descriptor is resistant to many distortions.
  • the similarity between two images A and B is simply determined by exhaustive search of the nearest neighbor of each descriptor of the image A in the set of descriptors of the image B.
  • the scaling that is, the search for similarity between an image A and the set of images of an image library, is much more complex.
  • This scaling requires the establishment of an efficient system to solve the problem, referred to as the nearest neighbor, defined as follows: Either a collection of data points and a request point in a metric space of dimension ⁇ n>, find the data point that is closest to the query point.
  • the usual way to implement such a system is as follows.
  • a set of descriptors called collection of data points, is computed on a given photo library. Then, when a similarity request is made, the thumbprint of the request image is computed to obtain the request point, and then the closest data point to the request point is determined.
  • the effectiveness of a closest neighbor search is evaluated according to the so-called precision and recall measures of the request. These measurements are essentially dependent on the image fingerprinting algorithm and the closest neighbor search algorithm.
  • BoF BoF
  • VLAD Vector of Locally Aggreated Descriptors
  • the image fingerprint as a fixed size vector Zn belonging to a metric space.
  • the standard of a vector Zn provides a measure of distance; so that Zn with a Zn norm define a metric space.
  • One of the most popular vector standards is the Euclidean distance (L2 standard) but other vector standards exist and can be used.
  • the computer of the first user calculates and transmits, in addition to the encrypted content I c , a print E relative to the content, thus constituting a pair of information ⁇ I C , E>.
  • step 12 the computer of the first user calculates a fingerprint of the content to be transmitted, according to one of the known methods given above. .
  • This footprint is a footprint of research.
  • the pair, encrypted content l c and print E is transmitted to the FSS for archiving if there is no duplication.
  • the pair ⁇ I c ; E> sent by the device of the first user to the FSS (220) is sorted and stored in two different databases, i.e., a database for each of the components of the couple. It is important to emphasize that the memory space needed to store the footprint ⁇ E> is negligible compared to the space required to store the encrypted image 1c .
  • the FSS uses a single database to store the pair ⁇ I c ; E>.
  • the method of reception by the recipient user of the content I transmitted by the first user is the same as that described with reference to FIG. 9, the recipient user receiving, in addition, the fingerprint with the encrypted hash H c and the content numbered c .
  • a very important feature of a photo library is the ability for authorized users to query the image database based on its content. For example, users, who may be the first or recipient user, should be able to search the photo library for nearly identical images or image-like images presented to the system as an example.
  • the usual way to respond to such a requirement is to associate a fingerprint E (a Zn vector belonging to a metric space) to each of the images in the photo library.
  • a fingerprint E a Zn vector belonging to a metric space
  • the user calculates the Euclidean distance (norm L2) between the fingerprints corresponding to the two images and compares this result with a given threshold.
  • the FSS can, at the request of the users, launch queries on the image database. We must mention that we assume that the FSS can not obtain any information, regarding the image in clear, by its knowledge of the imprint of the image. This implies that the imprint of the image does not reconstruct the image from the knowledge of the footprint of the image.
  • the FSS can perform a similarity measurement on the images it stores, using one of the methods described above and provide the user recipient one to many similar image associated with his cryptographic hash and fingerprint.
  • the embodiment proposed hereinafter improves the robustness by reducing the number of false positives while guaranteeing a confidentiality of the data stored on the FSS.
  • FIG. 7 illustrates this embodiment. Step ⁇ is described in Figure 4 and is not repeated here.
  • a search fingerprint is computed, for example according to the VLAD method to produce a print V.
  • a selection fingerprint S is calculated.
  • S is a selection vector, called a descriptor bag.
  • a digit S is a selection vector.
  • the encryption will be advantageously obtained with the cryptographic hash value H.
  • the encryption will be obtained using the public key that the recipient user has transmitted to the first one. user, also used to encrypt the cryptographic hash value H.
  • the triplet comprising the encrypted content l c , the search fingerprint V and the encrypted selection fingerprint S c , that is ⁇ I C , V, S c >, are transmitted.
  • Figure 8 illustrates the creation of an encrypted hash value for a recipient user. This process assumes that the recipient user has previously provided his public encryption key K p to the first user has already transmitted the multimedia data to the FSS according to the principle of Figure 1.
  • a step H1 the unencrypted hash value is provided to the device, either by selecting a key stored on the computer of the first user, or by a new calculation (102) from the selected multimedia data.
  • the cryptographic hash value H is encrypted using a hash of the asymmetric type E a , with said public key K p .
  • a triplet ⁇ E, U, Hc> comprising the fingerprint E of the multimedia content
  • the identifier of the destination user U and the encrypted cryptographic hash H c associated is transmitted to the FSS (120.220).
  • the FSS then transmits them to the recipient user.
  • the user pair U, encrypted hash H c is registered and a link is created by the FSS between the registered content and the plurality of associated registered hashes, since each of the hashes is encrypted with a different public key and it is therefore necessary to register for each user.
  • the user pair, encrypted hash being small, this poses no storage space problem on the FSS and remains negligible compared to the size of the stored multimedia content.
  • the device (100) used by the first user performs all the steps described in FIG. 6 or FIG. 7 and those of FIG. 8 to proceed to a grouped sending of all the data. This is the case for example when the multimedia data have not previously been transmitted to the FSS.
  • the recipient user of the multimedia content then retrieves the multimedia data for use. For this, with reference to FIG. 9, the recipient user requests from the FSS the content that the first user has recorded on the FSS (120,220) for his attention, in step V1.
  • the recipient user device receives the encrypted content I c and the encrypted cryptographic hash value H c associated therewith. With the recipient's private key K s , the device decrypts the cryptographic hash H c during a step V 2. Then, during a step V3, the encrypted content I c is decrypted using the decrypted cryptographic hash H, used as decryption key. The recipient user can then read the content I.
  • said data may also include an associated fingerprint E.
  • the received impression enables the recipient user to search for similar content.
  • Figure 10 illustrates the search by the recipient user of all data similar to a reference content in the FSS.
  • the recipient user transmits to the FSS a similar data search request containing his U identifier and the V footprint of the reference data for which he wishes to find similar data.
  • the FSS performs a search for similar data using the search fingerprints V stored with that transmitted by the user.
  • the FSS transmits to the recipient user the set of triplets ⁇ H C , V, S c > corresponding to the set of near-close prints of V that it find. Due to the low accuracy of the search by the FSS, the recipient user receives a number of media fingerprints that are false positives.
  • the destination user's computer decrypts, with the private key of the recipient user, the cryptographic hash values (H c ), to obtain the unencrypted hash value (H).
  • Said hash values obtained (H) are then used to decipher the selection image fingerprints S c of the received images in order to obtain the clear image prints S that it uses, during a step R5, for eliminate false positives from all the ⁇ H C , S c , V> triplets it received from the FSS. This is made possible because the recipient user has his private key and the fingerprints S are large enough to detect false positives.
  • the destination user sends a second request to the FSS to request the doublets ⁇ I C , H c > of the selected multimedia data.
  • the footprint associated with each of said doublets may also be provided by the FSS.
  • FSS transmits to the recipient user the set of doublets ⁇ S C , V> corresponding to the set of near-close fingerprints of V that he finds, with the same problem of precision mentioned above.
  • the destination user's computer decrypts, with the private key K s of the recipient user, the selection image fingerprints S c of the images received in order to obtain the images. imprints of clear images S that it uses, during a step R5, to eliminate the false positives of the set of doublets ⁇ S C , V> that it received from the FSS. This is made possible because the recipient user has his private key and the fingerprints S are large enough to detect false positives.
  • Step R6 of the alternative mode is identical to the preferred embodiment.
  • an additional advantage of the invention is also the protection of copyright. Indeed, if the FSS includes a photo of reference in clear, it can determine if the users have copies identical to this reference photo. For example, if the FSS has a photo of the Eiffel Tower, made by a renowned photographer, he can determine if one or more of his customers has an identical copy of this photo, stored in their photo collections.
  • the FSS does not have a clear copy of the photos stored in its servers, it can not exploit the database of encrypted images stored at home. On the other hand, if the FSS legally has a clear copy of a photo of which it knows the owner, it can determine if users of its online storage service have an illegal copy of this photo stored in its servers.
  • this online storage system FSS is also applicable for other types of documents including videos.
  • the invention uses two known techniques, convergent encryption, allowing the application of deduplication, and the document fingerprint to be able to search for similar documents.
  • the applied encryption technique remains independent of the type of multimedia document to be processed, it ensures the ability to apply deduplication when storing multimedia documents. It is on obtaining the imprint, in order to allow the search for similar documents that differences appear.
  • fingerprinting methods are specific to the type of content.
  • the comparison to identify similar multimedia contents remains based on the nearest neighbor technique, already described in Figure 6.
  • the invention according to a first variant, can be applied to documents of the audio type. Indeed, for problems of database search, falsification / authentication, watermark of audio documents, many methods of creating fingerprints have been developed. There are many algorithms for calculating audio document fingerprints.
  • the encrypted multimedia data and the associated fingerprints E are stored in two different FSSs (FSS1 and FSS2), one storing the encrypted multimedia data (FSS1), the other the fingerprints (FSS2). This has the advantage of reassuring the first user about the level of confidentiality of their data.
  • the repository of the multimedia data having no fingerprints and in particular the search vector which is not encrypted it can not using this vector to try to reconstitute the multimedia data of the first user, in the case for example where the search vector is large. Nor can it search for similar multimedia data.
  • the encrypted hash values associated with the multimedia data are stored on at least one of the FSS, always with the identifier of the user for whom the value has been encrypted.
  • the method requires coordination between the FSS (here FSS1 and FSS2) to maintain the relationship that exists between the triplet, media data, encrypted hash values for a user and fingerprint, but it ensures the ability to apply deduplication.
  • the receiving device of the destination user sends a request to that of the FSS storing the fingerprints E (here FSS2).
  • the receiving device of the destination user requests the second FSS the selected multimedia data (here FSS1). It is possible to go through a search step (using the search vector), followed by a step of eliminating false positives using selection vectors to filter the multimedia data to be requested from the repository. it.
  • This principle of distribution between two FSS can extend with a cloud comprising a multitude of FSS distributed in multiple countries all around the planet.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Storage Device Security (AREA)

Abstract

L'invention concerne un dispositif et une méthode de stockage en ligne, dispositif et méthode de recherche de contenu similaire, un dispositif et une méthode d'émission et un dispositif et une méthode de réception. On enregistre des données chiffrées chez un fournisseur de services en ligne. Avec les données chiffrées, on enregistre des données de hachage chiffrées avec une clé publique et l'on chiffre le contenu à enregistrer avec le hachage. Cela permet avantageusement d'éviter la duplication de données chez le fournisseur de services en ligne tout en préservant la vie privée des utilisateurs du service. Afin de rechercher des contenus similaires à des données multimédias de référence, on enregistre également des empreintes chez le fournisseur de services. Afin de limiter le nombre de faux positifs retournés, l'empreinte peut contenir outre une empreinte de recherche, une empreinte de sélection chiffrée.

Description

DISPOSITIF ET PROCEDE DE STOCKAGE EN LIGNE, DISPOSITIF ET PROCEDE DEMISSION, DISPOSITIF ET PROCEDE DE RECEPTION
1. Domaine de l'invention. L'invention concerne un dispositif et une méthode de stockage partagé.
L'invention concerne encore un dispositif et une méthode d'émission de documents chiffrés permettant la déduplication et la recherche similaire.
L'invention concerne enfin un dispositif et une méthode de réception permettant de déchiffrer les documents partagés et de procéder à une recherche similaire.
Dans les systèmes de stockage en ligne de photos, les intérêts de performance du fournisseur du service de stockage, et de protection de la vie privée des utilisateurs du service, peuvent entrer en conflit. En effet, si les utilisateurs confient leurs collections de photos en clair au fournisseur du service de stockage, celui-ci peut identifier les images identiques et les stocker dans l'espace correspondant à une seule image, et ceci quels que soient les propriétaires de photos identiques ; en revanche, la confidentialité des utilisateurs est compromise. Par contre, si les utilisateurs du service de stockage chiffrent leurs images avant de les envoyer au fournisseur du service, celui-ci ne peut plus identifier les images identiques si celles-ci ont été chiffrées avec des clefs différentes.
Dans le but d'optimiser l'espace de stockage et les délais de téléchargement de fichiers, les Fournisseurs du Service de Stockage (FSS) peuvent appliquer des techniques de déduplication de fichiers aux données des utilisateurs. La déduplication signifie le fait de ne pas dupliquer un même contenu.
Quelques FSS appliquent ces techniques non seulement aux données appartenant au même compte utilisateur (déduplication intra compte) mais également aux données appartenant à différents comptes utilisateurs (déduplication inter compte). Cette façon de gérer les données en clair des utilisateurs peut être perçue comme une atteinte à leur vie privée par les utilisateurs. Une contre-mesure à la manipulation des données en clair est le chiffrement des données. Les utilisateurs pourraient chiffrer les images avant de les envoyer au fournisseur du service de stockage en ligne. Malheureusement, un même contenu en clair chiffré avec deux clefs différentes, produit deux contenus chiffrés très différents. La vie privée des utilisateurs est préservée mais le FSS ne peut pas détecter que les deux messages chiffrés correspondent à un même message en clair et il ne peut plus optimiser l'espace de stockage.
2. Résumé de l'invention.
L'invention propose de pallier à au moins un des inconvénients de l'art antérieur.
L'invention concerne un système de stockage en ligne qui réconcilie ces deux intérêts en apparence conflictuels. Le fournisseur du service de stockage en ligne a la capacité à identifier non seulement les données multimédias identiques mais aussi les données multimédias similaires, même si elles sont chiffrées avec des clefs différentes, sans compromettre la vie privée des utilisateurs.
À cet effet, l'invention concerne un dispositif de stockage en ligne apte à stocker des données multimédias. Le dispositif comprend des moyens d'enregistrer les données multimédias sous forme chiffrée et pour chacune des données multimédias chiffrées, une empreinte associée. Les données multimédias chiffrées sont chiffrées en utilisant une valeur de hachage. La valeur de hachage est obtenue par le hachage des données multimédias non chiffrées. L'empreinte comprend un vecteur de recherche non chiffré. Avantageusement, l'empreinte comprend un vecteur de vérification chiffré.
Préférentiellement, le vecteur de vérification chiffré est obtenu par le chiffrage du vecteur de vérification avec la valeur de hachage. Avantageusement, le dispositif est apte à stocker au moins un identifiant d'utilisateur et un hachage chiffré par utilisateur, le hachage chiffré étant chiffré en utilisant une clé publique de chiffrement de l'utilisateur.
Selon une variante, le dispositif est apte à stocker au moins un identifiant d'utilisateur et pour chaque utilisateur un hachage chiffré, le hachage chiffré et le vecteur de vérification chiffré sont chiffrés en utilisant une clé publique de chiffrement de l'utilisateur.
Selon un mode de réalisation particulier, le dispositif comprend des moyens de comparer, lors de chaque enregistrement de données multimédias, les données multimédias chiffrées enregistrées avec les données multimédias chiffrées à enregistrer de manière à ne pas dupliquer les données multimédias enregistrées.
Avantageusement, le dispositif comprend des moyens :
• de recevoir une première requête d'un utilisateur émetteur. Cette requête pour un document multimédia cible recherché, comprend au moins l'empreinte associée au document chiffré,
• de comparer le vecteur de recherche reçu à au moins un vecteur de recherche enregistré en mesurant une distance entre le vecteur de recherche reçu et l'au moins un vecteur de recherche enregistré,
• de transmettre à l'émetteur de la première requête, au moins un vecteur de recherche dont la distance avec le vecteur de recherche reçu est inférieure à un seuil prédéterminé, dit vecteur sélectionné,
Avantageusement, le dispositif comprend des moyens • de recevoir une seconde requête de la part de l'émetteur de la première. La requête, pour au moins un document multimédia recherché, comprend au moins un vecteur de recherche sélectionné parmi l'au moins un vecteur de recherche transmis.
• de transmettre à l'émetteur de la seconde requête, au moins un vecteur de vérification chiffré correspondant à au moins un vecteur de recherche sélectionné.
Selon un mode de réalisation particulier, le dispositif comprend des moyens :
• de recevoir une première requête d'un utilisateur émetteur. La requête, pour un document multimédia cible recherché, comprend au moins l'empreinte associée au document chiffré,
• de comparer le vecteur de recherche reçu à au moins un vecteur de recherche enregistré en mesurant une distance entre le vecteur de recherche reçu et l'au moins un vecteur de recherche enregistré,
• de transmettre à l'émetteur de la première requête, au moins un vecteur de vérification chiffré correspondant au vecteur de recherche sélectionné.
Avantageusement, suite à la transmission d'au moins un vecteur de vérification, le dispositif comprend des moyens :
• de recevoir une requête de l'émetteur pour au moins un document multimédia recherché. La requête comprend au moins un vecteur de vérification sélectionné parmi au moins un vecteur de vérification transmis.
• de transmettre à l'émetteur de la requête, au moins une paire correspondant à au moins un vecteur de vérification reçu, comprenant au moins une donnée chiffrée et au moins un hachage chiffré correspondant.
Avantageusement, suite à la transmission d'au moins un vecteur de vérification, le dispositif comprend des moyens : • de recevoir une requête émise suite au déchiffrage des vecteurs de vérification par l'émetteur de la première requête et à l'élimination de faux positifs. La seconde requête comprend un identificateur des données sélectionnées suite à l'élimination des faux positifs ;
• des moyens de transmettre à l'émetteur de la requête, les paires, comprenant les données chiffrées et le hachage chiffré correspondant associé ;
L'invention concerne également un procédé de stockage en ligne apte à stocker des données multimédias. Ce procédé comprend les étapes de :
• réception de données comprenant un contenu multimédia sous forme chiffrée selon un chiffrement convergent, une empreinte associée.
• comparaison du contenu multimédia chiffré avec ceux préalablement stockés.
• enregistrement des données, si le contenu n'est pas déjà stocké. Le procédé comprend également les étapes de :
• réception de données. Les données comprennent un identifiant d'utilisateur destinataire, une valeur de hachage chiffrée à l'attention de l'utilisateur, une empreinte associée. L'empreinte comprend un vecteur de recherche non chiffré ;
• recherche du contenu multimédia chiffré, correspondant au vecteur de recherche non chiffré ;
• transmission du résultat de la recherche, si le contenu multimédia chiffré a été trouvé. Les données transmises comprennent le contenu multimédia chiffré, la valeur de hachage chiffrée ;
Au cours de ce procédé lors de l'étape de transmission, les données transmises comprennent également l'empreinte associée au contenu multimédia chiffré. Procédé de stockage en ligne de données multimédias comprenant les étapes de :
• hachage des données multimédias à enregistrer afin d'obtenir une valeur de hachage,
· chiffrement des données multimédias à enregistrer par la valeur de hachage,
• calcul d'une empreinte associée aux données multimédias à enregistrer,
• enregistrement des données multimédia chiffrées et de l'empreinte associée.
L'invention propose également selon un second aspect, un procédé de transmission de données multimédias. Ce procédé est utilisé par l'utilisateur souhaitant stocker ses données sur le FSS. Ce procédé comprend les étapes de : · chiffrement des données multimédias à l'aide d'une méthode de chiffrement convergent ;
• calcul d'une empreinte correspondant aux données multimédias, à partir des données multimédias non chiffrées. L'empreinte comprend un vecteur de recherche non chiffré ;
· transmission d'un ensemble de données comprenant au moins les données multimédias chiffrées et l'empreinte associée.
Avantageusement, lors de l'étape de transmission, l'ensemble de données envoyé comprend au moins un couple utilisateur et une clé de hachage chiffrée associée à l'utilisateur. L'utilisateur est destinataire des données. La clé de hachage chiffrée est obtenue à partir de la valeur de hachage des données multimédias non chiffrées, chiffrée avec la clé publique de l'utilisateur.
Avantageusement, l'empreinte obtenue lors de l'étape de calcul, comprend un vecteur de recherche et un vecteur de vérification chiffré. Préférentiellement, le vecteur de vérification chiffré est obtenu par le chiffrage de ce vecteur de vérification avec la valeur de hachage.
Avantageusement, le vecteur de vérification chiffré est obtenu par le chiffrage de ce vecteur de vérification avec la clé publique de chiffrement de l'utilisateur.
L'invention concerne également un dispositif de transmission de données multimédias. Ce dispositif comprend :
• des moyens de chiffrement des données multimédias à l'aide d'une méthode de chiffrement convergent ;
· des moyens de calcul d'une empreinte des données multimédias à partir des données multimédias non chiffrées ;
• des moyens de transmission d'un ensemble de données comprenant au moins les données multimédias chiffrées et l'empreinte associée.
Avantageusement, l'ensemble de données envoyé par ce dispositif comprend au moins un couple utilisateur et une clé de hachage chiffrée associée à cet utilisateur. Le hachage chiffré est destiné à permettre à l'utilisateur de déchiffrer les données multimédias. Cette clé de hachage chiffrée est obtenue à partir de la valeur de hachage des données multimédias non chiffrées, chiffrée avec la clé publique de l'utilisateur. Selon un troisième aspect, l'invention propose un procédé de réception de données multimédias. Ce procédé est destiné à un utilisateur destinataire des données multimédias et possédant une clé publique et une clé privée associée. Ce procédé comprend les étapes de :
• réception d'un ensemble de données comprenant au moins des données multimédias sous forme chiffrée par une méthode de chiffrement convergent et une valeur de hachage chiffrée associée aux données multimédias, destinée à l'utilisateur ;
• déchiffrage de la valeur de hachage chiffré avec la clé privée pour obtenir une valeur de hachage non chiffrée ; • déchiffrage des données multimédias avec la valeur de hachage pour obtenir les données multimédias non chiffrées.
Avantageusement, l'ensemble de données reçu à l'étape de réception comprend également un vecteur de recherche.
Avantageusement, le procédé de réception comprend les étapes de :
• transmission d'une requête de recherche de données multimédias similaires, la requête comprenant un vecteur de recherche ;
• réception d'empreintes similaires à l'empreinte transmise. Les empreintes similaires sont composées de doublets comprenant un vecteur de recherche, un vecteur de vérification chiffrée destinée à l'utilisateur ;
• déchiffrage des vecteurs de vérification avec la clé privée pour obtenir les vecteurs de vérifications non chiffrées ;
Avantageusement, le procédé de réception comprend les étapes de :
• transmission d'une requête de données multimédias similaires sélectionnées.
• réception de données multimédias sous forme chiffrée et une valeur de hachage chiffrée associée aux données multimédias. Les données multimédias sont chiffrées par une méthode de chiffrement convergent . La valeur de hachage chiffrée est destinée à l'utilisateur ;
• déchiffrage de la valeur de hachage chiffré avec la clé privée pour obtenir une valeur de hachage non chiffrée ;
• déchiffrage des données multimédias avec la valeur de hachage pour obtenir les données multimédias non chiffrées .
L'invention concerne également un dispositif de réception de données multimédias, destinées à un utilisateur possédant une clé publique et une clé privée associée, comprend des moyens : • de réception d'un ensemble de données comprenant au moins des données multimédias sous forme chiffrée par une méthode convergente et une valeur de hachage chiffrée associée aux données multimédias, destinée à l'utilisateur ;
· de déchiffrage de la valeur de hachage chiffré avec la clé privée pour obtenir une valeur de hachage non chiffrée ;
• de déchiffrage des données multimédias avec la valeur de hachage pour obtenir les données multimédias non chiffrées.
Avantageusement, l'ensemble de données comprend également un vecteur de recherche.
Avantageusement, le dispositif de réception comprend des moyens :
• de transmission, d'une requête de recherche de données multimédias similaires, la requête comprenant le vecteur de recherche ;
· de réception de doublets comprenant un vecteur de recherche, un vecteur de vérification chiffré destinée à l'utilisateur.
• de déchiffrage des vecteurs de vérification avec la clé pour obtenir les vecteurs de vérification non chiffrés.
Avantageusement, le dispositif de réception comprend des moyens :
• de transmission d'une requête de données multimédias similaires sélectionnées.
• de réception de données multimédias sous forme chiffrée par une méthode convergente et d'une valeur de hachage chiffrée associée aux données multimédias, destinée à l'utilisateur ;
• de déchiffrage de la valeur de hachage chiffré avec la clé privée pour obtenir une valeur de hachage non chiffrée ;
• de déchiffrage des données multimédias avec la valeur de hachage pour obtenir les données multimédias non chiffrées. 3. Liste des figures.
L'invention sera mieux comprise et illustrée au moyen d'exemples de modes de réalisation et de mise en œuvre avantageux, nullement limitatifs, en référence aux figures annexées sur lesquelles :
• la figure 1 représente un dispositif de stockage selon un mode de réalisation préféré de l'invention,
• la figure 2 représente un système mettant en œuvre un mode de réalisation préféré relatif à la consultation de données multimédias,
• la figure 3 représente un système mettant en œuvre un second mode de réalisation relatif à la consultation de données multimédias,
• la figure 4 représente un organigramme de fonctionnement d'un mode de réalisation préféré d'un aspect de l'invention relatif au chiffrement des données,
• la figure 5 représente un organigramme de fonctionnement d'un mode de réalisation préféré de la déduplication,
• la figure 6 représente un organigramme de fonctionnement de l'invention selon un premier mode de réalisation lié au stockage,
• la figure 7 représente un organigramme de fonctionnement de l'invention selon un second mode de réalisation lié au stockage.
• la figure 8 représente un organigramme de fonctionnement du chiffrement de la clé de hachage à l'intention d'un utilisateur destinataire.
• la figure 9 représente un organigramme de fonctionnement d'un mode de réalisation préféré de l'invention lié au déchiffrage,
• la figure 10 représente un organigramme de fonctionnement de recherche de contenus multimédias similaires selon un mode de réalisation préféré. 4. Description détaillée de l'invention.
L'invention sera décrite en référence à un mode particulier de réalisation destiné au stockage de photos ou d'images. L'obtention d'une empreinte est spécifique au type du document. À ce titre, les techniques de calcul d'empreinte citées s'appliquent aux images et photos.
Dans la suite de la description les termes, données multimédias, documents et contenus seront indifféremment utilisés pour désigner la même chose. Ces termes désigneront d'une part des images ou des photos, mais également tous les contenus multimédias avec lesquels se pose ce problème comme notamment des documents textes, audio et vidéo.
De même, les termes de chiffrage et codage de données sont indifféremment utilisés pour désigner le chiffrement de données dans le but de les protéger à la consultation par quiconque. Il faut noter que pour l'ensemble de la description, les données ou contenus multimédias sont stockés systématiquement chiffrés par le FSS.
Le terme de hachage et celui de hachage cryptographique sont utilisés comme synonymes.
Enfin, le terme de document (multimédia) de référence est utilisé dans le contexte de la recherche de contenu similaire. Il désigne le contenu multimédia dont l'empreinte est utilisée pour effectuer des comparaisons avec les empreintes des contenus multimédias stockés par le FSS, afin d'identifier les contenus similaires disponibles chez le FSS.
Par convention, sur les figures 1 à 3, les données représentées entre crochets sont optionnelles. Elles peuvent être transmises, stockées, utilisées selon les variantes de réalisation.
La figure 1 représente un système mettant en œuvre un mode de réalisation préféré de l'invention. Un premier utilisateur souhaite transmettre des données I à un correspondant destinataire. Un fournisseur de stockage en ligne FSS (120) propose des services de mutualisation, d'archivage de contenus multimédias entre plusieurs utilisateurs. Les utilisateurs peuvent utiliser le service pour archiver leurs collections de contenus multimédias mais ils peuvent également l'employer pour partager soit l'ensemble, soit une partie de leurs collections avec d'autres utilisateurs autorisés.
Afin de satisfaire le besoin de préserver la vie privée des utilisateurs et la capacité du FSS à détecter les copies strictement identiques des documents multimédias dans les collections des utilisateurs, le système de stockage en ligne a les caractéristiques suivantes :
• Le FSS a accès seulement aux données multimédias chiffrées lc des utilisateurs et le FSS ne doit pas pouvoir les déchiffrer. Le FSS reçoit et stocke donc, uniquement des données chiffrées.
• Le FSS peut détecter que deux contenus multimédias chiffrés correspondent à deux documents multimédias strictement identiques.
• Seuls les utilisateurs autorisés peuvent déchiffrer l'ensemble ou une partie des contenus multimédias chiffrés qui se trouvent archivés dans le compte d'un utilisateur.
Le dispositif (100) du premier utilisateur comprend des moyens de chiffrage (103) qui chiffrent le contenu multimédia à enregistrer. Le chiffrage Es utilisé par les moyens de chiffrage (103) est un chiffrage du type convergent, il est décrit à la figure 4. Le dispositif (100) comprend des moyens de calcul (102) d'une valeur de hachage H. Le chiffrage de type convergent Es va permettre au FSS d'appliquer les méthodes de déduplication de fichiers même si les fichiers sont chiffrés avec des clés différentes. Le chiffrage peut également être mis en œuvre sur un autre dispositif qu'un ordinateur et par des moyens hardware plutôt que par un programme d'ordinateur. L'invention concerne également la possibilité de demander une recherche de contenus multimédias similaires au contenu multimédia consulté. Dans ce cadre, pour définir le contenu multimédia consulté, le terme de contenu multimédia de référence sera utilisé dans la suite de la description. Afin de satisfaire le besoin de recherche de contenus multimédias similaires, le contenu multimédia chiffré lc transmis est accompagné d'une empreinte numérique E.
L'empreinte E permet une recherche efficace, elle permet l'élimination des faux positifs et préserve la confidentialité du contenu de référence. Le dispositif (100) du premier utilisateur comprend des moyens de calcul (104) pour calculer l'empreinte E à partir du contenu multimédia non chiffré I, tel que décrit à la figure 6 et la figure 7. Lors du calcul, l'empreinte E tout comme la valeur de hachage non chiffrée H peuvent être stockées localement pour une utilisation ultérieure. La figure 2 représente un aspect de l'invention relatif à la consultation de données.
Un premier utilisateur souhaite autoriser l'accès à des données I, déjà stockées chez un FSS (120) à un utilisateur destinataire U. Ledit FSS propose des fonctionnalités associées à ses services de stockage tel que présenté lors de la description de la figure 1.
Pour pouvoir transmettre ses données multimédias, le premier utilisateur a besoin que l'utilisateur destinataire lui communique sa clé de chiffrage publique Kp, par tout moyen de communication connu de l'homme du métier, par exemple, un courriel. À l'aide de celle-ci le moyen de chiffrement (105) chiffre à l'attention de l'utilisateur destinataire, la valeur de hachage desdites données et lui transmet par les moyens de l'interface de communication (101 ) via le FSS (220) la valeur de hachage chiffrée Hc, tel que décrit à la figure 8. Des moyens (102) recalculent la valeur de hachage non chiffrée H à partir des données multimédias encore stockées par le dispositif (100) du premier utilisateur. Selon une variante, la valeur de hachage H a été stockée non chiffrée sur le dispositif (100), lors de l'étape décrite à la figure 1 et est réutilisée. Pour permettre au FSS d'établir la relation entre ladite valeur de hachage chiffrée Hc, les données multimédias correspondantes et l'utilisateur destinataire, le dispositif du premier utilisateur transmet également un identifiant de l'utilisateur U et une empreinte E des données multimédias. Tout comme la valeur de hachage non chiffrée, l'empreinte est recalculée telle que décrit à la figure 1. Selon une variante, l'empreinte E a été stockée telle que décrit à la figure 1 par le moyen de calcul (104) et elle est réutilisée par le dispositif tel que le décrit la figure 2.
Le moyen (206) prépare des données comprenant un triplet <E, U, Hc> correspondant à un identifiant U de l'utilisateur destinataire, la valeur de hachage Hc du contenu multimédia et l'empreinte E du contenu multimédia. Les méthodes d'identification d'un utilisateur sont multiples et connues de l'homme du métier. Cet identifiant pourra par exemple être une adresse mail de l'utilisateur destinataire des contenus multimédias. Enfin, les données sont transmises au FSS (220) par l'interface de communication (101 ).
Comme nous le verrons à la figure 8, le FSS stocke dans une base de données (123) le couple < U, Hc >, identifiant de l'utilisateur, valeur de hachage et il établit un lien entre ce couple et la donnée multimédia chiffrée correspondante présente dans la base de données des contenus multimédias chiffrés (121 ). Pour établir ce lien, le FSS (220) s'appuie sur la base de données des empreintes (122) et l'empreinte E reçue dans ledit triplet.
L'interface de communication (241 ) mise en œuvre par le dispositif (140) de l'utilisateur destinataire reçoit des données qui comprennent le contenu chiffré lc, la valeur de hachage chiffrée Hc associée. Les données sont fournies à un moyen de déchiffrement (142), par un moyen d'extraction (244). À l'aide de la clé privée de l'utilisateur destinataire Ks, le moyen de déchiffrement (142) déchiffre la valeur de hachage Hc. pour obtenir H. Des moyens (143) de déchiffrement du contenu utilise la valeur de hachage H pour déchiffrer le contenu multimédia selon la description de la figure 9. Les données reçues par le dispositif de l'utilisateur destinataire peuvent également inclure une empreinte E sur les données multimédias pour permettre une recherche de contenus similaires. La transmission par le FSS (220) de l'empreinte E est facultative. Elle n'est pas nécessaire pour déchiffrer le contenu multimédia. Le côté optionnel de la transmission est symbolisé par une représentation entre crochets sur la figure, entre le FSS (220), l'interface de communication (241 ) et le moyen d'extraction (244).
La figure 3 représente une variante du second aspect de l'invention relatif à la consultation de données décrit à la figure 2. Comme dans le scénario précédemment cité, le premier utilisateur souhaite transmettre des données multimédias I à l'utilisateur destinataire. Dans son ensemble, le scénario est similaire. Il se distingue cependant, par la méthode de transmission appliquée par l'interface de communication (301 ) de la valeur de hachage chiffrée Hc et de l'empreinte E. Et d'autre part par une action supplémentaire effectuée par l'interface de communication (341 ) mise en œuvre par ledit programme contenu sur l'ordinateur de l'utilisateur destinataire, sous la forme d'une requête émise auprès du FSS (120), pour obtenir le contenu multimédia.
En effet, l'interface de communication (301 ) du premier utilisateur, après avoir reçu la paire < Hc, E > constituée par les moyens (306), transmet la paire directement au dispositif (140) de l'utilisateur destinataire U. La valeur de hachage chiffrée Hc est obtenue selon la méthode (105) décrite à la figure 2. L'empreinte E, tout comme celle de la figure 2 comprend une empreinte de recherche V (ou vecteur de recherche). Elle peut également comprendre une empreinte de vérification Sc (ou vecteur de vérification), pour permettre à l'utilisateur destinataire U de demander une recherche de contenu similaire.
Après réception de la paire < Hc, E >, le dispositif de réception (140), à l'aide des moyens de l'interface de communications (341 ) adresse une requête au FSS pour obtenir le contenu multimédia chiffré lc. La requête de l'utilisateur destinataire comporte l'empreinte E de recherche. Préférentiellement, cette requête inclue la valeur de hachage chiffrée Hc associée à l'identifiant U de l'utilisateur destinataire, pour permettre un stockage par le FSS.
À réception de ladite requête, le FSS (120) utilise l'empreinte de recherche pour identifier le contenu multimédia chiffré lc à fournir. Avantageusement, le FSS peut également transmettre l'empreinte associée E contenue dans la base de données d'empreinte (122), comprenant un vecteur de vérification, pour permettre une recherche de contenus similaires ultérieure.
Dans le cas où le FSS reçoit également la paire < U, Hc > valeur de hachage chiffrée, identifiant de l'utilisateur U, le FSS stocke la paire dans la base de données des valeurs de hachage. Il crée également le lien entre ladite paire et le contenu multimédia chiffré lc, tel que décrit à la figure 8.
L'interface de communication (341 ) de l'utilisateur destinataire, reçoit alors le contenu multimédia attendu et procède selon la méthode déjà décrite à la figure 2 pour déchiffrer et exploiter le contenu. La figure 4 donne un organigramme de chiffrage convergent encore appelé chiffrement convergent mise en œuvre par les moyens de chiffrement (102,103) dans le dispositif (100).
Le chiffrage convergent décrit ci-dessous, est bien connu de l'homme du métier et repose sur une méthode de chiffrement symétrique. En référence à la figure 4, lors d'une étape C1 , le premier utilisateur sélectionne le contenu I à transmettre au FSS. Lors d'une étape C2, une valeur de hachage cryptographique H est calculée par l'ordinateur du premier utilisateur, cette valeur de hachage cryptographique H peut-être du type SHA- 256. Il est possible de choisir une autre longueur de hachage par exemple SHA-512, mais également toute autre méthode de hachage comme MD5. Cette valeur de hachage cryptographique H est ensuite utilisée en tant que clé de chiffrage, pour chiffrer avec un algorithme symétrique Es, le contenu I que le premier utilisateur souhaite transmettre lors d'une étape C3, et obtenir le contenu chiffré Ic. C'est le contenu chiffré obtenu qui sera transmis au FSS (120,220) dans les figure 6 et figure 7.
Ainsi, le système proposé permet avantageusement de garder la confidentialité des données enregistrées par le FSS tout en permettant à celui- ci de ne pas dupliquer inutilement les données enregistrées.
Puisque le contenu du fichier est chiffré avec sa propre valeur de hachage cryptographique comme clef, le contenu chiffré est indépendant des clefs de l'utilisateur destinataire, utilisées. Il n'est dépendant que du contenu en clair. Par conséquent, le fournisseur du service de stockage (FSS), sans connaissance des clefs privées des utilisateurs, peut détecter que deux fichiers sont strictement identiques et les stocker dans l'espace correspondant à un seul fichier. Ainsi, le FSS minimise la place de stockage nécessaire pour stocker toutes les données à stocker.
Le fonctionnement de la déduplication est illustré dans l'organigramme détaillé en figure 5.
Lorsque le FFS reçoit un contenu à enregistrer, étape D1 , il reçoit selon l'invention, un contenu chiffré Ic ainsi qu'une empreinte E associée.
Étant donné que le contenu chiffré Ic est chiffré avec sa propre valeur de hachage H, deux contenus identiques chiffrés avec leurs propres valeurs de hachage sont également identiques après chiffrage. Ainsi, le FSS peut facilement comparer deux contenus chiffrés, étape D2. Lors d'une étape D3, le FSS effectue une comparaison du contenu chiffré Ic reçu avec les contenus du FSS. Si cette comparaison est fructueuse le contenu lc étant déjà stocké, il n'est pas une nouvelle fois enregistré. Par contre, si cette comparaison se révèle infructueuse, le nouveau contenu chiffré est enregistré avec l'empreinte associée.
La figure 6 représente un mode de réalisation mettant en œuvre la recherche de contenus similaires dans le FSS. Comme nous l'avons vu précédemment, la recherche de duplicatas a comme objectif l'optimisation du stockage chez le FSS et elle fait appel à des techniques de hachage cryptographique, et à titre illustratif un hachage du type SHA-256. Le résultat de la fonction de hachage change radicalement si un seul bit d'entrée change. Prenons l'exemple d'une même image sauvegardée avec deux formats de compression différents (e.g., BMP et JPEG), les valeurs de hachage de ces deux fichiers sont complètement différentes alors que les images sont visuellement similaires. Ce problème existe avec tous les contenus multimédias, dont les documents audio (e.g. Mp3, Flac), ou vidéo. (MPEG, Ogg, QuickTime). En conséquence, les techniques de hachage cryptographique sont utiles pour identifier des copies strictement identiques (bit à bit) d'une image mais elles sont inutiles pour la recherche d'images visuellement similaires à une image de référence.
Selon cet aspect de l'invention relatif à la recherche de contenu similaire, et sur demande d'un utilisateur autorisé, le FSS peut effectuer des requêtes de recherche de contenus multimédias similaires, par la méthode dite du plus proche voisin, dans les collections des données multimédias des utilisateurs sans avoir accès aux documents multimédias en clair. Le résultat de telles requêtes est équivalent au résultat que l'utilisateur aurait obtenu s'il avait exécuté les telles requêtes sur une collection de documents multimédias non chiffrées.
Pour résoudre le problème de la recherche de contenu similaire, on fait appel à des fonctions d'empreinte, ou d'ADN multimédia dédiées au type de contenus multimédias concernés. C'est par exemple le cas pour les empreintes d'images, appelées aussi descripteurs d'images. Ces descripteurs ont la particularité d'être tolérants aux distorsions des images. Il existe deux grandes classes de descripteurs :
• L'approche globale, telle que l'histogramme des niveaux de gris, décrit le contenu de l'image dans son ensemble. Cet algorithme est rapide mais son descripteur d'image est peu résistant aux distorsions de l'image. • L'approche locale, telle que les points d'intérêt, décrit le contenu de l'image comme une collection d'empreintes de morceaux d'images appartenant à la même image. Cet algorithme est complexe et lent mais son descripteur d'image est résistant à de nombreuses distorsions.
La similitude entre deux images A et B se détermine simplement par recherche exhaustive du plus proche voisin de chaque descripteur de l'image A dans l'ensemble des descripteurs de l'image B.
Le passage à l'échelle, c'est-à-dire la recherche de similitude entre une image A et l'ensemble d'images d'une bibliothèque d'images, est beaucoup plus complexe. Ce passage à l'échelle nécessite la mise en place d'un système efficace pour résoudre le problème, dit du plus proche voisin, défini comme suit : Soit une collection de points de données et un point de requête dans un espace métrique de dimension < n >, trouver le point de données qui est le plus proche du point de requête. La manière habituelle de mettre en application un tel système est la suivante.
Un ensemble de descripteurs, dit collection de points de données, est calculé sur une bibliothèque de photos données. Ensuite, quand une requête de similitude est lancée, l'empreinte de l'image de requête est calculée afin d'obtenir le point de requête, et ensuite le point de donnée le plus proche au point de requête est déterminé.
L'efficacité d'une recherche du plus proche voisin est évaluée en fonction des mesures dites de précision et de rappel de la requête. Ces mesures dépendent essentiellement de l'algorithme d'empreinte d'image et de l'algorithme de recherche du plus proche voisin.
Les algorithmes d'empreinte d'image existants sont divers et variés et à titre illustratif, nous pouvons en citer deux : BoF (Bag of Features) ; et VLAD (acronyme anglais de Vector of Locally Aggreated Descriptors), basés sur une représentation de l'image à base d'un vecteur des descripteurs SIFT agrégés localement. Comme algorithmes d'indexation/recherche de descripteurs nous pouvons en citer aussi deux : LSH (acronyme anglais de Locality-Sensitive Hashing) et Hamming Embedding.
Dans la suite de la description, nous définissons l'empreinte d'image comme un vecteur de taille fixe Zn appartenant à un espace métrique. Pour rappel, la norme d'un vecteur Zn fournit une mesure de distance ; de sorte que Zn avec une norme de Zn définissent un espace métrique. Une des normes de vecteur les plus populaires est la distance Euclidienne (norme L2) mais d'autres normes de vecteur existent et peuvent être employées.
Il est important de mentionner l'influence de la dimension < n > de l'empreinte d'image sur l'efficacité d'indexation des bibliothèques de photos numériques à large échelle, et sur la précision et le rappel de la requête de la base de données. Les empreintes d'images à grande dimension fournissent habituellement une meilleure précision et un meilleur rappel que les empreintes d'images à petite dimension, mais il est plus difficile à indexer efficacement des empreintes d'images à grande dimension. La capacité de discrimination d'une empreinte d'image à petite dimension est inférieure à celle d'une empreinte d'image à grande dimension et pourrait ne pas être satisfaisante.
En référence à la figure 1, selon ce mode de réalisation, l'ordinateur du premier utilisateur calcule et transmet outre le contenu chiffré Ic, une empreinte E relative au contenu, constituant ainsi un couple d'information <IC, E>.
L'organigramme de la figure 6 illustre ce procédé. L'étape 11 est décrite à la figure 4 et n'est pas détaillée ici.
A l'étape 12 l'ordinateur du premier utilisateur calcule une empreinte du contenu à transmettre, selon une des méthodes connues données précédemment. . Cette empreinte est une empreinte de recherche.
Lors d'une étape 13, la paire, contenu chiffré lc et empreinte E est transmise au FSS pour archivage s'il n'y a pas duplication. Dans un mode de réalisation préféré, la paire < Ic ; E > envoyée par le dispositif du premier utilisateur au FSS (220) est triée et stockée en deux bases de données différentes, c'est-à-dire, une base de données pour chacun des composants du couple. Il est important de souligner que l'espace de mémoire nécessaire pour stocker l'empreinte < E > est négligeable par rapport à l'espace nécessaire pour stocker l'image chiffrée lc. Selon une variante, le FSS utilise une unique base de données pour stocker le couple < Ic ; E >.
Le procédé de réception par l'utilisateur destinataire du contenu I transmis par le premier utilisateur est le même que celui décrit en référence à la figure 9, l'utilisateur destinataire recevant en outre, l'empreinte avec le hachage chiffré Hc et le contenu chiffré lc.
Une caractéristique très importante d'une bibliothèque de photos est la possibilité, pour les utilisateurs autorisés, d'interroger la base de données d'images en fonction de son contenu. Par exemple, les utilisateurs, qui peuvent être le premier utilisateur ou l'utilisateur destinataire, doivent pouvoir rechercher dans la bibliothèque de photos des images presque identiques ou des images semblables à une image présentée au système comme exemple.
Comme expliqué ci-dessus, la manière habituelle de répondre à une telle exigence est d'associer une empreinte E (un vecteur Zn appartenant à un espace métrique) à chacune des images de la bibliothèque de photos. Afin de déterminer si deux images sont presque identiques ou semblables, l'utilisateur calcule la distance Euclidienne (norme L2) entre les empreintes correspondantes aux deux images et il compare ce résultat à un seuil donné. Puisque le FSS a accès aux empreintes en clair des images, le FSS peut, sur demande des utilisateurs, lancer des requêtes sur la base de données des images. Nous devons mentionner que nous supposons que le FSS ne peut obtenir aucune information, concernant l'image en clair, par sa connaissance de l'empreinte en clair de l'image. Cela implique que l'empreinte de l'image ne permet pas de reconstituer l'image à partir de la connaissance de l'empreinte de l'image. Ainsi, on favorise les empreintes de petite dimension pour limiter la fuite d'information vers le FSS. Ainsi, lorsque l'utilisateur destinataire transmet un triplet au FSS pour une recherche d'images similaires, le FSS peut effectuer une mesure de similarité sur les images qu'il stocke, en utilisant l'une des méthodes décrites précédemment et fournir à l'utilisateur destinataire une à plusieurs image similaire, associée(s) avec son hachage cryptographique et son empreinte.
Étant donné que la mesure de similarité est effectuée par comparaison d'empreintes de petite dimension, la précision obtenue peut être insuffisante et l'utilisateur destinataire peut recevoir un ou plusieurs faux positifs. Ainsi, le mode de réalisation proposé ci-après améliore la robustesse en diminuant le nombre de faux positifs tout en garantissant une confidentialité des données stockées sur le FSS.
La figure 7 illustre ce mode de réalisation. L'étape ΙΊ est décrite à la figure 4 et ne l'est pas à nouveau ici.
Lors de l'étape Γ2, une empreinte de recherche est calculée, par exemple selon la méthode des VLADs pour produire une empreinte V.
Comme suite à l'étape Γ2, on passe à une étape Γ3 dans laquelle une empreinte de sélection S est calculée. S est un vecteur de sélection, appelé sac de descripteurs. Lors d'une étape Γ4, on chiffre S. Préférentiellement, le chiffrement sera obtenu avantageusement avec la valeur de hachage cryptographique H. Dans une mise en œuvre alternative le chiffrement sera obtenu en utilisant la clé publique que l'utilisateur destinataire a transmis au premier utilisateur, utilisée également pour chiffrer la valeur de hachage cryptographique H.
Lors d'une étape Γ5, on transmet le triplet comprenant le contenu chiffré lc, l'empreinte de recherche V et l'empreinte de sélection chiffrée Sc, soit <IC, V, Sc>.
La figure 8 illustre la création d'une valeur de hachage chiffrée à l'attention d'un utilisateur destinataire. Ce processus suppose que l'utilisateur destinataire a au préalable fourni sa clé de chiffrement publique Kp au premier utilisateur et que celui-ci à déjà transmis les données multimédias au FSS selon le principe de la figure 1.
Lors d'une étape H1 la valeur de hachage non chiffrée est fournie au dispositif, soit par sélection d'une clé stockée sur l'ordinateur du premier utilisateur, soit par un nouveau calcul (102) à partir des données multimédias choisies.
Lors de l'étape suivante H2, la valeur de hachage cryptographique H est chiffrée en utilisant un hachage du type asymétrique Ea, avec ladite clé publique Kp. Enfin, lors d'une étape H3, un triplet < E, U, Hc >, comprenant, l'empreinte E du contenu multimédia, l'identifiant de l'utilisateur destinataire U et le hachage cryptographique chiffré Hc associé est transmis au FSS (120,220). Le FSS les transmet alors, à l'utilisateur destinataire. Le couple utilisateur U, hachage chiffré Hc, est enregistré et un lien est créé par le FSS entre le contenu enregistré et la pluralité de hachages associés enregistrés, car chacun des hachages est chiffré avec une clé publique différente et il est donc nécessaire de les enregistrer pour chaque utilisateur. Le couple utilisateur, hachage chiffré étant de petite taille, ceci ne pose pas de problème de place de stockage sur le FSS et reste négligeable par rapport à la taille des contenus multimédias stockés.
Dans une mise en œuvre alternative, le dispositif (100) utilisé par le premier utilisateur réalise l'ensemble des étapes décrites à la figure 6 ou à la figure 7 et celles de la figure 8 pour procéder à un envoi groupé de l'ensemble des données. C'est le cas par exemple lorsque les données multimédias n'ont pas préalablement été transmises au FSS.
L'utilisateur destinataire du contenu multimédia récupère alors les données multimédias pour les utiliser. Pour cela, en référence à la figure 9, l'utilisateur destinataire demande au FSS le contenu que le premier utilisateur a fait enregistrer sur le FSS (120,220) à son attention, à l'étape V1 .
Le dispositif de l'utilisateur destinataire reçoit le contenu chiffré Ic et la valeur de hachage cryptographique chiffrée Hc associée. Grâce à la clé privée Ks de l'utilisateur destinataire, le dispositif déchiffre le hachage cryptographique Hc lors d'une étape V2. Ensuite, lors d'une étape V3, le contenu chiffré Ic est déchiffré à l'aide du hachage cryptographique déchiffré H, utilisé en tant que clé de déchiffrage. L'utilisateur destinataire peut alors lire le contenu I.
Lors de la réception des données multimédias, lesdites données peuvent également inclure une empreinte E associée. L'empreinte reçue permet à l'utilisateur destinataire de faire de la recherche de contenu similaire.
La figure 10 illustre la recherche par l'utilisateur destinataire de l'ensemble des données similaires à un contenu de référence dans le FSS.
Lors d'une étape R1 , l'utilisateur destinataire transmet au FSS une requête de recherche de données similaires contenant son identifiant U et l'empreinte V des données de référence pour lesquelles il souhaite retrouver des données similaires. Lors d'une étape R2, le FSS effectue une recherche de données similaires en utilisant les empreintes de recherche V stockées avec celle transmise par l'utilisateur.
Dans un mode de réalisation préféré, lors d'une étape R3, le FSS transmet à l'utilisateur destinataire l'ensemble des triplets <HC, V, Sc> correspondant à l'ensemble des empreintes proches voisins de V qu'il trouve. En raison de la faible précision de la recherche effectuée par le FSS, l'utilisateur destinataire reçoit un certain nombre d'empreintes de données multimédias qui sont des faux positifs. Lors d'une étape R4 l'ordinateur de l'utilisateur destinataire déchiffre, avec la clé privée de l'utilisateur destinataire, les valeurs de hachage cryptographiques (Hc), pour obtenir la valeur de hachage non chiffrée (H). Lesdites valeurs de hachage obtenues (H) sont alors utilisées pour déchiffrer les empreintes d'images de sélection Sc des images reçues afin d'obtenir les empreintes d'images en clair S qu'il utilise, lors d'une étape R5, pour éliminer les faux positifs de l'ensemble des triplets <HC, Sc, V> qu'il a reçu en provenance du FSS. Cela est rendu possible car l'utilisateur destinataire possède sa clé privée et les empreintes S sont de dimension suffisamment grande pour détecter les faux positifs.
Lors d'une étape R6, l'utilisateur destinataire envoie une seconde requête au FSS pour demander les doublets <IC, Hc> des données multimédias sélectionnées. L'empreinte associée à chacun desdits doublets peut également être fournie par le FSS. Dans un mode de réalisation alternatif, lors de lors d'une étape R3, le
FSS transmet à l'utilisateur destinataire l'ensemble des doublets <SC, V> correspondant à l'ensemble des empreintes proches voisins de V qu'il trouve, avec le même problème de précision évoqué précédemment.
Dans ce mode alternatif, lors d'une étape R4 l'ordinateur de l'utilisateur destinataire déchiffre, avec la clé privée Ks de l'utilisateur destinataire, les empreintes d'images de sélection Sc des images reçues afin d'obtenir les empreintes d'images en clair S qu'il utilise, lors d'une étape R5, pour éliminer les faux positifs de l'ensemble des doublets <SC, V> qu'il a reçu en provenance du FSS. Cela est rendu possible car l'utilisateur destinataire possède sa clé privée et les empreintes S sont de dimension suffisamment grande pour détecter les faux positifs.
L'étape R6 du mode alternatif est identique au mode de réalisation préféré.
Nous pouvons noter qu'un avantage supplémentaire de l'invention est aussi la protection du droit d'auteur. En effet, si le FSS comprend une photo de référence en clair, il peut déterminer si les utilisateurs ont des copies identiques à cette photo de référence. Par exemple, si le FSS a une photo de la tour Eiffel, réalisée par un photographe de renom, il peut déterminer si un ou plusieurs de ses clients a une copie identique de cette photo, stockée dans leurs collections de photos.
Si le FSS n'a pas de copie en clair des photos stockées dans ses serveurs, il lui est impossible d'exploiter la base de données d'images chiffrées stockées chez lui. D'autre part, si le FSS a légalement une copie en clair d'une photo dont il connaît le propriétaire, il peut déterminer si les utilisateurs de son service de stockage en ligne ont une copie illégale de cette photo stockée dans ses serveurs.
Bien que la description porte principalement sur un contenu de type image, l'invention ne se limite pas aux modes de réalisation décrits précédemment. Comme cela a été dit, ce système de stockage en ligne FSS est également applicable pour d'autres types de documents et notamment des vidéos.
Pour rappel, l'invention fait appel à deux techniques connues, le chiffrement convergent, permettant l'application de la déduplication, et l'empreinte de document pour pouvoir faire de la recherche de documents similaires.
À propos de la déduplication, la technique de chiffrement appliquée reste indépendante du type de document multimédia à traiter, elle garantit la possibilité d'appliquer la déduplication lors du stockage des documents multimédias. C'est sur l'obtention de l'empreinte, afin de permettre la recherche de documents similaires que des différences apparaissent. L'homme du métier sait que les méthodes de calcul d'empreintes sont spécifiques au type de contenu. Cependant, la comparaison pour identifier les contenus multimédias similaires reste basée sur la technique du plus proche voisin, déjà décrite à la figure 6. Par exemple, l'invention, selon une première variante, peut s'appliquer à des documents du type audio. En effet, pour des problématiques de recherche dans les bases de données, de falsification / authentification, de filigrane des documents audio, de nombreuses méthodes de création d'empreintes ont été mises au point. Les algorithmes de calcul d'empreintes de documents audio sont multiples. Cela est décrit notamment dans la publication « Robust audio hashing for audio identification » de Hamza Ôzer, Bulent Sankur et Nasir Memon, faite en 2001 (Proc. Content-Based Multimedia Indexing). De même, selon une seconde variante, il est possible de traiter des documents du type vidéo. Tout comme pour les autres types de documents, il existe des méthodes de calcul d'empreinte. Par exemple, une description de calcul d'empreinte est faite dans les publications numéro 2297-23000, "A video fingerprint based on visual digest and local fingerprints" par Massoudi, A., Lefebvre, F., Demarty, C.-H., Oisel, L. and Chupeau, B (Proc. IEEE Int. Conf. on Image Processing 2006) et numéro 341 1 -3414 "Global motion estimation for MPEG-encoded streams", de Coudray R. et Besserer B., (Proc. IEEE Int. Conf. on Image Processing 2004)
Selon une autre variante, il est également possible de traiter des documents du type texte. Les méthodes d'empreinte texte ont été développées notamment pour de la détection de plagiat dans les documents sous forme électronique. La publication numéro 342-353 « New Algorithms for Text Fingerprinting » par Roman Kolpakov, Mathieu Raffinot (au Combinatorial Pattern Matching, 2006) décrit des méthodes d'obtention d'empreinte texte. Selon une variante, les données multimédias chiffrées le et les empreintes E associées sont stockées chez deux FSS différents (FSS1 et FSS2), l'un stockant les données multimédias chiffrées (FSS1 ), l'autre les empreintes (FSS2). Cela présente l'avantage de rassurer le premier utilisateur à propos du niveau de confidentialité de ses données. En effet, le dépositaire des données multimédias ne possédant pas d'empreintes et en particulier le vecteur de recherche qui n'est pas chiffré, il ne peut pas à l'aide de ce vecteur de recherche tenter de reconstituer les données multimédias du premier utilisateur, dans le cas par exemple où le vecteur de recherche est de grande dimension. Il ne peut pas non plus faire de recherche de données multimédias similaires. Pour que cela fonctionne, il faut également que les valeurs de hachages chiffrées associées aux données multimédias soient stockées sur au moins l'un des FSS, toujours avec l'identifiant de l'utilisateur pour qui la valeur a été chiffrée.
Cependant, la méthode nécessite une coordination entre les FSS (ici FSS1 et FSS2) pour maintenir la relation qui existe entre le triplet, données multimédias, valeurs de hachage chiffrées pour un utilisateur et empreinte, mais elle garantit la possibilité d'appliquer la déduplication. Pour effectuer une recherche de données multimédias similaires, le dispositif de réception de l'utilisateur destinataire envoie une requête à celui des FSS stockant les empreintes E (ici FSS2). À réception de la réponse, le dispositif de réception de l'utilisateur destinataire demande au second FSS les données multimédias sélectionnées (ici FSS1 ). Il est possible de passer par une étape de recherche (à l'aide du vecteur de recherche), suivie d'une étape d'élimination des faux positifs à l'aide de vecteurs de sélection pour filtrer les données multimédias à demander au dépositaire de celle-ci. Ce principe de répartition entre deux FSS peut s'étendre avec un nuage comprenant une multitude de FSS répartis dans de multiples pays tout autour de la planète.

Claims

REVENDICATIONS
Dispositif de stockage (120,220) en ligne apte à stocker des données multimédias (I) caractérisé en ce qu'il comprend des moyens d'enregistrer (121 ,122,223) lesdites données multimédias sous forme chiffrée (lc) et pour chacune desdites données multimédias chiffrées (lc), une empreinte (E) associée, lesdites données multimédias chiffrées (lc) étant chiffrées en utilisant une valeur de hachage (H), ladite valeur de hachage (H) étant obtenue par le hachage de lesdites données multimédias non chiffrées (I), ladite empreinte (E) comprenant un vecteur de recherche non chiffré (V).
Dispositif selon la revendication 1 caractérisé en ce que ladite empreinte comprend un vecteur de vérification chiffré (Sc).
Dispositif selon la revendication 2, caractérisé en ce que ledit vecteur de vérification chiffré (Sc), est obtenu par le chiffrage dudit vecteur de vérification (Sc) avec ladite valeur de hachage (H).
Dispositif selon la revendication 3, apte à stocker au moins un identifiant d'utilisateur (U) caractérisé en ce que pour chaque utilisateur (U) le dispositif est apte à stocker un hachage chiffré (Hc) par utilisateur (U), ledit hachage chiffré (Sc) étant chiffré en utilisant une clé publique de chiffrement (Kp) dudit utilisateur (U).
Dispositif selon la revendication 2, caractérisé en ce qu'il est apte à stocker au moins un identifiant d'utilisateur (U) et pour chaque utilisateur un hachage chiffré (Hc), ledit hachage chiffré (Hc) et ledit vecteur de vérification (Sc) chiffré étant chacun chiffrés en utilisant une clé publique de chiffrement (Kp) dudit utilisateur (U).
6. Dispositif selon la revendication 1 caractérisé en ce qu'il comprend des moyens de comparer (124), lors de chaque enregistrement de données multimédias (I), lesdites données multimédias chiffrées enregistrées (lc) avec les données multimédias chiffrées à enregistrer (lc) de manière à ne pas dupliquer les données multimédias enregistrées (lc).
7. Dispositif selon la revendication 4 ou 5 caractérisé en ce qu'il comprend des moyens :
• de recevoir une première requête d'un utilisateur émetteur, comprenant pour un document multimédia cible recherché, au moins ladite empreinte associée audit document chiffré,
• de comparer ledit vecteur de recherche (V) reçu à au moins un vecteur de recherche (V) enregistré en mesurant une distance entre ledit vecteur de recherche (V) reçu et le au moins un vecteur de recherche (V) enregistré,
• de transmettre à l'émetteur de ladite première requête, au moins un vecteur de recherche (V) dont ladite distance avec ledit vecteur de recherche (V) reçu est inférieure à un seuil prédéterminé, dit vecteur sélectionné,
8. Dispositif selon la revendication 7 caractérisé en ce qu'il comprend des moyens :
• de recevoir une seconde requête dudit émetteur, pour au moins un document multimédia recherché, comprenant au moins un vecteur de recherche (V) sélectionné parmi le au moins un vecteur de recherche (V) transmis.
• de transmettre audit émetteur de ladite seconde requête, au moins un vecteur de vérification (Sc) chiffré correspondant audit au moins un vecteur de recherche (V) sélectionné.
9. Dispositif selon la revendication 4 ou 5 caractérisé en ce qu'il comprend des moyens : • de recevoir une première requête d'un utilisateur émetteur, comprenant pour un document multimédia cible recherché, au moins ladite empreinte associée audit document chiffré,
• de comparer ledit vecteur de recherche (V) reçu à au moins un vecteur de recherche (V) enregistré en mesurant une distance entre ledit vecteur de recherche (V) reçu et le au moins un vecteur de recherche (V) enregistré,
• de transmettre à l'émetteur de ladite première requête, au moins un vecteur de vérification (Sc) chiffré correspondant audit vecteur de recherche (V) sélectionné.
10. Dispositif selon la revendication 8 ou 9 caractérisé en ce qu'il comprend, suite à la transmission dudit au moins un vecteur de vérification des moyens :
• de recevoir une requête dudit émetteur pour au moins un document multimédia recherché, comprenant au moins un vecteur de vérification (Sc) sélectionné parmi le au moins un vecteur de vérification (Sc) transmis.
• de transmettre à l'émetteur de ladite requête, au moins une paire correspondant à au moins un dit vecteur de vérification (Sc) reçu, comprenant au moins une donnée chiffrée (lc) et au moins un hachage chiffré (Hc) correspondant.
1 1 . Procédé de stockage en ligne apte à stocker des données multimédias (lc) caractérisé en ce qu'il comprend les étapes de :
• réception (D1 ) de données, comprenant un contenu multimédia sous forme chiffré (lc) selon un chiffrement convergent, une empreinte associée (E).
• comparaison (D2) dudit contenu multimédia chiffré (lc) avec ceux préalablement stockés.
• enregistrement (D4) desdites données, si ledit contenu n'est pas déjà stocké.
12. Procédé de transmission de données multimédias caractérisé en ce qu'il comprend les étapes de :
• chiffrement desdites données multimédias (I) à l'aide d'une méthode de chiffrement convergent ;
• calcul d'une empreinte (E), desdites données multimédias (I) à partir desdites données multimédias non chiffrées (I), ladite empreinte comprenant un vecteur de recherche non chiffré (V) ;
• transmission d'un ensemble de données, comprenant au moins lesdites données multimédias chiffrées (lc) et ladite empreinte (E) associée.
13. Dispositif de transmission de données multimédias caractérisé en ce que pour la transmission de données multimédias, il comprend des moyens :
• de chiffrement (105) desdites données multimédias (I) à l'aide d'une méthode de chiffrement convergent ;
• de calcul (104) d'une empreinte (E), desdites données multimédias (I) à partir desdites données multimédias non chiffrées (I) ;
• de transmission (101 ) d'un ensemble de données, comprenant au moins lesdites données multimédias chiffrées (lc) et ladite empreinte (E) associée.
14. Procédé de réception de données multimédias, destinées à un utilisateur (U) possédant une clé publique (Kp) et une clé privée associée (Ks) caractérisé en ce qu'il comprend les étapes de :
• réception (V1 ) d'un ensemble de données, comprenant au moins des données multimédias (lc) sous forme chiffrée par une méthode de chiffrement convergent et une valeur de hachage chiffrée (Hc) associée auxdites données multimédias (lc), destinée audit utilisateur ; • déchiffrage (V2) de ladite valeur de hachage chiffré (Hc) avec ladite clé privée (Ks) pour obtenir une valeur de hachage non chiffrée (H) ;
• déchiffrage (V3) desdites données multimédias (lc) avec ladite valeur de hachage (H) pour obtenir les données multimédias non chiffrées (I).
15. Dispositif de réception de données multimédias, destinées à un utilisateur (U) possédant une clé publique (Kp) et une clé privée associée (Ks) caractérisé en ce qu'il comprend des moyens :
• de réception (141 ,341 ) d'un ensemble de données, comprenant au moins des données multimédias (lc) sous forme chiffrée par une méthode convergente et une valeur de hachage chiffrée (Hc) associée auxdites données multimédias (lc), destinée audit utilisateur U ;
• de déchiffrage (142) de ladite valeur de hachage chiffré (Hc) avec ladite clé privée (Ks) pour obtenir une valeur de hachage non chiffrée (H) ;
• de déchiffrage (143) desdites données multimédias (lc) avec ladite valeur de hachage (H) pour obtenir les données multimédias non chiffrées (I).
EP11817523.1A 2011-01-07 2011-12-16 Dispositif et procède de stockage en ligne, dispositif et procède d'émission, dispositif et procède de réception Withdrawn EP2661715A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1150135 2011-01-07
PCT/FR2011/053034 WO2012093216A1 (fr) 2011-01-07 2011-12-16 Dispositif et procède de stockage en ligne, dispositif et procède d'émission, dispositif et procède de réception

Publications (1)

Publication Number Publication Date
EP2661715A1 true EP2661715A1 (fr) 2013-11-13

Family

ID=45607279

Family Applications (1)

Application Number Title Priority Date Filing Date
EP11817523.1A Withdrawn EP2661715A1 (fr) 2011-01-07 2011-12-16 Dispositif et procède de stockage en ligne, dispositif et procède d'émission, dispositif et procède de réception

Country Status (6)

Country Link
US (1) US9519800B2 (fr)
EP (1) EP2661715A1 (fr)
JP (1) JP2014507841A (fr)
KR (1) KR20130133243A (fr)
CN (1) CN103415856B (fr)
WO (1) WO2012093216A1 (fr)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104704493B (zh) * 2012-08-15 2019-06-07 维萨国际服务协会 可搜索的经加密的数据
EP2779520B1 (fr) * 2013-03-11 2019-01-16 Idemia Identity & Security France Procédé d'obtention de données candidates à partir d'un serveur de stockage à distance en vue d'une comparaison de données devant être identifiées
CN103237030A (zh) * 2013-04-25 2013-08-07 深圳市中兴移动通信有限公司 基于生物识别的用户认证方法及系统
WO2015153480A1 (fr) * 2014-03-31 2015-10-08 Ebay Inc. Recherche et récupération à base d'image
CN104394155B (zh) * 2014-11-27 2017-12-12 暨南大学 可验证完整性和完备性的多用户云加密关键字搜索方法
US10855661B2 (en) * 2015-10-16 2020-12-01 Kasada Pty, Ltd. Dynamic cryptographic polymorphism (DCP) system and method
CN108108626A (zh) * 2016-11-25 2018-06-01 深圳指芯智能科技有限公司 一种资料信息分级处理方法及装置
CN106843853B (zh) * 2016-12-28 2020-09-08 北京五八信息技术有限公司 保护用户信息的方法和装置
EP4099309A4 (fr) 2020-02-05 2023-02-22 Mitsubishi Electric Corporation Cryptosystème, dispositif de conversion de données chiffrées et programme de conversion
CN111353168A (zh) * 2020-02-27 2020-06-30 闻泰通讯股份有限公司 一种多媒体文件的管理方法、装置、设备及存储介质
CN111935163B (zh) * 2020-08-14 2022-08-09 支付宝(杭州)信息技术有限公司 保护隐私的数据联合处理方法及装置
CN112685753B (zh) * 2020-12-25 2023-11-28 上海焜耀网络科技有限公司 一种用于加密数据存储的方法及设备

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6084595A (en) 1998-02-24 2000-07-04 Virage, Inc. Indexing method for image search engine
US6463432B1 (en) 1998-08-03 2002-10-08 Minolta Co., Ltd. Apparatus for and method of retrieving images
US7412462B2 (en) * 2000-02-18 2008-08-12 Burnside Acquisition, Llc Data repository and method for promoting network storage of data
US6983365B1 (en) * 2000-05-05 2006-01-03 Microsoft Corporation Encryption systems and methods for identifying and coalescing identical objects encrypted with different keys
US7222233B1 (en) * 2000-09-14 2007-05-22 At&T Corp. Method for secure remote backup
AU2002304842A1 (en) * 2001-08-20 2003-03-10 Datacentertechnologies N.V. File backup system and method
ES2385824T3 (es) 2003-12-30 2012-08-01 Telecom Italia S.P.A. Procedimiento y sistema de protección de datos, red de comunicaciones relacionada y producto de programa informático
US8041641B1 (en) * 2006-12-19 2011-10-18 Symantec Operating Corporation Backup service and appliance with single-instance storage of encrypted data
JP5142705B2 (ja) * 2007-12-29 2013-02-13 シャープ株式会社 画像検索装置
US8199911B1 (en) * 2008-03-31 2012-06-12 Symantec Operating Corporation Secure encryption algorithm for data deduplication on untrusted storage
US20090290714A1 (en) * 2008-05-20 2009-11-26 Microsoft Corporation Protocol for Verifying Integrity of Remote Data
US20090300356A1 (en) 2008-05-27 2009-12-03 Crandell Jeffrey L Remote storage encryption system
US8311985B2 (en) 2008-09-16 2012-11-13 Quest Software, Inc. Remote backup and restore system and method
US8281143B1 (en) * 2008-09-29 2012-10-02 Symantec Operating Corporation Protecting against chosen plaintext attacks in untrusted storage environments that support data deduplication
TW201015322A (en) 2008-10-08 2010-04-16 Ee Solutions Inc Method and system for data secured data recovery
US8082228B2 (en) 2008-10-31 2011-12-20 Netapp, Inc. Remote office duplication
US8195672B2 (en) * 2009-01-14 2012-06-05 Xerox Corporation Searching a repository of documents using a source image as a query
US8731190B2 (en) 2009-06-09 2014-05-20 Emc Corporation Segment deduplication system with encryption and compression of segments
US20100318782A1 (en) 2009-06-12 2010-12-16 Microsoft Corporation Secure and private backup storage and processing for trusted computing and data services
WO2011076463A1 (fr) * 2009-12-23 2011-06-30 International Business Machines Corporation Déduplication de données chiffrées
US8401185B1 (en) * 2010-02-01 2013-03-19 Symantec Corporation Systems and methods for securely deduplicating data owned by multiple entities
CN101820426B (zh) 2010-04-22 2012-05-23 华中科技大学 一种在线备份服务软件中的数据压缩方法
US8661259B2 (en) * 2010-12-20 2014-02-25 Conformal Systems Llc Deduplicated and encrypted backups

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2012093216A1 *

Also Published As

Publication number Publication date
CN103415856A (zh) 2013-11-27
US20140019765A1 (en) 2014-01-16
JP2014507841A (ja) 2014-03-27
WO2012093216A1 (fr) 2012-07-12
US9519800B2 (en) 2016-12-13
KR20130133243A (ko) 2013-12-06
CN103415856B (zh) 2016-05-25

Similar Documents

Publication Publication Date Title
EP2661715A1 (fr) Dispositif et procède de stockage en ligne, dispositif et procède d&#39;émission, dispositif et procède de réception
EP2323306B1 (fr) Procédé de transmission de données sécurisé et système de chiffrement et de déchiffrement permettant une telle transmission
US20220337392A1 (en) Automatic digital media authenticator
EP2248071B1 (fr) Identification basee sur des donnees biometriques chiffrees.
EP3552129B1 (fr) Procédé d&#39;enregistrement d&#39;un contenu multimédia, procédé de détection d&#39;une marque au sein d&#39;un contenu multimédia, dispositifs et programme d&#39;ordinateurs correspondants
FR2886494A1 (fr) Procede et dispositif d&#39;echange de donnees entre des stations mobiles dans un reseau pair a pair
WO2014118257A1 (fr) Procede de chiffrement homomorphe pour le ou exclusif et calcul securise d&#39;une distance de hamming
EP2494491B1 (fr) Identification par controle de donnees biometriques d&#39;utilisateur
FR2868896A1 (fr) Procede et dispositif de controle d&#39;acces a un document numerique partage dans un reseau de communication de type poste a poste
FR2930390A1 (fr) Procede de diffusion securisee de donnees numeriques vers un tiers autorise.
FR3082023A1 (fr) Une application logicielle et un serveur informatique pour authentifier l’identite d’un createur de contenu numerique et l’integrite du contenu du createur publie
WO2020169542A1 (fr) Méthode cryptographique de vérification des données
EP2569729A1 (fr) Systeme permettant l&#39;affichage d&#39;un fichier informatique prive sur un ecran d&#39;un terminal de telecommunications et procede correspondant
EP2909963B1 (fr) Procédé de signature électronique à signature ephémère
FR2930391A1 (fr) Terminal d&#39;authentification d&#39;un utilisateur.
FR3096480A1 (fr) Procédé d’authentification forte d’un individu
FR3059445A1 (fr) Procede de chiffrement cherchable
FR2965431A1 (fr) Systeme d&#39;echange de donnees entre au moins un emetteur et un recepteur
WO2009083527A1 (fr) Procede et systeme pour authentifier des individus a partir de donnees biometriques
WO2015197930A1 (fr) Procédé de partage de fichiers numériques entre plusieurs ordinateurs, et ordinateur, ensemble de stockage de données et système de partage de fichiers numériques associés
WO2023203301A1 (fr) Procédé et système de gestion des droits d&#39;accès dans une transaction équitable de données numériques
WO2012153030A1 (fr) Procede, serveur et systeme d&#39;authentification biometrique
EP2254275A1 (fr) Procédé de chiffrement de parties particulières d&#39;un document pour les utilisateurs privilèges
FR2880703A1 (fr) Procede d&#39;identification d&#39;utilisateur, de creation d&#39;un document de partage et de service correspondant dans un systeme de partage d&#39;un reseau pair a pair

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20130722

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN WITHDRAWN

18W Application withdrawn

Effective date: 20161017