EP3008910A1 - Data processing device - Google Patents

Data processing device

Info

Publication number
EP3008910A1
EP3008910A1 EP14749863.8A EP14749863A EP3008910A1 EP 3008910 A1 EP3008910 A1 EP 3008910A1 EP 14749863 A EP14749863 A EP 14749863A EP 3008910 A1 EP3008910 A1 EP 3008910A1
Authority
EP
European Patent Office
Prior art keywords
data
image
produce
converter
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP14749863.8A
Other languages
German (de)
French (fr)
Inventor
Sébastien GILLES
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Viddiga
Original Assignee
Viddiga
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Viddiga filed Critical Viddiga
Publication of EP3008910A1 publication Critical patent/EP3008910A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/835Generation of protective data, e.g. certificates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/467Embedding additional information in the video signal during the compression process characterised by the embedded information being invisible, e.g. watermarking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/254Management at additional data server, e.g. shopping server, rights management server
    • H04N21/2541Rights Management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4627Rights management associated to the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/835Generation of protective data, e.g. certificates
    • H04N21/8358Generation of protective data, e.g. certificates involving watermark
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format

Definitions

  • the invention relates to the field of data processing.
  • media rights holders whether audio or video, want to be able to detect the broadcast of the media on which they have rights.
  • fingerprinting in English
  • marking in English
  • Third parties have thus filled the void that exists in advertiser-radio or television channel relationships, and they are known as trusted third parties. However, here again, we must trust these third parties, and their services are very expensive.
  • the marking must be made from the production of the media concerned, which is expensive and is difficult to catch up then.
  • the costs of detection of the marking are very important, require an intensive computation very consumer of resources in mobile environment, and the known marking techniques can be irreversibly degraded when the radio or television channel retouches its signal for the 'program.
  • imprinting methods tend to fail to maintain a satisfactory level of detection quality by "scaling" (that is, their ability to identify content drops significantly when the the amount of data to be identified increases significantly), or to have insufficient performance, unless the detection cost is too high to be able to do real time.
  • radio or television channels to know in real time their programming and / or advertising, in a completely reliable way, in order to promote the media whose use is increasing exponentially and are known as the "second screen"("secondscreen” in English).
  • many radio or television channels allow their listeners to use their tablet or their smartphone ("smartphone") with an application that they provide them to enrich their experience during a meeting. given program.
  • the exact and instantaneous knowledge of the programming grid actually broadcast by the radio or television channel is an asset not available to date, but which would allow for example to broadcast targeted advertisements on the second screen, advertisements which it It is well known that they are worth ten to one hundred times larger than those of conventional banners.
  • the invention improves the situation.
  • the invention proposes a device for processing streaming audio-video data, comprising a selector arranged to determine input data relating to an audio stream or a video stream in the audio-video data in question. flow, a converter arranged to produce image data at a frequency selected from the input data, an encoder arranged to produce compressed data from the image data, and a projector arranged to produce data from imprinting from the compressed data, the converter being arranged to produce the image data in the form of a fixed size image, the encoder being arranged to work successively on each image described by the image data, and the projector being arranged to produce the flow imprint data from the weight of the compressed data produced successively.
  • the device may also have the following characteristics:
  • the converter is arranged to segment input data relating to an audio stream into successive windows of samples, and to convert the input data of each window into successive image data by converting the amplitude of each sample into a sample. gray scale value, the converter being further arranged to produce image data of a given window in the form of an image in which successive pixels of a given line correspond to successive samples of the data of each of which has a corresponding gray shade value, and in which the lines of the image are identical to each other,
  • the windows have a duration of 0.25 s, and are separated from each other by a number of samples making it possible to obtain image data at the chosen frequency
  • the converter is arranged to select images in input data relating to a video stream according to the selected frequency, and to produce the image data by converting these images to a selected dimension
  • the chosen dimension is 120 * 160
  • the encoder includes a lossy image compressor
  • the encoder works by block processing and quantization
  • the encoder comprises a compressor of the JPEG family, or a compressor of the WebP type,
  • the projector is arranged to produce the fingerprint data by projecting on a given range the weight of the compressed data successively produced according to a chosen projection law
  • FIG. 1 represents an exemplary implementation environment of a device according to the invention
  • FIG. 2 represents a device according to the invention
  • FIG. 4 represents an example of a fingerprint produced using a second encoding algorithm.
  • FIG. 1 represents an environment for implementing a device according to the invention.
  • a licensee transmits unmarked content from a content server 10.
  • the transmitted content is received by users by various media consumption devices, such as a computer 12, a tablet 14 or a radio 16.
  • the consumer devices may comprise any device capable of implementing the device described in FIG. 2, whether (in addition to the devices already mentioned as examples) of a smart phone (smartphone in English), a connected television, a connected television box, a server dedicated to the analysis of contents, or any other suitable device,
  • the content server can be connected to third-party servers for the provision of additional information of the identified content, or be a black box (black box in English) which carries out both the identification of content and the determination of further information.
  • a black box black box in English
  • the invention solves this problem with a device that produces a robust footprint, light, and low cost of calculation.
  • known marking or fingerprinting solutions seek to qualify the contents individually, as if they were autonomous entities, regardless of their transmission environment. As a result, the resulting markings and imprints are often strongly correlated to the content itself, and in fact represent a kind of simplification of the original content, ultimately close enough to the original.
  • the device according to the invention comprises a selector 20, a converter 22, an encoder 24 and a projector 26.
  • the function of the selector 20 is to demultiplex the original stream, i.e. to receive streamed audio-video data, and to extract the audio or video track to form an input data stream.
  • the input data stream contains only audio data or exclusively video data.
  • the selector 20 produces input data designating the amplitude of the successive samples of this audio stream.
  • the selector 20 produces on the one hand input data corresponding to the audio stream of the video, and on the other hand input data corresponding to the image stream. video, by demultiplexing.
  • the selector 20 may omit producing the input data corresponding to the image stream of the video.
  • the selector 20 calls the converter 22 with the input data ent dat and outputs image data im da t. This step is fundamental, and will be explained in more detail later.
  • the converter 22 is arranged to produce the image data differently depending on whether the input data relates to an audio stream or a video stream.
  • the pixel line is copied 8 times, so that the size of the images produced is L * 8, where L is the number of audio samples in each window.
  • the input data can be transformed to 44.1 kHz, or the converter 22 can act by producing pixels whose the value in gray levels takes into account this resampling, for example by extrapolation.
  • sampling may be based on one of the channels only, or on an average of the channels.
  • the calculation of the gray level value for each pixel depends on the quantization of the audio stream of the input data.
  • the converter 22 produces images coded in 256 gray levels.
  • the input data represents a 16-bit quantized flow
  • the projection is linear.
  • the projection can also be Gaussian, or any other suitable projection.
  • the converter 22 is arranged to produce successive images of fixed size.
  • a video stream implements two main devices: a container (whose role is to carry elementary packets of information) and a codec (whose role is to encode and decode elementary packets).
  • the elementary decompression of this stream gives rise to a series of images ordered temporally, of fixed size (for example 1920x1080 for a TV signal in HD format). Nevertheless, a re-encoding of this stream for a mobile terminal (for example 720x576 pixels for a TV signal in SD format) will give rise to images of different definition.
  • other diffusion parameters influence the final size of the elementary image of a stream, such as the addition of horizontal black bars to transform a 16: 9 signal into a 4: 3 signal. In order to eliminate the dependence of the subsequent processing steps on the size of the original image, it is "resized" to a fixed size, regardless of the input stream.
  • the converter 22 is arranged to select an image every l / 25th of second in the data entries. In the case where the video stream of the input data is present at a rate other than 25 frames per second, for example at 30 frames per second, the converter 22 can carry out an extrapolation of images surrounding each time marker at 25 Hz. At the output, the converter 22 transmits the image data corresponding to each successive image derived from the input data to the encoder 24.
  • the function of the encoder 24 is to produce comp compressed data which constitutes a compressed version of the data. image.
  • the encoder 24 is the standard JPEG encoder, free, developed and distributed by the Independent JPEG Group.
  • the encoder 24 could also be an open-source WebP encoder developed by Google.
  • the encoder 24 has the particularity of performing a lossy encoding operating by block processing and quantization. Other image encoding algorithms with similar characteristics may be considered.
  • the fingerprint data is abstract with respect to the input data, while being strongly related to it.
  • fingerprint data taken in isolation are not always discriminating, the fact that they are generated in flow makes the fingerprint generation process particularly robust, repeatable and discriminant.
  • the imprint flux has an invariance character with respect to the transformations or losses that can affect a video or audio signal during its transmission and its reproduction (noise, re-encoding, resizing, changing colors, contrast or brilliance) and descriptive power to uniquely identify any excerpt from that flux.
  • the generation process is very inexpensive in computing time, which allows to generate a robust footprint in real time.
  • the Applicant has oriented its research on the generation of fingerprint taking into account that the contents are emitted in flow. In doing so, he discovered that it is advantageous to produce a footprint also as a flow.
  • the Applicant has identified that the elementary elements of the stream (the images for a video stream, and the sample windows for an audio stream) represent instantaneous static / spatial information. This discovery, on the other hand, led to the exclusion of the video or audio encoders generating imprints that intrinsically correlate the elements of the stream to take advantage of the redundancies between the successive elementary elements of a stream.
  • the examples described here recommend an audio data stream of 44.1 kHz input, with windows of 0.25 s, and for a 25 Hz fingerprint data stream, and a video data stream of input at 25 frames per second, with an aspect ratio of 3/4. These particular elements may vary depending on the desired applications.
  • the device of the invention can also be used to detect the presence of illegal content on the program.
  • content-sharing platforms by detection at the input before any sharing, which offers a great security to the hosting of contents.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Device for analyzing streaming audio-video data, characterized in that it comprises a selector (20) designed to determine input data relating to an audio stream or to a video stream in the streaming audio-video data, a converter (22) designed to produce image data at a frequency chosen on the basis of the input data, an encoder (24) designed to produce compressed data on the basis of the image data, and a projector (26) designed to produce imprint data on the basis of the compressed data, the converter (22) being designed to produce the image data in the form of an image of fixed dimension, the encoder (24) being designed to work successively on each image described by the image data, and the projector (26) being designed to produce the imprint data as a stream on the basis of the weight of the compressed data produced successively.

Description

Dispositif de traitement de données  Data processing device
L'invention concerne le domaine du traitement de données. Dans de nombreux environnements, les titulaires de droits de médias, qu'ils soient audio ou vidéo par exemple, souhaitent être capables de détecter la diffusion des médias sur lesquels ils détiennent des droits. Pour cela, deux grandes familles de traitements de données existent : la génération d'empreinte (« fïngerprinting » en anglais), et le marquage (« watermarking » en anglais). The invention relates to the field of data processing. In many environments, media rights holders, whether audio or video, want to be able to detect the broadcast of the media on which they have rights. For this, two major families of data processing exist: the fingerprinting ("fingerprinting" in English), and the marking ("watermarking" in English).
Les exemples les plus connus d'utilisation de ces technologies concernent la recherche d'utilisation de contenus diffusés illégalement sur des réseaux ou la détection sur les plateformes de partage vidéo de contenus protégés afin de proposer à l'ayant-droit de faire retirer son contenu ou de partager avec la plateforme les revenus tirés de la monétisation publicitaire des visionnages de son contenu. Mais cela ne représente qu'une partie assez peu significative des besoins. The best-known examples of the use of these technologies concern the search for the use of content broadcast illegally on networks or the detection on video sharing platforms of protected content in order to propose to the rightful owner to have his content removed. or to share with the platform the revenue derived from the advertising monetization of the views of its content. But this is only a small part of the needs.
En effet, de nombreux modèles économiques de valorisation des droits des titulaires sont basés sur une rémunération basée sur le nombre de diffusions par des réseaux licites, comme les radios ou les chaînes de télévision. Dans le cas particulier de la publicité, ces contrats prévoient la diffusion de médias selon un certain nombre et dans certaines plages horaires contre une rémunération. Indeed, many economic models for valuing licensees' rights are based on a remuneration based on the number of broadcasts by lawful networks, such as radio or television channels. In the particular case of advertising, these contracts provide for the broadcast of media in a certain number and in certain time slots against remuneration.
Cependant, pour diverses raisons, les programmes des chaînes de radio et de télévision sont bouleversés en permanence, et le programme qui est prévu par la régie de publicité n'est pour ainsi dire jamais respecté, et des arbitrages sont réalisés par les chaînes de radio et de télévision pour respecter leurs engagements. However, for various reasons, the programs of the radio and television channels are permanently upset, and the program which is planned by the advertising agency is hardly ever respected, and arbitrations are carried out by the radio channels and television to meet their commitments.
Néanmoins, sauf à engager des personnes dont le seul métier est de suivre l'ensemble des chaînes de radio et de télévision concernées par une campagne de publicité donnée pour une entreprise donnée, il n'est pas possible de vérifier si les contrats sont effectivement respectés. Au surplus, ces personnes seraient employées soit par une chaîne de radio ou de télévision, soit par une entreprise qui a acheté de l'espace publicitaire. Elles ne seraient donc pas considérées comme impartiales. Nevertheless, except to hire people whose only job is to follow all the radio and television channels involved in a given advertising campaign for a given company, it is not possible to check whether the contracts are actually respected. . In addition, these persons would be employed either by radio or television channel, either by a company that has purchased advertising space. They would not be considered impartial.
Des tiers ont donc rempli le vide qui existe dans les relations annonceurs-chaînes de radio ou de télévision, et ils sont connus comme des tiers de confiance. Cependant, ici encore, il faut faire confiance à ces tiers, et leurs services sont très onéreux. Third parties have thus filled the void that exists in advertiser-radio or television channel relationships, and they are known as trusted third parties. However, here again, we must trust these third parties, and their services are very expensive.
Il existe donc historiquement un besoin d'avoir un outil qui permette de rendre plus objective la relation entre les annonceurs et les chaînes de radio ou de télévision. Historically, therefore, there is a need for a tool to make the relationship between advertisers and radio or television stations more objective.
Ce besoin peut difficilement être rempli par le biais du marquage : en effet, le marquage doit être réalisé dès la production du média concerné, ce qui coûte cher et est difficilement rattrapable ensuite. De plus, les coûts de détection du marquage sont très importants, requièrent un calcul intensif très consommateur de ressources en environnement mobile, et les techniques de marquage connues peuvent être dégradées de manière irréversible lorsque la chaîne de radio ou de télévision retouche son signal pour l'émission. This need can hardly be fulfilled through the marking: in fact, the marking must be made from the production of the media concerned, which is expensive and is difficult to catch up then. In addition, the costs of detection of the marking are very important, require an intensive computation very consumer of resources in mobile environment, and the known marking techniques can be irreversibly degraded when the radio or television channel retouches its signal for the 'program.
Quant aux méthodes de génération d'empreinte, elles ont tendance à échouer à maintenir un niveau de qualité de détection satisfaisant en passant "à l'échelle" (c'est-à- dire que leur capacité à identifier un contenu baisse significativement lorsque le volume de données à identifier augmente significativement), ou à avoir des performances insuffisantes, à moins de présenter un coût de détection trop élevé pour pouvoir faire du temps réel. As for imprinting methods, they tend to fail to maintain a satisfactory level of detection quality by "scaling" (that is, their ability to identify content drops significantly when the the amount of data to be identified increases significantly), or to have insufficient performance, unless the detection cost is too high to be able to do real time.
Au-delà du problème décrit ci-dessus, il existe un besoin de permettre aux chaînes de radio ou de télévision de connaître en temps réel leur programmation et/ou leur publicité, de manière totalement fiable, afin de pouvoir valoriser les médias dont l'utilisation est en augmentation exponentielle et qui sont connus sous le nom de « second écran » (« second screen » en anglais). En effet, de nombreuses chaînes de radio ou de télévision permettent à leurs auditeurs d'utiliser leur tablette ou leur téléphone intelligent (« smartphone » en anglais) avec une application qu'ils leur fournissent afin d'enrichir leur expérience au cours d'un programme donné. Ici encore, la connaissance exacte et instantanée de la grille de programmation réellement diffusée par la chaîne de radio ou de télévision est un atout conséquent indisponible à ce jour, mais qui permettrait par exemple de diffuser des publicités ciblées sur le second écran, publicités dont il est bien connu qu'elles ont une valeur dix à cent fois plus importante que celles des bannières classiques. Par ailleurs, il est souvent désirable pour ces applications de pouvoir authentifier la chaîne ou le contenu regardés par un téléspectateur, afin par exemple de réserver l'usage du service aux utilisateurs effectivement en train de regarder une chaîne ou un contenu donnés. Le problème devient encore plus épineux si l'on considère les éditeurs d'applications mobiles proposant des applications "transversales" sur un ensemble de chaînes, et non plus sur une seule chaîne en particulier. Beyond the problem described above, there is a need to allow radio or television channels to know in real time their programming and / or advertising, in a completely reliable way, in order to promote the media whose use is increasing exponentially and are known as the "second screen"("secondscreen" in English). Indeed, many radio or television channels allow their listeners to use their tablet or their smartphone ("smartphone") with an application that they provide them to enrich their experience during a meeting. given program. Here again, the exact and instantaneous knowledge of the programming grid actually broadcast by the radio or television channel is an asset not available to date, but which would allow for example to broadcast targeted advertisements on the second screen, advertisements which it It is well known that they are worth ten to one hundred times larger than those of conventional banners. Moreover, it is often desirable for these applications to authenticate the channel or content watched by a viewer, for example to reserve the use of the service to users actually watching a given channel or content. The problem becomes even more acute if we consider mobile application editors offering "cross-section" applications on a set of channels, and no longer on a single channel in particular.
Pour toutes ces raisons, il existe un besoin d'offrir un dispositif de traitement de données qui soit efficace pour permettre la détection instantanée et exacte d'un programme de diffusion réelle d'une chaîne de radio ou de télévision. For all these reasons, there is a need to provide a data processing device that is effective to enable instantaneous and accurate detection of a real broadcast program of a radio or television channel.
L'invention vient améliorer la situation. A cet effet, l'invention propose un dispositif de traitement de données de données audio-vidéo en flux, comprenant un sélecteur agencé pour déterminer des données d'entrée relatives à un flux audio ou à un flux vidéo dans les données audio-vidéo en flux, un convertisseur agencé pour produire des données d'image à une fréquence choisie à partir des données d'entrée, un encodeur agencé pour produire des données compressées à partir des données d'image, et un projecteur agencé pour produire des données d'empreinte à partir des données compressées, le convertisseur étant agencé pour produire les données d'image sous la forme d'une image de dimension fixe, l'encodeur étant agencé pour travailler successivement sur chaque image décrite par les données d'image, et le projecteur étant agencé pour produire les données d'empreinte en flux à partir du poids des données compressées produites successivement. Selon d'autres aspects, le dispositif peut également présenter les caractéristiques suivantes : The invention improves the situation. For this purpose, the invention proposes a device for processing streaming audio-video data, comprising a selector arranged to determine input data relating to an audio stream or a video stream in the audio-video data in question. flow, a converter arranged to produce image data at a frequency selected from the input data, an encoder arranged to produce compressed data from the image data, and a projector arranged to produce data from imprinting from the compressed data, the converter being arranged to produce the image data in the form of a fixed size image, the encoder being arranged to work successively on each image described by the image data, and the projector being arranged to produce the flow imprint data from the weight of the compressed data produced successively. In other aspects, the device may also have the following characteristics:
le convertisseur est agencé pour segmenter des données d'entrée relatives à un flux audio en fenêtres successives d'échantillons, et pour convertir les données d'entrée de chaque fenêtre en données d'image successives en convertissant l'amplitude de chaque échantillon en une valeur de nuance de gris, le convertisseur étant en outre agencé pour produire des données d'image d'une fenêtre donnée sous la forme d'une image dans laquelle des pixels successifs d'une ligne donnée correspondent à des échantillons successifs des données d'entrée qui ont chacun une valeur de nuance de gris correspondante, et dans laquelle les lignes de l'image sont identiques les unes aux autres,  the converter is arranged to segment input data relating to an audio stream into successive windows of samples, and to convert the input data of each window into successive image data by converting the amplitude of each sample into a sample. gray scale value, the converter being further arranged to produce image data of a given window in the form of an image in which successive pixels of a given line correspond to successive samples of the data of each of which has a corresponding gray shade value, and in which the lines of the image are identical to each other,
les fenêtres présentent une durée de 0,25 s, et sont séparées les unes des autres par un nombre d'échantillons permettant d'obtenir des données d'image à la fréquence choisie,  the windows have a duration of 0.25 s, and are separated from each other by a number of samples making it possible to obtain image data at the chosen frequency,
le convertisseur est agencé pour sélectionner des images dans des données d'entrée relatives à un flux vidéo en fonction de la fréquence choisie, et pour produire les données d'image en convertissant ces images à une dimension choisie,  the converter is arranged to select images in input data relating to a video stream according to the selected frequency, and to produce the image data by converting these images to a selected dimension,
la dimension choisie est 120* 160,  the chosen dimension is 120 * 160,
l'encodeur comprend un compresseur d'image à perte,  the encoder includes a lossy image compressor,
l'encodeur fonctionne par traitement par blocs et quantification,  the encoder works by block processing and quantization,
- l'encodeur comprend un compresseur de la famille JPEG, ou un compresseur de type WebP, the encoder comprises a compressor of the JPEG family, or a compressor of the WebP type,
le projecteur est agencé pour produire les données d'empreinte en projetant sur une plage donnée le poids des données compressées produites successivement selon une loi de projection choisie,  the projector is arranged to produce the fingerprint data by projecting on a given range the weight of the compressed data successively produced according to a chosen projection law,
- la plage comprend les entiers entre 0 et 255, et la loi de projection est linéaire. D'autres caractéristiques et avantages de l'invention apparaîtront mieux à la lecture de la description qui suit, tirée d'exemples donnés à titre illustratif et non limitatif, tirés des dessins sur lesquels : the range comprises integers between 0 and 255, and the projection law is linear. Other features and advantages of the invention will appear better on reading the following description, taken from examples given for illustrative and non-limiting purposes, taken from the drawings in which:
- la figure 1 représente un exemple d'environnement de mise en œuvre d'un dispositif selon l'invention,  FIG. 1 represents an exemplary implementation environment of a device according to the invention,
- la figure 2 représente un dispositif selon l'invention,  FIG. 2 represents a device according to the invention,
- la figure 3 représente un exemple d'empreinte produite en utilisant un premier algorithme d'encodage,  FIG. 3 represents an example of a fingerprint produced using a first encoding algorithm,
- la figure 4 représente un exemple d'empreinte produite en utilisant un second algorithme d'encodage.  FIG. 4 represents an example of a fingerprint produced using a second encoding algorithm.
Les dessins et la description ci-après contiennent, pour l'essentiel, des éléments de caractère certain. Ils pourront donc non seulement servir à mieux faire comprendre la présente invention, mais aussi contribuer à sa définition, le cas échéant. The drawings and the description below contain, for the most part, elements of a certain character. They can therefore not only serve to better understand the present invention, but also contribute to its definition, if any.
La figure 1 représente un environnement de mise en œuvre d'un dispositif selon l'invention. FIG. 1 represents an environment for implementing a device according to the invention.
Dans cet environnement, un titulaire émet des contenus non marqués à partir d'un serveur de contenu 10. Les contenus émis sont reçus par des utilisateurs par divers dispositifs de consommation de média, comme un ordinateur 12, une tablette 14 ou une radio 16. In this environment, a licensee transmits unmarked content from a content server 10. The transmitted content is received by users by various media consumption devices, such as a computer 12, a tablet 14 or a radio 16.
Ces dispositifs de consommation de média sont agencés pour mettre en œuvre le dispositif selon l'invention, et pour contacter un serveur d'empreinte 18 pour identifier en temps réel le contenu reçu par un dispositif de consommation, et pour renvoyer à ce dernier un identifiant de contenu et/ou d'autres informations complémentaires, comme de la publicité ciblée. II convient de comprendre que l'invention a une application très large, en ce sens que : - le titulaire peut émettre des contenus audio (par exemple une radio numérique, terrestre, ou par Internet, ou toute autre fourniture de contenu audio), comme des contenus vidéo (par exemple une chaîne de télévision, ou un fournisseur de VOD ou de contenu par Internet comme Youtube ou Dailymotion (marques déposées), ces contenus étant ainsi globalement qualifiés d' audio-vidéo, c'est-à-dire audio, vidéo, ou combinant les deux, These media consumption devices are arranged to implement the device according to the invention, and to contact a fingerprint server 18 to identify in real time the content received by a consumer device, and to return to the latter an identifier. content and / or other additional information, such as targeted advertising. It should be understood that the invention has a very broad application, in that: the holder can transmit audio contents (for example a digital radio, terrestrial radio, or via the Internet, or any other audio content supply), such as of the video content (for example a television channel, or a provider of VOD or Internet content such as Youtube or Dailymotion (registered trademarks), these contents being thus generally qualified as audio-video, ie audio, video, or combining both,
- les dispositifs de consommation peuvent comprendre tout dispositif propre à mettre en œuvre le dispositif décrit avec la figure 2, qu'il s'agisse (en plus des dispositifs déjà cités en exemple) d'un téléphone intelligent (smartphone en anglais), d'une télévision connectée, d'un boîtier de télévision connectée, d'un serveur dédié à l'analyse de contenus, ou de tout autre dispositif adapté, the consumer devices may comprise any device capable of implementing the device described in FIG. 2, whether (in addition to the devices already mentioned as examples) of a smart phone (smartphone in English), a connected television, a connected television box, a server dedicated to the analysis of contents, or any other suitable device,
- le serveur de contenu peut être connecté à des serveurs tiers pour la fourniture d'informations complémentaires du contenu identifié, ou bien être une boîte noire ( black box en anglais) qui réalise à la fois l'identification de contenu et la détermination d'informations complémentaires. Comme cela a été évoqué en introduction, une solution efficace en termes de coûts et de performance pour le type d'environnement représenté sur la figure 1 est recherché depuis longtemps. L'invention vient résoudre ce problème grâce à un dispositif qui produit une empreinte robuste, légère, et à faible coût de calcul. Le Demandeur a constaté que les solutions de marquage ou de génération d'empreinte connus cherchent à qualifier les contenus individuellement, comme s'il s'agissait d'entités autonomes, sans tenir compte de leur environnement d'émission. De ce fait, les marquages et empreintes résultants sont souvent fortement corrélés au contenu lui- même, et représentent en fait une sorte de simplification du contenu original, finalement assez proche de l'original. Partant du principe que les contenus sont principalement émis et consommés en flux dans le cadre des applications qui le concernent, le Demandeur a cherché à abstraire l'empreinte générée, tout en la corrélant fortement à l'information transportée par le contenu, sans à aboutir à une version « miniature » du contenu original. - the content server can be connected to third-party servers for the provision of additional information of the identified content, or be a black box (black box in English) which carries out both the identification of content and the determination of further information. As discussed in the introduction, an effective cost and performance solution for the type of environment shown in Fig. 1 has long been sought. The invention solves this problem with a device that produces a robust footprint, light, and low cost of calculation. The Applicant has found that known marking or fingerprinting solutions seek to qualify the contents individually, as if they were autonomous entities, regardless of their transmission environment. As a result, the resulting markings and imprints are often strongly correlated to the content itself, and in fact represent a kind of simplification of the original content, ultimately close enough to the original. Assuming that content is mainly emitted and consumed as a flow for the applications that concern it, the Applicant has sought to abstract the generated footprint, while correlating it strongly to the information transported by the content, without success. a "miniature" version of the original content.
Ces travaux ont abouti au dispositif représenté schématique sur la figure 2, qui sera maintenant décrite. Le dispositif selon l'invention comprend un sélecteur 20, un convertisseur 22, un encodeur 24 et un projecteur 26. This work has resulted in the device shown schematically in Figure 2, which will now be described. The device according to the invention comprises a selector 20, a converter 22, an encoder 24 and a projector 26.
Le sélecteur 20 a pour fonction de démultiplexer le flux original, c'est-à-dire de recevoir des données audio-vidéo en flux, et d'en extraire la piste audio ou vidéo afin de former un flux de données d'entrée. Le flux de données d'entrée contient exclusivement des données audio ou exclusivement des données vidéo. Ainsi, si les données audio-vidéo en flux reçues concernent un flux audio, alors le sélecteur 20 produit des données d'entrée désignant l'amplitude des échantillons successifs de ce flux audio. Si les données audio-vidéo en flux reçues concernent un flux vidéo, alors le sélecteur 20 produit d'une part des données d'entrée correspondant au flux audio de la vidéo, et d'autre part des données d'entrée correspondant au flux image de la vidéo, par démultiplexage. En variante, le sélecteur 20 peut omettre de produire les données d'entrée correspondant au flux image de la vidéo. The function of the selector 20 is to demultiplex the original stream, i.e. to receive streamed audio-video data, and to extract the audio or video track to form an input data stream. The input data stream contains only audio data or exclusively video data. Thus, if the streamed audio-video data received relates to an audio stream, then the selector 20 produces input data designating the amplitude of the successive samples of this audio stream. If the streamed audio-video data received relates to a video stream, then the selector 20 produces on the one hand input data corresponding to the audio stream of the video, and on the other hand input data corresponding to the image stream. video, by demultiplexing. Alternatively, the selector 20 may omit producing the input data corresponding to the image stream of the video.
Le sélecteur 20 appelle le convertisseur 22 avec les données d'entrée ent dat et produit en sortie des données d'image im da t. Cette étape est fondamentale, et sera expliquée plus en détail dans la suite. Le convertisseur 22 est agencé pour produire les données d'image différemment selon que les données d'entrée sont relatives à un flux audio ou à un flux vidéo. The selector 20 calls the converter 22 with the input data ent dat and outputs image data im da t. This step is fundamental, and will be explained in more detail later. The converter 22 is arranged to produce the image data differently depending on whether the input data relates to an audio stream or a video stream.
Le convertisseur 22 est agencé pour produire des images successives de dimension fixe à partir des données d'entrée. Dans le cas de donnée d'entrée relatives à un flux audio, le convertisseur 22 reçoit donc un flux de données d'entrée, et découpe ce flux d'entrée en fenêtres successives. Chaque fenêtre contient un nombre d'échantillons dépendant de la longueur de la fenêtre et de la fréquence d'échantillonnage du flux audio correspondant aux données d'entrée. A chaque fenêtre correspondra des données d'image définissant une image en sortie. Pour chaque fenêtre, le convertisseur 22 convertit l'amplitude des échantillons successifs en valeurs en niveau de gris afin de définir une ligne de pixels dont la longueur correspond au nombre d'échantillons dans la fenêtre. Ensuite, la ligne de pixels est répétée un nombre de fois choisi pour former l'image correspondant à la fenêtre. The converter 22 is arranged to produce successive images of fixed size from the input data. In the case of input data relating to an audio stream, the converter 22 thus receives an input data stream, and divides this input stream into successive windows. Each window contains a number of samples depending on the length of the window and the sampling frequency of the audio stream corresponding to the input data. Each window will have image data defining an output image. For each window, the converter 22 converts the amplitude of the successive samples into gray level values in order to define a row of pixels whose length corresponds to the number of samples in the window. Then, the pixel line is repeated a number of times chosen to form the image corresponding to the window.
Dans l'exemple décrit ici, la ligne de pixels est copiée 8 fois, de sorte que la dimension des images produites est de L*8, où L désigne le nombre d'échantillons audio dans chaque fenêtre. En partant d'un flux audio encodé à 44,1 kHz, de fenêtre de 0,25 s, et pour une empreinte de fréquence 25 Hz, on obtient : In the example described here, the pixel line is copied 8 times, so that the size of the images produced is L * 8, where L is the number of audio samples in each window. Starting from an audio stream encoded at 44.1 kHz, with a window of 0.25 s, and for a 25 Hz frequency footprint, we obtain:
- des fenêtres contenant chacune 11 025 échantillons,  - windows each containing 11,025 samples,
- les fenêtres successives étant décalées de 1764 échantillons l'une par rapport à l'autre, the successive windows being shifted by 1764 samples relative to one another,
- des images de dimension 11025*8. Lorsque le flux audio des données d'entrée présente une autre fréquence d'échantillonnage, par exemple 48 kHz, les données d'entrée peuvent être transformées pour les ramener à 44,1 kHz, ou le convertisseur 22 peut agir en produisant des pixels dont la valeur en niveaux de gris tient compte de ce ré-échantillonnage, par exemple par extrapolation. Lorsque le flux audio contient plusieurs canaux, l'échantillonnage peut être basé sur l'un des canaux uniquement, ou sur une moyenne des canaux. - images of dimension 11025 * 8. When the audio stream of the input data has another sampling frequency, for example 48 kHz, the input data can be transformed to 44.1 kHz, or the converter 22 can act by producing pixels whose the value in gray levels takes into account this resampling, for example by extrapolation. When the audio stream contains multiple channels, sampling may be based on one of the channels only, or on an average of the channels.
Le calcul de la valeur en niveaux de gris pour chaque pixel dépend de la quantification du flux audio des données d'entrées. Dans l'exemple décrit ici, le convertisseur 22 produit des images codées en 256 niveaux de gris. Ainsi, si les données d'entrée représentent un flux quantifié sur 16 bits, il faudra projeter l'amplitude de chaque échantillon de [0 ; 65536] vers [0 ; 255]. Dans l'exemple décrit ici, la projection est linéaire. Cependant, la projection peut également être gaussienne, ou toute autre projection adaptée. Dans le cas où les données d'entrée sont relatives à un flux vidéo, le convertisseur 22 est agencé pour produire des images successives de dimension fixe. Pour rappel, un flux vidéo met en œuvre deux dispositifs principaux: un conteneur (dont le rôle est de transporter des paquets élémentaires d'information) et un codée (dont le rôle est de coder et décoder les paquets élémentaires). Quelque soit le type de conteneur et de codée vidéo utilisé par un flux, la décompression élémentaire de ce flux donne naissance à une série d'images ordonnées temporellement, de taille fixe (par exemple 1920x1080 pour un signal TV au format HD). Néanmoins, un ré-encodage de ce flux pour un terminal mobile (par exemple 720x576 pixels pour un signal TV au format SD) donnera lieu à des images de définition différente. Par ailleurs, d'autres paramètres de diffusion influencent la taille finale de l'image élémentaire d'un flux, comme l'ajout de barres noires horizontales pour transformer un signal 16:9 en signal 4:3. Afin d'éliminer la dépendance des étapes ultérieures de traitement à la taille de l'image originale, celle- ci est "retaillée" à une taille fixe, indépendamment du flux d'entrée. Cette situation est assez classique, et il s'agit donc de réduire une image de dimensions données par le flux vidéo à un format choisi, 120* 160 dans l'exemple ici décrit. Dans le cas où les images du flux vidéo des données d'entrée présentent un aspect différent de 120* 160, le convertisseur 22 peut opérer : The calculation of the gray level value for each pixel depends on the quantization of the audio stream of the input data. In the example described here, the converter 22 produces images coded in 256 gray levels. Thus, if the input data represents a 16-bit quantized flow, the amplitude of each sample of [0; 65536] to [0; 255]. In the example described here, the projection is linear. However, the projection can also be Gaussian, or any other suitable projection. In the case where the input data relates to a video stream, the converter 22 is arranged to produce successive images of fixed size. As a reminder, a video stream implements two main devices: a container (whose role is to carry elementary packets of information) and a codec (whose role is to encode and decode elementary packets). Whatever the type of container and video codec used by a stream, the elementary decompression of this stream gives rise to a series of images ordered temporally, of fixed size (for example 1920x1080 for a TV signal in HD format). Nevertheless, a re-encoding of this stream for a mobile terminal (for example 720x576 pixels for a TV signal in SD format) will give rise to images of different definition. In addition, other diffusion parameters influence the final size of the elementary image of a stream, such as the addition of horizontal black bars to transform a 16: 9 signal into a 4: 3 signal. In order to eliminate the dependence of the subsequent processing steps on the size of the original image, it is "resized" to a fixed size, regardless of the input stream. This situation is fairly standard, and it is therefore a question of reducing an image of dimensions given by the video stream to a chosen format, 120 * 160 in the example described here. In the case where the images of the video stream of the input data have a different aspect of 120 * 160, the converter 22 can operate:
- en coupant des parties choisies de chaque image afin de retrouver le même ratio d'aspect que les images produites par le convertisseur 22 (c'est-à-dire 3/4), ou  by cutting selected portions of each image in order to find the same aspect ratio as the images produced by the converter 22 (that is to say 3/4), or
- en extrapolant des parties choisies de chaque image afin de retrouver le même ratio d'aspect que les images produites par le convertisseur 22 (c'est-à-dire 3/4), ou  by extrapolating selected portions of each image in order to find the same aspect ratio as the images produced by the converter 22 (that is to say 3/4), or
- en produisant des images dont le ratio d'aspect correspond à celui des images des données d'entrées, c'est-à-dire 120*(K* 160) où K est un facteur de compensation d'aspect. Comme pour le cas où les données d'entrée concernent un flux audio, il est prévu de produire un flux d'empreinte à 25 Hz. Le convertisseur 22 est donc agencé pour sélectionner une image tous les l/25e de secondes dans les données d'entrées. Dans le cas où le flux vidéo des données d'entrée est présente une cadence différente de 25 images par seconde, par exemple à 30 images par seconde, le convertisseur 22 peut réaliser une extrapolation d'images entourant chaque marqueur de temps à 25 Hz. En sortie, le convertisseur 22 transmet les données d'image correspondant à chaque image successive tirée des données d'entrée à l'encodeur 24. L'encodeur 24 a pour fonction de produire des données compressées comp dat qui constituent une version compressée des données d'image. Dans l'exemple décrit ici, l'encodeur 24 est l'encodeur JPEG standard, libre, développé et distribué par l'Independent JPEG Group. En variante, l'encodeur 24 pourrait également être un l'encodeur WebP open-source développé par Google. L'encodeur 24 a pour particularité de réaliser un encodage à perte fonctionnant par traitement par blocs et quantification. D'autres algorithmes d'encodage d'image présentant des caractéristiques similaires pourront être envisagés. producing images whose aspect ratio corresponds to that of the images of the input data, that is to say 120 * (K * 160) where K is an aspect compensation factor. As for the case where the input data is for an audio stream, it is intended to produce an impression of flow at 25 Hz. The converter 22 is arranged to select an image every l / 25th of second in the data entries. In the case where the video stream of the input data is present at a rate other than 25 frames per second, for example at 30 frames per second, the converter 22 can carry out an extrapolation of images surrounding each time marker at 25 Hz. At the output, the converter 22 transmits the image data corresponding to each successive image derived from the input data to the encoder 24. The function of the encoder 24 is to produce comp compressed data which constitutes a compressed version of the data. image. In the example described here, the encoder 24 is the standard JPEG encoder, free, developed and distributed by the Independent JPEG Group. Alternatively, the encoder 24 could also be an open-source WebP encoder developed by Google. The encoder 24 has the particularity of performing a lossy encoding operating by block processing and quantization. Other image encoding algorithms with similar characteristics may be considered.
En sortie, les données compressées sont transmises au projecteur 26. Le projecteur 26 vient générer le flux de données d'empreinte prnt dat en prenant le poids informatiques des données compressées générées successivement par l'encodeur 24, et en les projetant sur l'intervalle [0 ; 255]. Dans l'exemple décrit ici, la projection est linéaire. Cependant, la projection peut également être gaussienne, ou toute autre projection adaptée. Les figures 3 et 4 représentent des exemples d'empreintes produites à partir d'un encodeur JPEG pour la figure 3, et WebP pour la figure 4. De manière étonnante, ces empreintes sont presque superposables. L'utilisation de l'encodeur 24 rend les données d'empreinte robustes au bruit de transmission du flux définissant les données d'entrée, et produit des données compressées dont le poids est une mesure intrinsèque de la quantité information (au sens de Shannon) portée par les données d'image. Ainsi les données d'empreinte sont abstraites par rapport aux données d'entrée, tout en leur étant fortement liées. De plus, si des données d'empreintes prises isolément ne sont pas toujours discriminantes, le fait qu'elles soient générées en flux rend le procédé de génération d'empreinte particulièrement robuste, répétable et discriminant. Ainsi le flux d'empreintes présente un caractère d'invariance par rapport aux transformations ou pertes pouvant affecter un signal vidéo ou audio lors de sa transmission et de sa restitution (bruit, ré-encodage, redimensionnement, changement de couleurs, de contraste ou de brillance) et un pouvoir descriptif permettant d'identifier de manière unique n'importe quel extrait de ce flux. Enfin, le procédé de génération est très peu coûteux en temps de calcul, ce qui permet de générer une empreinte robuste en temps réel. At the output, the compressed data is transmitted to the projector 26. The projector 26 generates the print data stream prnt dat by taking the computer weight of the compressed data generated successively by the encoder 24, and projecting them on the interval [0; 255]. In the example described here, the projection is linear. However, the projection can also be Gaussian, or any other suitable projection. Figures 3 and 4 show examples of fingerprints produced from a JPEG encoder for Figure 3, and WebP for Figure 4. Surprisingly, these fingerprints are almost superimposable. The use of the encoder 24 renders the robust fingerprint data to the transmission noise of the flow defining the input data, and produces compressed data whose weight is an intrinsic measure of the information quantity (in Shannon's sense). carried by the image data. Thus the fingerprint data is abstract with respect to the input data, while being strongly related to it. In addition, if fingerprint data taken in isolation are not always discriminating, the fact that they are generated in flow makes the fingerprint generation process particularly robust, repeatable and discriminant. Thus, the imprint flux has an invariance character with respect to the transformations or losses that can affect a video or audio signal during its transmission and its reproduction (noise, re-encoding, resizing, changing colors, contrast or brilliance) and descriptive power to uniquely identify any excerpt from that flux. Finally, the generation process is very inexpensive in computing time, which allows to generate a robust footprint in real time.
La conversion d'un flux de données d'entrées relatives à un flux audio ou vidéo indifféremment en données d'images successives peut paraître étonnante. Il s'agit là d'une découverte majeure du Demandeur. The conversion of an input data stream relative to an audio or video stream indifferently into successive image data may seem surprising. This is a major discovery by the Applicant.
En effet, on a vu que le Demandeur a orienté ses recherches sur la génération d'empreinte en tenant compte du fait que les contenus sont émis en flux. Ce faisant, il a découvert qu'il est avantageux de produire une empreinte également sous forme de flux. Poursuivant ses recherches, le Demandeur a identifié que les éléments élémentaires du flux (les images pour un flux vidéo, et les fenêtres d'échantillons pour un flux audio) représentent des informations de nature instantanée statique/spatiale. Cette découverte l'a en revanche amené à écarter les encodeurs vidéo ou audio générateurs d'empreinte qui corrèlent intrinsèquement les éléments du flux pour tirer partie des redondances entre les éléments élémentaires successifs d'un flux. Indeed, we have seen that the Applicant has oriented its research on the generation of fingerprint taking into account that the contents are emitted in flow. In doing so, he discovered that it is advantageous to produce a footprint also as a flow. Continuing his research, the Applicant has identified that the elementary elements of the stream (the images for a video stream, and the sample windows for an audio stream) represent instantaneous static / spatial information. This discovery, on the other hand, led to the exclusion of the video or audio encoders generating imprints that intrinsically correlate the elements of the stream to take advantage of the redundancies between the successive elementary elements of a stream.
C'est ainsi que le Demandeur s'est intéressé aux algorithmes de compression d'image comme le JPEG, qui permettent de réduire le bruit, tout en ne préservant que la quantité « utile » des informations, qui est reflétée par le poids variable de chaque image. Cela l'a mené à la structure de conversion/encodage/projection du poids qu'il a appliqué aux flux vidéo. Poursuivant ses recherches, le Demandeur a également découvert que cet avantage est obtenu aussi bien lorsque qu'il s'agit d'un flux audio que d'un flux vidéo, et que la nature audio ou vidéo du flux pour lequel est généré l'empreinte importe moins que le fait que ce flux transporte des informations de nature séquentielle et instantanée. Thus, the Applicant was interested in image compression algorithms such as JPEG, which reduce noise, while preserving only the "useful" amount of information, which is reflected by the variable weight of each picture. This led to the conversion / encoding / projection structure of the weight he applied to video streams. Continuing his research, the Applicant has also discovered that this advantage is obtained as well when it is an audio stream as a video stream, and that the audio or video nature of the stream for which is generated the imprint is less important than the fact that this stream carries information of a sequential and instant nature.
Il en résulte un procédé de génération d'empreinte très léger tant du point de vue du poids des empreintes générées que du coût de génération des empreintes. Dans ce qui précède, il est considéré que les données audio-vidéo en flux sont de nature numérique. En variante, le dispositif selon l'invention pourra comprendre un étage d'acquisition analogique et de conversion numérique selon les formats préconisés décrits plus haut. This results in a very light footprint generation process both from the point of view of the weight of the generated fingerprints and the cost of generating the fingerprints. In the above, it is considered that streaming audio-video data are of a digital nature. In a variant, the device according to the invention may comprise a stage analog acquisition and digital conversion according to the recommended formats described above.
De même les exemples décrits ici préconisent un flux audio de données d'entrée à 44,1 kHz, avec des fenêtres de 0,25 s, et pour un flux de données d'empreinte à 25 Hz, et un flux vidéo de données d'entrée à 25 images par secondes, avec un ratio d'aspect de 3/4. Ces éléments particuliers pourront varier en fonction des applications recherchées. Similarly, the examples described here recommend an audio data stream of 44.1 kHz input, with windows of 0.25 s, and for a 25 Hz fingerprint data stream, and a video data stream of input at 25 frames per second, with an aspect ratio of 3/4. These particular elements may vary depending on the desired applications.
Enfin, en plus de la fourniture de service de tiers de confiance automatisé, ainsi que d'informations complémentaires et/ou de publicité ciblée, le dispositif de l'invention peut également servir à détecter la présence de contenus illicites à l'émission sur les plateformes de partage de contenu, par détection à l'entrée avant tout partage, ce qui offre une grande sécurité aux hébergeurs de contenu. Finally, in addition to the provision of an automated trusted third party service, as well as additional information and / or targeted advertising, the device of the invention can also be used to detect the presence of illegal content on the program. content-sharing platforms, by detection at the input before any sharing, which offers a great security to the hosting of contents.

Claims

Revendications claims
Dispositif d'analyse de données audio-vidéo en flux, caractérisé en ce qu'il comprend un sélecteur (20) agencé pour déterminer des données d'entrée relatives à un flux audio ou à un flux vidéo dans les données audio-vidéo en flux, un convertisseur (22) agencé pour produire des données d'image à une fréquence choisie à partir des données d'entrée, un encodeur (24) agencé pour produire des données compressées à partir des données d'image, et un projecteur (26) agencé pour produire des données d'empreinte à partir des données compressées, le convertisseur (22) étant agencé pour produire les données d'image sous la forme d'une image de dimension fixe, l'encodeur (24) étant agencé pour travailler successivement sur chaque image décrite par les données d'image, et le projecteur (26) étant agencé pour produire les données d'empreinte en flux à partir du poids des données compressées produites successivement. An audio-video streaming data analysis device, characterized in that it comprises a selector (20) arranged to determine input data relating to an audio stream or a video stream in the streaming audio-video data. , a converter (22) arranged to produce image data at a frequency selected from the input data, an encoder (24) arranged to produce compressed data from the image data, and a projector (26); ) arranged to produce fingerprint data from the compressed data, the converter (22) being arranged to produce the image data in the form of a fixed size image, the encoder (24) being arranged to work successively on each image described by the image data, and the projector (26) being arranged to produce the flow imprint data from the weight of the successively produced compressed data.
Dispositif selon la revendication 1 , dans lequel le convertisseur (22) est agencé pour segmenter des données d'entrée relatives à un flux audio en fenêtres successives d'échantillons, et pour convertir les données d'entrée de chaque fenêtre en données d'image successives en convertissant l'amplitude de chaque échantillon en une valeur de nuance de gris, le convertisseur (22) étant en outre agencé pour produire des données d'image d'une fenêtre donnée sous la forme d'une image dans laquelle des pixels successifs d'une ligne donnée correspondent à des échantillons successifs des données d'entrée qui ont chacun une valeur de nuance de gris correspondante, et dans laquelle les lignes de l'image sont identiques les unes aux autres.  An apparatus according to claim 1, wherein the converter (22) is arranged to segment input data relating to an audio stream into successive windows of samples, and to convert the input data of each window to image data. by converting the amplitude of each sample to a gray-scale value, the converter (22) being further arranged to produce image data of a given window in the form of an image in which successive pixels of a given line correspond to successive samples of the input data which each have a corresponding gray shade value, and in which the lines of the image are identical to each other.
Dispositif selon la revendication 2, les fenêtres présentent une durée de 0,25 s, et sont séparées les unes des autres par un nombre d'échantillons permettant d'obtenir des données d'image à la fréquence choisie.  Device according to claim 2, the windows have a duration of 0.25 s, and are separated from each other by a number of samples to obtain image data at the chosen frequency.
Dispositif selon la revendication 1 , dans lequel le convertisseur (22) est agencé pour sélectionner des images dans des données d'entrée relatives à un flux vidéo en fonction de la fréquence choisie, et pour produire les données d'image en convertissant ces images à une dimension choisie. An apparatus according to claim 1, wherein the converter (22) is arranged to select images in input data relating to a video stream according to the selected frequency, and to produce the image data by converting those images to a chosen dimension.
5. Dispositif selon la revendication 4, dans lequel la dimension choisie est 120* 160. 5. Device according to claim 4, wherein the selected dimension is 120 * 160.
6. Dispositif selon l'une des revendications précédentes, dans lequel l'encodeur (24) comprend un compresseur d'image à perte.  6. Device according to one of the preceding claims, wherein the encoder (24) comprises a lossy image compressor.
7. Dispositif selon la revendication 6, dans lequel l'encodeur (24) fonctionne par traitement par blocs et quantification.  The device of claim 6, wherein the encoder (24) operates by block processing and quantization.
8. Dispositif selon la revendication 7, dans lequel l'encodeur (24) comprend un compresseur de la famille JPEG, ou un compresseur de type WebP.  8. Device according to claim 7, wherein the encoder (24) comprises a compressor of the JPEG family, or a compressor type WebP.
9. Dispositif selon l'une des revendications précédentes, dans lequel le projecteur (26) est agencé pour produire les données d'empreinte en projetant sur une plage donnée le poids des données compressées produites successivement selon une loi de projection choisie.  9. Device according to one of the preceding claims, wherein the projector (26) is arranged to produce the fingerprint data by projecting on a given range the weight of the compressed data produced successively according to a chosen projection law.
10. Dispositif selon la revendication 9, dans lequel la plage comprend les entiers entre 0 et 255, et dans lequel la loi de projection est linéaire.  10. Device according to claim 9, wherein the range comprises integers between 0 and 255, and wherein the projection law is linear.
EP14749863.8A 2013-06-12 2014-06-10 Data processing device Withdrawn EP3008910A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1355433A FR3007235B1 (en) 2013-06-12 2013-06-12 DATA PROCESSING DEVICE
PCT/FR2014/051377 WO2014199059A1 (en) 2013-06-12 2014-06-10 Data processing device

Publications (1)

Publication Number Publication Date
EP3008910A1 true EP3008910A1 (en) 2016-04-20

Family

ID=49274791

Family Applications (1)

Application Number Title Priority Date Filing Date
EP14749863.8A Withdrawn EP3008910A1 (en) 2013-06-12 2014-06-10 Data processing device

Country Status (4)

Country Link
US (1) US20160156993A1 (en)
EP (1) EP3008910A1 (en)
FR (1) FR3007235B1 (en)
WO (1) WO2014199059A1 (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6760465B2 (en) * 2001-03-30 2004-07-06 Intel Corporation Mechanism for tracking colored objects in a video sequence
US20040194130A1 (en) * 2003-03-07 2004-09-30 Richard Konig Method and system for advertisement detection and subsitution
CA2638465A1 (en) * 2007-08-01 2009-02-01 Jean-Yves Chouinard Learning filters for enhancing the quality of block coded still and video images
US8805827B2 (en) * 2011-08-23 2014-08-12 Dialogic (Us) Inc. Content identification using fingerprint matching
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US9684941B2 (en) * 2012-10-29 2017-06-20 Digimarc Corporation Determining pose for use with digital watermarking, fingerprinting and augmented reality

Also Published As

Publication number Publication date
US20160156993A1 (en) 2016-06-02
WO2014199059A1 (en) 2014-12-18
FR3007235B1 (en) 2015-07-10
FR3007235A1 (en) 2014-12-19

Similar Documents

Publication Publication Date Title
FR2840495A1 (en) METHOD AND DEVICE FOR SELECTING A TRANSCODING METHOD AMONG A SET OF TRANSCODING METHODS
FR2931610A1 (en) METHOD AND DEVICE FOR TRANSMITTING IMAGE DATA
EP2700226A1 (en) Methods and devices for producing and processing representations of multimedia scenes
Deng et al. Visual signal quality assessment
WO2020025510A1 (en) Method for forming an output image sequence from an input image sequence, method for reconstructing an input image sequence from an output image sequence, associated devices, server equipment, client equipment and computer programs
FR2963190A1 (en) METHOD AND DEVICE FOR ENCODING AN IMAGE SEQUENCE
EP2947888A1 (en) Adaptive method for downloading digital content for a plurality of screens
EP2368367B1 (en) Interactive system and method for transmitting key images selected from a video stream over a low bandwidth network
FR2846828A1 (en) METHOD FOR TATTOOING A VIDEO SIGNAL, SYSTEM AND DATA MEDIUM FOR CARRYING OUT THIS METHOD, METHOD FOR EXTRACTING THE TATTOO OF A VIDEO SIGNAL, SYSTEM FOR CARRYING OUT SAID METHOD
Trpkovski et al. Automatic hotel photo quality assessment based on visual features
Vidhya et al. Evaluation and performance analysis of Chinese remainder theorem and its application to lossless image compression
Hossain et al. A Symbiotic Digital Signage system based on display to display communication
Pateux et al. Practical watermarking scheme based on wide spread spectrum and game theory
US10719715B2 (en) Method and system for adaptively switching detection strategies for watermarked and non-watermarked real-time televised advertisements
Cemiloglu et al. Blind video quality assessment via spatiotemporal statistical analysis of adaptive cube size 3D‐DCT coefficients
US20180359523A1 (en) Method and system for progressive penalty and reward based ad scoring for detection of ads
WO2014199059A1 (en) Data processing device
FR3053555A1 (en) METHOD FOR ENCODING A DIGITAL IMAGE, DECODING METHOD, DEVICES, TERMINAL AND COMPUTER PROGRAMS
Liu et al. A real-time video watermarking algorithm for authentication of small-business wireless surveillance networks
US20210241426A1 (en) Method for Denoising Omnidirectional Videos and Rectified Videos
FR2872972A1 (en) METHOD AND DEVICE FOR VIDEO TRANSMISSION BETWEEN A SERVER AND A CLIENT
WO2014096638A1 (en) Method and device for transmitting a sequence of images based on an adaptive region coding
Nguyen et al. An ensemble learning-based no reference qoe model for user generated contents
FR2988959A1 (en) TATTOO PROCESS WITH ADAPTIVE STREAMING
US10719714B2 (en) Method and system for adaptively reducing detection time in real-time supervised detection of televised advertisements

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20160111

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20170103