EP1745393A1 - Automatic system for retrieving and processing information carried by short messages - Google Patents

Automatic system for retrieving and processing information carried by short messages

Info

Publication number
EP1745393A1
EP1745393A1 EP05717371A EP05717371A EP1745393A1 EP 1745393 A1 EP1745393 A1 EP 1745393A1 EP 05717371 A EP05717371 A EP 05717371A EP 05717371 A EP05717371 A EP 05717371A EP 1745393 A1 EP1745393 A1 EP 1745393A1
Authority
EP
European Patent Office
Prior art keywords
intended
short text
characteristic
identified
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP05717371A
Other languages
German (de)
French (fr)
Inventor
Sylvain Durif
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Corbiere Jerome
Original Assignee
Corbiere Jerome
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Corbiere Jerome filed Critical Corbiere Jerome
Publication of EP1745393A1 publication Critical patent/EP1745393A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90339Query processing by using parallel associative memories or content-addressable memories

Definitions

  • Short texts will be understood to mean texts essentially composed of a few sentences with a simple structure, possibly a few paragraphs and to which audio and / or video and / or photographic data may be associated. Small announcements, telegrams, red thread information, voice or written messages can, for example, constitute short texts.
  • the first aspect of the invention which essentially aims to fill the gaps noted in the prior art relates to an automatic system for extracting and processing information carried by short texts, whether or not accompanied by audio and / or video and / or photographic, transmitted on all communication media and targeted dissemination on all communication media of the search results for relationships between this information or for comparisons established between them, characterized in that said system is made automatic by the use of a server equipped with a microprocessor ' which controls and organizes the combination of the following modules, comprising: A / at least a first module, called reception and precoding module, comprising: - receiver means intended to receive, continuously or no, a plurality of short texts transmitted on any communication medium, each of them being associated with a pr first code identifying the user sending a short text, coded in binary by first primary coder means, - second binary coder means intended to identify in coded form the nature of the communication medium carrying said short text, - digitization means connected to the receiver means and intended to digitize the contents of said short texts not previously digitized by the
  • the database system also comprising its management system and its dis positive memorization, - means for loading the data contained in a preliminary record, into said elementary database, the new attributes of said preliminary record corresponding to the field names of the associated standard record, the result being the establishment of a characteristic file organized in a predetermined manner and intended to identify the object and its associated parameters of the information carried by each sentence of a short text received, - fourth queue means intended to temporarily store said files characteristics from said database system, - fourth memory means connected to the fourth queue means and intended to permanently store said characteristic files and the associated cells, - third clock means intended to deliver, according to a pre-programmed sequence, access control signals, respectively to the plurality extraction devices, said database system and said fourth memory means; D / fourth at least one module, said operating 'and targeted distribution, comprising: - selecting means, connected to said fourth memory means, for selecting one
  • the invention describes a method for automatic processing of short texts implementing the system described above and characterized by the following steps consisting in: a) entering into communication with the reception module of a server to which a short text is transmitted, whether or not accompanied by audio and / or video and / or photographic data and a user code, said module digitizing, if necessary, the data received, verifying the identification of the user, and time stamping the reception of said short text; b) determine the language and the domain concerned by said short text received; c) have the user validate the content of the text received, the language and the recognized domain; d) separate the sentences of the text and the words of each of the sentences; e) practice on each word a morphological and morpho-syntactic analysis the result of which is to produce a standardized word with which an attribute is associated; f) extract from the specific means of extraction of the domain recognized in step b the information carried by each word associated with its attribute to convert the latter into one or more new attribute (s) among which
  • the invention more particularly describes a method for processing ad texts, the content of which relates to requests or offers for products and / or services implementing the system and method described above.
  • Characterized in what the comparisons carried out between characteristic files relate only to the parameter fields of characteristic files whose objects are complementary.
  • FIG. 1 represents a functional diagram of the first module known as reception and precoding according to the present invention
  • FIG. 2 represents a functional diagram of the second module known as text preprocessing according to the present invention
  • FIG. 3 represents a functional diagram of the third module called information extraction module according to the present invention
  • FIG. 1 represents a functional diagram of the first module known as reception and precoding according to the present invention
  • FIG. 2 represents a functional diagram of the second module known as text preprocessing according to the present invention
  • FIG. 3 represents a functional diagram of the third module called information extraction module according to the present invention
  • FIG. 1 represents a functional diagram of the first module known as reception and precoding according to the present invention
  • FIG. 2 represents a functional diagram of the second
  • FIG. 4 shows a functional diagram of the fourth module called exploitation and targeted dissemination according to the present invention.
  • DESCRIPTION OF THE PREFERRED EMBODIMENT In the upper part of FIG. 1 representing the reception and precoding module 1 according to the present invention, a certain nonlimiting number of communication media are represented symbolically. These media, in particular fixed or mobile telephone networks, are available to users of the system according to the invention so that they can transmit, to the receiver 2 of said module 1, one or more short texts after calling a number. dedicated server followed by an identification code, these short texts being, or not, accompanied by audio and / or video data and / or photographs. This code will be verified by identification and authentication means 4, the latter being connected to a first base of the plurality of databases 11 relating to the users of the system.
  • a first binary coder 4 supplies the identification code (code 1) in binary form and transmits it to first register means 10.
  • a second binary coder 2' receives from receiver 2 the indication concerning the communication medium on which a short text has been transmitted and consequently transmits the appropriate binary code (code 2) which it transmits to the said first register means 10.
  • the arrival of the short text at the input of the receiver is time-stamped by the first means of clock 3 and the time stamping data are transformed into binary code (code 3) by a third encoder 3 'and transmitted to the first register means 10,
  • the text data, received by the receiver 2 are digitized, if necessary, by conventional means such as an analog-digital converter (A / D), and are transmitted to language recognition means 5 used to write said received text.
  • a / D analog-digital converter
  • a conventional voice server can provide the required digitization.
  • These recognition means 5 operate using the method known per se of trigrams and short words (TRISHORT method).
  • TISHORT method The identification model was developed by statistically analyzing documents in all of the recognized languages. For each language, the statistical value of the appearance of three consecutive letters is determined. For each language, the frequencies of appearance of short common words (five letters or less) such as "the", "and", "with” or “otherwise” are determined.
  • the multilingual XeLDA® linguistic engine developed by the company TEMIS (PARIS) can recognize 39 languages.
  • the means 5 must have a certain number of data which are stored in a second base of the plurality of databases 11. Once identified, the language is binary coded in a fourth coder 5 'and the code obtained (code 4) is transferred into said first register means 10. Another important information is determined in this module 1, it relates to the field concerned by the content of the text such as, for example, the banking field, the real estate field, the automobile field, etc.
  • the means of domain recognition 6 operation using the categorization process with learning. For each area that one wishes to recognize, it is necessary, beforehand, to have a set of texts describing it. This set or "corpus" is analyzed statistically to create a domain profile composed of a series of domain words weighted by numerical coefficients.
  • a set of domains can be associated with another set of domain profiles.
  • the document domain is the one whose profile is closest to the document profile.
  • semantic descriptors determining in a given document the frequencies of appearance of nouns, verbs, nominal groups ...
  • An algorithm then makes it possible to merge the different semantic descriptors attributed to the same category to create a categorization model.
  • the categorization server developed by the company TEMIS under the name of Insight Discoverer Categorizer is entirely suitable for constituting the means of domain recognition 6 according to the present invention, which are, moreover, connected to a third base of the plurality of databases 1 1 storing, in particular, the various aforementioned profiles useful for domain identification.
  • the result of this domain identification is binary coded by a fifth coder 6 ′ and the code obtained (code 5) is also transmitted to the register means 10.
  • the short text received is recovered and we associate with it the binary word constructed from codes 1, 2, 3, 4 and 5 stored in said register means 10 and defining, a cell Ct specific to a short text received.
  • This binary word of the cell is concatenated to the string corresponding to the short text itself in conventional concatenation means 12.
  • the single string (text + cell) is transmitted to a first entry of a logic circuit 8 of function AND and also to transmission means 7 equipped with decoders 7 'and converters 7 "intended to retransmit in plain language on the appropriate communications medium towards the user at the origin of the short text received, the content of the latter and the information collected (timestamp, language, domain).
  • the user can then validate all of this information using conventional validation means depending on the selected communications medium.
  • the user can reset his call from the server and resume the process described above at his starting point.
  • the validation signal N is transmitted to a second input of the logic circuit 8.
  • the logic circuit 8 transmits to the first memory means 9 the chain corresponding to the text and cell assembly for purposes of either storage or waiting for transfer to the second module 20.
  • FIG. 2 representing a functional diagram of the second module 20 known as text preprocessing, on command of a first signal H emitted by the second clock means 21, a set of text and associated cell is transferred into segmentation means 22 intended to separate the different sentences constituting said short text received.
  • an end of sentence indicator is inserted after each end of sentence signal (".”, "?", "!, “ * '')
  • This end of sentence indicator is removed if the next character is in lowercase reflecting the fact that the sentence continues.
  • Some abbreviations are taken into account in the analysis to avoid an incorrect sentence separation.
  • the end of sentence indicator can consist of the number of the first character of the sentence in the text followed by the number of the last character of this sentence, these numbers being obtained by first counter means 22 'connected to the segmentation means 22. For example, the text: “-Pr. Dupont, you are a researcher in computational linguistics, ie in computer linguistics. What is the real part of linguistics in your work?" becomes: "-Pr.
  • the first counter means 22 ′ can also count the sentences and number them in the order of the text, the number assigned to a sentence acting as an index so as to transfer, sentence by sentence and in ascending order of the indexes , the sentences segmented into a first queue 23 of the first-in-first-out (FIFO) type or, preferably, with sorting key and priority.
  • FIFO first-in-first-out
  • a sentence from said queue 23 is introduced into cutting means 24, also known by the name of tokenization, intended to cut a given sentence in words or, more generally, in elementary lexical units by inserting end-of-word indicators after each recognized space between the words in the sentence. " This indicator consists of the word start and end numbers counted in the full short text. It is determined from second counter means 24 'possibly associated with the first counter means 22', and which can index each word by the number of the word in the sentence.
  • the resulting index makes it possible to transfer, word by word, and in the order of the indexes, the words recognized in a second queue 25 of the first-in-first-out (FIFO) type or, preferably with sorting key and priority
  • a third control signal H from said second clock means 21 authorizes the transfer of the words of a sentence stored in the second queue 25, word after word, to means of morphological and morphosyntactic analysis 26.
  • deterministic finite state automata associated with lexicons implement a morpho logical and morpho-syntactic analysis of to recognize for each word the standardized form (lemma in basic form) and all the categories grammatical exact of a word according to its close context, ie according to one or two word (s) before him or after him.
  • the second column of table 1 entitled "WORD AND ATTRTBUT (S)" presents the results of the analysis carried out by the means 26 which associate with each word one or more attributes representing the grammatical categories identified.
  • This second column which constitutes an analysis sheet (FA) is first stored in a third FIFO queue 27 or, preferably, with sorting key and priority, before being stored on command of a fourth clock signal H in second memory means 28 for the purposes of intermediate archiving, subsequent studies or resumption of the process towards the third module 30 described below in relation to FIG. 3.
  • FIG. 3 represents a block diagram of the third module 30 known as information extraction.
  • the fundamental element of this module 30 is the extraction device 31 consisting of a plurality of automata and finite state transducers resulting from a compilation of lexical data and extraction rules. These lexical data and these extraction rules are determined for a specific domain. The system must therefore have at least one such extraction device per domain likely to be affected by the short text received and which the server manager wishes to be able to process.
  • An information extraction server suitable for adapting to the preferred embodiment of the invention relates to the tool developed by the company TEMIS, entitled Insight Discover TM Extractor. The information is extracted from the words and their associated attributes gathered in said analysis sheet (FA), the identification of the information carried by each of said words and associated attributes resulting in the definition. new attributes and thus converting each analysis file into a new file designated by "preliminary file" FP. This conversion is illustrated in Table 2 below which represents a preliminary file established in the case of the example considered above. TABLE 2 - Preliminary sheet
  • Each preliminary file is stored in third memory means 32 which can be made up of an associative memory whose memory positions are identified by their content, the search key associated with each recorded data being the binary word of the characteristic Cti cell of the i th sentence of the text itself corresponding to the cell Ct, this key Cti remaining invariant through the processes described above.
  • FT standard form
  • This standard sheet constitutes an elementary database belonging to a database system 33 gathering standard files coming from one or more extraction devices 31 ', 31 "and being able to gather files belonging to different fields but which can present certain common field names.
  • a fourth record called “characteristic record” (FC) will make it possible to use the system described.
  • This characteristic record results from the creation of a record in the standard record by filling in the fields found in a preliminary FP record Considering the example already mentioned, table 3 below describes the characteristic sheet created by using the means 34 for loading data from a preliminary sheet into a The appropriate standard form (FT) present in the RAM of the database system 33. TABLE 3 - Characteristic form
  • Fourth queue means with priority 35 temporarily store characteristic files and deliver them, either to fourth memory means 36 constituted as the third memory means 32 of an associative memory with search key represented by the cell Cti, ie in the fourth module 40.
  • Third clock means 37 are also provided for transmitting different signals H 'of access control to the various components of the module 30.
  • FIG. 4 represents a functional diagram of the fourth module 40 known as targeted operation and dissemination. From the fourth memory means 36 or from the fourth queue means with priority 35, a characteristic file FCi is extracted from which all of the fields are introduced in parallel into a programmable logic network 41.
  • This network 41 is programmed to compare the FCi file with a set of preselected characteristic files and extracted from the memory 36 by the selection means 42 and finally stored in a look-up table 43 which operates with said network 41.
  • a preselected characteristic file has fields of the same value that those of the FCi file or verify a preestablished relationship and introduced into the programming of the network 41
  • one of the outputs of the network 41 provides the data of the preselected characteristic file in coincidence with the FCi file, this data then being stored in second means 44.
  • the number of coincidences is obtained from a counter 4 7 which can thus indicate the number of files which respond positively to a comparison with the FCi file.
  • Scanning means 45 follow all of the registers 44 and transfer each characteristic record identified as responding positively into fifth queue means with priority 46 for the purpose of temporary storage before, that is to store them in fifth means of memory 49 made up, for example, of an associative memory like the memory means 32, that is to say to diffuse them by the diffusion means 48.
  • the latter equipped with decoding means 48 ′ and conversion 48 ′′ can transmit to the user sender of the short text, or to all other authorized recipients, in plain language, the content of the characteristic sheets identified as positive responses. This broadcast is correctly targeted because the associated Cti cell, retrieved from memories 49 or 36, indicates the characteristics of the sending user and the communications medium to be selected.
  • the means 48, 48 ', 48 "can be grouped with the means 7, T,
  • Fourth clock means 50 make it possible to time stamp the transmission of the responses to the user and to transmit, as for the preceding modules, signals H" for controlling access to different components of the fourth module 40.
  • Table 3 indicates that the object of the advertisement is a Sale (sell), ie an offer, and the complementary object, ie a request, will be a Purchase (buy).
  • the other fields in Table 3 represent the parameters of the product to be sold.
  • a positive response will thus have to satisfy a greater number of identical parameter values and will therefore limit the number of positive responses.
  • a predetermined maximum number of responses can be introduced into the counter means 47 which, as soon as this maximum number is obtained, will stop the process of the network 41 and simultaneously activate a command to transmit a standard form to the advertiser.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The invention relates to an automatic system for retrieving and processing information carried by short messages on all types of communications carriers and for carrying out a target dissemination of search results concerning relations between said information or comparisons therebetween on all types of communications carriers. The inventive system comprises a module (1) for receiving and pre-decoding initial short messages, a module (20) for pre-processing said messages, a module (30) for retrieving information carried by said messages and a module (40) for using said information and for carrying out the target dissemination of search results concerning relations between said information or the comparisons therebetween.

Description

« Système automatique de traitement des informations portées par des textes courts » L'invention se rapporte, de façon générale, au traitement de textes courts constituant un corpus très souvent dégradé afin d'en extraire les informations qu'ils portent et, de façon plus particulière, à la recherche de relations ou à l'établissement de comparaisons entre les informations portées par différents textes courts et à la diffusion ciblée des résultats obtenus, la transmission desdits textes courts utilisant tous supports de communications, notamment les réseaux de téléphonie fixe ou mobile. On entendra par "textes courts" des textes essentiellement composés de quelques phrases à structure simple, éventuellement de quelques paragraphes et auxquels peuvent être associés des données audio et/ou vidéo et/ou photographiques. Des petites annonces, des télégrammes, des informations fil rouge, des messages vocaux ou écrits peuvent, par exemple, constituer des textes courts. II existe déjà des procédés qui permettent de transformer des textes bruts en textes normalisés, adaptés à des services particuliers comme, par exemple, celui décrit dans le brevet US N° 6321372 de Hervé Poirier et coll. intitulé "Exécutable for requesting a linguistic service". Le traitement de données à base d'automates informatiques d'état fini a fait l'objet de plusieurs travaux comme, par exemple, ceux présentés dans le brevet US "Automatic system for processing information carried by short texts" The invention relates, in general, to the processing of short texts constituting a corpus very often degraded in order to extract the information which they carry and, more particular, to the search for relationships or to the establishment of comparisons between the information carried by different short texts and to the targeted dissemination of the results obtained, the transmission of said short texts using any communication medium, in particular fixed or mobile telephone networks . “Short texts” will be understood to mean texts essentially composed of a few sentences with a simple structure, possibly a few paragraphs and to which audio and / or video and / or photographic data may be associated. Small announcements, telegrams, red thread information, voice or written messages can, for example, constitute short texts. There are already methods which make it possible to transform raw texts into standardized texts, adapted to particular services such as, for example, that described in US Patent No. 6,321,372 to Hervé Poirier et al. entitled "Executable for requesting a linguistic service". Data processing based on finite state computer systems has been the subject of several works such as, for example, those presented in the US patent
N° 5564058 de Ronald M. Kaplan et coll. intitulé "Stored string data with encoded data units from subranges of values that indicate search information". L'art antérieur le plus proche est constitué, en particulier, par un article du MIT Laboratory for Computer Science, Cambridge USA (Helen MENG et coll.) portant sur un système fondé sur un dialogue essentiellement vocal qui fournit un accès à une base de données de petites annonces dans le domaine automobile. L'art antérieur comporte également le brevet international WO 01/63451 déposé par CLASSIFIED ADVERTISER COM, INC. traitant d'un système de commande et de placement d'annonces à distance et le brevet européen EP 1185062 déposé par NETCALL PLC décrivant l'établissement d'une connexion téléphonique entre un client et un annonceur. Les inconvénients majeurs de cet art antérieur résident dans le fait qu'il se limite essentiellement, soit au traitement de petites annonces, alors que les textes dits courts peuvent trouver un usage dans d'autres domaines que celui des petites annonces, soit à un traitement sur un seul support de communications, alors que les textes courts sont susceptibles d'être acheminés sur tous les supports de communications, De plus, cet art antérieur ne nous apprend sensiblement rien sur les textes courts considérés comme constituant un corpus dégradé, corpus dégradé par l'emploi de diverses abréviations ou par la présence d'erreurs typographiques ou orthographiques, lequel nécessitera des traitements spécifiques pour en extraire de façon automatique l'information qu'il porte. Les systèmes proposés jusqu'ici n'envisagent pas un traitement automatique global portant sur les contenus de textes courts transmis sur tous supports de communications et concernant tous domaines. Ils n'envisagent pas non plus l'établissement de relations croisées entre des informations portées par des textes relatifs à des domaines d'intérêt différents. Le premier aspect de l'invention qui tend essentiellement à combler les manques constatés dans l'art antérieur concerne un système automatique d'extraction et de traitement des informations portées par des textes courts, accompagnés ou non de données audio et/ou vidéo et/ou photographiques, transmis sur tous supports de communications et de diffusion ciblée sur tous supports de communications des résultats de recherche de relations entre ces informations ou de comparaisons établies entre elles, caractérisé en ce que ledit système est rendu automatique par la mise en oeuvre d'un serveur équipé d'un microprocesseur' qui commande et organise la combinaison des modules suivants, comprenant : A/ au moins un premier module, dit de réception et de précodage, comprenant : - des moyens de récepteur destinés à recevoir, de façon continue ou non, une pluralité de textes courts transmis sur un quelconque support de communications, chacun d'entre eux étant associé à un premier code identifiant l'utilisateur émetteur d'un texte court, codé en binaire par des premiers moyens de codeur primaire, - des seconds moyens de codeur binaire destinés à identifier sous forme codée la nature du support de communications acheminant ledit texte court, - des moyens de numérisation connectés aux moyens de récepteur et destinés à numériser les contenus desdits textes courts non préalablement numérisés par le mode de transmission, - des premiers moyens d'horloge associés à des troisièmes moyens de codeur binaire destinés à coder des données d'horodatage concernant la réception desdits textes courts, • - des moyens d'identification et d'authentification de l'émetteur dudit texte court par vérification du premier code qui y est associé, - des moyens de reconnaissance de la langue dans laquelle ledit texte court est écrit, associés à des quatrièmes moyens de codeur binaire pour identifier sous forme codée la langue reconnue, - des moyens de reconnaissance du domaine concerné par le contenu dudit texte court, associés à des cinquièmes moyens de codeur binaire pour identifier, sous forme codée, le domaine reconnu, - une pluralité de bases de données connectée respectivement aux moyens d'identification, aux moyens de reconnaissance de la langue et du domaine, - des premiers moyens de registre recevant les différents codes, de façon à constituer, sous forme d'un mot binaire, une cellule établie pour être associée en permanence à un et un seul texte court reçu, - des moyens de concaténation de chaînes binaires destinés à ajouter la cellule à la chaîne de sortie des moyens de reconnaissance de domaine, pour obtenir une chaîne unique regroupant texte court et cellule, - des moyens de transmission, en retour vers l'utilisateur d'origine, du texte court reçu par le serveur converti en langage clair par des moyens de conversion et accompagné de la cellule associée, cette dernière étant décodée dans des moyens de décodeur , - des moyens de validation dépendant du support de communications utilisé et destinés à délivrer un signal de validation généré par ledit utilisateur émetteur de texte court en réponse à son approbation du texte et de la cellule qui lui ont été retransmis, toute modification de la cellule devenant impossible après ladite validation, - des moyens de circuit logique recevant en première entrée la chaîne unique produite par les moyens de concaténation et ne pouvant délivrer, en sortie, cette même chaîne que si le signal de validation est appliqué en seconde entrée, - des premiers moyens de mémoire destinés à stocker ladite chaîne unique produite par les moyens de concaténation regroupant texte court et cellule, l'accès aux dits premiers moyens de mémoire étant commandés par lesdits moyens de circuit logique ; B/ au moins un second module , dit de prétraitement des textes, comprenant: - des moyens de segmentation destinés à séparer les phrases formant ledit texte court et associés à des premiers moyens de compteur réservés à la numérotation des différentes phrases reconnues, et à la numérotation de chaque caractère utilisé pour former les phrases dudit texte court, - des moyens de découpage destinés à séparer les mots d'une phrase reconnue, et associés à des seconds moyens de compteur réservés à la numérotation attribuée à chacun des caractères de début et de fin de chaque mot par rapport à l'ensemble des mots identifiés dans une phrase reconnue, - des moyens d'analyse morphologique et morpho-syntaxique de tous les mots identifiés d'une phrase, destinés à transformer chaque mot identifié en sa forme normalisée (lemme) et à lui associer des attributs liés à sa catégorie grammaticale exacte en fonction de son contexte proche, - des premiers moyens de file d'attente destinés à stocker les différentes phrases identifiées et numérotées en sortie desdits moyens de segmentation , - des seconds moyens de file d'attente destinés à stocker les différents mots identifiés dont les caractères ont été numérotés en sortie desdits moyens de découpage , - des troisièmes moyens de file d'attente destinés à stocker les mots identifiés normalisés et leurs attributs associés en sortie desdits moyens d'analyse morphologique et morpho-syntaxique , - des seconds moyens de mémoire destinés à stocker en sortie des troisièmes moyens de file d'attente une pluralité de fiches d'analyse constituées, chacune, des mots identifiés normalisés et de leurs attributs associés correspondant à une phrase donnée, chaque fiche d'analyse étant accompagnée de la cellule correspondant audit texte court d'origine, cette dernière étant invariante au cours des traitements cités, - des seconds moyens d'horloge destinés à délivrer, selon des séquences pré-programmées, des signaux de commande d'accès, respectivement, aux moyens de traitement et de mémoire ; C/ au moins un troisième module, dit d'extraction des informations, comprenant: - une pluralité de dispositifs d'extraction des informations, chacun étant spécifique d'un domaine, ces dispositifs étant destinés à transformer les attributs associés à chaque mot de la fiche d'analyse en de nouveaux attributs identifiant l'information portée par chaque mot, convertissant ainsi chaque fiche d'analyse en une fiche préliminaire, - des troisièmes moyens de mémoire destinés à stocker lesdites fiches préliminaires et leur cellule associée qui reste invariante en traversant un dispositif d'extraction quelconque, - au moins un système de basés de données .. comportant, pour chaque domaine spécifique traité par un dispositif d'extraction donné, une base élémentaire de données, vide d'enregistrement, constituée uniquement d'une pluralité de noms de champ qui définit une fiche type, le système de bases de données comportant également son système de gestion et son dispositif de mémorisation, - des moyens de chargement des données contenues dans une fiche préliminaire, dans ladite base élémentaire de données, les nouveaux attributs de ladite fiche préliminaire correspondant aux noms de champ de la fiche type associée, le résultat étant l'établissement d'une fiche caractéristique organisée de façon prédéterminée et destinée à identifier l'objet et ses paramètres associés de l'information portée par chaque phrase d'un texte court reçu, - des quatrièmes moyens de file d'attente destinés à stocker de façon temporaire lesdites fiches caractéristiques issues dudit système de bases de données, - des quatrièmes moyens de mémoire connectés aux quatrièmes moyens de file d'attente et destinés à stocker de façon permanente lesdites fiches caractéristiques et les cellules associées, - des troisièmes moyens d'horloge destinés à délivrer, selon une séquence pré-programmée, des signaux de commande des accès, respectivement, à la pluralité de dispositifs d'extraction, audit système de bases de données et aux dits quatrièmes moyens de mémoire ; D/ au moins un quatrième module, dit d'exploitation' et de diffusion ciblée, comprenant : - des moyens de sélection, connectés aux quatrièmes moyens de mémoire, destinés à sélectionner une ou plusieurs fiche(s) caractéristique(s) et à les transférer dans une table à consulter - au moins un réseau à logique programmable destiné à comparer sur des critères préprogrammés une fiche caractéristique courante provenant, soit des quatrièmes moyens de file d'attente, soit des quatrièmes, moyens de mémoire avec une ou plusieurs autre(s) fiche(s) caractéristique(s) présente(s) dans ladite table à consulter et à délivrer en sortie le contenu de la (ou des) fiche(s) caractéristique(s) identifiée(s) comme répondant positivement à ladite comparaison, - des seconds moyens de registre destinés, chacun, à stocker temporairement le contenu d'une fiche caractéristique identifiée comme répondant positivement à ladite comparaison et délivrée par ledit réseau à logique programmable, - des moyens de balayage destinés à analyser successivement les sorties respectives desdits moyens de registre et à transférer les contenus de ces derniers, - des cinquièmes moyens de file d'attente destinés à stocker temporairement les fiches caractéristiques identifiées positivement provenant desdits moyens de balayage , - des troisièmes moyens de compteur connectés aux dits seconds moyens de registre et destinés à compter le nombre de fiches caractéristiques identifiées comme répondant positivement à la comparaison exécutée par ledit réseau à logique programmable , - des cinquièmes moyens de mémoire destinés à stocker à des fins de sauvegarde, d'archivage ou d'études- ultérieures, les fiches caractéristiques identifiées délivrées par les cinquièmes moyens de file d'attente ainsi que les cellules associées, - des moyens de diffusion destinés à une diffusion ciblée sur le support de communication approprié des fiches caractéristiques identifiées positivement provenant, dans un ordre préprogrammé, des cinquièmes moyens de file d'attente ou des cinquièmes moyens de mémoire, ces moyens de diffusion étant équipés de moyens de décodage et de conversion des données numériques, ces derniers moyens s'appliquant au contenu des fiches caractéristiques identifiées positivement et aux cellules associées, - des quatrièmes moyens d'horloge destinés à horodater la diffusion ciblée exécutée par lesdits moyens de diffusion et à délivrer des signaux de commande d'accès, respectivement, audit réseau à logique programmable, aux dits moyens de balayage, aux dits moyens de diffusion et aux dits cinquièmes moyens de mémoire . Dans un second aspect, l'invention décrit un procédé de traitement automatique de textes courts mettant en oeuvre le système décrit ci-dessus et caractérisé par les étapes suivantes consistant à : a) entrer en communication avec le module de réception d'un serveur auquel sont transmis un texte court, accompagné ou non de données audio et/ou vidéo et/ou photographiques et un code utilisateur, ledit module numérisant, si nécessaire, les données reçues, vérifiant l'identification de l'utilisateur, et horodatant la réception dudit texte court ; b) déterminer la langue et le domaine concernés par ledit texte court reçu ; c) faire valider par l'utilisateur le contenu du texte reçu, la langue et le domaine reconnus ; d) séparer les phrases du texte et les mots de chacune des phrases ; e) pratiquer sur chaque mot une analyse morphologique et morpho-syntaxique dont le résultat est de produire un mot normalisé auquel est associé un attribut ; f) extraire à partir des moyens d'extraction spécifiques du domaine reconnu à l'étape b l'information portée par chaque mot associé à son attribut pour convertir ce dernier en un ou plusieurs nouveau(x) attribut(s) parmi lesquels sont reconnus l'objet dudit texte court et les paramètres liés à cet objet ; g) mémoriser chaque mot d'une phrase dudit texte court reçu avec ses nouveaux attributs dans une fiche préliminaire ; h) obtenir une fiche caractéristique, en créant un enregistrement dans une fiche type constituée d'un champ objet et d'une pluralité de champs de paramètres à partir des données contenues dans une fiche préliminaire ; i) mémoriser l'ensemble des fiches caractéristiques ; j) comparer une ou plusieurs fιche(s) caractéristique(s) à une ou plusieurs fiche(s) caractéristique(s) sélectionnée(s) ; k) sortir les résultats de chaque comparaison effectuée et les mémoriser ; 1) diffuser les résultats mémorisés et convertis vers l'utilisateur émetteur dudit texte court reçu ou vers tous autres destinataires autorisés. Dans un troisième aspect, l'invention décrit plus particulièrement un procédé de traitement de textes d'annonces dont le contenu concerne des demandes ou des offres de produits et/ou de services mettant en oeuvre le système et le procédé décrits précédemment., caractérisé en ce que les comparaisons réalisées entre fiches caractéristiques portent uniquement sur les champs de paramètres de fiches caractéristiques dont les objets sont complémentaires. Les avantages et les caractéristiques de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode préféré de réalisation en relation avec les dessins annexés dans lesquels : La figure 1 représente un schéma fonctionnel du premier module dit de réception et de précodage selon la présente invention, La figure 2 représente un schéma fonctionnel du second module dit de prétraitement des textes selon la présente invention, La figure 3 représente un schéma fonctionnel du troisième module dit d'extraction des informations selon la présente invention, et La figure 4 représente un schéma fonctionnel du quatrième module dit d'exploitation et de diffusion ciblée selon la présente invention. DESCRIPTION DU MODE PREFERE DE REALISATION Dans la partie haute de la figure 1 représentant le module de réception et de précodage 1 selon la présente invention, un certain nombre non limitatif de supports de communications sont représentés de façon symbolique. Ces supports, notamment les réseaux de téléphonie fixe ou mobile, sont à la disposition des utilisateurs du système selon l'invention pour qu'ils puissent émettre, vers le récepteur 2 dudit module 1, un ou plusieurs textes courts après appel d'un numéro de serveur dédié suivi d'un code d'identification, ces textes courts étant, ou non, accompagnés de données audio et/ou vidéo et/ou de photographies. Ce code sera vérifié par des moyens d'identification et d'authentification 4, ces derniers étant reliés à une première base de la pluralité de bases de données 11 relative aux utilisateurs du système. Un premier codeur binaire 4' fournit le code d'identification (code 1) sous forme binaire et le transmet à des premiers moyens de registre 10. Un second codeur binaire 2' reçoit du récepteur 2 l'indication concernant le support de communication sur lequel un texte court a été transmis et émet en conséquence le code binaire (code 2) approprié qu'il transmet aux dits premiers moyens de registre 10. L'arrivée du texte court à l'entrée du récepteur est horodatéé par les premiers moyens d'horloge 3 et les données d'horodatage sont transformées sous forme de code binaire (code 3) par un troisième codeur 3' et transmis aux premiers moyens de registre 10, Les données de textes, reçues par le récepteur 2 sont numérisées, si nécessaire, par des moyens classiques comme un convertisseur analogique-numérique (A/N), et sont transmises à des moyens de reconnaissance de la langue 5 utilisée pour écrire ledit texte reçu. En cas de textes courts transmis sur un réseau de téléphonie fixe ou mobile, un serveur vocal classique peut assurer la numérisation requise. Ces moyens de reconnaissance 5 fonctionnent en utilisant le procédé connu per se des trigrammes et des mots courts (procédé TRISHORT). Le modèle d'identification a été mis au point en analysant statistiquement des documents dans l'ensemble des langues reconnues. Pour chaque langue, on détermine la valeur statistique de l'apparition de trois lettres consécutives. Pour chaque langue, on détermine les fréquences d'apparition des mots communs courts (cinq lettres ou moins) comme "le", "et", "avec" ou "sinon". Par exemple, fondé sur le procédé précédent, le moteur linguistique XeLDA® multilingue mis au point par la société TEMIS (PARIS) permet de reconnaître 39 langues. Pour ce faire, les moyens 5 doivent disposer d'un certain nombre de données qui sont stockées dans une seconde base de la pluralité de bases de données 11. Une fois identifiée, la langue est codée en binaire dans un quatrième codeur 5' et le code obtenu (code 4) est transféré dans lesdits premiers moyens de registre 10. Une autre information importante est déterminée dans ce module 1, elle touche au domaine concerné par le contenu du texte comme, par exemple, le domaine bancaire, le domaine de l'immobilier, le domaine automobile, etc.. Les moyens de reconnaissance du domaine 6 fonctionnement en faisant appel au procédé de catégorisation avec apprentissage. Pour chaque domaine que l'on souhaite reconnaître, il est nécessaire, au préalable, de disposer d'un ensemble de textes le décrivant. Cet ensemble ou "corpus" est analysé statistiquement pour créer un profil de domaine composé d'une série de mots du domaine pondérés par des coefficients numériques, Ainsi, un ensemble de domaines peut être associé à un autre ensemble de profils de domaine. Enfin, pour déterminer si un nouveau document appartient à l'un ou l'autre des domaines, on crée, par une analyse linguistique de surface, un profil du document qui est comparé aux profils de domaine. Le domaine du document est celui dont le profil est le plus proche du profil du document. Pour ce faire, il existe des outils informatiques tels que des descripteurs sémantiques déterminant dans un document donné les fréquences d'apparition de noms, de verbes, de groupes nominaux... Un algorithme permet ensuite de fusionner les différents descripteurs sémantiques attribués à une même catégorie pour créer un modèle de catégorisation. Fonctionnant sur ce principe, le serveur de catégorisation mis au point par la Société TEMIS sous le nom d'Insight Discoverer Categorizer est tout à fait approprié pour constituer les moyens de reconnaissance de domaine 6 selon la présente invention, qui sont, de plus, connectés à une troisième base de la pluralité de bases de données 1 1 stockant, notamment, les différents profils susdits utiles à l'identification de domaine. Le résultat de cette identification de domaine est codé en binaire par un cinquième codeur 6' et le code obtenu (code 5) est également transmis aux moyens de registre 10. En sortie des moyens de reconnaissance de domaine 6, le texte court reçu est récupéré et on lui associe le mot binaire construit à partir des codes 1, 2, 3, 4 et 5 stockés dans lesdits moyens de registre 10 et définissant, une cellule Ct spécifique d'un texte court reçu. Ce mot binaire de la cellule est concaténé à la chaîne correspondant au texte court lui-même dans des moyens classiques de concaténation 12. En sortie des moyens de concaténation, la chaîne unique (texte + cellule) est transmise à une première entrée d'un circuit logique 8 de fonction ET et également à des moyens de transmission 7 équipés de décodeurs 7' et de convertisseurs 7" destinés à réémettre en langage clair sur le support de communications approprié vers l'utilisateur à l'origine du texte court reçu, le contenu de ce dernier et les informations recueillies (horodatage, langue, domaine).No. 5564058 of Ronald M. Kaplan et al. titled "Stored string data with encoded data units from subranges of values that indicate search information". The closest prior art consists, in particular, of an article by the MIT Laboratory for Computer Science, Cambridge USA (Helen MENG et al.) On a system based on an essentially vocal dialogue which provides access to a database of automotive classifieds data. The prior art also includes the international patent WO 01/63451 filed by CLASSIFIED ADVERTISER COM, INC. dealing with a remote ad ordering and placement system and European patent EP 1185062 filed by NETCALL PLC describing the establishment of a telephone connection between a client and an advertiser. The major drawbacks of this prior art lie in the fact that it is essentially limited, either for the processing of classified ads, while so-called short texts can find use in fields other than that of classified ads, or for processing on a single communications medium, while short texts are likely to be routed on all communication media, In addition, this prior art teaches us nothing about short texts considered to constitute a degraded corpus, corpus degraded by the use of various abbreviations or by the presence of typographical or spelling errors, which will require specific processing to automatically extract the information it carries. The systems proposed so far do not envisage a global automatic processing relating to the contents of short texts transmitted on all communication media and concerning all fields. They also do not envisage the establishment of cross-relationships between information carried by texts relating to different areas of interest. The first aspect of the invention which essentially aims to fill the gaps noted in the prior art relates to an automatic system for extracting and processing information carried by short texts, whether or not accompanied by audio and / or video and / or photographic, transmitted on all communication media and targeted dissemination on all communication media of the search results for relationships between this information or for comparisons established between them, characterized in that said system is made automatic by the use of a server equipped with a microprocessor ' which controls and organizes the combination of the following modules, comprising: A / at least a first module, called reception and precoding module, comprising: - receiver means intended to receive, continuously or no, a plurality of short texts transmitted on any communication medium, each of them being associated with a pr first code identifying the user sending a short text, coded in binary by first primary coder means, - second binary coder means intended to identify in coded form the nature of the communication medium carrying said short text, - digitization means connected to the receiver means and intended to digitize the contents of said short texts not previously digitized by the transmission mode, - first clock means associated with third binary coder means intended to encode data of timestamp concerning the reception of said short texts, • means of identification and authentication of the sender of said short text by checking the first code associated therewith, means of recognition of the language in which said short text is writing, associated with fourth binary coder means for identifying in coded form the recognized language, - means for recognizing the field concerned by the content of said short text, associated with fifth binary coder means for identifying, in coded form, the recognized domain, - a plurality of databases respectively connected to the identification means, to the m language and domain recognition means, - first register means receiving the different codes, so as to constitute, in the form of a binary word, a cell established to be permanently associated with one and only one short text received , - means for concatenating binary strings intended to add the cell to the output chain of the domain recognition means, to obtain a single string grouping together short text and cell, - means of transmission, in return to the user d origin, of the short text received by the server converted into plain language by conversion means and accompanied by the associated cell, the latter being decoded in decoder means, - validation means depending on the communications medium used and intended for deliver a validation signal generated by said user sending short text in response to his approval of the text and the cell which have been retransmitted, any modification of the cell becoming impossible after said validation, - logic circuit means receiving at the first input the single chain produced by the concatenation means and being able to deliver, at the output, this same chain only if the validation signal is applied at the second input, - first memory means intended for storing said single chain produced by the concatenation means grouping together short text and cell, access to said first memory means being controlled by said logic circuit means; B / at least one second module, known as text preprocessing module, comprising: - segmentation means intended to separate the sentences forming said short text and associated with first counter means reserved for numbering the different recognized sentences, and for numbering of each character used to form the sentences of said short text, - cutting means intended to separate the words from a recognized sentence, and associated with second counter means reserved for the numbering assigned to each of the start and end characters end of each word in relation to all the words identified in a recognized sentence, - means of morphological and morpho-syntactic analysis of all the words identified in a sentence, intended to transform each identified word into its normalized form ( lemma) and to associate attributes linked to its exact grammatical category according to its close context, - first means of thread e waiting for storing the different phrases identified and numbered at the output of said segmentation means, - second queue means for storing the different identified words whose characters have been numbered at the output of said cutting means, - third queue means intended for storing the identified normalized words and their associated attributes at the output of said morphological and morpho-syntactic analysis means, - second memory means intended for storing at output the third queue means waiting for a plurality of analysis sheets each consisting of identified standardized words and their associated attributes corresponding to a given sentence, each analysis sheet being accompanied by the cell corresponding to said original short text, the latter being invariant during the cited processing operations, - second clock means intended to deliver, according to pre-programmed sequences, access control signals, respectively, to the processing means and from memory; C / at least a third module, called information extraction module, comprising: - a plurality of information extraction devices, each being specific to a field, these devices being intended to transform the attributes associated with each word of the analysis file in new attributes identifying the information carried by each word, thus converting each analysis file into a preliminary file, - third memory means intended for storing said preliminary files and their associated cell which remains invariant when crossing any extraction device, - at least one database system .. comprising, for each specific domain treated by a given extraction device, a basic database, record void, consisting only of a plurality of field names which define a standard form, the database system also comprising its management system and its dis positive memorization, - means for loading the data contained in a preliminary record, into said elementary database, the new attributes of said preliminary record corresponding to the field names of the associated standard record, the result being the establishment of a characteristic file organized in a predetermined manner and intended to identify the object and its associated parameters of the information carried by each sentence of a short text received, - fourth queue means intended to temporarily store said files characteristics from said database system, - fourth memory means connected to the fourth queue means and intended to permanently store said characteristic files and the associated cells, - third clock means intended to deliver, according to a pre-programmed sequence, access control signals, respectively to the plurality extraction devices, said database system and said fourth memory means; D / fourth at least one module, said operating 'and targeted distribution, comprising: - selecting means, connected to said fourth memory means, for selecting one or more sheet (s) feature (s) and the transfer to a table to be consulted - at least one network with programmable logic intended to compare on preprogrammed criteria a current characteristic sheet coming either from the fourth queue means or from the fourth memory means with one or more other ( s) characteristic sheet (s) present in said table to consult and output the content of the characteristic sheet (s) identified as responding positively to said comparison , - second register means each intended to temporarily store the content of a characteristic file identified as responding positively to said comparison and delivered by said log network programmable, - scanning means intended to successively analyze the respective outputs of said register means and to transfer the contents of the latter, - fifth queue means intended to temporarily store the positively identified characteristic files coming from said means scanning, - third counter means connected to said second register means and intended to count the number of characteristic files identified as responding positively to the comparison carried out by said programmable logic network, - fifth memory means intended for storing for the purposes of backup, archiving or subsequent studies, the identified characteristic files issued by the fifth queue means as well as the associated cells, - dissemination means intended for targeted distribution on the appropriate communication medium character sheets positively identified ticks coming, in a pre-programmed order, from the fifth queue means or fifth memory means, these dissemination means being equipped with means for decoding and converting digital data, the latter means applying to the content of the characteristic data sheets identified positively and to the associated cells, - fourth clock means intended for time stamping the targeted broadcasting executed by said broadcasting means and delivering access control signals, respectively, to said programmable logic network, to said scanning means, to said broadcasting means and to said fifth memory means. In a second aspect, the invention describes a method for automatic processing of short texts implementing the system described above and characterized by the following steps consisting in: a) entering into communication with the reception module of a server to which a short text is transmitted, whether or not accompanied by audio and / or video and / or photographic data and a user code, said module digitizing, if necessary, the data received, verifying the identification of the user, and time stamping the reception of said short text; b) determine the language and the domain concerned by said short text received; c) have the user validate the content of the text received, the language and the recognized domain; d) separate the sentences of the text and the words of each of the sentences; e) practice on each word a morphological and morpho-syntactic analysis the result of which is to produce a standardized word with which an attribute is associated; f) extract from the specific means of extraction of the domain recognized in step b the information carried by each word associated with its attribute to convert the latter into one or more new attribute (s) among which are recognized the object of said short text and the parameters related to this object; g) memorize each word of a sentence of said short text received with its new attributes in a preliminary file; h) obtain a characteristic file, by creating a record in a standard file consisting of an object field and a plurality of parameter fields from the data contained in a preliminary file; i) memorize all the characteristic files; j) compare one or more characteristic file (s) to one or more selected characteristic file (s); k) output the results of each comparison carried out and store them; 1) disseminate the results stored and converted to the user sending said short text received or to any other authorized recipients. In a third aspect, the invention more particularly describes a method for processing ad texts, the content of which relates to requests or offers for products and / or services implementing the system and method described above., Characterized in what the comparisons carried out between characteristic files relate only to the parameter fields of characteristic files whose objects are complementary. The advantages and characteristics of the invention will appear more clearly on reading the following description of a preferred embodiment in relation to the appended drawings in which: FIG. 1 represents a functional diagram of the first module known as reception and precoding according to the present invention, FIG. 2 represents a functional diagram of the second module known as text preprocessing according to the present invention, FIG. 3 represents a functional diagram of the third module called information extraction module according to the present invention, and FIG. 4 shows a functional diagram of the fourth module called exploitation and targeted dissemination according to the present invention. DESCRIPTION OF THE PREFERRED EMBODIMENT In the upper part of FIG. 1 representing the reception and precoding module 1 according to the present invention, a certain nonlimiting number of communication media are represented symbolically. These media, in particular fixed or mobile telephone networks, are available to users of the system according to the invention so that they can transmit, to the receiver 2 of said module 1, one or more short texts after calling a number. dedicated server followed by an identification code, these short texts being, or not, accompanied by audio and / or video data and / or photographs. This code will be verified by identification and authentication means 4, the latter being connected to a first base of the plurality of databases 11 relating to the users of the system. A first binary coder 4 'supplies the identification code (code 1) in binary form and transmits it to first register means 10. A second binary coder 2' receives from receiver 2 the indication concerning the communication medium on which a short text has been transmitted and consequently transmits the appropriate binary code (code 2) which it transmits to the said first register means 10. The arrival of the short text at the input of the receiver is time-stamped by the first means of clock 3 and the time stamping data are transformed into binary code (code 3) by a third encoder 3 'and transmitted to the first register means 10, The text data, received by the receiver 2 are digitized, if necessary, by conventional means such as an analog-digital converter (A / D), and are transmitted to language recognition means 5 used to write said received text. In the case of short texts transmitted over a fixed or mobile telephone network, a conventional voice server can provide the required digitization. These recognition means 5 operate using the method known per se of trigrams and short words (TRISHORT method). The identification model was developed by statistically analyzing documents in all of the recognized languages. For each language, the statistical value of the appearance of three consecutive letters is determined. For each language, the frequencies of appearance of short common words (five letters or less) such as "the", "and", "with" or "otherwise" are determined. For example, based on the previous process, the multilingual XeLDA® linguistic engine developed by the company TEMIS (PARIS) can recognize 39 languages. To do this, the means 5 must have a certain number of data which are stored in a second base of the plurality of databases 11. Once identified, the language is binary coded in a fourth coder 5 'and the code obtained (code 4) is transferred into said first register means 10. Another important information is determined in this module 1, it relates to the field concerned by the content of the text such as, for example, the banking field, the real estate field, the automobile field, etc. The means of domain recognition 6 operation using the categorization process with learning. For each area that one wishes to recognize, it is necessary, beforehand, to have a set of texts describing it. This set or "corpus" is analyzed statistically to create a domain profile composed of a series of domain words weighted by numerical coefficients. Thus, a set of domains can be associated with another set of domain profiles. Finally, to determine if a new document belongs to one or the other of the domains, we create, by surface linguistic analysis, a profile of the document which is compared with the domain profiles. The document domain is the one whose profile is closest to the document profile. To do this, there are computer tools such as semantic descriptors determining in a given document the frequencies of appearance of nouns, verbs, nominal groups ... An algorithm then makes it possible to merge the different semantic descriptors attributed to the same category to create a categorization model. Operating on this principle, the categorization server developed by the company TEMIS under the name of Insight Discoverer Categorizer is entirely suitable for constituting the means of domain recognition 6 according to the present invention, which are, moreover, connected to a third base of the plurality of databases 1 1 storing, in particular, the various aforementioned profiles useful for domain identification. The result of this domain identification is binary coded by a fifth coder 6 ′ and the code obtained (code 5) is also transmitted to the register means 10. At the output of the domain recognition means 6, the short text received is recovered and we associate with it the binary word constructed from codes 1, 2, 3, 4 and 5 stored in said register means 10 and defining, a cell Ct specific to a short text received. This binary word of the cell is concatenated to the string corresponding to the short text itself in conventional concatenation means 12. At the output of the concatenation means, the single string (text + cell) is transmitted to a first entry of a logic circuit 8 of function AND and also to transmission means 7 equipped with decoders 7 'and converters 7 "intended to retransmit in plain language on the appropriate communications medium towards the user at the origin of the short text received, the content of the latter and the information collected (timestamp, language, domain).
L'utilisateur peut alors valider l'ensemble de ces informations à l'aide de moyens classiques de validation dépendant du support de communications sélectionné. En cas de non validation, l'utilisateur peut réinitialiser son appel du serveur et reprendre à son point de départ le processus décrit ci-dessus. En cas de validation, le signal de validation N est transmis à une seconde entrée du circuit logique 8. Dès l'application du signal N, le circuit logique 8 transmet aux premiers moyens de mémoire 9 la chaîne correspondant à l'ensemble texte et cellule à des fins, soit de stockage, soit d'attente de transfert vers le second module 20. Dans la figure 2 représentant un schéma fonctionnel du second module 20 dit de prétraitement des textes, sur commande d'un premier signal H émis par les seconds moyens d'horloge 21, un ensemble texte et cellule associée est transféré dans des moyens de segmentation 22 destinés à séparer les différentes phrases constituant ledit texte court reçu. Pour ce faire, un indicateur de fin de phrase est inséré après chaque signal de fin de phrase (".", "?", "!", "* '') suivi d'un espace. Cet indicateur de fin de phrase est enlevé si le caractère suivant est en minuscule traduisant le fait que la phrase continue. Certaines abréviations sont prises en compte dans l'analyse pour éviter une séparation erronée de phrase. L'indicateur de fin de phrase peut être constitué du numéro du premier caractère de la phrase dans le texte suivi du numéro du dernier caractère de cette phrase, ces numéros étant obtenus par des premiers moyens de compteur 22' connectés aux moyens de segmentation 22. Par exemple, le texte : " -Pr. Dupont, vous êtes chercheur en linguistique computationnelle,c-à-d. en linguistique informatique. Quelle est la part réelle de linguistique dans votre travail ?" devient : " -Pr. Dupont, vous êtres chercheur en linguistique computationnelle,c-à-d. en linguistique informatique. [0-101]. Quelle est la part réelle de linguistique dans votre travail ? [103 - 165]". Les premiers moyens de compteur 22' peuvent également compter les phrases et les numéroter dans l'ordre du texte, le numéro attribué à une phrase jouant un rôle d'index de façon à transférer, phrase par phrase et dans l'ordre croissant des index, les phrases segmentées dans une première file d'attente 23 de type premier entré-premier sorti (FIFO) ou, de préférence, avec clé de tri et priorité. Sur commande d'un second signal H délivré par lesdits seconds moyens d'horloge 21, une phrase de ladite file d'attente 23 est introduite dans des moyens de découpage 24, connus également sous le nom de tokénisation, destinés à découper une phrase donnée en mots ou, plus généralement, en unités lexicales élémentaires par insertion d'indicateurs de fin de mot après chaque espace reconnu entre les mots de la phrase. "Cet indicateur est constitué des numéros de début et de fin de mot comptés dans le texte court complet. Il est déterminé à partir de seconds moyens de compteur 24' éventuellement associés aux premiers moyens de compteur 22', et pouvant indexer chaque mot par le numéro du mot dans la phrase. L'index résultant permet de transférer, mot par mot, et dans l'ordre des index, les mots reconnus dans une seconde file d'attente 25 de type premier entré- premier sorti (FIFO) ou, de préférence, avec clé de tri et priorité. Un troisième signal de commande H issu desdits seconds moyens d'horloge 21 autorise le transfert des mots d'une phrase stockés dans la seconde file d'attente 25, mot après mot, vers des moyens d'analyse morphologique et morphosyntaxique 26. Dans le moteur linguistique XeLDA® de la Société TEMIS, déjà cité ci-dessus, des automates déterministes d'état fini associés à des lexiques mettent en oeuvre une analyse morpho logique et morpho-syntaxique destinée à reconnaître pour chaque mot la forme normalisée (lemme en forme de base) et toutes les catégories grammaticales exactes d'un mot en fonction de son contexte proche, c'est à dire en fonction d'un ou deux mot(s) avant lui ou après lui. Par ces moyens, il est possible également de traiter les problèmes liés à la reconnaissance de mots en majuscule, de mots mal accentués, de certaines abréviations, etc. La levée de certaines ambiguïtés est résolue à l'aide desdits moyens 26 comme, par exemple, le mot d'une phrase "avions" qui peut porter deux sens, l'un provenant du verbe avoir (nous avions) et l'autre étant le nom avions au pluriel. Pour mieux illustrer les différentes étapes mises en oeuvre dans les différents modules, il est possible de considérer l'exemple suivant de texte court (une phrase) écrit en français et concernant le domaine de l'immobilier : "Nds Nantes Centre 200 keuros FAC F2 Récent 38 m2 chambre, kitch, parkg, inteiph, Tel 06 84 20 68 04". Une séparation des mots par les moyens de découpage 24 conduit à la suite de mots reconnus, introduite dans la seconde file d'attente 25 et indiquée dans la première colonne du tableau 1 ci-dessous.The user can then validate all of this information using conventional validation means depending on the selected communications medium. In the event of non-validation, the user can reset his call from the server and resume the process described above at his starting point. In the event of validation, the validation signal N is transmitted to a second input of the logic circuit 8. As soon as the signal N is applied, the logic circuit 8 transmits to the first memory means 9 the chain corresponding to the text and cell assembly for purposes of either storage or waiting for transfer to the second module 20. In FIG. 2 representing a functional diagram of the second module 20 known as text preprocessing, on command of a first signal H emitted by the second clock means 21, a set of text and associated cell is transferred into segmentation means 22 intended to separate the different sentences constituting said short text received. To do this, an end of sentence indicator is inserted after each end of sentence signal (".", "?", "!", " * '') Followed by a space. This end of sentence indicator is removed if the next character is in lowercase reflecting the fact that the sentence continues. Some abbreviations are taken into account in the analysis to avoid an incorrect sentence separation. The end of sentence indicator can consist of the number of the first character of the sentence in the text followed by the number of the last character of this sentence, these numbers being obtained by first counter means 22 'connected to the segmentation means 22. For example, the text: "-Pr. Dupont, you are a researcher in computational linguistics, ie in computer linguistics. What is the real part of linguistics in your work?" becomes: "-Pr. Dupont, you are a researcher in computational linguistics, ie in computer linguistics. [0-101]. What is the real part of linguistics in your work? [103 - 165]". The first counter means 22 ′ can also count the sentences and number them in the order of the text, the number assigned to a sentence acting as an index so as to transfer, sentence by sentence and in ascending order of the indexes , the sentences segmented into a first queue 23 of the first-in-first-out (FIFO) type or, preferably, with sorting key and priority. On command of a second signal H delivered by said second clock means 21, a sentence from said queue 23 is introduced into cutting means 24, also known by the name of tokenization, intended to cut a given sentence in words or, more generally, in elementary lexical units by inserting end-of-word indicators after each recognized space between the words in the sentence. " This indicator consists of the word start and end numbers counted in the full short text. It is determined from second counter means 24 'possibly associated with the first counter means 22', and which can index each word by the number of the word in the sentence. The resulting index makes it possible to transfer, word by word, and in the order of the indexes, the words recognized in a second queue 25 of the first-in-first-out (FIFO) type or, preferably with sorting key and priority A third control signal H from said second clock means 21 authorizes the transfer of the words of a sentence stored in the second queue 25, word after word, to means of morphological and morphosyntactic analysis 26. In the XeLDA® linguistic engine of the company TEMIS, already cited above, deterministic finite state automata associated with lexicons implement a morpho logical and morpho-syntactic analysis of to recognize for each word the standardized form (lemma in basic form) and all the categories grammatical exact of a word according to its close context, ie according to one or two word (s) before him or after him. By these means, it is also possible to deal with the problems associated with the recognition of capital letters, poorly accented words, certain abbreviations, etc. The removal of certain ambiguities is resolved using said means 26 such as, for example, the word of a sentence "planes" which can have two meanings, one coming from the verb to have (we had) and the other being the name planes in the plural. To better illustrate the different steps implemented in the different modules, it is possible to consider the following example of short text (one sentence) written in French and concerning the real estate field: "Nds Nantes Center 200 keuros FAC F2 Recent 38 m 2 bedroom, kitsch, parkg, inteiph, Tel 06 84 20 68 04 ". A separation of the words by the cutting means 24 leads to the series of recognized words, introduced into the second queue 25 and indicated in the first column of table 1 below.
TABLEAU 1TABLE 1
Après découpage (24) Après analyse (26) Fiche d'AnalyséAfter cutting (24) After analysis (26) Analysis sheet
MOT MOT ET ATTRIBUT (S) Vds Vendre verbe Nantes Nantes nom-propre Centre Centre nom-singulier 200 200 nombre keuros keuro unité FAC FAC mot inconnu • F2 F2 mot inconnu Récent Récent adjectif 38 38 nombre m m unité Chambre chambre nom-singulier kitch kitch mot inconnu parkg parkg mot inconnu Tel Tel mot inconnu 0684206804 0684206804 nombreWORD WORD AND ATTRIBUTE (S) Vds Sell verb Nantes Nantes proper name Center Center singular name 200 200 number keuros keuro unit FAC FAC unknown word • F2 F2 unknown word Recent Recent adjective 38 38 number mm unit Bedroom bedroom singular name kitsch kitsch unknown word parkg parkg unknown word Tel Tel unknown word 0684206804 0684206804 number
La seconde colonne du tableau 1 intitulée "MOT ET ATTRTBUT(S)" présente les résultats de l'analyse réalisée par les moyens 26 qui associent à chaque mot un ou plusieurs attributs représentant les catégories grammaticales identifiées. Cette seconde colonne qui constitue une fiche d'analyse (FA) est d'abord stockée dans une troisième file d'attente FIFO 27 ou, de préférence, avec clé de tri et priorité, avant d'être mémorisée sur commande d'un quatrième signal d'horloge H dans des seconds moyens de mémoire 28 à des fins d'archivage intermédiaire, d'études ultérieures ou de reprise du processus vers le troisième module 30 décrit ci-dessous en relation avec la figure 3. La figure 3 représente un schéma fonctionnel du troisième module 30 dit d'extraction des informations. L'élément fondamental de ce module 30 est le dispositif d'extraction 31 constitué d'une pluralité d'automates et de transducteurs d'état fini résultant d'une compilation de données lexicales et de règles d'extraction. Ces données lexicales et ces règles d'extraction sont déterminées pour un domaine spécifique. Le système devra donc posséder au moins un tel dispositif d'extraction par domaine susceptible d'être concerné par le texte court reçu et que le gestionnaire du serveur souhaite pouvoir traiter. Un serveur d'extraction d'information approprié pour s'adapter au mode préféré de réalisation de l'invention concerne l'outil mis au point par la Société TEMIS, intitulé Insight Discover™ Extractor. L'extraction de l'information se fait à partir des mots et de leurs attributs associés rassemblés dans ladite fiche d'analyse (FA), l'identification de l'information portée par chacun desdits mots et des attributs associés se traduisant par la définition de nouveaux attributs et convertissant ainsi chaque fiche d'analyse en une nouvelle fiche désignée par "fiche préliminaire" FP. Cette conversion est illustrée dans le Tableau 2 ci-dessous qui représente une fiche préliminaire établie dans le cas de l'exemple considéré précédemment. TABLEAU 2 - Fiche PréliminaireThe second column of table 1 entitled "WORD AND ATTRTBUT (S)" presents the results of the analysis carried out by the means 26 which associate with each word one or more attributes representing the grammatical categories identified. This second column which constitutes an analysis sheet (FA) is first stored in a third FIFO queue 27 or, preferably, with sorting key and priority, before being stored on command of a fourth clock signal H in second memory means 28 for the purposes of intermediate archiving, subsequent studies or resumption of the process towards the third module 30 described below in relation to FIG. 3. FIG. 3 represents a block diagram of the third module 30 known as information extraction. The fundamental element of this module 30 is the extraction device 31 consisting of a plurality of automata and finite state transducers resulting from a compilation of lexical data and extraction rules. These lexical data and these extraction rules are determined for a specific domain. The system must therefore have at least one such extraction device per domain likely to be affected by the short text received and which the server manager wishes to be able to process. An information extraction server suitable for adapting to the preferred embodiment of the invention relates to the tool developed by the company TEMIS, entitled Insight Discover ™ Extractor. The information is extracted from the words and their associated attributes gathered in said analysis sheet (FA), the identification of the information carried by each of said words and associated attributes resulting in the definition. new attributes and thus converting each analysis file into a new file designated by "preliminary file" FP. This conversion is illustrated in Table 2 below which represents a preliminary file established in the case of the example considered above. TABLE 2 - Preliminary sheet
MOTS NOUVEAUX ATTRIBUTS Vendre = \ Objet \ Vendre Nantes = ' \ Ville \ Nantes Centre = \ Localisation \ Centre ville 200 keuro . \ Prix \ 200 keuro FAC \ Frais d'agence \ inclus F2 \ Type \ F2 Récent = \ Période de construction \ récent 38 m2 \ Surface \ 38 m2 Chambre = \ Nombre de Chambre \ 1 kitch \ kitchenette \ oui parkg • * = \ parking \ oui tel 0684206804 = \ téléphone \ portable \ 0684206804NEW WORDS ATTRIBUTES Sell = \ Object \ Sell Nantes = ' \ City \ Nantes Center = \ Location \ Center ville 200 keuro. \ Price \ 200 keuro FAC \ Agency fees \ included F2 \ Type \ F2 Recent = \ Construction period \ recent 38 m 2 \ Surface \ 38 m 2 Bedroom = \ Number of Bedrooms \ 1 kit \ kitchenette \ yes parkg • * = \ parking \ yes tel 0684206804 = \ telephone \ mobile \ 0684206804
Chaque fiche préliminaire est stockée dans des troisièmes moyens de mémoire 32 qui peuvent être constitués d'une mémoire associative dont les positions de mémoire sont identifiées par leur contenu, la clé de recherche associée à chaque donnée enregistrée étant le mot binaire de la cellule Cti caractéristique de la i e phrase du texte correspondant lui-même à la cellule Ct, cette clé Cti restant invariante à travers les processus décrits ci-dessus. A partir d'un dispositif d'extraction spécifique d'un domaine, il est possible de constituer une fiche type (FT) sous forme d'une base de données élémentaire vide d'enregistrement et ne contenant que des noms de champ qui sont de deux types : un premier type de champ pour définir l'objet du texte et une pluralité d'autres champs de second type définissant les paramètres liés à cet objet. Pour reprendre l'exemple de l'immobilier déjà considéré, on peut définir le champ objet qui sera Vendre, on peut définir dans les champs suivants tous les paramètres qui peuvent se rapporter au produit en vente, à savoir, lieu, prix, surface, type, nombre de pièces, présence de parking, de piscine, de balcon, etc.... Cette fiche type constitue une base de données élémentaire appartenant à un système de bases de données 33 rassemblant des fiches types provenant d'un ou de plusieurs dispositifs d'extraction 31', 31" et pouvant rassembler des fiches appartenant à des domaines différents mais pouvant présenter certains noms de champ communs. Enfin, la construction d'une quatrième fiche dite "fiche caractéristique" (FC) permettra d'exploiter le système décrit. Cette fiche caractéristique résulte de la création d'un enregistrement dans la fiche type en remplissant les champs qui se retrouvent dans une fiche préliminaire FP. En considérant l'exemple déjà mentionné, le tableau 3 ci-dessous décrit la fiche caractéristique créée en utilisant les moyens de chargement 34 des données d'une fiche préliminaire dans une fiche type (FT) appropriée présente dans la mémoire vive du système de bases de données 33. TABLEAU 3 - Fiche CaractéristiqueEach preliminary file is stored in third memory means 32 which can be made up of an associative memory whose memory positions are identified by their content, the search key associated with each recorded data being the binary word of the characteristic Cti cell of the i th sentence of the text itself corresponding to the cell Ct, this key Cti remaining invariant through the processes described above. From a domain-specific extraction device, it is possible to constitute a standard form (FT) in the form of an elementary database empty of registration and containing only field names which are of two types: a first type of field to define the object of the text and a plurality of other fields of second type defining the parameters linked to this object. To take the example of the real estate already considered, we can define the object field which will be Sell, we can define in the following fields all the parameters which can relate to the product on sale, namely, place, price, surface, type, number of rooms, presence of parking, swimming pool, balcony, etc ... This standard sheet constitutes an elementary database belonging to a database system 33 gathering standard files coming from one or more extraction devices 31 ', 31 "and being able to gather files belonging to different fields but which can present certain common field names. the construction of a fourth record called "characteristic record" (FC) will make it possible to use the system described. This characteristic record results from the creation of a record in the standard record by filling in the fields found in a preliminary FP record Considering the example already mentioned, table 3 below describes the characteristic sheet created by using the means 34 for loading data from a preliminary sheet into a The appropriate standard form (FT) present in the RAM of the database system 33. TABLE 3 - Characteristic form
OBJET : Vendre PARAMETRES : Ville Nantes Localisation = Centre Ville Prix 200 keuro Frais d'agence = inclus Type F2 Période de construction = Récente Surface = 38 m2 Nombre de chambre = 1 Kitchenette = oui Parking = oui Téléphone portable = 0684206804OBJECT: Sell PARAMETERS: City Nantes Location = City Center Price 200 keuro Agency fees = included Type F2 Construction period = Recent Surface = 38 m 2 Number of bedrooms = 1 Kitchenette = yes Parking = yes Cell phone = 0684206804
Des quatrièmes moyens de file d'attente avec priorité 35 stockent temporairement des fiches caractéristiques et les délivrent, soit à des quatrièmes moyens de mémoire 36 constitués comme les troisièmes moyens de mémoire 32 d'une mémoire associative avec clé de recherche représentée par la cellule Cti, soit au quatrième module 40. Des troisièmes moyens d'horloge 37 sont également prévus pour émettre différents signaux H' de commande d'accès aux différents composants du module 30. La figure 4 représente un schéma fonctionnel du quatrième module 40 dit d'exploitation et de diffusion ciblée. Des quatrièmes moyens de mémoire 36 ou des quatrièmes moyens de file d'attente avec priorité 35, est extraite une fiche caractéristique FCi dont l'ensemble des champs est introduit en parallèle dans un réseau à logique programmable 41. Ce réseau 41 est programmé pour comparer la fiche FCi avec un ensemble de fiches caractéristiques présélectionnées et extraites de la mémoire 36 par les moyens de sélection 42 et stockées finalement dans une table à consulter 43 qui fonctionne avec ledit réseau 41. Lorsqu'une fiche caractéristique présélectionnée présente des champs de même valeur que ceux de la fiche FCi ou vérifient une relation préétablie et introduite dans la programmation du réseau 41, une des sorties du réseau 41 fournit les données de la fiche caractéristique présélectionnée en coïncidence avec la fiche FCi, ces données étant alors stockées dans des seconds moyens de registre 44. Le nombre de coïncidences est obtenu à partir d'un compteur 47 qui peut indiquer, ainsi, le nombre de fiches qui répondent positivement à une comparaison avec la fiche FCi. Des moyens de balayage 45 suivent l'ensemble des registres 44 et transfèrent chaque fiche caractéristique identifiée comme répondant positivement dans des cinquièmes moyens de file d'attente avec priorité 46 à des fins de stockage temporaire avant, soit de les mémoriser dans des cinquièmes moyens de mémoire 49 constitués, par exemple, d'une mémoire associative comme les moyens de mémoire 32, soit de les diffuser par les moyens de diffusion 48. Ces derniers équipés de moyens de décodage 48' et de conversion 48" peuvent transmettre à l'utilisateur émetteur du texte court, ou à tous autres destinataires autorisés, en langage clair, le contenu des fiches caractéristiques identifiées comme des réponses positives. Cette diffusion est correctement ciblée car la cellule Cti associée, récupérée dans les mémoires 49 ou 36, indique les caractéristiques de l'utilisateur émetteur et le support de communications à sélectionner. Les moyens 48, 48', 48" peuvent être regroupés avec les moyens 7, T,Fourth queue means with priority 35 temporarily store characteristic files and deliver them, either to fourth memory means 36 constituted as the third memory means 32 of an associative memory with search key represented by the cell Cti, ie in the fourth module 40. Third clock means 37 are also provided for transmitting different signals H 'of access control to the various components of the module 30. FIG. 4 represents a functional diagram of the fourth module 40 known as targeted operation and dissemination. From the fourth memory means 36 or from the fourth queue means with priority 35, a characteristic file FCi is extracted from which all of the fields are introduced in parallel into a programmable logic network 41. This network 41 is programmed to compare the FCi file with a set of preselected characteristic files and extracted from the memory 36 by the selection means 42 and finally stored in a look-up table 43 which operates with said network 41. When a preselected characteristic file has fields of the same value that those of the FCi file or verify a preestablished relationship and introduced into the programming of the network 41, one of the outputs of the network 41 provides the data of the preselected characteristic file in coincidence with the FCi file, this data then being stored in second means 44. The number of coincidences is obtained from a counter 4 7 which can thus indicate the number of files which respond positively to a comparison with the FCi file. Scanning means 45 follow all of the registers 44 and transfer each characteristic record identified as responding positively into fifth queue means with priority 46 for the purpose of temporary storage before, that is to store them in fifth means of memory 49 made up, for example, of an associative memory like the memory means 32, that is to say to diffuse them by the diffusion means 48. The latter equipped with decoding means 48 ′ and conversion 48 ″ can transmit to the user sender of the short text, or to all other authorized recipients, in plain language, the content of the characteristic sheets identified as positive responses. This broadcast is correctly targeted because the associated Cti cell, retrieved from memories 49 or 36, indicates the characteristics of the sending user and the communications medium to be selected. The means 48, 48 ', 48 "can be grouped with the means 7, T,
7". Des quatrièmes moyens d'horloge 50 permettent d'horodater la transmission des réponses à l'utilisateur et d'émettre, comme pour les modules précédents, des signaux H" de commande des accès à différents composants du quatrième module 40. En poursuivant la description de l'exemple considéré précédemment, il est possible d'illustrer un avantage supplémentaire du système et du procédé selon l'invention. En effet, dans l'application au traitement automatique des petites annonces dont le contenu concerne des demandes ou des offres de produits ou de services, l'exemple considéré susdit est très représentatif du domaine de l'immobilier. Le tableau 3 indique que l'objet de l'annonce est une Vente (vendre), c'est à dire une offre, et l'objet complémentaire, c'est à dire une demande, sera un Achat (acheter). Les autres champs du tableau 3 représentent les paramètres du produit à vendre. Le procédé consiste à : présenter la fiche caractéristique (FCi) Vente à l'entrée du réseau à logique programmable 41, sélectionner 42 dans la mémoire 36 toutes les fiches caractéristiques dont l'objet est complémentaire, à savoir des fiches d'objet = Achat qui seront utilisées à des fins de comparaison par l'intermédiaire du réseau 41 fonctionnant en liaison avec la table à consulter 43, comparer dans ledit réseau 41 tous les champs de paramètres des fiches Achat avec ceux de la fiche Vente, stocker en sortie du réseau 41 les fiches Achat dont les valeurs des paramètres coïncident avec toutes les valeurs des paramètres de la fiche Vente, les fiches Achat ainsi identifiées constituant les réponses positives à la comparaison seront à diffuser à l'utilisateur émetteur ou à tous autres destinataires autorisés de la fiche Vente sur le support de communications approprié. A partir du dispositif d'extraction 31 spécifique du domaine immobilier, il est possible d'extraire une fiche type (FT) contenant tous les champs de paramètres imaginables pouvant décrire et qualifier un produit immobilier. Une telle fiche type sera utilisée dans deux cas particuliers. 1/ La comparaison conduit à un nombre de réponses positives trop élevé, c'est à dire qu'il devient difficile pour le vendeur de faire le tri dans, par exemple, une centaine de demandes d'achat. Dans ce cas, on transmet à l'annonceur utilisateur du système, par les moyens 48, la liste des champs de paramètres afin qu'il complète des paramètres non définis dans sa première annonce ou qu'il modifie dans un sens plus restrictif certaines valeurs de paramètre. Ces paramètres modifiés ou supplémentaires créent une nouvelle fiche caractéristique FCi qui comporte, en conséquence, plus de champs de paramètre. Une réponse positive devra ainsi satisfaire à un plus grand nombre de valeurs identiques de paramètres et limitera, de ce fait, le nombre de réponses positives. Un nombre maximal prédéterminé de réponses peut être introduit dans les moyens de compteur 47 qui, dès l'obtention de ce nombre maximal, arrêteront le processus du réseau 41 et activeront simultanément une commande de transmission d'une fiche type vers l'annonceur.7 ". Fourth clock means 50 make it possible to time stamp the transmission of the responses to the user and to transmit, as for the preceding modules, signals H" for controlling access to different components of the fourth module 40. In Continuing the description of the example considered above, it is possible to illustrate an additional advantage of the system and the method according to the invention. Indeed, in the application to the automatic processing of classified ads whose content relates to requests or offers for products or services, the example considered above is very representative of the real estate field. Table 3 indicates that the object of the advertisement is a Sale (sell), ie an offer, and the complementary object, ie a request, will be a Purchase (buy). The other fields in Table 3 represent the parameters of the product to be sold. The method consists in: presenting the characteristic file (FCi) Sale at the input of the programmable logic network 41, selecting 42 in memory 36 all the characteristic files whose object is complementary, namely object files = Purchase which will be used for comparison purposes via the network 41 operating in conjunction with the look-up table 43, compare in said network 41 all the parameters fields of the Purchase files with those of the Sale file, store at the output of the network 41 the Purchase files whose parameter values coincide with all the parameters of the Sale file parameters, the Purchase files thus identified constituting the positive responses to the comparison will be distributed to the sending user or to all other authorized recipients of the Sale sheet on the appropriate communications medium. From the extraction device 31 specific to the real estate field, it is possible to extract a standard form (FT) containing all the fields of parameters imaginable that can describe and qualify a real estate product. Such a standard form will be used in two special cases. 1 / The comparison leads to too many positive responses, which means that it becomes difficult for the seller to sort through, for example, a hundred purchase requests. In this case, the list of parameter fields is transmitted to the advertiser user of the system, by means 48, so that he completes parameters not defined in his first announcement or that he modifies certain values in a more restrictive sense. parameter. These modified or additional parameters create a new FCi characteristic file which consequently includes more parameter fields. A positive response will thus have to satisfy a greater number of identical parameter values and will therefore limit the number of positive responses. A predetermined maximum number of responses can be introduced into the counter means 47 which, as soon as this maximum number is obtained, will stop the process of the network 41 and simultaneously activate a command to transmit a standard form to the advertiser.
2/ La comparaison conduit à l'absence de réponse positive. Dans ce cas, on demandera par les mêmes moyens que précédemment à l'utilisateur de supprimer des paramètres ou de modifier dans un sens moins restrictif les valeurs de certains champs de paramètre afin de présenter une nouvelle fiche caractéristique FCi et augmenter ainsi la probabilité de trouver au moins une réponse positive en sortie du réseau à logique programmable. Les modifications, les ajouts ou les retraits de valeurs de paramètres peuvent faire l'objet de plusieurs étapes sous forme de processus en boucle permettant de rechercher l'adaptation optimale entre l'offre et la demande. Ce procédé de traitement des petites annonces est très bien adapté à l'utilisation des réseaux de téléphonie fixe ou mobile en tant que support de communications, la transformation en données numériques du texte court étant réalisée, dans ce cas, à l'aide d'un serveur vocal classique. Plusieurs modifications ou variantes sont susceptibles d'être apportées au mode préféré de réalisation de l'invention décrit ci-dessus, mais elles restent dans le champ de l'invention précisé par les revendications jointes. 2 / The comparison leads to the absence of a positive response. In this case, the user will be asked by the same means as before to delete parameters or to modify in a less restrictive sense the values of certain parameter fields in order to present a new characteristic file FCi and thus increase the probability of finding at least one positive response at the output of the programmable logic network. Modifications, additions or withdrawals of parameter values can be the subject of several stages in the form of a loop process making it possible to seek the optimal adaptation between supply and demand. This method of processing classified ads is very well suited to the use of fixed or mobile telephone networks as a support for communications, the transformation of the short text into digital data being carried out, in this case, using a conventional voice server. Several modifications or variants may be made to the preferred embodiment of the invention described above, but they remain within the scope of the invention specified by the appended claims.

Claims

REVENDICATIONS
1. Système automatique d'extraction et de traitement des informations portées par des textes courts accompagnés, ou non, de données audio et/ou vidéo et/ou photographiques, transmis sur tous supports de communications et de diffusion ciblée sur tous supports de communications des résultats de recherche de relations entre ces informations ou de comparaisons établies entre elles, caractérisé en ce que ledit système est rendu automatique par la mise en oeuvre d'un serveur équipé d'un microprocesseur qui commande et organise la combinaison des modules suivants, comprenant : A/ au moins un premier module (1), dit de réception et de précodage, comprenant : - des moyens de récepteur (2) destinés à recevoir, de façon continue ou non, une pluralité de textes courts transmis sur un quelconque support de communications, chacun d'entre eux étant associé à un premier code (code 1) identifiant l'utilisateur émetteur d'un texte court, et codé en binaire par des premiers moyens de codeur (4') - des seconds moyens de codeur binaire (2') destinés à identifier sous forme codée (code 2) la nature du support de communications acheminant ledit texte court, - des moyens de numérisation (A/N) connectés aux moyens de récepteur et destinés à numériser les contenus desdits textes courts non préalablement numérisés par le mode de transmission, - des premiers moyens d'horloge (3) associés à des troisièmes moyens de codeur binaire (3') destinés à coder (code 3) des données d'horodatage concernant la réception desdits textes courts, - des moyens d'identification et d'authentification (4) de l'émetteur dudit texte court par vérification du premier code (code 1) qui y est associé, - des moyens de reconnaissance de la langue (5) dans laquelle ledit texte court est écrit, associés à des quatrièmes moyens de codeur binaire (5') pour identifier sous forme codée (code 4) la langue reconnue, - des moyens de reconnaissance du domaine (6) concerné par le contenu dudit texte court, associés à des cinquièmes moyens de codeur binaire (6') pour identifier, sous forme codée (code 5), le domaine reconnu, - une pluralité de bases de données (11) connectée respectivement aux moyens d'identification (4), aux moyens de reconnaissance de la langue (5) et du domaine (6), - des premiers moyens de registre (10) recevant les différents codes (code 1 à code 5), de façon à constituer, sous forme d'un mot binaire, une cellule (Ct) établie pour être associée en permanence à un et un seul texte court reçu, - des moyens de concaténation (12) -de chaînes binaires destinés à ajouter la cellule (Ct) à la chaîne de sortie des moyens de reconnaissance de domaine (6), pour obtenir une chaîne unique regroupant texte court et cellule (Ct), - des moyens de transmission (7), en retour vers l'utilisateur émetteur d'origine (13), du texte court reçu par le serveur, converti en langage clair par des moyens de conversion (7") et accompagné de la cellule (Ct) associée, cette dernière étant décodée dans des moyens de décodeur (7'), - des moyens de validation (13') dépendant du support de communications utilisé et destinés à délivrer un signal de validation (V) généré par ledit utilisateur émetteur de texte court en réponse à son approbation du texte et de la cellule (Ct) qui lui ont été retransmis, toute modification de la cellule (Ct) devenant impossible après ladite validation, - des moyens de circuit logique (8) recevant en première entrée la chaîne unique produite par les moyens de concaténation (12) et ne pouvant délivrer en sortie cette même chaîne que si le signal de validation (V) est appliqué en seconde entrée, - des premiers moyens de mémoire (9) destinés à stocker ladite chaîne unique produite par les moyens de concaténation (12) regroupant texte court.et cellule (Ct), l'accès aux dits premiers moyens de mémoire étant commandés par lesdits moyens de circuit logique (8) ; B/ au moins un second module (20), dit de prétraitement des textes, comprenant: - des moyens de segmentation (22) destinés à séparer les phrases formant ledit texte court et associés à des premiers moyens de compteur (22') réservés à la numérotation des différentes phrases reconnues et à la numérotation de chaque caractère utilisé pour former ces phrases dudit texte court, - des moyens de découpage (24) destinés à séparer les mots d'une phrase reconnue, et associés à des seconds moyens de compteur (24') réservés à la numérotation attribuée à chacun des caractères de début et de fin de chaque mot par rapport à l'ensemble des mots identifiés dans une phrase reconnue, - des moyens d'analyse morphologique et morpho -syntaxique (26) de tous les mots identifiés d'une phrase, destinés à transformer chaque mot identifié en sa forme normalisée (lemme) et à lui associer des attributs liés à sa catégorie grammaticale exacte en fonction de son contexte proche, - des premiers moyens de file d'attente (23) destinés à stocker les différentes phrases identifiées et numérotées en sortie desdits moyens de segmentation (22), - des seconds moyens de file d'attente (25) destinés à stocker les différents mots identifiés dont les caractères ont été numérotés en sortie desdits moyens de découpage (24), - des troisièmes moyens de file d'attente (27) destinés à stocker les mots identifiés normalisés et leurs attributs associés en sortie desdits moyens d'analyse morphologique et morpho-syntaxique (26), - des seconds moyens de mémoire (28) destinés à stocker en sortie des troisièmes moyens de file d'attente (27) une pluralité de fiches d'analyse (FA) constituées, chacune, des mots identifiés normalisés et de leurs attributs associés correspondant à une phrase donnée, chaque fiche d'analyse (FA) étant accompagnée de la cellule (Ct) correspondant audit texte court d'origine, cette dernière étant invariante au cours des traitements cités, - des seconds moyens d'horloge (21) destinés à délivrer, selon des séquences pré-programmées, des signaux de commande d'accès (H), respectivement, aux différents moyens de traitement (22, 24, 26) et de mémoire (28) ; Cl au moins un troisième module (30), dit d'extraction des informations, comprenant : - une pluralité de dispositifs d'extraction des informations (31), chacun étant spécifique d'un domaine, ces dispositifs (31) étant destinés à transformer les attributs associés à chaque mot de la fiche d'analyse (FA) en de nouveaux attributs identifiant l'information portée par chaque mot, convertissant ainsi chaque fiche, d'analyse (FA) en une fiche préliminaire (FP), - des troisièmes moyens de mémoire (32) destinés à stocker lesdites fiches préliminaires (FP) et leur cellule (Ct) associée qui reste invariante en traversant un dispositif d'extraction (31) quelconque, - au moins un système de bases de données (33) comportant, pour chaque domaine spécifique traité par un dispositif d'extraction (31) donné, une base élémentaire de données, vide d'enregistrement, constituée uniquement d'une pluralité de noms de champ qui définit une fiche type (FT), le système de bases de données1. Automatic system for extracting and processing information carried by short texts, whether or not accompanied by audio and / or video and / or photographic data, transmitted on all communications media and targeted dissemination on all communications media of search results for relationships between these pieces of information or for comparisons established between them, characterized in that said system is made automatic by the use of a server equipped with a microprocessor which controls and organizes the combination of the following modules, comprising: A / at least a first module (1), called reception and precoding module, comprising: - receiver means (2) intended to receive, continuously or not, a plurality of short texts transmitted on any communication medium , each of them being associated with a first code (code 1) identifying the user sending a short text, and coded in binary by first means s coder (4 ') - second binary coder means (2') intended to identify in coded form (code 2) the nature of the communications medium carrying said short text, - digitization means (A / D) connected to the receiver means and intended to digitize the contents of said short texts not previously digitized by the transmission mode, - first clock means (3) associated with third binary coder means (3 ') intended to code (code 3 ) time stamping data concerning the reception of said short texts, - means of identification and authentication (4) of the sender of said short text by checking the first code (code 1) associated therewith, - means recognition of the language (5) in which said short text is written, associated with fourth binary coder means (5 ') for identifying in coded form (code 4) the recognized language, - means for recognizing the domain (6) concerned by the content of said short text, associated with fifth binary coder means (6 ') for identifying, in coded form (code 5), the recognized domain, - a plurality of bases data (11) connected respectively to the identification means (4), to the language recognition means (5) and the domain (6), - first register means (10) receiving the different codes (code 1 to code 5), so as to constitute, in the form of a binary word, a cell (Ct) established to be permanently associated with one and only one short text received, - means of concatenation (12) -binary strings intended adding the cell (Ct) to the output chain of the domain recognition means (6), to obtain a single chain combining short text and cell (Ct), - transmission means (7), back to the original sending user (13), short text received by the server, converted to lang clear age by conversion means (7 ") and accompanied by the associated cell (Ct), the latter being decoded in decoder means (7 '), - validation means (13') depending on the communications medium used and intended to deliver a validation signal (V) generated by said user sending short text in response to his approval of the text and the cell (Ct) which have been retransmitted to him, any modification of the cell (Ct) becoming impossible after said validation, - logic circuit means (8) receiving as a first input the single chain produced by the concatenation means (12) and being able to output this same chain only if the validation signal (V) is applied in second input, - first memory means (9) intended to store said single chain produced by the concatenation means (12) grouping short text and cell (Ct), access to said first memory means being controlled by said logic circuit means (8); B / at least one second module (20), called text preprocessing module, comprising: - segmentation means (22) intended to separate the sentences forming said short text and associated with first counter means (22 ') reserved for the numbering of the different recognized sentences and the numbering of each character used to form these sentences of said short text, - cutting means (24) intended to separate the words of a recognized sentence, and associated with second counter means (24 ') reserved for the numbering assigned to each of the beginning and end characters of each word in relation to all of the words identified in a recognized sentence, - means of morphological and morpho-syntactic analysis (26) of all identified words of a sentence, intended to transform each identified word into its normalized form (lemma) and to associate attributes linked to its exact grammatical category according to its immediate context, - first means of queuing (23 ) intended to store the different phrases identified and numbered at the output of said segmentation means (22), - second queue means (25) intended to store the differences ent identified words whose characters have been numbered at the output of said cutting means (24), - third queue means (27) intended to store the identified identified words and their associated attributes at the output of said morphological analysis means and morpho-syntactic (26), - second memory means (28) intended to store at the output of the third queue means (27) a plurality of analysis files (FA) each made up of identified words standardized and their associated attributes corresponding to a given sentence, each analysis sheet (FA) being accompanied by the cell (Ct) corresponding to said original short text, the latter being invariant during the cited treatments, - second means clock (21) intended to deliver, according to pre-programmed sequences, access control signals (H), respectively, to the different processing means (22, 24, 26) and memory (28); C1 at least a third module (30), called information extraction module, comprising: - a plurality of information extraction devices (31), each being specific to a field, these devices (31) being intended to transform the attributes associated with each word in the analysis form (FA) into new attributes identifying the information carried by each word, thus converting each analysis form (FA) into a preliminary form (FP), - third means memory (32) intended for storing said preliminary files (FP) and their associated cell (Ct) which remains invariant while passing through any extraction device (31), - at least one database system (33) comprising, for each specific domain processed by a given extraction device (31), an elementary database, void of recording, made up solely of a plurality of field names which defines a standard form (FT), the basic system of data
(33) comportant également son système de gestion et son dispositif de mémorisation, - des moyens de chargement (34) des données contenues dans une fiche préliminaire (FP), dans ladite base élémentaire de données, les nouveaux attributs de ladite fiche préliminaire (FP) correspondant aux noms de champ de la fiche type (FT) associée, le résultat étant l'établissement d'une fiche caractéristique (FC) organisée de façon prédéterminée et destinée à identifier l'objet et ses paramètres associés de l'information portée par chaque phrase d'un texte court reçu, - des quatrièmes moyens de file d'attente (35) destinés à stocker de façon temporaire lesdites fiches caractéristiques (FC) issues dudit système de bases de données (33), - des quatrièmes moyens de mémoire (36) connectés aux quatrièmes moyens de file d'attente (35) et destinés à stocker de façon permanente lesdites fiches caractéristiques (FC) et les cellules (Ct) associées, - des troisièmes moyens d'horloge (37) destinés à délivrer, selon une séquence pré-programmée, des signaux de commande (H1) des accès, respectivement, à la pluralité de dispositifs d'extraction (31), audit système de bases de données et aux dits quatrièmes moyens de mémoire (36) ; D/ au moins un quatrième module (40), dit d'exploitation et de diffusion ciblée, comprenant : - des moyens de sélection (42), connectés aux quatrièmes moyens de mémoire (36) destinés à sélectionner une ou plusieurs fiche(s) caractéristique(s) (FC) et à les transférer dans une table à consulter (43), - au moins un réseau à logique programmable (41) destiné à comparer sur des critères préprogrammés une fiche caractéristique courante (FCi) provenant, soit des quatrièmes moyens de file d'attente (35), soit des quatrièmes moyens de mémoire (36) avec une ou plusieurs autre(s) fiche(s) caractéristique(s) (FC) présente(s) dans ladite table à consulter (43) et à délivrer en sortie le contenu de la (ou des) fiche(s) caractéristique(s) identifiée(s) comme répondant positivement à ladite comparaison, - des seconds moyens de registre (44) destinés, chacun, à stocker temporairement le contenu d'une fiche caractéristique (FC) identifiée comme répondant positivement à ladite comparaison et délivrée par ledit réseau à logique programmable (41), - des moyens de balayage (45) destinés à analyser successivement les sorties respectives desdits moyens de registre (44) et à transférer les contenus de ces derniers (44), - des cinquièmes moyens de file d'attente (46) destinés à stocker temporairement les fiches caractéristiques (FC) identifiées positivement provenant desdits moyens de balayage (45), - des troisièmes moyens de compteur (47) connectés aux dits seconds moyens de registre (44) et destinés à compter le nombre de fiches caractéristiques (FC) identifiées comme répondant positivement à la comparaison exécutée par ledit réseau à logique programmable (41), - des cinquièmes moyens de mémoire (49) destinés à stocker à des fins de sauvegarde, d'archivage ou d'études ultérieures, les fiches caractéristiques (FC) identifiées délivrées par les cinquièmes moyens de file d'attente (46) ainsi que les cellules (Ct) associées, - des moyens de diffusion (48) destinés à une diffusion ciblée sur le support de communication approprié des fiches caractéristiques identifiées positivement provenant, dans un ordre préprogrammé, des cinquièmes moyens de file d'attente (46) ou des cinquièmes moyens de mémoire (49), ces moyens de diffusion (48) étant équipés de moyens de décodage (48') et de conversion (48") des données numériques, ces derniers moyens (48', 48") s'appliquant au contenu des fiches caractéristiques (FC) identifiées positivement et aux cellules (Ct) associées, - des quatrièmes moyens d'horloge (50) destinés à horodater la diffusion ciblée exécutée par lesdits moyens de diffusion (48) et à délivrer des signaux de commande (H") d'accès, respectivement, audit réseau à logique programmable (41), aux dits moyens de balayage (45), aux dits moyens de diffusion (48) et aux dits cinquièmes moyens de mémoire (49).(33) also comprising its management system and its storage device, - means for loading (34) the data contained in a preliminary file (FP), in said elementary database, the new attributes of said preliminary file (FP ) corresponding to the field names of the associated standard form (FT), the result being the establishment of a characteristic form (FC) organized in a predetermined manner and intended to identify the object and its associated parameters of the information carried by each sentence of a short text received, - fourth queue means (35) intended for temporarily storing said characteristic files (FC) originating from said database system (33), - fourth memory means (36) connected to the fourth queue means (35) and intended to permanently store said characteristic sheets (FC) and the associated cells (Ct), - third means ns of clock (37) intended to deliver, according to a preprogrammed sequence, control signals (H 1 ) of the accesses, respectively, to the plurality of extraction devices (31), to said database system and said fourth memory means (36); D / at least a fourth module (40), called exploitation and targeted distribution module, comprising: - selection means (42), connected to the fourth memory means (36) intended to select one or more file (s) characteristic (s) (FC) and to transfer them to a consultation table (43), - at least one programmable logic network (41) intended to compare on preprogrammed criteria a current characteristic sheet (FCi) coming either from the fourth queue means (35), or from the fourth memory means (36) with one or more other characteristic record (s) (FC) present in said consult table (43) and to output the content of the characteristic record (s) ) identified as responding positively to said comparison, - second register means (44) each intended to temporarily store the content of a characteristic file (FC) identified as responding positively to said comparison and delivered by said network with programmable logic (41), - scanning means (45) intended to successively analyze the respective outputs of said register means (44) and to transfer the contents of the latter (44), - fifth queue means (46) intended to temporarily store the positively identified characteristic files (FC) coming from said scanning means (45), - third counter means (47) connected to said second register means (44) and intended to count the number of characteristic files ( FC) identified as responding positively to the comparison carried out by said programmable logic network (41), - fifth memory means (49) intended for storing, for backup, archiving or later studies, the characteristic sheets (FC) identified delivered by the fifth queue means (46) as well as the associated cells (Ct), - dissemination means (48) intended for targeted distribution on the appropriate communication medium of the positively identified characteristic sheets coming, in a preprogrammed order, from the fifth queue means (46) or from the fifth memory means (49), these means broadcasting (48) being equipped with decoding (48 ') and conversion (48 ") means for digital data, the latter means (48', 48") applying to the content of the characteristic files (FC) positively identified and associated cells (Ct), - fourth clock means (50) intended to time stamp the targeted broadcasting executed by said broadcasting means (48) and to deliver control signals (H ") for accessing, respectively, said programmable logic network (41) , said scanning means (45), said broadcasting means (48) and said fifth memory means (49).
2. Système selon la revendication 1, caractérisé, de plus, en ce que lesdits moyens de reconnaissance de la langue (5) mettent en oeuvre un procédé à base de trigrammes et de mots courts.2. System according to claim 1, further characterized in that said language recognition means (5) implement a method based on trigrams and short words.
3. Système selon la revendication 1 ou 2, caractérisé, de plus, en ce que lesdits moyens de reconnaissance du domaine (6) mettent en oeuvre un procédé de catégorisation avec apprentissage.3. System according to claim 1 or 2, further characterized in that said domain recognition means (6) implement a categorization process with learning.
4. Système selon l'une quelconque des revendications précédentes caractérisé, de plus, en ce que le dispositif d'extraction est constitué d'automates et de transducteurs informatiques d'état fini résultant d'une compilation de données lexicales et de règles d'extraction.4. System according to any one of the preceding claims, further characterized in that the extraction device consists of automata and finite state computer transducers resulting from a compilation of lexical data and rules of extraction.
5. Système selon l'une quelconque des revendications précédentes, caractérisé, de plus, en ce que les textes courts, accompagnés ou non de données audio et/ou vidéo et/ou photographiques, sont constitués d'annonces dont le contenu concerne des demandes ou des offres de produits et/ou de services, et en ce que le support de communications est un réseau de téléphonie fixe ou mobile connecté à un serveur vocal classique en tant que moyens de numérisation (A/N).5. System according to any one of the preceding claims, further characterized in that the short texts, whether or not accompanied by audio and / or video and / or photographic data, consist of advertisements whose content relates to requests or offers of products and / or services, and in that the communications medium is a fixed or mobile telephone network connected to a conventional voice server as means of digitization (A / D).
6. Procédé automatique d'extraction et de traitement des informations portées par des textes courts mettant en oeuvre le système selon l'une quelconque des revendications précédentes, caractérisé par les étapes suivantes consistant à : a) entrer en communication avec le module de réception (1) d'un serveur auquel sont transmis un texte court accompagné ou non de données audio et/ou vidéo et/ou photo et un code utilisateur (code 1), ledit module (1) numérisant (A/N), si nécessaire, les données reçues, vérifiant (4) l'identification de l'utilisateur, et horodatant (3) la réception dudit texte court ; b) déterminer la langue (5) et le domaine (6) concernés par ledit texte court reçu; c) faire valider par l'utilisateur le contenu du texte reçu, la langue et le domaine reconnus ; d) séparer les phrases (22) du texte et les mots (24) de chacune des phrases ; e) pratiquer (26) sur chaque mot une analyse morphologique et morphosyntaxique dont le résultat est de produire un mot normalisé auquel est associé un attribut (FA) ; f) extraire à partir de moyens d'extraction (31) spécifiques du domaine reconnu à l'étape b l'information portée par chaque mot associé à son attribut pour convertir ce dernier en un ou plusieurs nouveau(x) attribut(s) parmi lesquels sont reconnus l'objet dudit texte court et les paramètres liés à cet objet ; g) mémoriser (32) chaque mot d'une phrase dudit texte court reçu avec ses nouveaux attributs dans une fiche préliminaire (FP) ; h) obtenir une fiche caractéristique (FC) (33), en créant (34) un enregistrement dans une fiche type (FT) constituée d'un champ objet et d'une pluralité de champs de paramètres à partir des données contenues dans une fiche préliminaire (FP) ; i) mémoriser (36) l'ensemble des fiches caractéristiques (FC) ; j) comparer (41) une ou plusieurs fιche(s) caractéristique(s) (FCi) à une ou plusieurs fiche(s) caractéristique(s) sélectionnée(s) (42, 43) ; k) sortir (44, 45) les résultats de chaque comparaison effectuée et les mémoriser (49) ; 1) diffuser (48) les résultats mémorisés et convertis (48") vers l'utilisateur émetteur dudit texte court reçu ou vers tous autres destinataires autorisés.6. Automatic method for extracting and processing information carried by short texts implementing the system according to any one of the preceding claims, characterized by the following steps consisting in: a) entering into communication with the reception module ( 1) a server to which a short text is transmitted, whether or not accompanied by audio and / or video and / or photo data and a user code (code 1), said module (1) digitizing (A / D), if necessary, the data received, verifying (4) the identification of the user, and time stamping (3) the reception of said short text; b) determine the language (5) and the field (6) concerned by said short text received; c) have the user validate the content of the text received, the language and the recognized domain; d) separating the sentences (22) from the text and the words (24) from each of the sentences; e) practicing (26) on each word a morphological and morphosyntactic analysis the result of which is to produce a standardized word with which an attribute (FA) is associated; f) extract from specific means of extraction (31) of the domain recognized in step b the information carried by each word associated with its attribute to convert the latter into one or more new attribute (s) among which are recognized the object of said short text and the parameters related to this object; g) memorizing (32) each word of a sentence of said short text received with its new attributes in a preliminary file (FP); h) obtain a characteristic file (FC) (33), by creating (34) a record in a standard file (FT) consisting of an object field and a plurality of parameter fields from the data contained in a file preliminary (FP); i) memorize (36) all the characteristic files (FC); j) compare (41) one or more characteristic file (s) (FCi) with one or more selected characteristic file (s) (42, 43); k) output (44, 45) the results of each comparison carried out and store them (49); 1) broadcast (48) the stored and converted results (48 ") to the user sending said short text received or to any other authorized recipients.
7. Procédé automatique selon la revendication 6, caractérisé, de plus, par les étapes supplémentaires consistant à coder en binaire (2', 3', 4', 5', 6'), respectivement, le type de support de communications utilisé pour la transmission dudit texte court reçu, les données d'horodatage de la réception de ce dernier, le code utilisateur, la langue reconnue et le domaine reconnu concernant ledit texte court reçu, pour constituer un mot binaire contenu dans une cellule (Ct, Cti) qui restera associée à un texte court reçu, cette cellule n'étant plus accessible en écriture après validation (V) par l'utilisateur émetteur dudit texte court.7. The automatic method according to claim 6, further characterized by the additional steps of binary coding (2 ', 3', 4 ', 5', 6 '), respectively, the type of communications medium used for the transmission of said short text received, the time stamp data of the reception of the latter, the user code, the recognized language and the recognized domain relating to said short text received, to constitute a binary word contained in a cell (Ct, Cti) which will remain associated with a short text received, this cell being no longer write-accessible after validation (V) by the user sending said short text.
8. Procédé automatique selon la revendication 6 ou 7, caractérisé, de plus, par la mise en oeuvre de signaux (H, H', H") d'horloge (3, 21, 37) destinés à commander les accès aux différents moyens de traitement (22, 24, 26, 31, 33, 41, 42, 45), de mémorisation (28, 32, 36, 49) et de diffusion (48) du système.8. Automatic method according to claim 6 or 7, further characterized by the use of clock signals (H, H ', H ") (3, 21, 37) intended to control access to the various means. processing (22, 24, 26, 31, 33, 41, 42, 45), storage (28, 32, 36, 49) and dissemination (48) of the system.
9. Procédé automatique d'extraction et de traitement des informations portées par des textes d'annonces dont le contenu concerne des demandes ou des offres de produits et/ou de services mettant en oeuvre le système selon l'une quelconque des revendications 1 à 5 et le procédé selon l'une quelconque des revendication 6 à 8, caractérisé en ce que les comparaisons réalisées (41) entre fiches caractéristiques (FC) portent uniquement sur les champs de paramètres de fiches caractéristiques (FC) dont les objets sont complémentaires.9. Automatic method for extracting and processing information carried by ad texts, the content of which relates to requests or offers for products and / or services implementing the system according to any one of claims 1 to 5 and the method according to any one of claims 6 to 8, characterized in that the comparisons carried out (41) between characteristic files (FC) relate only to the fields of parameters of characteristic files (FC) whose objects are complementary.
10. Procédé selon la revendication 9, caractérisé, de plus, en ce qu'il comporte : - en cas d'un nombre élevé de réponses positives (47) en sortie des moyens de comparaison (41), correspondant, soit à une offre, soit à une demande, une ou plusieurs étape(s) de limitation de ce nombre en modifiant les valeurs de certains champs de paramètre dans un sens plus restrictif ou en faisant porter les comparaisons sur un plus grand nombre de champs de paramètre, ou les deux, - en cas d'absence de réponse positive en sortie des moyens de comparaison (41) correspondant, soit à une offre, soit à une demande, une ou plusieurs étape(s) de modification des valeurs de certains champs de paramètre dans un sens moins restrictif ou de suppression d'un ou de plusieurs champs de paramètres à prendre en compte dans la comparaison (41) entre fiches caractéristiq es, ou les deux , dans les deux cas, lesdites étapes mettent en oeuvre des écli nges (48) entre système et utilisateur de façon à déterminer de façon optimale les noms de champs de paramètre à prendre en compte en plus ou en moins dans les comparaisons (41) entre fiches caractéristiques. 10. Method according to claim 9, further characterized in that it comprises: - in the event of a high number of positive responses (47) at the output of the comparison means (41), corresponding either to an offer , either at a request, one or more step (s) of limiting this number by modifying the values of certain parameter fields in a more restrictive sense or by making the comparisons relate to a larger number of parameter fields, or two, - in the absence of a positive response at the output of the comparison means (41) corresponding either to an offer or to a request, one or more step (s) of modification of the values of certain parameter fields in a less restrictive or deletion of one or more parameter fields to be taken into account in the comparison (41) between characteristic sheets, or both, in both cases, the said steps implement differences (48) between system and user fa we determine optimal parameter field names to be considered more or less in comparisons (41) between sheets characteristics.
EP05717371A 2004-01-06 2005-01-06 Automatic system for retrieving and processing information carried by short messages Withdrawn EP1745393A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0400060A FR2864856B1 (en) 2004-01-06 2004-01-06 AUTOMATIC SYSTEM FOR PROCESSING INFORMATION PROVIDED BY SHORT TEXTS
PCT/FR2005/000023 WO2005069166A1 (en) 2004-01-06 2005-01-06 Automatic system for retrieving and processing information carried by short messages

Publications (1)

Publication Number Publication Date
EP1745393A1 true EP1745393A1 (en) 2007-01-24

Family

ID=34673847

Family Applications (1)

Application Number Title Priority Date Filing Date
EP05717371A Withdrawn EP1745393A1 (en) 2004-01-06 2005-01-06 Automatic system for retrieving and processing information carried by short messages

Country Status (3)

Country Link
EP (1) EP1745393A1 (en)
FR (1) FR2864856B1 (en)
WO (1) WO2005069166A1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9390396B2 (en) 2006-12-04 2016-07-12 Excalibur Ip, Llc Bootstrapping social networks using augmented peer to peer distributions of social networking services
US8396493B2 (en) 2007-02-28 2013-03-12 Yahoo! Inc. Network-based archiving for threaded mobile text messages
US9430772B2 (en) 2007-06-14 2016-08-30 Yahoo! Inc. Mobile contextual SMS advertising
CN110852713A (en) * 2019-11-06 2020-02-28 兰州领新网络信息科技有限公司 Unified credit code certificate recognition system and algorithm

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6167369A (en) * 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
GB9917723D0 (en) * 1999-07-28 1999-09-29 Intellprop Ltd Telecommunications service equipment

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2005069166A1 *

Also Published As

Publication number Publication date
FR2864856A1 (en) 2005-07-08
WO2005069166A1 (en) 2005-07-28
FR2864856B1 (en) 2006-03-03

Similar Documents

Publication Publication Date Title
US7966316B2 (en) Question type-sensitive answer summarization
CN106156365B (en) A kind of generation method and device of knowledge mapping
US8996371B2 (en) Method and system for automatic domain adaptation in speech recognition applications
US8914285B2 (en) Predicting a sales success probability score from a distance vector between speech of a customer and speech of an organization representative
EP1364316A2 (en) Device for retrieving data from a knowledge-based text
CN108304375A (en) A kind of information identifying method and its equipment, storage medium, terminal
US20060015324A1 (en) Method and apparatus for natural language generation
US11769064B2 (en) Onboarding of entity data
US20100223292A1 (en) Holistic disambiguation for entity name spotting
US11416539B2 (en) Media selection based on content topic and sentiment
US20190164406A1 (en) Automatic emergency warning alert from emergency detection
JP2021168209A (en) Modification of audio-based computer program output
KR101887629B1 (en) system for classifying and opening information based on natural language
RU61442U1 (en) SYSTEM OF AUTOMATED ORDERING OF UNSTRUCTURED INFORMATION FLOW OF INPUT DATA
US11074939B1 (en) Disambiguation of audio content using visual context
KR20200092448A (en) AI interactive phone ordering system for T commerce
EP1745393A1 (en) Automatic system for retrieving and processing information carried by short messages
Chardonnens et al. Mining user queries with information extraction methods and linked data
US10531154B2 (en) Viewer-relation broadcasting buffer
US11657811B2 (en) Modification of voice commands based on sensitivity
US11694025B2 (en) Cognitive issue description and multi-level category recommendation
US9430800B2 (en) Method and apparatus for trade interaction chain reconstruction
US11361761B2 (en) Pattern-based statement attribution
Farkhadov et al. Application of speech analytics in information space monitoring systems
Coats A new corpus of geolocated ASR transcripts from Germany

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20061128

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU MC NL PL PT RO SE SI SK TR

DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20070801