FR2902907A1 - Digital information e.g. text data, searching method for e.g. Internet, involves transmitting collecting instructions to satellite module, and processing information, collected from satellite module, by processing module - Google Patents

Digital information e.g. text data, searching method for e.g. Internet, involves transmitting collecting instructions to satellite module, and processing information, collected from satellite module, by processing module Download PDF

Info

Publication number
FR2902907A1
FR2902907A1 FR0605538A FR0605538A FR2902907A1 FR 2902907 A1 FR2902907 A1 FR 2902907A1 FR 0605538 A FR0605538 A FR 0605538A FR 0605538 A FR0605538 A FR 0605538A FR 2902907 A1 FR2902907 A1 FR 2902907A1
Authority
FR
France
Prior art keywords
information
module
collected
satellite
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR0605538A
Other languages
French (fr)
Other versions
FR2902907B1 (en
Inventor
Gerald Poitevineau
Sebastien Sauzay
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to FR0605538A priority Critical patent/FR2902907B1/en
Publication of FR2902907A1 publication Critical patent/FR2902907A1/en
Application granted granted Critical
Publication of FR2902907B1 publication Critical patent/FR2902907B1/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

The method involves selecting digital information sources (2) under the form of database, and transmitting information collecting instructions to an autonomous satellite module (1) from a central module (3). Information from the satellite module is collected, and the collected information are transmitted by the satellite or the central module. The collected information are stored in a local data base (5) and are processed by an information processing module (4).

Description

Procédé de recherche d'informations sur un réseau intranet, extranet,Method for searching information on an intranet, extranet,

internet ou toute autre source de diffusion d'informations numériques et moteur de recherche pour la mise en oeuvre dudit procédé.  internet or any other source of digital information dissemination and search engine for the implementation of said method.

La présente invention concerne le domaine des moteurs de recherche d'informations dans au moins une source de diffusion d'informations numériques, tel que sur un réseau informatique intranet, extranet ou internet, lesdites informations consistant en des informations contenues dans des pages web d'un ou plusieurs sites internet par exemple.  The present invention relates to the field of information search engines in at least one digital information broadcasting source, such as on an intranet, extranet or internet computer network, said information consisting of information contained in web pages of one or more websites for example.

Dans le domaine de l'informatique, on connaît bien des réseaux d'ordinateurs sous la forme de réseaux intranet, extranet et internet. Ces réseaux permettent aux ordinateurs de communiquer entre eux des informations au moyen de protocoles de communication tels que TCP/IP ou bien encore HTTP selon les acronymes anglo-saxon Transmission Control Protocol/internet Protocol et respectivement Hypertext Transfer Protocol Internet est incontestablement le plus grand réseau d'ordinateurs qui permet un accès à un très grand nombre d'informations. Ces informations se présentent soit sous la forme de bases de données soit sous la forme de documents connus sous la forme de pages web ou d'une pluralité de pages regroupées sous la forme d'un site internet . Lesdites pages web et lesdits sites internet se trouvent sur des serveurs distants sur lesquels un ordinateur personnel dit PC peut se connecter au moyen d'un protocole de communication au travers d'une ligne téléphonique, d'un réseau cablé ou similaire. La consultation des pages web s'effectue au moyen d'un programme d'ordinateur dit navigateur ou browser qui possède une interface utilisateur graphique. Ces pages web comportent généralement des liens dits hyperliens qui permettent de créer des liens vers d'autres pages web que les utilisateurs peuvent consulter par les utilisateurs par des commandes simples, par exemple par pointage et par un clic de souris sur le lien dans le navigateur. Par ailleurs, ces pages web peuvent être construites avec des syntaxes très diverses telles que le langage à balises à hypertexte HTML selon l'acronyme anglo-saxon Hypertext Markup Language ou le langage à balises extensible XML selon l'acronyme anglo-saxon eXtensible Markup Language , et peuvent comprendre des informations sous la forme d'un texte, d'une image, d'une vidéo ou de sons. Afin de trouver des informations parmi le grand nombre d'informations disponibles sur Internet, on à mis au point des outils de recherche dits moteurs de recherche qui sont des algorithmes étudiant électroniquement le contenu des pages web et créant un index et une base de données en fonction de cette étude. Ces moteurs de recherche se présentent communément sous la forme d'une page web dans laquelle un ou plusieurs champs de recherche peuvent être remplis par l'utilisateur. La recherche peut être de type booléenne ou par langage naturelle.  In the field of computing, computer networks are well known in the form of intranet, extranet and internet networks. These networks allow computers to communicate with each other by means of communication protocols such as TCP / IP or even HTTP according to the English acronyms Transmission Control Protocol / Internet Protocol and Hypertext Transfer Protocol Internet is undoubtedly the largest network computers that allows access to a very large amount of information. This information is presented either in the form of databases or in the form of documents known in the form of web pages or a plurality of pages grouped together in the form of a website. Said web pages and said websites are on remote servers on which a personal PC computer can connect via a communication protocol over a telephone line, a wired network or the like. The consultation of the web pages is carried out by means of a computer program called browser or browser which has a graphical user interface. These web pages generally include so-called hyperlinks links that can create links to other web pages that users can view by users by simple commands, for example by pointing and by a mouse click on the link in the browser . In addition, these web pages can be constructed with very diverse syntaxes such as Hypertext Markup Language (HTML) hypertext markup language (HTML) or XML extensible markup language (eXtensible Markup Language). , and may include information in the form of text, image, video or sounds. In order to find information among the large amount of information available on the Internet, research tools called search engines have been developed which are algorithms that electronically study the content of web pages and create an index and a database. function of this study. These search engines are commonly in the form of a web page in which one or more search fields can be filled by the user. The search can be of Boolean type or by natural language.

On entend par algorithme une séquence d'opérations, sous la forme d'un programme d'ordinateur, pour l'exécution d'une tâche. De manière habituelle, les bases de données sont crées par recherche dans Internet et par une copie locale de chaque page ou l'aspect d'une page dans une mémoire ou par la collecte des soumissions des fournisseurs de pages web . Certains aspects seulement des pages web peuvent être copiés tels que l'adresse URL selon l'acronyme anglo-saxon Uniform Resource Locator , le titre ou le texte. Chaque page résultante est généralement indexée pour permettre une consultation ultérieure. De cette manière, lorsqu'une requête est formulée sur un moteur de recherche, ce dernier recherche dans son propre index et sa base de données et non pas dans l'ensemble des pages web d'internet en temps réel. Les résultats de la recherche sont généralement présentés sous la forme de copies des pages web ou d'une page web comportant des hyperliens vers les pages trouvées lors de la recherche.  By algorithm is meant a sequence of operations, in the form of a computer program, for the execution of a task. Typically, databases are created by searching the Internet and a local copy of each page or the appearance of a page in a memory or by collecting submissions from webpage providers. Only certain aspects of the web pages can be copied, such as the Uniform Resource Locator, the title or the text. Each resulting page is usually indexed for future reference. In this way, when a query is made on a search engine, it looks in its own index and database and not in all web pages of the Internet in real time. The results of the search are usually presented in the form of copies of the web pages or a web page with hyperlinks to the pages found during the search.

La plupart des moteurs de recherche connus utilisent une technologie de recherche automatique pour indexer les résultats des recherchent qui mettent en oeuvre des descriptions invisibles des sites appelées méta-étiquettes dont les auteurs sont les éditeurs du site internet. Compte tenu du fait que les éditeurs des sites internet sont peuvent choisir librement l'énoncé de ces méta-étiquettes, de nombreuses pages internet comportent des méta-étiquettes identiques. Ainsi, il est difficile pour les moteurs de recherche de fournir des résultats pertinents. Afin de remédier à cet inconvénient, les moteurs de recherche comportent des algorithmes pour classer par catégorie les pages web . Toutefois, certains éditeurs de sites internet incorporent dans les méta-étiquettes de leurs sites internet des termes de recherche populaires qui n'ont aucun lien avec le contenu des pages web de leur site de sorte que les moteurs de recherche fournissent des résultats comportant de nombreuses pages web indésirables dites pages spam . On noter que ces pages sont appelées spam lorsqu'elles comprennent un moyen quelconque apte à prendre en faute les moteurs de recherche ou les algorithmes d'indexation. Par ailleurs, on connaît également des moteurs de recherche qui transmettent, à partir d'un même serveur, une même requête à plusieurs sites internet prédéterminés en utilisant un logiciel tel que le logiciel Cold Fusion (marque déposée) de la société américaine ALLAIRE par exemple. Les informations correspondant à la requête sont transmises au serveur puis traitées pour supprimer les faux amis et/ou les doublons. Toutefois, certains sites internet sont construits avec des syntaxes particulières de sorte que les informations ne peuvent pas être collectées 25 par cette méthode. L'un des buts de l'invention est donc de remédier à ces inconvénients en proposant un procédé de recherche d'informations sur un réseau intranet, extranet, internet ou analogue et un moteur de recherche pour la mise en oeuvre dudit procédé permettant de procurer des résultats 30 pertinents et avantageusement classés en fonction de leur pertinence notamment.  Most of the known search engines use automatic search technology to index search results that implement invisible descriptions of sites called meta-tags whose authors are the publishers of the website. Given the fact that publishers of websites are free to choose the statement of these meta-labels, many web pages contain identical meta-labels. Thus, it is difficult for search engines to provide relevant results. In order to overcome this disadvantage, search engines include algorithms for categorizing web pages. However, some website publishers include in the meta-labels of their websites popular search terms that are unrelated to the content of their website's web pages so that search engines provide results with numerous unwanted web pages say spam pages. It should be noted that these pages are called spam when they include any means capable of faulting the search engines or the indexing algorithms. Moreover, there are also known search engines that transmit, from the same server, the same request to several predetermined websites using software such as the Cold Fusion software (registered trademark) of the American company ALLAIRE for example . The information corresponding to the request is transmitted to the server and processed to remove false friends and / or duplicates. However, some websites are built with particular syntaxes so that the information can not be collected by this method. One of the aims of the invention is therefore to remedy these drawbacks by proposing a method for searching information on an intranet, extranet, internet or similar network and a search engine for implementing said method making it possible to obtain relevant results and advantageously classified according to their particular relevance.

Conformément à l'invention, il est proposé un procédé de recherche d'informations dans au moins une source de diffusion d'informations numériques, remarquable en ce qu'il consiste au moins dans les étapes suivantes de : - sélection d'au moins une source d'informations, -transmission d'instructions de collecte des informations à au moins un module satellite autonome depuis un module central, - collecte des informations à partir du ou des modules satellites, - transmission des informations collectées par le ou les satellites au module central, et -traitement des informations collectées. Selon une caractéristique essentielle du procédé suivant l'invention, le module central transmet à chaque module des instructions distinctes de collecte des informations et les instructions de collecte transmises à un module satellite concernent tout ou partie d'une unique source d'information. Par ailleurs, les informations collectées par les modules satellites sont traitées par au moins un module de traitement autonome apte à recevoir les informations collectées transmises par le module central.  According to the invention, there is provided a method for searching information in at least one digital information broadcasting source, which is remarkable in that it consists at least in the following steps of: - selecting at least one information source, transmission of information collection instructions to at least one autonomous satellite module from a central module, collection of information from the satellite module or modules, transmission of the information collected by the satellite or satellites to the module central, and -treatment of the information collected. According to an essential characteristic of the method according to the invention, the central module transmits to each module separate instructions for collecting the information and the collection instructions transmitted to a satellite module concern all or part of a single information source. Furthermore, the information collected by the satellite modules is processed by at least one autonomous processing module adapted to receive the collected information transmitted by the central module.

De plus, tout ou partie des informations collectées par les modules satellites et transmises au module central sont enregistrées dans au moins une base de données dite locale. Lesdites informations enregistrées dans la base de données locale sont enregistrées dans un fichier comportant au moins un marqueur.  In addition, all or part of the information collected by the satellite modules and transmitted to the central module are recorded in at least one so-called local database. Said information stored in the local database is stored in a file having at least one marker.

Ce marqueur est une donnée informatique générée par un algorithme en fonction de l'adresse de la source d'informations et/ou des informations collectées et/ou du contexte, c'est-à-dire de l'utilisation finale prévue des informations après traitement, et/ou de la question posée. Selon une autre caractéristique essentielle du procédé suivant l'invention, le traitement des informations collectées consiste en un traitement dit contextuel dépendant de la destination des informations par au moins un module de traitement autonome piloté par le module central et comporte au moins les étapes suivantes de : - détection d'une ou plusieurs informations dites cibles dans les informations collectées par les modules satellites, - corrélation entre lesdites informations cibles, - classement desdites informations cibles, - enregistrement desdites informations traitées sous la forme d'un fichier informatique dans une base de données locale. L'étape de corrélation consiste au moins dans les étapes suivantes de : - attribution d'au moins un coefficient dit de proximité à chaque information cible en fonction du contexte, - attribution d'un coefficient dit de valorisation à chaque information cible en fonction de la fiabilité de la source d'informations et/ou du contexte et/ou de la pertinence de l'information cible au regard du contexte et/ou de l'occurrence de l'information lors de l'étape de collecte ou de traitement des informations. Un autre objet de l'invention concerne un moteur de recherche d'informations dans au moins une source de diffusion d'informations numériques, pour la mise en oeuvre du procédé suivant l'invention ; ledit moteur de recherche est remarquable en ce qu'il comporte au moins un algorithme constituant un module dit satellite, autonome, pour collecter des informations sur une source d'informations à partir d'instructions de collecte transmise par un module central, au moins un algorithme constituant un module de traitement des informations collectées, au moins une base de données locale dans laquelle les informations collectées et/ou traitées sont enregistrées. De manière avantageuse, chaque module satellite comporte un navigateur internet intégré afin de communiquer avec des serveurs distants et/ou le module central. Chaque module de traitement comporte au moins un algorithme de détection d'une ou plusieurs informations dites cibles dans les informations collectées par les modules satellites, au moins un algorithme de corrélation entre lesdites informations cibles, et un algorithme de classement desdites informations cibles. Par ailleurs, il comporte des moyens de présentation des informations collectées et/ou traitées à la suite d'une requête d'un utilisateur D'autres avantages et caractéristiques ressortiront mieux de la description qui va suivre du procédé de recherche d'informations dans une source de diffusion d'informations numériques conforme à l'invention, à partir des dessins annexés sur lesquels : - la figure 1 est un bloc diagramme des différentes étapes du procédé conforme à l'invention, - la figure 2 est un bloc diagramme des différentes étapes de traitement des informations collectées du procédé suivant l'invention, - la figure 3 est une représentation schématique des différents modules du moteur de recherche mettant en oeuvre le procédé suivant l'invention. En référence à la figure 1, le procédé de recherche d'informations suivant l'invention comporte une première étape 100 de sélection d'au moins une source d'informations. Ces sources d'information consistent en des sources d'information numériques sous forme de bases de données 110 cryptées ou non dans un format quelconque, tel que Oracle, MySQL, SQL Server, des pages internet dans un langage quelconque, tel qu'en langage html, java, XML, etc... Le procédé comporte ensuite une étape 200 de transmission d'instructions de collecte des informations numériques dans la ou les sources d'informations préalablement sélectionnées. Ces instructions de collecte sont transmises à au moins un module satellite autonome depuis un module central, lesdits modules satellites se connectant à la source d'informations qui lui est allouée puis générant des requêtes d'interrogation sur ladite source d'informations. Ces instructions de collecte dépendent notamment de la requête de recherche d'un utilisateur qui a remplit en langage naturel, ou qui a sélectionné des questions dans un menu déroulant, dans le champ d'un formulaire d'une interface graphique d'un site internet par exemple.  This marker is a computer data generated by an algorithm depending on the address of the information source and / or the collected information and / or the context, that is to say the expected end use of the information after treatment, and / or the question asked. According to another essential characteristic of the method according to the invention, the processing of the collected information consists of a so-called contextual processing depending on the destination of the information by at least one autonomous processing module controlled by the central module and comprises at least the following steps of detection of one or more so-called target information in the information collected by the satellite modules, correlation between said target information, classification of said target information, recording of said processed information in the form of a computer file in a database; local data. The correlation step consists at least in the following steps of: - assigning at least one so-called proximity coefficient to each target information according to the context, - assigning a so-called valuation coefficient to each target information as a function of the reliability of the source of information and / or the context and / or the relevance of the target information with regard to the context and / or the occurrence of the information during the collection or processing step of the information; information. Another object of the invention relates to an information search engine in at least one digital information broadcasting source, for implementing the method according to the invention; said search engine is remarkable in that it comprises at least one algorithm constituting a so-called satellite module, autonomous, for collecting information on a source of information from collection instructions transmitted by a central module, at least one algorithm constituting a processing module of the collected information, at least one local database in which the collected and / or processed information is recorded. Advantageously, each satellite module comprises an integrated internet browser in order to communicate with remote servers and / or the central module. Each processing module comprises at least one algorithm for detecting one or more so-called target information in the information collected by the satellite modules, at least one correlation algorithm between said target information, and an algorithm for classifying said target information. Moreover, it includes means for presenting information collected and / or processed following a request from a user. Other advantages and features will become more apparent from the following description of the information retrieval method in a digital information broadcasting source according to the invention, from the attached drawings in which: - Figure 1 is a block diagram of the various steps of the method according to the invention - Figure 2 is a block diagram of the different processing steps of the information collected from the method according to the invention, - Figure 3 is a schematic representation of the different modules of the search engine implementing the method according to the invention. With reference to FIG. 1, the information retrieval method according to the invention comprises a first step 100 of selecting at least one information source. These sources of information consist of digital information sources in the form of encrypted or unencrypted databases 110 in any format, such as Oracle, MySQL, SQL Server, web pages in any language, such as html, java, XML, etc. The method then comprises a step 200 for transmitting instructions for collecting digital information in the previously selected information source or sources. These collection instructions are transmitted to at least one autonomous satellite module from a central module, said satellite modules connecting to the information source allocated to it and then generating interrogation requests on said source of information. These collection instructions depend in particular on the search query of a user who has completed in natural language, or who has selected questions in a drop-down menu, in the field of a form of a graphical interface of a website. for example.

Dans une étape 300, les informations correspondant aux requêtes sont collectées à partir du ou des modules satellites puis lesdites informations collectées sont transmises, dans une étape 400, par le ou les modules satellites au module central.  In a step 300, the information corresponding to the requests is collected from the satellite module or modules and then said collected information is transmitted, in a step 400, by the satellite module or modules to the central module.

Les informations collectées sont soit traitées, dans une étape 500, par au moins un module de traitement le module central soit enregistrées dans une première base de données pour une utilisation ultérieure. Tout ou partie des informations collectées par les modules satellites et transmises au module central sont alors enregistrées dans au moins une base de données dite locale. Les informations collectées sont enregistrées dans la base de données locale dans un fichier informatique comportant au moins un marqueur. Ledit marqueur est une donnée informatique générée par un algorithme en fonction de l'adresse de la source d'informations numériques et/ou des informations collectées et/ou du contexte, c'est-à-dire de l'utilisation finale prévue des informations traitées, et/ou de la question posée par l'utilisateur. On entend par algorithme une partie d'un programme d'ordinateur comportant un enchaînement d'actions nécessaires à l'accomplissement d'une tâche.  The collected information is either processed, in a step 500, by at least one processing module the central module is stored in a first database for later use. All or part of the information collected by the satellite modules and transmitted to the central module are then recorded in at least one so-called local database. The collected information is stored in the local database in a computer file comprising at least one marker. The marker is computer data generated by an algorithm based on the address of the digital information source and / or the collected information and / or the context, i.e. the intended end use of the information. processed, and / or the question asked by the user. By algorithm is meant a part of a computer program comprising a sequence of actions necessary for the accomplishment of a task.

Les informations traitées sont ensuite soit enregistrées dans une seconde base de donnée soit affichées sur un écran de visualisation, étape 600, tel qu'un écran d'ordinateur PC, un écran de téléphone mobile ou similaire. L'étape 500 de traitement des informations collectées, en référence à la figure 2, consiste en un traitement dit contextuel dépendant de la destination des informations par au moins un module de traitement autonome piloté par le module central et comporte une première étape 700 de détection d'une ou plusieurs informations dites cibles dans les informations collectées par le ou les modules satellites enregistrées ou non dans une base de données locale. L'étape de traitement des données comporte ensuite une étape 800 de corrélation entre lesdites informations cibles qui se décompose en une étape 810 d'attribution d'au moins un coefficient dit de proximité à chaque information cible en fonction du contexte et en une étape 820 d'attribution d'un coefficient dit de valorisation à chaque information cible en fonction de la fiabilité de la source d'informations et/ou du contexte et/ou de la pertinence de l'information cible au regard du contexte et/ou de l'occurrence de l'information lors de l'étape de collecte ou de traitement des informations. Lesdits coefficients de proximité et de valorisation sont enregistrées dans le fichier contenant chaque information cible, ce dernier étant enregistré soit dans une mémoire soit dans une base de donnée locale.  The processed information is then either stored in a second database or displayed on a display screen, step 600, such as a PC computer screen, a mobile phone screen, or the like. The step 500 of processing the information collected, with reference to FIG. 2, consists of a so-called contextual processing depending on the destination of the information by at least one autonomous processing module controlled by the central module and comprises a first detection step 700 one or more so-called target information in the information collected by the satellite module or modules recorded or not in a local database. The data processing step then comprises a step 800 of correlation between said target information which is broken down into a step 810 of assigning at least one so-called proximity coefficient to each target information according to the context and in a step 820 assigning a valuation coefficient to each target information according to the reliability of the source of information and / or the context and / or the relevance of the target information with regard to the context and / or the occurrence of the information during the step of collecting or processing the information. Said proximity and valuation coefficients are recorded in the file containing each target information, the latter being recorded either in a memory or in a local database.

Par ailleurs, on comprend bien que, entre deux requêtes de recherche d'informations, les coefficients de proximité et de valorisation d'une même information cible peuvent être modifiés en fonction notamment du contexte. L'étape de traitement 500 comporte ensuite une dernière étape 900 de classement des informations cibles à partir du coefficient de valorisation et/ou du coefficient de proximité attaché à chaque information cible. En référence à la figure 3, le moteur de recherche mettant en oeuvre le procédé suivant l'invention consiste en un programme d'ordinateur comportant plusieurs modules indépendants. Ce programme d'ordinateur pourra être rédigé dans n'importe quel langage informatique bien connu de l'Homme du Métier et être utilisé sur n'importe quel système d'exploitation d'un ordinateur portable, d'un téléphone mobile, d'un PDA ou similaire. Le moteur de recherche comporte au moins un premier algorithme constituant un module dit satellite 1, autonome, pour collecter des informations sur une source d'informations numériques 2 à partir d'instructions de collecte transmise par tout moyen de transmission approprié, tel que le réseau Internet, un réseau Extranet, Ethernet ou similaire , audit module satellite 1 par un second algorithme constituant un module central 3. De préférence, chaque module satellite 1 comporte un navigateur 30 interne intégré afin de communiquer avec des serveurs distants des sources d'informations numériques et/ou le module central 3.  Moreover, it is well understood that, between two information search queries, the proximity and valuation coefficients of the same target information can be modified according to the particular context. The processing step 500 then comprises a final step 900 of ranking the target information from the valuation coefficient and / or the proximity coefficient attached to each target information. With reference to FIG. 3, the search engine implementing the method according to the invention consists of a computer program comprising several independent modules. This computer program can be written in any computer language well known to those skilled in the art and be used on any operating system of a laptop, a mobile phone, a computer PDA or similar. The search engine comprises at least one first algorithm constituting an autonomous satellite module 1, for collecting information on a digital information source 2 from collection instructions transmitted by any appropriate transmission means, such as the network. Internet, an extranet network, Ethernet or the like, to said satellite module 1 by a second algorithm constituting a central module 3. Preferably, each satellite module 1 comprises an integrated internal browser 30 in order to communicate with remote servers of the digital information sources and / or the central module 3.

Lesdites informations numériques consistent en des données de texte, d'image, de vidéo, de son, etc... disponible sur un serveur sous la forme d'une base de données ou de pages internet. Par ailleurs, on entend par machine tout dispositif apte à exécuter un programme d'ordinateur tel qu'un ordinateur PC, un serveur, un PDA, un téléphone portable, un automate programmable, etc... L'algorithme constituant le module central est localisé sur une première machine, tel qu'un serveur, et le ou les algorithmes constituant le ou les modules satellites sont localisés respectivement sur des machines distinctes de la machine du module central, chaque module satellite ayant une identité propre et étant localisé sur une unique machine. Le module central 3 définit des instructions de collecte propres pour chaque module satellite 1, définit la distribution desdites instructions de collecte, puis transmet ces instructions à chacun desdits module satellites 1.  Said digital information consists of text, image, video, sound, etc. data available on a server in the form of a database or web pages. Moreover, by machine is meant any device capable of executing a computer program such as a PC computer, a server, a PDA, a mobile phone, a PLC, etc. The algorithm constituting the central module is located on a first machine, such as a server, and the algorithm or algorithms constituting the satellite module or modules are respectively located on separate machines of the central module machine, each satellite module having its own identity and being located on a single machine. The central module 3 defines clean collection instructions for each satellite module 1, defines the distribution of said collection instructions, and then transmits these instructions to each of said satellite modules 1.

Ces derniers communiquent continûment avec le module central 3 pour lui indiquer d'une part leurs identités respectives et d'autre part leurs disponibilités, c'est-à-dire leurs possibilité d'exécuter de nouvelles instructions de collecte. De plus, le module central 3 comprend un algorithme de gestion des disponibilités des modules satellites afin de définir de manière optimale la meilleure distribution des instructions de collecte aux modules satellites en fonction de leurs disponibilités. Lorsque les modules satellites 1 transmettent au module central 3 les informations collectées en exécution des instructions de collecte préalablement transmises par le module central 3, ledit module central 3 enregistre la fin de l'exécution des instructions de collecte par le module satellite identifié et attribue au module satellite identifié le statut de disponible. Une telle architecture du module central 3 et des modules satellites 1 permet notamment de réduire la durée de la recherche.  The latter communicate continuously with the central module 3 to indicate on the one hand their respective identities and on the other hand their availability, that is to say, their ability to execute new collection instructions. In addition, the central module 3 includes an availability management algorithm of the satellite modules in order to optimally define the best distribution of the collection instructions to the satellite modules according to their availability. When the satellite modules 1 transmit to the central module 3 the information collected in execution of the collection instructions previously transmitted by the central module 3, the central module 3 records the end of the execution of the collection instructions by the satellite module identified and assigns to the satellite module identified the status of available. Such an architecture of the central module 3 and satellite modules 1 can in particular reduce the duration of the search.

Le moteur de recherche comporte, par ailleurs, au moins un algorithme constituant un module de traitement 4 des informations collectées, autonome et apte à communiquer avec ledit module central 3, et au moins une base de données locale 5 dans laquelle les informations collectées et/ou traitées sont enregistrées. Les informations collectées par les modules satellites 1 et les informations traitées antérieurement par les modules de traitement 4 peuvent être enregistrées par le module central 3 dans les bases de données locales 5 pour former des bases de connaissances Chaque module de traitement 4 comporte au moins un algorithme de détection d'une ou plusieurs informations dites cibles dans les informations collectées par les modules satellites 1 et/ou traitées antérieurement par les modules de traitement 4 et enregistrées dans les bases de données locales 5 en fonction des instructions envoyées par le module central, au moins un algorithme de corrélation entre lesdites informations cible et un algorithme de classement desdites informations cibles en regroupant avantageusement les informations traitées sous la forme d'ensemble et éventuellement de sous-ensemble.  The search engine comprises, moreover, at least one algorithm constituting a processing module 4 collected information, autonomous and able to communicate with said central module 3, and at least one local database 5 in which the information collected and / or processed are saved. The information collected by the satellite modules 1 and the information processed previously by the processing modules 4 can be recorded by the central module 3 in the local databases 5 to form knowledge bases. Each processing module 4 comprises at least one algorithm detection of one or more information called targets in the information collected by the satellite modules 1 and / or previously processed by the processing modules 4 and stored in the local databases 5 according to the instructions sent by the central module, to less a correlation algorithm between said target information and an algorithm for classifying said target information by advantageously grouping the processed information in the form of set and possibly subset.

L'algorithme de corrélation comporte un algorithme secondaire d'attribution d'au moins un coefficient dit de proximité à chaque information cible en fonction du contexte et un deuxième algorithme secondaire d'attribution d'un coefficient dit de valorisation à chaque information cible en fonction de la fiabilité de la source d'informations et/ou du contexte et/ou de la pertinence de l'information cible au regard du contexte et/ou de l'occurrence de l'information lors de l'étape de collecte ou de traitement des informations. De plus, le module central comporte des moyens de génération d'une interface graphique 6 interactive, telle qu'une page html par exemple, apte à être consultée par un utilisateur sur un ordinateur PC, un téléphone mobile, etc..., comportant d'une part les informations traitées 7 classées en ensembles 8,8' et sous-ensemble 9 d'informations et d'autre part un formulaire de requête 10 permettant à l'utilisateur de saisir les critères de sa recherche. Le formulaire de requête peut, par exemple, consister dans des champs de formulaire d'interrogation en langage naturel et/ou dans des champs à menu déroulant. Cette interface graphique permet également à l'utilisateur de se connecter depuis un navigateur internet, communément appelé Browser, avec le module central 3, en mode ASP par exemple, pour paramétrer le moteur de recherche et plus particulièrement la sélection des sources d'informations numériques. Le moteur de recherche suivant l'invention pourra avantageusement être utilisé pour effectuer une veille ou une analyse économique dans le domaine de l'immobilier, de l'automobile, et plus particulièrement dans les domaines des annonces immobilières et automobiles. Toutefois, il est bien évident que le procédé et le moteur de recherche mettant en oeuvre le procédé suivant l'invention pourra être adapté à d'autres domaines d'application sans pour autant sortir du cadre de l'invention.  The correlation algorithm comprises a secondary algorithm for assigning at least one so-called proximity coefficient to each target information as a function of the context and a second secondary algorithm for assigning a valuation coefficient to each target information according to the reliability of the source of information and / or the context and / or the relevance of the target information with regard to the context and / or the occurrence of the information during the collection or processing step informations. In addition, the central module comprises means for generating an interactive graphic interface 6, such as an HTML page for example, which can be consulted by a user on a PC, a mobile phone, etc., comprising on the one hand the processed information 7 classified in sets 8,8 'and subset 9 of information and on the other hand a request form 10 allowing the user to enter the criteria of his search. The query form may, for example, consist of natural language query form fields and / or drop-down fields. This graphical interface also allows the user to connect from an internet browser, commonly called Browser, with the central module 3, in ASP mode for example, to set the search engine and more particularly the selection of digital information sources . The search engine according to the invention may advantageously be used to perform a watch or an economic analysis in the field of real estate, automotive, and more particularly in the fields of real estate and automobile ads. However, it is obvious that the method and the search engine implementing the method according to the invention may be adapted to other areas of application without departing from the scope of the invention.

Claims (10)

REVENDICATIONS 1 û Procédé de recherche d'informations dans au moins une source de diffusion d'informations numériques, caractérisé en ce qu'il consiste au moins dans les étapes suivantes de : - sélection d'au moins une source d'informations, - transmission d'instructions de collecte des informations à au moins un module satellite autonome depuis un module central, -collecte des informations à partir du ou des modules satellites, -transmission des informations collectées par le ou les satellites au module central, et - traitement des informations collectées.  1 - Method for searching information in at least one digital information broadcasting source, characterized in that it consists at least in the following steps of: - selecting at least one information source, - transmitting instructions for collecting information from at least one autonomous satellite module from a central module, collecting information from the satellite module or modules, transmitting information collected by the satellite or satellites to the central module, and processing the information collected . 2 û Procédé suivant la revendication précédente caractérisé en ce que le module central transmet à chaque module des instructions distinctes de collecte des informations.2 - Process according to the preceding claim characterized in that the central module transmits to each module separate instructions for collecting information. 3 û Procédé suivant l'une quelconque des revendications 1 ou 2 caractérisé en ce que les instructions de collecte transmises à un module satellite concernent tout ou partie d'une unique source d'information.3 - Process according to any one of claims 1 or 2 characterized in that the collection instructions transmitted to a satellite module relate to all or part of a single source of information. 4 û Procédé suivant l'une quelconque des revendications 1 à 3 caractérisé en ce que les informations collectées par les modules satellites sont traitées par au moins un module de traitement autonome apte à recevoir les informations collectées transmises par le module central.4 - Process according to any one of claims 1 to 3 characterized in that the information collected by the satellite modules are processed by at least one autonomous processing module adapted to receive the collected information transmitted by the central module. 5 û Procédé suivant l'une quelconque des revendications 1 à 4 caractérisé en ce que tout ou partie des informations collectées par les modules satellites et transmises au module central sont enregistrées dans au moins une base de données dite locale.5 - Process according to any one of claims 1 to 4 characterized in that all or part of the information collected by the satellite modules and transmitted to the central module are recorded in at least one so-called local database. 6 û Procédé suivant la revendication 5 caractérisé en ce que les informations enregistrées dans la base de données locale sont enregistrées dans un fichier comportant au moins un marqueur.6. Process according to claim 5, characterized in that the information recorded in the local database is recorded in a file comprising at least one marker. 7 û Procédé suivant la revendication 6 caractérisé en ce que ledit marqueur est une donnée informatique générée par un algorithme en fonction de l'adresse de la source d'informations et/ou des informationscollectées et/ou du contexte, c'est-à-dire de l'utilisation finale prévue des informations après traitement, et/ou de la question posée.7. Process according to claim 6, characterized in that said marker is a computer data item generated by an algorithm as a function of the address of the source of information and / or the information collected and / or the context, that is to say the intended end use of the information after treatment, and / or the question asked. 8 û Procédé suivant l'une quelconque des revendications 1 à 7 caractérisé en ce que le traitement des informations collectées consiste en un traitement dit contextuel dépendant de la destination des informations par au moins un module de traitement autonome piloté par le module central et comporte au moins les étapes suivantes de : - détection d'une ou plusieurs informations dites cibles dans les informations collectées par les modules satellites, - corrélation entre lesdites informations cibles, - classement desdites informations cibles, -enregistrement desdites informations traitées sous la forme d'un fichier informatique dans une base de données locale.8 Process according to any one of Claims 1 to 7, characterized in that the processing of the collected information consists of a so-called contextual processing depending on the destination of the information by at least one autonomous processing module controlled by the central module and includes least the following steps of: - detection of one or more information called targets in the information collected by the satellite modules, - correlation between said target information, - classification of said target information, -recording said processed information in the form of a file computer in a local database. 9 û Procédé suivant la revendication 8 caractérisé en ce que l'étape de corrélation consiste au moins dans les étapes suivantes de : - attribution d'au moins un coefficient dit de proximité à chaque information cible en fonction du contexte, - attribution d'un coefficient dit de valorisation à chaque information cible en fonction de la fiabilité de la source d'informations et/ou du contexte et/ou de la pertinence de l'information cible au regard du contexte et/ou de l'occurrence de l'information lors de l'étape de collecte ou de traitement des informations.9 - Process according to claim 8 characterized in that the correlation step consists at least in the following steps of: - allocation of at least one coefficient said proximity to each target information according to the context, - allocation of a so-called valuation coefficient for each target information according to the reliability of the source of information and / or the context and / or the relevance of the target information with regard to the context and / or the occurrence of the information during the step of collecting or processing the information. 10 û Moteur de recherche d'informations dans au moins une source de diffusion d'informations numériques, pour la mise en oeuvre du procédé suivant l'une quelconque des revendications 1 à 7, caractérisé en ce qu'il comporte au moins un algorithme constituant un module dit satellite (1), autonome, pour collecter des informations sur une source d'informations (2) à partir d'instructions de collecte transmise par un module central (3), au moins un algorithme constituant un module de traitement (5) des informations collectées, au moins une base de données locale (5) dans laquelle les informations collectées et/ou traitées sont enregistrées.11 ù Moteur de recherche suivant la revendication 10 caractérisé en ce que chaque module satellite (1) comporte un navigateur internet intégré afin de communiquer avec des serveurs distants et/ou le module central (3). 12 ù Moteur de recherche suivant l'une quelconque des revendications 10 ou 11 caractérisé en ce que chaque module de traitement (4) comporte au moins un algorithme de détection d'une ou plusieurs informations dites cibles dans les informations collectées par les modules satellites, au moins un algorithme de corrélation entre lesdites informations cibles, et un algorithme de classement desdites informations cibles. 13 ù Moteur de recherche suivant l'une quelconque des revendications 10 à 12 caractérisé en ce qu'il comporte des moyens de présentation (6) des informations collectées et/ou traitées à la suite d'une requête d'un utilisateur.The information search engine in at least one digital information broadcasting source, for carrying out the method according to any one of claims 1 to 7, characterized in that it comprises at least one algorithm constituting an autonomous satellite module (1) for collecting information on an information source (2) from collection instructions transmitted by a central module (3), at least one algorithm constituting a processing module (5); ) information collected, at least one local database (5) in which the collected and / or processed information is recorded.11 ù Search engine according to claim 10 characterized in that each satellite module (1) comprises an internet browser integrated to communicate with remote servers and / or the central module (3). 12 Search engine according to any one of claims 10 or 11 characterized in that each processing module (4) comprises at least one algorithm for detecting one or more so-called target information in the information collected by the satellite modules, at least one correlation algorithm between said target information, and an algorithm for classifying said target information. 13 ù Search engine according to any one of claims 10 to 12 characterized in that it comprises means for presenting (6) information collected and / or processed following a request from a user.
FR0605538A 2006-06-21 2006-06-21 METHOD FOR SEARCHING INFORMATION ON AN INTRANET, EXTRANET, INTERNET NETWORK OR ANY OTHER DIGITAL DATA BROADCASTING SOURCE AND SEARCH ENGINE FOR CARRYING OUT SAID METHOD Expired - Fee Related FR2902907B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR0605538A FR2902907B1 (en) 2006-06-21 2006-06-21 METHOD FOR SEARCHING INFORMATION ON AN INTRANET, EXTRANET, INTERNET NETWORK OR ANY OTHER DIGITAL DATA BROADCASTING SOURCE AND SEARCH ENGINE FOR CARRYING OUT SAID METHOD

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0605538A FR2902907B1 (en) 2006-06-21 2006-06-21 METHOD FOR SEARCHING INFORMATION ON AN INTRANET, EXTRANET, INTERNET NETWORK OR ANY OTHER DIGITAL DATA BROADCASTING SOURCE AND SEARCH ENGINE FOR CARRYING OUT SAID METHOD

Publications (2)

Publication Number Publication Date
FR2902907A1 true FR2902907A1 (en) 2007-12-28
FR2902907B1 FR2902907B1 (en) 2008-10-17

Family

ID=37622100

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0605538A Expired - Fee Related FR2902907B1 (en) 2006-06-21 2006-06-21 METHOD FOR SEARCHING INFORMATION ON AN INTRANET, EXTRANET, INTERNET NETWORK OR ANY OTHER DIGITAL DATA BROADCASTING SOURCE AND SEARCH ENGINE FOR CARRYING OUT SAID METHOD

Country Status (1)

Country Link
FR (1) FR2902907B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3090576A1 (en) 2018-12-20 2020-06-26 Airbus Helicopters Assistance method for single-engine rotary wing aircraft during an engine failure.

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6505191B1 (en) * 1998-07-24 2003-01-07 Jarg Corporation Distributed computer database system and method employing hypertext linkage analysis
EP1367509A2 (en) * 2002-05-24 2003-12-03 Overture Services, Inc. Method and apparatus for categorizing and presenting documents of a distributed database

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6505191B1 (en) * 1998-07-24 2003-01-07 Jarg Corporation Distributed computer database system and method employing hypertext linkage analysis
EP1367509A2 (en) * 2002-05-24 2003-12-03 Overture Services, Inc. Method and apparatus for categorizing and presenting documents of a distributed database

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"VERITY K2 ARCHITECTURE", INTERNET CITATION, July 2002 (2002-07-01), XP002290926, Retrieved from the Internet <URL:http://www.verity.com/pdf/white_papers/MK0366a_K2Arch_WP.pdf> [retrieved on 20040802] *
MENG W ET AL: "Building Efficient and Effective Metasearch Engines", ACM COMPUTING SURVEYS, ACM, NEW YORK, NY, US, US, vol. 34, no. 1, March 2002 (2002-03-01), pages 48 - 89, XP002284747, ISSN: 0360-0300 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3090576A1 (en) 2018-12-20 2020-06-26 Airbus Helicopters Assistance method for single-engine rotary wing aircraft during an engine failure.

Also Published As

Publication number Publication date
FR2902907B1 (en) 2008-10-17

Similar Documents

Publication Publication Date Title
US6401118B1 (en) Method and computer program product for an online monitoring search engine
CN103339597B (en) Transforming search engine queries
US6983320B1 (en) System, method and computer program product for analyzing e-commerce competition of an entity by utilizing predetermined entity-specific metrics and analyzed statistics from web pages
US7013323B1 (en) System and method for developing and interpreting e-commerce metrics by utilizing a list of rules wherein each rule contain at least one of entity-specific criteria
CA2533605C (en) Providing a user interface with search query broadening
US7827191B2 (en) Discovering web-based multimedia using search toolbar data
Atkinson et al. A practical approach to web service discovery and retrieval
JP5256293B2 (en) System and method for including interactive elements on a search results page
US7657515B1 (en) High efficiency document search
FR2802671A1 (en) Method and system for searching URL or Web file and addresses and classifying the search results using an audience indice indicating the frequency of Web address selection
FR2800886A1 (en) Internet multilingual web server method and system using IBM Boson and Quark servlets to process in real time a given language web page and to produce a template which contains the page contents in a chosen language
US20060167860A1 (en) Data extraction for feed generation
US8572118B2 (en) Computer method and apparatus of information management and navigation
KR20110050478A (en) Providing posts to discussion threads in response to a search query
US9069771B2 (en) Music recognition method and system based on socialized music server
CN1443326A (en) System and method for obtaining and storing information for deferred browsing
WO2013015983A1 (en) Rich web page generation
JP2006139763A (en) Application programming interface for text mining and searching
WO2007140364A2 (en) Method for scoring changes to a webpage
JP2013222463A (en) Building of web corpus with help of reference web crawl
Lewandowski Understanding search engines
EP1290578B1 (en) Automatic and secure data search method using a data transmission network
US8290944B2 (en) Method for storing bookmarks for search results from previously submitted search queries by a user and storing links to selected documents by the user
Nizam et al. Link sharing on twitter during popular events: Implications for social navigation on websites
KR100840019B1 (en) Method and system for providing advertisements using schedule information

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20150227