FR2874719A1 - Procede de recherche et d'affichage de la recherche parmi les documents texte stockes dans les ordinateurs - Google Patents

Procede de recherche et d'affichage de la recherche parmi les documents texte stockes dans les ordinateurs Download PDF

Info

Publication number
FR2874719A1
FR2874719A1 FR0409271A FR0409271A FR2874719A1 FR 2874719 A1 FR2874719 A1 FR 2874719A1 FR 0409271 A FR0409271 A FR 0409271A FR 0409271 A FR0409271 A FR 0409271A FR 2874719 A1 FR2874719 A1 FR 2874719A1
Authority
FR
France
Prior art keywords
document
documents
search
searching
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR0409271A
Other languages
English (en)
Other versions
FR2874719B1 (fr
Inventor
Alain Nicolas Piaton
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to FR0409271A priority Critical patent/FR2874719B1/fr
Priority to FR0502604A priority patent/FR2870023B1/fr
Priority to US10/593,660 priority patent/US20070179932A1/en
Priority to PCT/FR2005/000659 priority patent/WO2005101240A1/fr
Priority to EP05742860A priority patent/EP1733324A1/fr
Publication of FR2874719A1 publication Critical patent/FR2874719A1/fr
Application granted granted Critical
Publication of FR2874719B1 publication Critical patent/FR2874719B1/fr
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)

Abstract

Procédé de recherche de documents stockés sur une mémoire électronique à partir d'un ou plusieurs mots ou partie de mot contenus dans les documents eux-mêmes ou un élément d'identification desdits documents, puis affichage sous forme d'aperçu des informations relatives aux documents trouvés par cette recherche comportant les étapes suivantes:Dans un premier temps, mémorisation dans une mémoire permanente d'une table dite tables des aperçus, comportant tout ou partie de éléments nécessaires à l'affichage des informations recherchées,Dans un deuxième temps, au cours d'une phase dite de recherche, recherche dans les dits documents, à partir d'un ou plusieurs critères de recherche,Dans un troisième temps, affichage de l'aperçu pour un ou plusieurs documents retrouvés.

Description

PROCEDE DE RECHERCHE ET D'AFFICHAGE DES RESULTATS
DE LA RECHERCHE PARMI LES DOCUMENTS TEXTE
STOCKES DANS LES ORDINATEURS
DOMAINE DE L'INVENTION
Devant la multiplication des documents sous forme de traitement de texte ou de courrier électronique disponibles dans les micro-ordinateurs et les réseaux internes des entreprises, la nécessité de disposer d'un moteur de recherche permettant de retrouver rapidement un document par un élément de son contenu, à l'instar des moteurs de recherche sur Internet, s'impose de plus en plus, et de nouveaux logiciels permettent d'ores et déjà de rechercher l'information sous forme de texte dans tout type de document, y compris dans les pièces jointes des courriers.
Toutefois, malgré ces outils les temps de recherche sont encore importants, car lorsqu'un document a été identifié, il est souvent nécessaire d'ouvrir le document avec le programme qui lui est associé pour s'assurer que c'est bien le document recherché. Plus grave encore, quand on a ouvert une dizaine de documents (traitements de texte, tableurs, courriers électroniques, ...) il devient difficile de passer de l'un à l'autre pour revenir sur un document plus pertinent que les autres.
C'est pour répondre à ce type de problème qu'est proposée l'invention décrite ci-après :
DESCRIPTION DES SCHEMA EXPLICATIFS
La figure 1 est une description des différents documents de départ, des différentes tables et du fichier-conteneur selon l'invention. La figure 2 est une description de la structure de la table d'index selon l'invention. Signification des abréviations utilisées:
Doc un document de type texte Mail un courrier électronique Att une pièce jointe Zip un ensemble de pièces jointes en format compressé Tia une Table d'index et d'aperçu Tla un élément de la table TIA Id les éléments d'identification d'un document txt la partie texte d'un document.
Exemple : Tia-txt de TIA-Att représente l'élément texte qui permettra d'afficher l'aperçu d'une pièce jointe dans la fenêtre des aperçus.
PRESENTATION DE L'INVENTION
Le procédé selon l'invention utilise les éléments suivants :
D'une part l'ensemble des documents Doc (voir figure 1) sur lesquels on est appelé à effectuer les recherches, à savoir tout type de document texte tel que traitement de texte, tableur, courrier électronique Mail avec ses pièces jointes Att, lesdits documents étant stockés soit sur le micro-ordinateur à partir duquel seront lancées les recherches, soit dans les réseaux internes des entreprises, soit en dehors via Internet, d'autre part un ensemble de tables dites tables d'index, mémorisées dans des mémoires permanentes, pour effectuer les recherches, et enfin un ensemble de tables dites tables des aperçus, mémorisées dans des mémoires permanentes, pour permettre un affichage rapide des résultats.
Dans un mode préféré de l'invention, ce sont les mêmes tables qui sont utilisées à la fois pour effectuer la recherche et afficher les aperçus, c'est-à-dire que ce sont les tables d'index qui seront utilisées pour afficher les aperçus. Par la suite cette table sera appelée table d'index et d'aperçu TIA Une recherche selon le procédé nécessite les étapes suivantes :
1 Création de la table d'index et d'aperçu.
La table d'index et d'aperçu doit permettre la recherche rapide et l'affichage rapide des aperçus ; elle contient pour chaque document les deux types d'informations suivantes :
D'une part, le contenu intégral ou partiel du document en format texte, non compressé, à l'exception des images, séquences sonores, c'est-à-dire tout élément qui peut être affiché sous forme de texte. Dans le cas des courriers électroniques le contenu des documents attachés, qu'il soit sous forme compressée ou non, est également mémorisé dans la table.
D'autre part, les éléments d'identification du document tels que nom du document, objet, date, longueur, mots clefs, le chemin du document sur le disque, etc ; pour les courriers électroniques le nom de l'émetteur sous forme d'adresse électronique et sous forme d'alias, le nom des destinataires, des copies, nom de dossier, etc.
Tous les documents sont stockés les uns à la suite des autres soit dans une table unique, soit dans plusieurs tables, une par type de document par exemple, TIA-Doc TIA-Mail chaque document étant représenté par une en-tête Tia-id suivie de tous les champs en format texte susceptibles d'être sélectionnés par la fonction de recherche.
Dans un mode préféré de l'invention, on utilise un système de séparateurs entre les différents documents, et entre les différents éléments à l'intérieur de chaque document afin de permettre un balayage rapide de la table d'index et d'aperçu.
Ladite en-tête Tia-Id regroupe des données de type numérique, ainsi que des textes sur lesquels on n'effectue pas de recherche : - au début de l'en-tête : caractère séparateur 'Oxff ou tout autre caractère qui ne peut pas figurer dans un fichier texte, - la longueur de l'en-tête, - des données numériques telles que longueur des blocs, compteurs divers, - des données numériques susceptibles d'être recherchées, appelées par la suite rubriques, telles que longueur ou date du document, - données alphabétiques qui ne font pas partie du champs des recherches : nom de machine, client, langue, tables de conversion, etc.
A la suite on trouve la partie texte, Tia-txt, c'est-à-dire tous les éléments sur lesquels sont effectués les recherches en format texte:
Il s'agit desdits contenus, des mots-clefs, desdits éléments d'identification. Ces différents éléments, appelés par la suite rubriques, sont stockés les uns à la suite des autres sous forme de texte, et ils sont séparés par des caractères séparateurs.
Dans un mode préféré de l'invention, le contenu de chacune des pièces jointes des courriers électroniques est mémorisé dans une table séparée TIA-Att dite table d'index des pièces jointes et un document donné n'y figure qu'une seule fois, même s'il appartient à plusieurs courriers électroniques ou à plusieurs fichiers compressés Zip eux-mêmes attachés en pièce jointe.
Ces tables sont fabriquées puis régulièrement mises à jour grâce à des convertisseurs Conv qui, à partir des documents de départ, traitement de texte, tableurs, présentations, Doc courriers électroniques Mail... extraient tous les éléments utiles pour la consultation des dites tables au moment de la recherche, puis par la suite pour leur affichage sous forme d'aperçu.
2 Recherche de documents.
Hormis les logiciels de recherche documentaires ou moteurs de recherche sur Internet qui sont très rapides car ils utilisent un thésaurus, en général, les logiciels de recherche sur ordinateur commencent par balayer la table d'index des fichiers sur disque communément appelée FAT, ou une table équivalente qui permet de vérifier si le nom du fichier, le type du fichier, sa longueur ou sa date satisfont aux critères de recherche. Si c'est le cas, et dans le cas où l'on doit effectuer la recherche sur des mots contenus dans les documents euxmêmes, on balaie alors séquentiellement le contenu de chacun des fichiers qui correspondent à ces premiers critères de recherche, pour vérifier en plus si le mot recherché figure dans ce document.Il s'avère que cette technique consistant à explorer d'abord une table d'index puis si nécessaire une seconde table contenant les textes eux-mêmes est beaucoup plus lente que celle qui consiste d'abord à balayer séquentiellement la table qui contient tous les contenus des documents ainsi qu'il est décrit ci-après.
Pour effectuer la recherche sur un ou plusieurs mots ou parties de mot, on balaie séquentiellement la table des index comme suit :
Quand on rencontre ledit séparateur de document, (égal à Oxff), on analyse les éléments de l'en-tête, Tia-id puis on se positionne sur le premier caractère de la zone Tia-txt correspondant aux éléments sur lesquels on veut effectuer la recherche en format texte. Ensuite, on balaie ladite zone en format texte Tia-txt pour regarder si elle contient une partie ou la totalité des mots recherchés. Si tel n'est le cas, on passe au document suivant, sinon le décompte du nombre de séparateurs permet de savoir de quelle rubrique il s'agit, et grâce aux données de l'en-tête précédemment chargée, on dispose alors de tous les éléments nécessaires pour afficher le résultat de la recherche.
Dans un mode préféré de l'invention, on commence par balayer la table dite d'index des pièces jointes TIA-Att et chaque fois qu'une pièce jointe comporte le ou les mots recherchés, on mémorise temporairement dans une table l'identifiant de cette pièce jointe, ce qui permet, par la suite, lors du balayage de la table des courriers électroniques TIA-Mail d'identifier les courriers qui ont des pièces jointes contenant les mots recherchés.
3 Affichage du résultat de la recherche :
Les informations relatives aux documents trouvés à l'issue de la recherche sont affichées sous la forme d'un tableau dit tableau des documents trouvés, comportant une ou plusieurs lignes pour chaque document trouvé et plusieurs colonnes correspondant chacune à une ou plusieurs desdites rubriques.
Quand une ligne du tableau est sélectionnée, par exemple un courrier électronique, le contenu Tia-txt de ce courrier est extrait de la table d'index et d'aperçu TIA puis affiché dans une fenêtre séparée dite fenêtre des aperçus ; quand on passe à la ligne suivante du tableau, c'est le contenu de ce nouveau courrier qui est affiché dans la fenêtre des aperçus.
Quand un courrier électronique Mail contient une ou plusieurs pièces jointes Att le nom des pièces jointes est affiché à l'écran, et quand on sélectionne l'une d'elle, son contenu Tia-Att est extrait de la table des pièces jointes TIA-Att puis affiché dans la fenêtre des aperçus, sans qu'il soit nécessaire de lancer le logiciel (traitement de texte, tableur, ...) qui lui est associé. Cette opération est extrêmement rapide puisque ce contenu fait partie de la table qui vient d'être explorée au cours de l'étape de recherche.
Le fait de lancer une (ou plusieurs) recherches, puis de sélectionner les seuls documents utiles en vue de traiter un problème, représente une opération à la fois coûteuse en temps et en compétence, c'est-à-dire qu'une telle sélection apporte de la valeur ajoutée par rapport à l'information brute de départ. Avec les techniques actuelles de courrier électronique, si l'on désire transmettre cette information à une autre personne, tous les documents vont être transmis en vrac sous forme de pièces jointes à un courrier, et le destinataire sera amené à refaire une partie du travail de sélection qui a déjà été réalisé.
C'est pourquoi il est préférable de lui transmettre un dossier appelé par la suite fichierconteneur , File-Cont, qui contient non seulement les documents de départ (traitements de texte, tableurs, ... Doc, courriers électroniques Mail), mais également tous les éléments qui vont lui permettre de récupérer tout le travail de classement qui avait été ajouté par l'auteur de la recherche initiale.
Pour cela, il suffit de disposer d'un fichier-conteneur vers lequel, on peut avec une fonction copier- coller , copier une ou plusieurs lignes dudit tableau des documents trouvés. Grâce à cette opération, on mémorise dans une mémoire permanente, toutes les informations relatives à chaque ligne, à savoir, le contenu du document original, Doc Mail avec sa mise en page, les dessins, images, sons, animations , etc, le texte Tia-txt nécessaire pour afficher l'aperçu, et toutes les informations que l'utilisateur de départ aura ajouté à ces informations de départ pour en rendre la lecture plus rapide, et la présentation plus pertinente, par exemple les critères de recherche, les modes de tri par colonnes, ou bien la façon d'ordonner les lignes dudit tableau des trouvés, les statistiques sur la recherche ....
Ce fichier-conteneur, à l'instar d'une chemise de courrier, peut être transmis à une autre personne soit sous forme de fichier via le réseau interne de l'entreprise, soit sous forme de pièce jointe attachée à un courrier électronique, et le destinataire pourra voir le contenu de ce fichier-conteneur, affiché sous forme de tableau, de manière analogue audit tableau des documents trouvés, chaque ligne du fichier-conteneur correspondant à une ligne du tableau des documents trouvés; de la même manière, grâce à la fenêtre pour l'affichage de l'aperçu, il lui sera possible aussi de voir rapidement le contenu des documents contenus dans le fichier-conteneur (courriers électroniques, traitement de texte, tableur... ) sans avoir besoin d'ouvrir les documents avec les logiciels qui leurs sont associés.
Ce fichier-conteneur peut-être à son tour être modifié ou enrichi avec d'autres documents, puis transmis à d'autres destinataires. Comme il est utilisé comme une pièce jointe attachée à un courrier électronique, il peut, à son tour, être exploré par le moteur de recherche, et les résultats de la recherche peuvent être insérés dans un nouveau fichier-conteneur.
REVENDICATIONS:
1 - Procédé de recherche de documents stockés sur une mémoire électronique à partir d'un ou plusieurs mots ou partie de mot contenus dans les documents eux-mêmes ou un élément d'identification desdits documents, puis affichage sous forme d'aperçu des informations relatives aux documents trouvés par cette recherche comportant les étapes suivantes: - recherche dans lesdits documents, à partir d'un ou plusieurs critères de recherche, - puis affichage de l'aperçu pour un ou plusieurs documents retrouvés, caractérisé par le fait que préalablement, on a mémorisé dans une mémoire permanente une table dite table des aperçus, comportant au moins les éléments nécessaires et suffisants à l'affichage de l'aperçu des informations recherchées.

Claims (1)

  1. 2 - Procédé de recherche d'un document selon la revendication 1 caractérisé en ce que la table dite des aperçus est utilisée au cours de l'étape de recherche pour effectuer la recherche sur les documents. 3 - Procédé de recherche d'un document selon les revendications 1 ou 2 caractérisé en ce que la table dite des aperçus contient pour chaque courrier électronique le contenu des pièces jointes y compris celles qui sont mémorisées sous forme compressée. 4 - Procédé de recherche d'un document selon les revendications 1 à 3 caractérisé par le fait que la recherche est effectuée en commençant par le balayage séquentiel de la table dite des index qui comporte pour chaque document un bloc contenant à la fois le texte du document et au moins une partie des éléments d'identification du document. 5 - Procédé de recherche d'un document selon la revendication 4 caractérisé par le fait que la table des index dite des pièces jointes est balayée séquentiellement avant la table des index des courriers électroniques. 6 - Procédé de recherche d'un document selon les revendications 1 à 5 caractérisé en ce que l'on mémorise dans une mémoire temporaire ou permanente, dans un fichier dit fichierconteneur, le résultat d'une ou plusieurs recherches et que le résultat des recherches contient au moins un aperçu extrait de ladite table des aperçus. 7 - Procédé de recherche d'un document selon la revendication 6 caractérisé en ce que ledit fichier-conteneur peut-être enrichi ou modifié avec de nouveaux documents, puis transféré vers un destinataire.
FR0409271A 2004-03-23 2004-09-02 Procede de recherche et d'affichage de la recherche parmi les documents texte stockes dans les ordinateurs Expired - Fee Related FR2874719B1 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
FR0409271A FR2874719B1 (fr) 2004-09-02 2004-09-02 Procede de recherche et d'affichage de la recherche parmi les documents texte stockes dans les ordinateurs
FR0502604A FR2870023B1 (fr) 2004-03-23 2005-03-16 Procede de recherche d'informations, moteur de recherche et microprocesseur pour la mise en oeuvre du procede
US10/593,660 US20070179932A1 (en) 2004-03-23 2005-03-18 Method for finding data, research engine and microprocessor therefor
PCT/FR2005/000659 WO2005101240A1 (fr) 2004-03-23 2005-03-18 Procede de recherche d'informations, moteur de recherche et microprocesseur pour la mise en oeuvre de ce procede
EP05742860A EP1733324A1 (fr) 2004-03-23 2005-03-18 Procede de recherche d'informations, moteur de recherche et microprocesseur pour la mise en oeuvre de ce procede

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0409271A FR2874719B1 (fr) 2004-09-02 2004-09-02 Procede de recherche et d'affichage de la recherche parmi les documents texte stockes dans les ordinateurs

Publications (2)

Publication Number Publication Date
FR2874719A1 true FR2874719A1 (fr) 2006-03-03
FR2874719B1 FR2874719B1 (fr) 2006-12-29

Family

ID=34950079

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0409271A Expired - Fee Related FR2874719B1 (fr) 2004-03-23 2004-09-02 Procede de recherche et d'affichage de la recherche parmi les documents texte stockes dans les ordinateurs

Country Status (1)

Country Link
FR (1) FR2874719B1 (fr)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0886227A1 (fr) * 1997-06-16 1998-12-23 Digital Equipment Corporation Depot des messages avec index complet
US20020103867A1 (en) * 2001-01-29 2002-08-01 Theo Schilter Method and system for matching and exchanging unsorted messages via a communications network
US20020143871A1 (en) * 2001-01-23 2002-10-03 Meyer David Francis Meta-content analysis and annotation of email and other electronic documents
US6721748B1 (en) * 1999-05-11 2004-04-13 Maquis Techtrix, Llc. Online content provider system and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0886227A1 (fr) * 1997-06-16 1998-12-23 Digital Equipment Corporation Depot des messages avec index complet
US6721748B1 (en) * 1999-05-11 2004-04-13 Maquis Techtrix, Llc. Online content provider system and method
US20020143871A1 (en) * 2001-01-23 2002-10-03 Meyer David Francis Meta-content analysis and annotation of email and other electronic documents
US20020103867A1 (en) * 2001-01-29 2002-08-01 Theo Schilter Method and system for matching and exchanging unsorted messages via a communications network

Also Published As

Publication number Publication date
FR2874719B1 (fr) 2006-12-29

Similar Documents

Publication Publication Date Title
US9853930B2 (en) System and method for digital evidence analysis and authentication
Boyd-Graber et al. Care and feeding of topic models: Problems, diagnostics, and improvements
US9323827B2 (en) Identifying key terms related to similar passages
US7788262B1 (en) Method and system for creating context based summary
US8739032B2 (en) Method and system for document presentation and analysis
US8452769B2 (en) Context aware search document
JP5647508B2 (ja) ショートテキスト通信のトピックを識別するためのシステムおよび方法
US8412703B2 (en) Search engine for scientific literature providing interface with automatic image ranking
EP1733324A1 (fr) Procede de recherche d'informations, moteur de recherche et microprocesseur pour la mise en oeuvre de ce procede
US20060200455A1 (en) Search engine result reporter
EP1364316A2 (fr) Dispositif d'extraction d'informations d'un texte a base de connaissances
Won et al. Contextual web history: using visual and contextual cues to improve web browser history
US20040158558A1 (en) Information processor and program for implementing information processor
N. Karanikolas et al. Personal digital libraries: A self-archiving approach
US20120109965A1 (en) System for automatic semantic-based mining
FR2874719A1 (fr) Procede de recherche et d'affichage de la recherche parmi les documents texte stockes dans les ordinateurs
Kosa et al. Cross-evaluation of automated term extraction tools
US10579660B2 (en) System and method for augmenting search results
Nicholson Digital research
Mourão et al. The Anatomy of a Web Archive Image Search Engine-Technical Report
JP4899128B2 (ja) 関連語統合システム
Cutrell Search user interfaces for PIM
Veena et al. A Personalized and Scalable Machine Learning-Based File Management System
Cortis et al. SemChat: Extracting Personal Information from Chat Conversations
WO2011113829A1 (fr) Procedes multi-dimensionnels d'enregistrement et de recherche de documents

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20070531

D3 Ip right revived
ST Notification of lapse

Effective date: 20100531