FR2874719A1

FR2874719A1 - Procede de recherche et d'affichage de la recherche parmi les documents texte stockes dans les ordinateurs

Info

Publication number: FR2874719A1
Application number: FR0409271A
Authority: FR
Inventors: Alain Nicolas Piaton
Original assignee: Individual
Current assignee: Individual
Priority date: 2004-09-02
Filing date: 2004-09-02
Publication date: 2006-03-03
Anticipated expiration: 2024-09-02
Also published as: FR2874719B1

Abstract

Procédé de recherche de documents stockés sur une mémoire électronique à partir d'un ou plusieurs mots ou partie de mot contenus dans les documents eux-mêmes ou un élément d'identification desdits documents, puis affichage sous forme d'aperçu des informations relatives aux documents trouvés par cette recherche comportant les étapes suivantes:Dans un premier temps, mémorisation dans une mémoire permanente d'une table dite tables des aperçus, comportant tout ou partie de éléments nécessaires à l'affichage des informations recherchées,Dans un deuxième temps, au cours d'une phase dite de recherche, recherche dans les dits documents, à partir d'un ou plusieurs critères de recherche,Dans un troisième temps, affichage de l'aperçu pour un ou plusieurs documents retrouvés.

Description

PROCEDE DE RECHERCHE ET D'AFFICHAGE DES RESULTATS

DE LA RECHERCHE PARMI LES DOCUMENTS TEXTE

STOCKES DANS LES ORDINATEURS

DOMAINE DE L'INVENTION
Devant la multiplication des documents sous forme de traitement de texte ou de courrier électronique disponibles dans les micro-ordinateurs et les réseaux internes des entreprises, la nécessité de disposer d'un moteur de recherche permettant de retrouver rapidement un document par un élément de son contenu, à l'instar des moteurs de recherche sur Internet, s'impose de plus en plus, et de nouveaux logiciels permettent d'ores et déjà de rechercher l'information sous forme de texte dans tout type de document, y compris dans les pièces jointes des courriers.
Toutefois, malgré ces outils les temps de recherche sont encore importants, car lorsqu'un document a été identifié, il est souvent nécessaire d'ouvrir le document avec le programme qui lui est associé pour s'assurer que c'est bien le document recherché. Plus grave encore, quand on a ouvert une dizaine de documents (traitements de texte, tableurs, courriers électroniques, ...) il devient difficile de passer de l'un à l'autre pour revenir sur un document plus pertinent que les autres.
C'est pour répondre à ce type de problème qu'est proposée l'invention décrite ci-après :

DESCRIPTION DES SCHEMA EXPLICATIFS
La figure 1 est une description des différents documents de départ, des différentes tables et du fichier-conteneur selon l'invention. La figure 2 est une description de la structure de la table d'index selon l'invention. Signification des abréviations utilisées:
Doc un document de type texte Mail un courrier électronique Att une pièce jointe Zip un ensemble de pièces jointes en format compressé Tia une Table d'index et d'aperçu Tla un élément de la table TIA Id les éléments d'identification d'un document txt la partie texte d'un document.
Exemple : Tia-txt de TIA-Att représente l'élément texte qui permettra d'afficher l'aperçu d'une pièce jointe dans la fenêtre des aperçus.

PRESENTATION DE L'INVENTION
Le procédé selon l'invention utilise les éléments suivants :
D'une part l'ensemble des documents Doc (voir figure 1) sur lesquels on est appelé à effectuer les recherches, à savoir tout type de document texte tel que traitement de texte, tableur, courrier électronique Mail avec ses pièces jointes Att, lesdits documents étant stockés soit sur le micro-ordinateur à partir duquel seront lancées les recherches, soit dans les réseaux internes des entreprises, soit en dehors via Internet, d'autre part un ensemble de tables dites tables d'index, mémorisées dans des mémoires permanentes, pour effectuer les recherches, et enfin un ensemble de tables dites tables des aperçus, mémorisées dans des mémoires permanentes, pour permettre un affichage rapide des résultats.
Dans un mode préféré de l'invention, ce sont les mêmes tables qui sont utilisées à la fois pour effectuer la recherche et afficher les aperçus, c'est-à-dire que ce sont les tables d'index qui seront utilisées pour afficher les aperçus. Par la suite cette table sera appelée table d'index et d'aperçu TIA Une recherche selon le procédé nécessite les étapes suivantes :
1 Création de la table d'index et d'aperçu.
La table d'index et d'aperçu doit permettre la recherche rapide et l'affichage rapide des aperçus ; elle contient pour chaque document les deux types d'informations suivantes :
D'une part, le contenu intégral ou partiel du document en format texte, non compressé, à l'exception des images, séquences sonores, c'est-à-dire tout élément qui peut être affiché sous forme de texte. Dans le cas des courriers électroniques le contenu des documents attachés, qu'il soit sous forme compressée ou non, est également mémorisé dans la table.
D'autre part, les éléments d'identification du document tels que nom du document, objet, date, longueur, mots clefs, le chemin du document sur le disque, etc ; pour les courriers électroniques le nom de l'émetteur sous forme d'adresse électronique et sous forme d'alias, le nom des destinataires, des copies, nom de dossier, etc.
Tous les documents sont stockés les uns à la suite des autres soit dans une table unique, soit dans plusieurs tables, une par type de document par exemple, TIA-Doc TIA-Mail chaque document étant représenté par une en-tête Tia-id suivie de tous les champs en format texte susceptibles d'être sélectionnés par la fonction de recherche.
Dans un mode préféré de l'invention, on utilise un système de séparateurs entre les différents documents, et entre les différents éléments à l'intérieur de chaque document afin de permettre un balayage rapide de la table d'index et d'aperçu.
Ladite en-tête Tia-Id regroupe des données de type numérique, ainsi que des textes sur lesquels on n'effectue pas de recherche : - au début de l'en-tête : caractère séparateur 'Oxff ou tout autre caractère qui ne peut pas figurer dans un fichier texte, - la longueur de l'en-tête, - des données numériques telles que longueur des blocs, compteurs divers, - des données numériques susceptibles d'être recherchées, appelées par la suite rubriques, telles que longueur ou date du document, - données alphabétiques qui ne font pas partie du champs des recherches : nom de machine, client, langue, tables de conversion, etc.
A la suite on trouve la partie texte, Tia-txt, c'est-à-dire tous les éléments sur lesquels sont effectués les recherches en format texte:
Il s'agit desdits contenus, des mots-clefs, desdits éléments d'identification. Ces différents éléments, appelés par la suite rubriques, sont stockés les uns à la suite des autres sous forme de texte, et ils sont séparés par des caractères séparateurs.
Dans un mode préféré de l'invention, le contenu de chacune des pièces jointes des courriers électroniques est mémorisé dans une table séparée TIA-Att dite table d'index des pièces jointes et un document donné n'y figure qu'une seule fois, même s'il appartient à plusieurs courriers électroniques ou à plusieurs fichiers compressés Zip eux-mêmes attachés en pièce jointe.
Ces tables sont fabriquées puis régulièrement mises à jour grâce à des convertisseurs Conv qui, à partir des documents de départ, traitement de texte, tableurs, présentations, Doc courriers électroniques Mail... extraient tous les éléments utiles pour la consultation des dites tables au moment de la recherche, puis par la suite pour leur affichage sous forme d'aperçu.
2 Recherche de documents.
Hormis les logiciels de recherche documentaires ou moteurs de recherche sur Internet qui sont très rapides car ils utilisent un thésaurus, en général, les logiciels de recherche sur ordinateur commencent par balayer la table d'index des fichiers sur disque communément appelée FAT, ou une table équivalente qui permet de vérifier si le nom du fichier, le type du fichier, sa longueur ou sa date satisfont aux critères de recherche. Si c'est le cas, et dans le cas où l'on doit effectuer la recherche sur des mots contenus dans les documents euxmêmes, on balaie alors séquentiellement le contenu de chacun des fichiers qui correspondent à ces premiers critères de recherche, pour vérifier en plus si le mot recherché figure dans ce document.Il s'avère que cette technique consistant à explorer d'abord une table d'index puis si nécessaire une seconde table contenant les textes eux-mêmes est beaucoup plus lente que celle qui consiste d'abord à balayer séquentiellement la table qui contient tous les contenus des documents ainsi qu'il est décrit ci-après.
Pour effectuer la recherche sur un ou plusieurs mots ou parties de mot, on balaie séquentiellement la table des index comme suit :
Quand on rencontre ledit séparateur de document, (égal à Oxff), on analyse les éléments de l'en-tête, Tia-id puis on se positionne sur le premier caractère de la zone Tia-txt correspondant aux éléments sur lesquels on veut effectuer la recherche en format texte. Ensuite, on balaie ladite zone en format texte Tia-txt pour regarder si elle contient une partie ou la totalité des mots recherchés. Si tel n'est le cas, on passe au document suivant, sinon le décompte du nombre de séparateurs permet de savoir de quelle rubrique il s'agit, et grâce aux données de l'en-tête précédemment chargée, on dispose alors de tous les éléments nécessaires pour afficher le résultat de la recherche.
Dans un mode préféré de l'invention, on commence par balayer la table dite d'index des pièces jointes TIA-Att et chaque fois qu'une pièce jointe comporte le ou les mots recherchés, on mémorise temporairement dans une table l'identifiant de cette pièce jointe, ce qui permet, par la suite, lors du balayage de la table des courriers électroniques TIA-Mail d'identifier les courriers qui ont des pièces jointes contenant les mots recherchés.
3 Affichage du résultat de la recherche :
Les informations relatives aux documents trouvés à l'issue de la recherche sont affichées sous la forme d'un tableau dit tableau des documents trouvés, comportant une ou plusieurs lignes pour chaque document trouvé et plusieurs colonnes correspondant chacune à une ou plusieurs desdites rubriques.
Quand une ligne du tableau est sélectionnée, par exemple un courrier électronique, le contenu Tia-txt de ce courrier est extrait de la table d'index et d'aperçu TIA puis affiché dans une fenêtre séparée dite fenêtre des aperçus ; quand on passe à la ligne suivante du tableau, c'est le contenu de ce nouveau courrier qui est affiché dans la fenêtre des aperçus.
Quand un courrier électronique Mail contient une ou plusieurs pièces jointes Att le nom des pièces jointes est affiché à l'écran, et quand on sélectionne l'une d'elle, son contenu Tia-Att est extrait de la table des pièces jointes TIA-Att puis affiché dans la fenêtre des aperçus, sans qu'il soit nécessaire de lancer le logiciel (traitement de texte, tableur, ...) qui lui est associé. Cette opération est extrêmement rapide puisque ce contenu fait partie de la table qui vient d'être explorée au cours de l'étape de recherche.
Le fait de lancer une (ou plusieurs) recherches, puis de sélectionner les seuls documents utiles en vue de traiter un problème, représente une opération à la fois coûteuse en temps et en compétence, c'est-à-dire qu'une telle sélection apporte de la valeur ajoutée par rapport à l'information brute de départ. Avec les techniques actuelles de courrier électronique, si l'on désire transmettre cette information à une autre personne, tous les documents vont être transmis en vrac sous forme de pièces jointes à un courrier, et le destinataire sera amené à refaire une partie du travail de sélection qui a déjà été réalisé.
C'est pourquoi il est préférable de lui transmettre un dossier appelé par la suite fichierconteneur , File-Cont, qui contient non seulement les documents de départ (traitements de texte, tableurs, ... Doc, courriers électroniques Mail), mais également tous les éléments qui vont lui permettre de récupérer tout le travail de classement qui avait été ajouté par l'auteur de la recherche initiale.
Pour cela, il suffit de disposer d'un fichier-conteneur vers lequel, on peut avec une fonction copier- coller , copier une ou plusieurs lignes dudit tableau des documents trouvés. Grâce à cette opération, on mémorise dans une mémoire permanente, toutes les informations relatives à chaque ligne, à savoir, le contenu du document original, Doc Mail avec sa mise en page, les dessins, images, sons, animations , etc, le texte Tia-txt nécessaire pour afficher l'aperçu, et toutes les informations que l'utilisateur de départ aura ajouté à ces informations de départ pour en rendre la lecture plus rapide, et la présentation plus pertinente, par exemple les critères de recherche, les modes de tri par colonnes, ou bien la façon d'ordonner les lignes dudit tableau des trouvés, les statistiques sur la recherche ....
Ce fichier-conteneur, à l'instar d'une chemise de courrier, peut être transmis à une autre personne soit sous forme de fichier via le réseau interne de l'entreprise, soit sous forme de pièce jointe attachée à un courrier électronique, et le destinataire pourra voir le contenu de ce fichier-conteneur, affiché sous forme de tableau, de manière analogue audit tableau des documents trouvés, chaque ligne du fichier-conteneur correspondant à une ligne du tableau des documents trouvés; de la même manière, grâce à la fenêtre pour l'affichage de l'aperçu, il lui sera possible aussi de voir rapidement le contenu des documents contenus dans le fichier-conteneur (courriers électroniques, traitement de texte, tableur... ) sans avoir besoin d'ouvrir les documents avec les logiciels qui leurs sont associés.
Ce fichier-conteneur peut-être à son tour être modifié ou enrichi avec d'autres documents, puis transmis à d'autres destinataires. Comme il est utilisé comme une pièce jointe attachée à un courrier électronique, il peut, à son tour, être exploré par le moteur de recherche, et les résultats de la recherche peuvent être insérés dans un nouveau fichier-conteneur.

REVENDICATIONS:
1 - Procédé de recherche de documents stockés sur une mémoire électronique à partir d'un ou plusieurs mots ou partie de mot contenus dans les documents eux-mêmes ou un élément d'identification desdits documents, puis affichage sous forme d'aperçu des informations relatives aux documents trouvés par cette recherche comportant les étapes suivantes: - recherche dans lesdits documents, à partir d'un ou plusieurs critères de recherche, - puis affichage de l'aperçu pour un ou plusieurs documents retrouvés, caractérisé par le fait que préalablement, on a mémorisé dans une mémoire permanente une table dite table des aperçus, comportant au moins les éléments nécessaires et suffisants à l'affichage de l'aperçu des informations recherchées.

Claims

2 - Procédé de recherche d'un document selon la revendication 1 caractérisé en ce que la table dite des aperçus est utilisée au cours de l'étape de recherche pour effectuer la recherche sur les documents. 3 - Procédé de recherche d'un document selon les revendications 1 ou 2 caractérisé en ce que la table dite des aperçus contient pour chaque courrier électronique le contenu des pièces jointes y compris celles qui sont mémorisées sous forme compressée. 4 - Procédé de recherche d'un document selon les revendications 1 à 3 caractérisé par le fait que la recherche est effectuée en commençant par le balayage séquentiel de la table dite des index qui comporte pour chaque document un bloc contenant à la fois le texte du document et au moins une partie des éléments d'identification du document. 5 - Procédé de recherche d'un document selon la revendication 4 caractérisé par le fait que la table des index dite des pièces jointes est balayée séquentiellement avant la table des index des courriers électroniques. 6 - Procédé de recherche d'un document selon les revendications 1 à 5 caractérisé en ce que l'on mémorise dans une mémoire temporaire ou permanente, dans un fichier dit fichierconteneur, le résultat d'une ou plusieurs recherches et que le résultat des recherches contient au moins un aperçu extrait de ladite table des aperçus. 7 - Procédé de recherche d'un document selon la revendication 6 caractérisé en ce que ledit fichier-conteneur peut-être enrichi ou modifié avec de nouveaux documents, puis transféré vers un destinataire.