FR3019354A1

FR3019354A1 - METHOD FOR IDENTIFYING TEXT FORMS IN A DIGITAL DOCUMENT, AND METHOD AND SYSTEM FOR DETERMINING CONTEXTUAL INFORMATION THEREOF

Info

Publication number: FR3019354A1
Application number: FR1452609A
Authority: FR
Inventors: Julien Martin; Victor Bartel; Adrien Lavoillotte; Jean-Jacques Arnal
Original assignee: IMAGINATIO
Current assignee: IMAGINATIO
Priority date: 2014-03-26
Filing date: 2014-03-26
Publication date: 2015-10-02

Abstract

La présente invention concerne un procédé (42), mis en œuvre par ordinateur, d'identification de formes textuelles (2j) relatives à au moins un domaine dans un document numérique (3), l'ordinateur comprenant au moins un processeur et au moins une mémoire stockant une application (18) qui, lorsqu'elle est exécutée par ledit au moins un processeur, met en œuvre le procédé (42), le document numérique (3) étant stocké au sein de l'ordinateur et comprenant du texte, le texte contenant un ensemble de caractères sous forme de langage naturel, chaque forme textuelle étant définie comme un sous-ensemble de caractères associés à un même type, ledit type étant relatif à un domaine particulier et représentant la nature générale de la forme textuelle dans ce domaine. Le procédé comprend : • une étape (44) d'extraction de formes textuelles (2i) par application, pour l'ensemble des domaines relatifs aux formes textuelles (2i) du texte du document numérique (3), d'un ensemble d'implantations exécutables (29i) de langages réguliers sur le texte du document numérique (3), et • une étape (46) de sélection, à partir des formes textuelles (2i) extraites, de formes textuelles (2j) relatives à un sous-ensemble prédéterminé desdits domaines, par détection, pour chaque forme textuelle (2i) extraite, du type représentant ladite forme (2i).The present invention relates to a method (42), implemented by computer, for identifying textual forms (2j) relating to at least one domain in a digital document (3), the computer comprising at least one processor and at least one a memory storing an application (18) which, when executed by said at least one processor, implements the method (42), the digital document (3) being stored within the computer and including text, the text containing a set of characters in the form of a natural language, each textual form being defined as a subset of characters associated with the same type, said type being relative to a particular domain and representing the general nature of the textual form in that field. The method comprises: • a step (44) for extracting textual forms (2i) by applying, for all the fields relating to the textual forms (2i) of the text of the digital document (3), a set of executable implementations (29i) of regular languages on the text of the digital document (3), and • a step (46) of selection, from extracted textual forms (2i), of textual forms (2j) relating to a subset predetermined one of said domains, by detection, for each extracted textual form (2i), of the type representing said form (2i).

Description

PROCÉDÉ D'IDENTIFICATION DE FORMES TEXTUELLES DANS UN DOCUMENT NUMÉRIQUE, ET PROCÉDÉ ET SYSTEME DE DÉTERMINATION D'INFORMATIONS CONTEXTUELLES ASSOCIÉS Domaine technique de l'invention [1] La présente invention concerne les procédés de détermination d'informations contextuelles associées à un texte d'un document numérique. Plus particulièrement, l'invention concerne un procédé mis en oeuvre par ordinateur d'identification de formes textuelles relatives à au moins un domaine dans un document numérique. Etat de la technique antérieure [2] Il est connu des procédés d'identification de formes textuelles relatives à au moins un domaine dans un document numérique, mis en oeuvre par des systèmes informatiques comprenant a minima un ordinateur serveur et un ordinateur client relié à l'ordinateur serveur via une liaison de données, typiquement via un réseau de communication offrant un accès internet. [03] Dans de tels procédés, le document numérique est stocké au sein de l'ordinateur client et comprend du texte. Le texte contient un ensemble de caractères sous forme de langage naturel, chaque forme textuelle étant définie comme un sous-ensemble de caractères associés à un même type, ledit type étant relatif à un domaine particulier et représentant la nature générale de la forme textuelle dans ce domaine. De tels procédés comprennent une étape de transmission du document numérique par l'ordinateur client à l'ordinateur serveur, et une étape d'identification de formes textuelles relatives à au moins un domaine dans le document numérique transmis. L'étape d'identification est mise en oeuvre par un ou plusieurs module(s) d'identification agencé(s) au sein de l'ordinateur serveur. [4] Toutefois, de tels modules d'identification, s'ils constituent des systèmes puissants, présentent en contrepartie une consommation élevée en termes de ressources informatiques et sont relativement coûteux à produire. En outre, la transmission de l'intégralité du document numérique par l'ordinateur client à l'ordinateur serveur entraîne un coût en termes de temps d'exécution du procédé. Un autre inconvénient lié à la transmission du document numérique sur une liaison de données non sécurisée réside dans les éventuels problèmes de confidentialité qui peuvent se poser. [5] Il existe donc un réel besoin d'un procédé d'identification de formes textuelles dans un document numérique palliant ces défauts, inconvénients et obstacles de l'art antérieur, en particulier d'un procédé apte à être mis en oeuvre par un système simple et fiable, et permettant de réduire la consommation en ressources informatiques, le temps d'exécution et les coûts, et d'améliorer le niveau de confidentialité.METHOD FOR IDENTIFYING TEXT FORMS IN DIGITAL DOCUMENT, AND ASSOCIATED METHOD AND SYSTEM FOR DETERMINING CONTEXTUAL INFORMATION Technical Field of the Invention [1] The present invention relates to methods for determining contextual information associated with a text of a text. a digital document. More particularly, the invention relates to a computer-implemented method for identifying textual forms relating to at least one domain in a digital document. State of the Prior Art [2] There are known methods for identifying textual forms relating to at least one domain in a digital document, implemented by computer systems comprising at least a server computer and a client computer connected to the computer. server computer via a data link, typically via a communication network providing internet access. [03] In such methods, the digital document is stored within the client computer and includes text. The text contains a set of characters in the form of a natural language, each textual form being defined as a subset of characters associated with the same type, said type being relative to a particular domain and representing the general nature of the textual form in it. field. Such methods include a step of transmitting the digital document by the client computer to the server computer, and a step of identifying textual forms relating to at least one domain in the transmitted digital document. The identification step is implemented by one or more identification module (s) arranged (s) within the server computer. [4] However, such identification modules, if they are powerful systems, have in return a high consumption in terms of computing resources and are relatively expensive to produce. In addition, the transmission of the entire digital document by the client computer to the server computer entails a cost in terms of the execution time of the method. Another disadvantage related to the transmission of the digital document on an unsecured data link lies in the possible problems of confidentiality that may arise. [5] There is therefore a real need for a method for identifying textual forms in a digital document overcoming these defects, disadvantages and obstacles of the prior art, in particular of a method that can be implemented by a user. a simple and reliable system that reduces IT resource consumption, uptime and costs, and improves the level of confidentiality.

Exposé de l'invention [6] Pour pallier à au moins un des inconvénients cités précédemment, l'invention a pour objet un procédé, mis en oeuvre par ordinateur, d'identification de formes textuelles relatives à au moins un domaine dans un document numérique, l'ordinateur comprenant au moins un processeur et au moins une mémoire stockant une application qui, lorsqu'elle est exécutée par ledit au moins un processeur, met en oeuvre le procédé, le document numérique étant stocké au sein de l'ordinateur et comprenant du texte, le texte contenant un ensemble de caractères sous forme de langage naturel, chaque forme textuelle étant définie comme un sous- ensemble de caractères associés à un même type, ledit type étant relatif à un domaine particulier et représentant la nature générale de la forme textuelle dans ce domaine, le procédé comprenant : - une étape d'extraction de formes textuelles par application, pour l'ensemble des domaines relatifs aux formes textuelles du texte du document numérique, d'un ensemble d'implantations exécutables de langages réguliers sur le texte du document numérique, et - une étape de sélection, à partir des formes textuelles extraites, de formes textuelles relatives à un sous-ensemble prédéterminé desdits domaines, par détection, pour chaque forme textuelle extraite, du type représentant ladite forme [7] Grâce au fait que l'intégralité du procédé est mise en oeuvre sur un seul ordinateur, par exemple un ordinateur d'un utilisateur, combiné à l'application d'implantations exécutables de langages réguliers lors de l'étape d'extraction de formes textuelles, les formes textuelles relatives à au moins un domaine sont identifiées localement de manière fiable, et le temps d'exécution du procédé est réduit. En outre, du fait qu'aucune transmission du document numérique n'est effectuée sur une liaison de données non sécurisée, le niveau global de confidentialité associé au procédé est amélioré. [8] Selon une caractéristique technique particulière de l'invention, le procédé comprend en outre, avant l'étape d'extraction, une étape initiale de normalisation, selon un format prédéterminé, du texte du document numérique. [09] Une telle caractéristique permet de faciliter l'étape d'extraction des formes textuelles. [10] Dans une réalisation particulière de l'invention, le procédé comprend en outre une étape d'affichage des formes textuelles sélectionnées et d'un message indicatif d'un mode de fonctionnement local. [11] Cette caractéristique permet de mettre à disposition d'un utilisateur un service local d'identification de formes textuelles dans un texte d'un document numérique, ne nécessitant pas de connexion entre l'ordinateur de l'utilisateur et un réseau de communication. [12] Selon un autre aspect, l'invention a également pour objet un produit 30 programme d'ordinateur téléchargeable depuis un réseau de communication et/ou enregistré sur un support lisible par ordinateur et/ou exécutable par un processeur, comprenant des instructions de programme adaptées pour mettre en oeuvre le procédé tel que défini ci-dessus lorsque le produit programme est exécuté sur un ordinateur. [13] Avantageusement, le produit programme d'ordinateur comporte un module de traitement de texte associé à une interface graphique, lesdites instructions de programme étant adaptées pour mettre en oeuvre le procédé tel que défini ci-dessus de sorte à identifier des formes textuelles relatives à au moins un domaine dans le texte d'un document numérique traité par le module de traitement de texte. [14] Cette caractéristique permet de détecter automatiquement des formes textuelles relatives à au moins un domaine dans le texte du document numérique, au fil de la rédaction du texte dans le module de traitement de texte ou dès son ouverture dans ce module. [15] Selon un autre aspect, l'invention a aussi pour objet un procédé de détermination d'informations contextuelles associées à un texte d'un document numérique, le procédé comprenant une étape de stockage du document numérique au sein d'un ordinateur d'un utilisateur, le procédé comprenant en outre : - un sous-procédé d'identification de formes textuelles relatives à au moins un domaine tel que défini ci-dessus, le sous-procédé étant mis en oeuvre par l'ordinateur sur le texte du document numérique, - une étape de transmission des formes textuelles identifiées à un dispositif de traitement de données comprenant au moins un serveur relié à au moins une base de données, - une étape d'identification, par le dispositif de traitement de données, d'informations contextuelles correspondant à au moins certaines des formes textuelles identifiées, lesdites informations contextuelles étant stockées dans la base de données, - une étape de transmission à l'ordinateur des informations contextuelles identifiées, et - une étape d'affichage, par l'ordinateur, des informations contextuelles identifiées et des formes textuelles correspondantes. [16] Selon une caractéristique technique particulière de l'invention, la base de données comprend des entrées associées aux informations 5 contextuelles stockées, et l'étape d'identification d'informations contextuelles comprend, pour chaque forme textuelle identifiée : - l'émission par l'ordinateur, à destination du serveur, d'une requête d'identification d'entrées de la base de données correspondant à la forme, 10 - la recherche par le serveur, dans la base de données, d'une ou plusieurs entrée(s) correspondant à la forme, et - si le résultat de la recherche est positif, l'association par le serveur entre ladite forme et les informations contextuelles associées à la ou aux entrée(s) trouvées. 15 [17] Dans une réalisation particulière de l'invention, si le résultat de la recherche est négatif, le procédé comprend une étape de transmission à l'ordinateur d'un message indiquant qu'aucune entrée correspondant à la forme n'a été trouvée, et une étape d'affichage par l'ordinateur de ce message. 20 [18] Selon une caractéristique technique particulière de l'invention, le procédé comporte en outre, avant l'étape d'affichage des informations contextuelles associées aux entrées identifiées, une étape de mise en forme, par l'ordinateur, de ces informations contextuelles. [19] Selon un autre aspect, l'invention a également pour objet un système 25 de détermination d'informations contextuelles associées à un texte d'un document numérique, comprenant : - un ordinateur muni de moyens d'affichage, d'au moins un processeur et d'au moins une mémoire, la mémoire comprenant une application et étant adaptée pour stocker le document 30 numérique, l'application étant propre, lorsqu'elle est exécutée par ledit au moins un processeur, à mettre en oeuvre le procédé d'identification de formes textuelles relatives à au moins un domaine tel que défini ci-dessus, sur le texte du document numérique, et - un dispositif de traitement de données comprenant au moins un serveur relié à au moins une base de données, le serveur étant relié à l'ordinateur via une liaison de données et étant propre à identifier des informations contextuelles correspondant à au moins certaines des formes textuelles sélectionnées, lesdites informations contextuelles étant stockées dans la base de données.DISCLOSURE OF THE INVENTION [6] In order to overcome at least one of the aforementioned drawbacks, the subject of the invention is a method, implemented by computer, of identifying textual forms relating to at least one domain in a digital document. , the computer comprising at least one processor and at least one memory storing an application which, when it is executed by said at least one processor, implements the method, the digital document being stored within the computer and comprising text, the text containing a set of characters in the form of a natural language, each textual form being defined as a subset of characters associated with the same type, said type being relative to a particular domain and representing the general nature of the form textual in this field, the method comprising: a step of extracting textual forms by application, for all domains relating to textual forms the text of the digital document, a set of implementable implementations of regular languages on the text of the digital document, and - a step of selecting, from the extracted textual forms, textual forms relating to a predetermined subset of said domains, by detection, for each extracted textual form, of the type representing said form [7] Because the entire method is implemented on a single computer, for example a user's computer, combined with the application of executable implementations of regular languages during the step of extracting textual forms, the textual forms relating to at least one domain are identified locally reliably, and the execution time of the method is reduced. In addition, since no transmission of the digital document is performed on an unsecured data link, the overall level of confidentiality associated with the method is improved. [8] According to a particular technical characteristic of the invention, the method further comprises, before the extraction step, an initial step of normalizing, according to a predetermined format, the text of the digital document. [09] Such a feature facilitates the step of extracting textual forms. [10] In a particular embodiment of the invention, the method further comprises a step of displaying the selected textual forms and a message indicative of a local mode of operation. [11] This characteristic makes it possible to provide a user with a local textual identification service in a text of a digital document, which does not require a connection between the user's computer and a communication network. . [12] In another aspect, the invention also provides a computer program product downloadable from a communication network and / or recorded on a computer-readable and / or executable medium by a processor, including program adapted to implement the method as defined above when the program product is run on a computer. [13] Advantageously, the computer program product comprises a word processing module associated with a graphic interface, said program instructions being adapted to implement the method as defined above so as to identify relative textual forms. at least one domain in the text of a digital document processed by the word processor. [14] This feature automatically detects textual forms relating to at least one domain in the text of the digital document, as the text is written in the word processing module or when it is opened in this module. [15] According to another aspect, the invention also relates to a method for determining contextual information associated with a text of a digital document, the method comprising a step of storing the digital document within a computer of a digital document. a user, the method further comprising: a sub-method for identifying textual forms relating to at least one domain as defined above, the sub-method being implemented by the computer on the text of the digital document, - a step of transmitting the identified textual forms to a data processing device comprising at least one server connected to at least one database, - a step of identification, by the data processing device, of contextual information corresponding to at least some of the identified textual forms, said contextual information being stored in the database, - a step of transmitting to the computer identified contextual information, and - a step of displaying, by the computer, the contextual information identified and the corresponding textual forms. [16] According to a particular technical feature of the invention, the database includes entries associated with stored contextual information, and the step of identifying contextual information includes, for each identified textual form: by the computer, to the server, a request for identification of database entries corresponding to the form, 10 - search by the server, in the database, of one or more input (s) corresponding to the form, and - if the result of the search is positive, the association by the server between said form and the contextual information associated with the entry (s) found. [17] In a particular embodiment of the invention, if the result of the search is negative, the method includes a step of transmitting to the computer a message indicating that no entry corresponding to the form has been received. found, and a step of displaying by the computer of this message. [18] According to a particular technical characteristic of the invention, the method further comprises, before the step of displaying contextual information associated with the identified entries, a step of formatting, by the computer, this information. contextual. [19] According to another aspect, the invention also relates to a system 25 for determining contextual information associated with a text of a digital document, comprising: a computer provided with display means, at least one a processor and at least one memory, the memory comprising an application and being adapted to store the digital document, the application being clean, when it is executed by said at least one processor, to implement the method of identification of textual forms relating to at least one domain as defined above, on the text of the digital document, and - a data processing device comprising at least one server connected to at least one database, the server being connected to the computer via a data link and being able to identify contextual information corresponding to at least some of the selected textual forms, said contextual information being stored in the database.

Brève description des figures [20] L'invention sera mieux comprise à la lecture de la description qui suit, faite uniquement à titre d'exemple, et en référence aux figures en annexe dans lesquelles : - la figure 1 est une représentation schématique d'un réseau de communication destiné à fournir et afficher des informations contextuelles associées à un texte d'un document numérique, auquel est connecté un système de détermination des informations contextuelles selon un mode de réalisation de l'invention, le système comprenant un ordinateur ; - la figure 2 représente schématiquement et fonctionnellement l'ordinateur de la figure 1, mettant en oeuvre, via une application dédiée, le procédé d'identification de formes textuelles relatives à au moins un domaine selon un mode de réalisation de l'invention ; - la figure 3 est un organigramme représentant un procédé de détermination des informations contextuelles associées à un texte d'un document numérique, le procédé de détermination comprenant le sous-procédé d'identification de la figure 2 ; et - la figure 4 représente schématiquement une étape particulière du procédé de détermination de la figure 3.30 Description détaillée d'un mode de réalisation [21] Dans la suite, il est divulgué en particulier un procédé d'identification de formes textuelles 2; relatives à au moins un domaine dans un document numérique 3. [22] Dans la suite de la description, on entend par « implantation exécutable de langage régulier » une fonction exécutable constituée d'une chaîne de caractères dans un langage donné, par exemple des caractères de type ASCII (de l'anglais American Standard Code for Information Interchange), contenant des caractères spéciaux et des caracatères standards, et permettant de retrouver des portions de chaînes de caractères correspondant à un modèle fourni en entrée de la fonction. [23] On entend en outre par « ordinateur » tout dispositif électronique muni d'au moins un processeur et au moins une mémoire, tel que par exemple un ordinateur de bureau, un ordinateur portable, un appareil de communication sans fil tel qu'un smartphone, ou encore une tablette numérique, sans que cette liste ne soit exhaustive. [24] Un réseau de communication 4 destiné à fournir des informations contextuelles associées à un texte d'un document numérique 3 est représenté schématiquement sur la figure 1. Un système 6 de détermination d'informations contextuelles associées au texte du document numérique 3 est connecté au réseau de communication 4. [25] Le réseau de communication 4 est muni d'une infrastructure de communication permettant la connexion, ou l'accès, à des équipements de communication de type serveurs et/ou bases de données. De manière classique, l'infrastructure de communication forme un réseau sans fil, ou un réseau filaire, ou encore un réseau comprenant une portion sans fil et une portion filaire. Dans un mode de réalisation particulier, le réseau de communication 4 est conçu comme un réseau de type internet. [26] Le système de détermination 6 comprend un ordinateur 8 et un dispositif 10 de traitement de données. [27] L'ordinateur 8 comporte des moyens d'affichage 12, et une unité de calcul 13 comprenant au moins un processeur 14 et au moins une mémoire 16. Dans l'exemple de réalisation de la figure 1, l'unité de calcul 13 comporte un processeur 14 et une mémoire 16 reliée au processeur 14.Brief description of the figures [20] The invention will be better understood on reading the description which follows, given solely by way of example, and with reference to the appended figures in which: FIG. 1 is a diagrammatic representation of a communication network for providing and displaying contextual information associated with a text of a digital document, to which is connected a contextual information determining system according to an embodiment of the invention, the system comprising a computer; FIG. 2 diagrammatically and functionally shows the computer of FIG. 1, implementing, via a dedicated application, the method of identifying textual forms relating to at least one domain according to one embodiment of the invention; FIG. 3 is a flow chart showing a method for determining the contextual information associated with a text of a digital document, the determination method comprising the identification sub-method of FIG. 2; and FIG. 4 schematically represents a particular step of the method for determining FIG. 3.30. DETAILED DESCRIPTION OF ONE EMBODIMENT [21] In the following, in particular, a method for identifying textual forms 2 is disclosed; relating to at least one domain in a digital document 3. [22] In the remainder of the description, the term "executable layout of regular language" means an executable function consisting of a string of characters in a given language, for example ASCII (American Standard Code for Information Interchange) type characters, containing special characters and standard characters, and making it possible to find portions of strings corresponding to a model provided as input to the function. [23] Furthermore, "computer" means any electronic device provided with at least one processor and at least one memory, such as for example a desktop computer, a laptop, a wireless communication device such as a smartphone, or a digital tablet, without this list being exhaustive. [24] A communication network 4 intended to provide contextual information associated with a text of a digital document 3 is shown schematically in FIG. 1. A system 6 for determining contextual information associated with the text of the digital document 3 is connected. to the communication network 4. [25] The communication network 4 is provided with a communication infrastructure allowing the connection or access to communication equipment of the server and / or database type. Typically, the communication infrastructure forms a wireless network, or a wired network, or a network comprising a wireless portion and a wired portion. In a particular embodiment, the communication network 4 is designed as an internet type network. [26] The determination system 6 comprises a computer 8 and a data processing device 10. [27] The computer 8 comprises display means 12, and a calculation unit 13 comprising at least one processor 14 and at least one memory 16. In the embodiment of FIG. 13 comprises a processor 14 and a memory 16 connected to the processor 14.

L'ordinateur 8 comporte en outre un périphérique d'entrée utilisateur et des moyens d'émission et de réception de données connectés au réseau de communication 4, ces éléments n'étant pas représentés sur la figure 1 pour des raisons de clarté. [28] Les moyens d'affichage 12 comprennent par exemple un écran d'ordinateur de bureau ou d'ordinateur portable, ou un écran de smartphone ou encore un écran de tablette numérique. [29] La mémoire 16 comprend une application 18 et est adaptée pour stocker un document numérique 3. La mémoire 16 est par exemple une mémoire non-éphémère. [30] L'application 18 est par exemple une application téléchargeable depuis le réseau de communication 4, via une plateforme de téléchargement non représentée sur les figures. De manière préférentielle, l'application 18 est munie d'un module de mise à jour automatique apte à vérifier, dans le réseau de communication 4, l'existence de mises à jour de l'application 18 à chaque exécution de l'application 18 par le processeur 14. L'application 18 comporte des instructions de programme adaptées pour mettre en oeuvre le procédé d'identification de formes textuelles 2; relatives à au moins un domaine selon l'invention, comme décrit par la suite. [31] Chaque forme textuelle 2; est définie comme étant un sous- ensembles de caractères issus du texte du document numérique 3 et associés à un même type. Le texte du document numérique 3 comprend un ensemble de caractères sous forme de langage naturel et chaque sous-ensemble de caractères formant une forme textuelle 2; est ainsi également sous forme de langage naturel. Chaque type est relatif à un domaine particulier et représente la nature générale de la forme textuelle correspondante dans ce domaine. Par exemple, dans le domaine du droit juridique, une citation d'un article de code, d'une loi, d'un arrêt d'un tribunal constituent des exemples de types. Selon cet exemple, des suites de caractères désignant un libellé d'article, le nom d'une loi ou la référence d'un arrêt de tribunal sont des exemples de formes textuelles 2; associées à ces types. [32] Dans le mode de réalisation particulier de la figure 2, l'application 18 présente une architecture comprenant avantageusement un module 20 de traitement de texte associé à un composant d'interface graphique. Le composant d'interface graphique n'est pas représenté sur les figures pour des raisons de clarté. [33] Le module de traitement de texte 20 comprend un composant 24 d'extraction de formes textuelles 2i, et un composant 26 de sélection de formes textuelles 2; relatives à au moins un domaine. Dans un mode de réalisation préférentiel, illustré sur la figure 2, le module de traitement de texte 20 comporte en outre un composant 28 de normalisation de données. En variante ou en complément, l'application 18 comporte en outre un module apte à mettre en oeuvre une fonction « presse-papier », associée au module de traitement de texte 20, et le module de traitement de texte 20 comporte en outre un composant apte à mettre en oeuvre une fonction « glisser-déposer ». Par fonctions « presse-papier » et « glisser-déposer » on entend les fonctions usuelles connues par un homme du métier pour le traitement et la manipulation de fichiers numériques, de chaines de caractères et/ou d'images. [34] En variante de réalisation non représentée, l'application 18 présente une architecture formée d'un module d'interfaçage à un module de traitement de texte externe, le module de traitement de texte externe étant par exemple préalablement stocké au sein de la mémoire 16. Selon cette variante de réalisation, le module d'interfaçage comprend le composant d'extraction 24 et le composant de sélection 26. En variante encore, le module d'interfaçage comprend le composant d'extraction 24, le composant de sélection 26 et le composant de normalisation 28. [35] Dans une autre variante de réalisation non représentée, l'application 18 ne comprend ni module de traitement de texte ni module d'interfaçage à un module de traitement de texte externe, mais est formée directement du composant d'extraction 24 et du composant de sélection 26. En variante encore, l'application 18 est formée directement du composant d'extraction 24, du composant de sélection 26 et du composant de normalisation 28. [36] Le composant d'extraction 24 est adapté pour appliquer un ensemble d'implantations exécutables 29; de langages réguliers sur un texte d'un document numérique 3. Les implantations exécutables 29; sont par exemple stockées dans la mémoire 16 et correspondent à l'ensemble des domaines relatifs aux formes textuelles 2; du texte du document numérique 3. Cet ensemble comprend au moins un domaine. Dans l'exemple de réalisation particulier des figures 1 et 2, les implantations exécutables 29; correspondent au moins au domaine du droit juridique. [37] Le composant de sélection 26 est propre à détecter, pour chaque forme textuelle 2; extraite, le type représentant ladite forme, de sorte à sélectionner les formes textuelles 2; relatives à un sous-ensemble prédéterminé de domaines appartenant à l'ensemble des domaines relatifs aux formes textuelles 2;. Ce sous-ensemble comprend au moins un domaine, et comprend au plus tous les domaines de l'ensemble. [38] Le composant de normalisation 28 est propre à modifier, si besoin, des données textuelles entrées par un utilisateur via le périphérique d'entrée, pour les enregistrer sous une forme normalisée permettant d'effectuer les extractions ultérieures de manière pertinente. [39] Ces modifications sont effectuées en uitlisant des règles de normalisation prédéterminées, telles que par exemple celles indiquées ci-après : - les différents tirets, guillemets ou parenthèses sont réécrits dans une forme unique de référence, - les espaces multiples sont enlevés et remplacés par des espaces simples, et - les caractères avec diacritiques sont remplacés par des équivalents spécifiques. [40] Le dispositif de traitement 10 comprend au moins un serveur 30 relié à au moins une base de données 32. Dans l'exemple de réalisation de la figure 1, le dispositif de traitement 10 comprend un serveur 30 relié à une base de données 32 via un moteur de recherche 34. [41] Le serveur 30 est relié à l'ordinateur 8 via une liaison de données.The computer 8 further comprises a user input device and data transmission and reception means connected to the communication network 4, these elements not being shown in FIG. 1 for the sake of clarity. [28] The display means 12 include for example a desktop computer screen or laptop, or a smartphone screen or a digital tablet screen. [29] The memory 16 includes an application 18 and is adapted to store a digital document 3. The memory 16 is for example a non-ephemeral memory. [30] The application 18 is for example a downloadable application from the communication network 4, via a download platform not shown in the figures. Preferably, the application 18 is provided with an automatic update module capable of verifying, in the communication network 4, the existence of updates of the application 18 each time the application is executed. by the processor 14. The application 18 includes program instructions adapted to implement the method of identifying textual forms 2; relating to at least one domain according to the invention, as described below. [31] Each textual form 2; is defined as a subset of characters from the text of the digital document 3 and associated with the same type. The text of the digital document 3 comprises a set of characters in the form of natural language and each subset of characters forming a textual form 2; is thus also in the form of natural language. Each type is relative to a particular domain and represents the general nature of the corresponding textual form in that domain. For example, in the area of legal law, a quotation from a code article, a law, a court judgment are examples of types. According to this example, character strings designating an item label, the name of a law or the reference of a court case are examples of textual forms 2; associated with these types. [32] In the particular embodiment of Figure 2, the application 18 has an architecture advantageously comprising a word processor module 20 associated with a graphical interface component. The GUI component is not shown in the figures for the sake of clarity. [33] The word processor module 20 comprises a textual form extraction component 24, and a textual selection component 26; relating to at least one domain. In a preferred embodiment, illustrated in Figure 2, the word processor module 20 further comprises a data normalization component 28. Alternatively or additionally, the application 18 further comprises a module adapted to implement a function "clipboard" associated with the word processor module 20, and the word processor module 20 further comprises a component able to implement a function "drag and drop". By "clipboard" and "drag and drop" functions are meant the usual functions known to those skilled in the art for the processing and manipulation of digital files, character strings and / or images. [34] In alternative embodiment not shown, the application 18 has an architecture formed of an interface module to an external word processor module, the external text processing module being for example previously stored within the memory 16. According to this embodiment, the interface module comprises the extraction component 24 and the selection component 26. In another variant, the interfacing module comprises the extraction component 24, the selection component 26 and the normalization component 28. [35] In another variant not shown, the application 18 does not include a word processor module or an interface module to an external word processing module, but is formed directly from the extraction component 24 and the selection component 26. In another variant, the application 18 is formed directly from the extraction component 24, the selection component 26 and the component of the standardization 28. [36] The extraction component 24 is adapted to apply a set of executable implantations 29; of regular languages on a text of a digital document 3. Executable implementations 29; are for example stored in the memory 16 and correspond to all the fields relating to the textual forms 2; the text of the digital document 3. This set includes at least one domain. In the particular embodiment of FIGS. 1 and 2, executable implantations 29; correspond at least to the field of legal law. [37] The selection component 26 is able to detect, for each textual form 2; extracted, the type representing said form, so as to select the textual forms 2; relating to a predetermined subset of domains belonging to all domains relating to textual forms 2 ;. This subset comprises at least one domain, and includes at most all domains of the set. [38] The normalization component 28 is able to modify, if necessary, textual data entered by a user via the input device, in order to save them in a standardized form making it possible to carry out the subsequent extractions in a relevant manner. [39] These modifications are carried out using predetermined standardization rules, such as for example those indicated below: - the different dashes, quotation marks or parentheses are rewritten in a single reference form, - the multiple spaces are removed and replaced by simple spaces, and - characters with diacritics are replaced by specific equivalents. [40] The processing device 10 comprises at least one server 30 connected to at least one database 32. In the embodiment of FIG. 1, the processing device 10 comprises a server 30 connected to a database 32 via a search engine 34. [41] The server 30 is connected to the computer 8 via a data link.

Dans l'exemple de réalisation de la figure 1, le serveur 30 est relié à l'ordinateur 8 via le réseau de communication 4. Le serveur 30 est propre à identifier des informations contextuelles correspondant à au moins certaines des formes textuelles 2; sélectionnées, comme décrit en détail par la suite. [42] La base de données 32 est par exemple une base de données fournie par un prestataire extérieur, telle que par exemple une base de données d'un fond documentaire. La base de données 32 stocke des informations contextuelles relatives à un domaine particulier. Dans l'exemple de réalisation particulier des figures 1 et 2, la base de données 2 0 32 est une base de données d'un fond documentaire relatif au domaine du droit, comprenant des informations juridiques du type contenu d'articles de codes, de lois, de décisions de jurisprudences, etc. En variante de réalisation non représentée, le dispositif de traitement 10 comprend plusieurs bases de données 32, chaque base de données 32 stockant par 25 exemple des informations contextuelles relatives à un des domaines du sous-ensemble prédéterminé de domaines. [43] Le moteur de recherche 34 est propre à consulter la base de données 32 et à ainsi permettre l'accès au contenu de cette base de données 32. Pour ce faire, le moteur de recherche 34 est propre par 30 exemple à utiliser un ou plusieurs index pointant vers des entrées de la base de données 32 correspondant aux informations contextuelles stockées. [44] Le fonctionnement du système 6 de détermination d'informations contextuelles associées au texte d'un document numérique 3 va maintenant être décrit en détail, en référence à la figure 3. Comme mentionné précédemment, le procédé mis en oeuvre par le système 6 est destiné à déterminer des informations contextuelles associées au texte du doument numérique 3. [45] Au cours d'une étape préalable 40, le document numérique 3 est stocké au sein de l'ordinateur 8. Dans le mode de réalisation particulier de la figure 2, le document numérique 3 est stocké dans une mémoire éphémère de l'ordinateur 8 au fil de son traitement par un utilisateur via le module de traitement de texte 20. En variante non représentée, le document numérique 3 est stocké dans la mémoire 16. [46] Dans un mode de réalisation particulier, non illustré sur les figures, le procédé comprend en outre, avant l'étape 40 de stockage du document numérique 3 dans l'ordinateur 8, une étape de réception du document numérique 3 par l'ordinateur 8, par exemple via le réseau de communication 4. [47] Au cours d'un sous-procédé 42 suivant, l'application 18 est exécutée par le processeur 14, et les instructions de programme de l'application 18 mettent en oeuvre le procédé d'identification de formes textuelles 2; relatives à au moins un domaine dans le document numérique 3. Dans le mode de réalisation particulier de la figure 2, les instructions de programme de l'application 18 mettent en oeuvre le procédé d'identification de formes textuelles 2; relatives à au moins un domaine dans le texte du document numérique 3 traité par l'utilisateur via le module de traitement de texte 20. [48] Le procédé d'identification 42 comprend une étape 44 d'extraction des formes textuelles 2; du texte du document numérique 3, et une étape 46 de sélection, à partir des formes textuelles 2; extraites, des formes textuelles 2; relatives au sous-ensemble prédéterminé de domaines. Dans le mode de réalisation particulier de la figure 2, l'étape de sélection 46 est destinée à sélectionner, dans le texte du document numérique 3, des formes textuelles 2; relatives au domaine juridique. [49] De préférence, comme illustré sur la figure 2, le procédé d'identification 42 comprend en outre, avant l'étape d'extraction 44, une étape 43 de normalisation du texte du document numérique 3. Cette étape de normalisation 43 permet de faciliter l'étape d'extraction 44 suivante. [50] Au cours de l'étape de normalisation 43, le composant de normalisation 28 modifie si besoin certains des caractères du texte du document numérique 3, par exemple par application des règles de normalisation précitées. [51] Au cours de l'étape d'extraction 44 suivante, le composant d'extraction 24 reçoit le texte normalisé 47 du document numérique 3. Au cours de cette étape 44, le composant 24 reçoit en outre, par la mémoire 16, l'ensemble d'implantations exécutables 29; de langages réguliers puis applique, pour l'ensemble des domaines relatifs aux formes textuelles 2; du texte 47 du document numérique 3, les implantations exécutables 29; sur ce texte 47. A l'issue de l'étape d'extraction 44, l'ensemble des formes textuelles 2; du texte du document numérique est extrait. [52] Au cours de l'étape de sélection 46 suivante, le composant de sélection 26 sélectionne un sous-ensemble de formes textuelles 2; parmi l'ensemble des formes textuelles 2; extraites. Plus précisément, le composant de sélection 26 détecte le type de chaque forme textuelle 2; extraite, puis sélectionne, à partir des types détectés, les formes textuelles 2; relatives à un sous-ensemble prédéterminé de domaines appartenant à l'ensemble des domaines relatifs aux formes textuelles 2;. Dans le mode de réalisation particulier de la figure 2, le composant de sélection 26 sélectionne les formes textuelles 2; relatives au domaine juridique. [53] En revenant à la figure 3, au cours d'une étape 50 suivante, l'ordinateur 8 transmet au serveur 30 les formes textuelles 2; identifiées au cours du sous-procédé 42. [54] Au cours d'une étape 52 suivante, le serveur 30 identifie des informations contextuelles correspondant à au moins certaines des formes textuelles 2; sélectionnées. [55] Plus précisément, selon un mode de réalisation particulier illustré sur la figure 4, l'étape 52 d'identification d'informations contextuelles comprend, pour chaque forme textuelle 2; identifiée : - l'émission 54 par l'ordinateur 8, à destination du serveur 30, d'une requête d'identification d'entrées de la base de données 32 correspondant à la forme textuelle 2; identifiée, - la recherche 56 par le serveur 30, dans la base de données 32, d'une ou plusieurs entrées correspondant à cette forme, et - si le résultat de la recherche est positif, l'association 58 par le serveur 30 entre la forme textuelle 2; identifiée et les informations contextuelles associées à la ou aux entrée(s) trouvées. Dans l'exemple de réalisation particulier de la figure 1, la sous-étape de recherche 56 est effectuée par le serveur 30 via le moteur de recherche 34 permettant l'accès à la base de données 32. [56] De préférence, l'étape 52 d'identification d'informations contextuelles comprend en outre, pour chaque forme textuelle 2; identifiée, si le résultat de la recherche est négatif, une sous-étape 60 de transmission à l'ordinateur 8 d'un message indiquant qu'aucune entrée correspondant à la forme textuelle n'a été trouvée, et une sous-étape 62 d'affichage par les moyens d'affichage 12 de ce message. Ceci permet d'informer un utilisateur de l'absence d'informations contextuelles associées à la forme textuelle identifiée 2i, dans la ou chaque base de données. [57] En revenant à la figure 3, à la suite de l'étape 52 d'identification d'informations contextuelles, le serveur 30 transmet à l'ordinateur 8 les informations contextuelles identifiées, au cours d'une étape suivante 64. [58] Au cours d'une étape 66 suivante, les moyens d'affichage 12 de l'ordinateur 8 affichent les informations contextuelles identifiées et les formes textuelles 2; correspondantes. Dans le mode de réalisation particulier de la figure 2, les informations contextuelles identifiées et les formes textuelles 2; correspondantes sont affichées dans une fenêtre dédiée de l'interface graphique associée au module de traitement de texte 20. Cette fenêtre dédiée est par exemple distincte de la zone d'affichage du texte d'un document numérique 3 en cours de traitement via le module de traitement de texte 20. Selon un mode de réalisation particulier, dans le cas où un utilisateur sélectionne et tente de déplacer vers la zone d'affichage du texte tout ou partie d'une information contextuelle identifiée et de la forme textuelle 2; correspondante, l'étape d'affichage 66 comprend en outre l'exécution, par le processeur 14, du composant du module de traitement de texte 20 apte à mettre en oeuvre une fonction « glisser- déposer ». La partie sélectionnée est ainsi recopiée depuis la fenêtre dédiée de l'interface graphique vers la zone d'affichage du texte en cours de traitement. Ceci permet de faciliter la recopie, notamment la recopie dans le texte du document numérique 3, du contenu d'informations contextuelles associées à ce texte. [59] De préférence, comme illustré sur la figure 3, le procédé de détermination d'informations contextuelles comprend en outre, entre l'étape 64 de transmission des informations contextuelles et l'étape d'affichage 66, une étape 65 de mise en forme, par le processeur 14, des informations contextuelles transmises. Dans le mode de réalisation particulier de la figure 2, dans le cas où un utilisateur sélectionne et copie tout ou partie du texte d'un document numérique 3 stocké dans la mémoire 16 via une application autre que l'application 18, l'étape de mise en forme 65 comprend notamment l'exécution, par le processeur 14, du module de l'application 18 apte à mettre en oeuvre une fonction « presse-papier ». La partie de texte sélectionnée est ainsi copiée, via la fonction « presse- papier », dans l'interface graphique associée au module de traitement de texte 20, et affichée via les moyens d'affichage 12. Dans ce cas particulier, l'ensemble du procédé de détermination d'informations contextuelles est mis en oeuvre sur la partie sélectionnée du texte du document numérique 3. Ceci permet de faciliter la mise en oeuvre du procédé de détermination d'informations contextuelles sur tout ou partie du texte d'un document numérique 3 préexistant, stocké au sein de la mémoire 16. [60] L'étape de mise en forme 65 peut également comprendre des modifications de police, de couleurs, de disposition des informations contextuelles transmises, destinées à faciliter la lecture et la compréhension des informations lors de l'étape d'affichage 66. [61] Dans le mode de réalisation particulier de la figure 2 selon lequel l'application 18 comprend un module 20 de traitement de texte associé à un composant d'interface graphique, le procédé de détermination d'informations contextuelles permet ainsi de détecter, d'extraire et d'afficher automatiquement les informations contextuelles au fil de la rédaction du document numérique 3 par un utilisateur, ou dès son ouverture via le module 20. [62] En outre, dans le procédé de détermination d'informations contextuelles selon l'invention, seule une partie du document numérique 3, à savoir les formes textuelles du document, est transmise par l'ordinateur 8 au serveur 30. Ainsi, à configurations égales, le temps de latence du système 6 de détermination d'informations contextuelles selon l'invention est réduit en comparaison du temps de latence des systèmes de l'art antérieur, dans lequels l'intégralité du document numérique est transmis.In the embodiment of FIG. 1, the server 30 is connected to the computer 8 via the communication network 4. The server 30 is able to identify contextual information corresponding to at least some of the textual forms 2; selected, as described in detail later. [42] The database 32 is for example a database provided by an external provider, such as for example a database of a documentary background. The database 32 stores contextual information relating to a particular domain. In the particular exemplary embodiment of FIGS. 1 and 2, the database 32 is a database of a documentary background relating to the field of law, comprising legal information of the content type of code items, of laws, jurisprudence decisions, etc. As an alternative embodiment, not shown, the processing device 10 comprises several databases 32, each database 32 storing, for example, contextual information relating to one of the domains of the predetermined subset of domains. [43] The search engine 34 is able to consult the database 32 and thus allow access to the contents of this database 32. To do this, the search engine 34 is clean, for example to use a database. or more than one index pointing to entries in the database 32 corresponding to the stored contextual information. [44] The operation of the system 6 for determining contextual information associated with the text of a digital document 3 will now be described in detail, with reference to FIG. 3. As previously mentioned, the method implemented by the system 6 is intended to determine contextual information associated with the text of the digital document 3. [45] During a preliminary step 40, the digital document 3 is stored within the computer 8. In the particular embodiment of the figure 2, the digital document 3 is stored in an ephemeral memory of the computer 8 during its processing by a user via the word processor module 20. As a variant not shown, the digital document 3 is stored in the memory 16. [46] In a particular embodiment, not illustrated in the figures, the method further comprises, before the step 40 of storing the digital document 3 in the computer 8, a step eg, receiving the digital document 3 by the computer 8, for example via the communication network 4. [47] In the course of a following subprocess 42, the application 18 is executed by the processor 14, and the instructions program of the application 18 implement the method of identification of textual forms 2; relating to at least one domain in the digital document 3. In the particular embodiment of Figure 2, the program instructions of the application 18 implement the method of identifying textual forms 2; relating to at least one domain in the text of the digital document 3 processed by the user via the word processor module 20. [48] The identification method 42 comprises a step 44 of extracting the textual forms 2; the text of the digital document 3, and a step 46 of selection, from the textual forms 2; extracted, textual forms 2; relating to the predetermined subset of domains. In the particular embodiment of FIG. 2, the selection step 46 is intended to select, in the text of the digital document 3, textual forms 2; relating to the legal field. [49] Preferably, as illustrated in FIG. 2, the identification method 42 further comprises, before the extraction step 44, a step 43 for normalizing the text of the digital document 3. This normalization step 43 allows to facilitate the next extraction step 44. [50] During the normalization step 43, the normalization component 28 modifies if necessary some of the characters of the text of the digital document 3, for example by application of the aforementioned normalization rules. During the next extraction step 44, the extraction component 24 receives the standardized text 47 of the digital document 3. During this step 44, the component 24 further receives, by the memory 16, the set of executable locations 29; of regular languages then applies, for all domains related to textual forms 2; text 47 of digital document 3, implementable implementations 29; on this text 47. At the end of the extraction step 44, the set of textual forms 2; the text of the digital document is extracted. [52] In the next selection step 46, the selection component 26 selects a subset of textual forms 2; among all the textual forms 2; extracted. More specifically, the selection component 26 detects the type of each textual form 2; extracted, then selects, from the detected types, the textual forms 2; relating to a predetermined subset of domains belonging to all domains relating to textual forms 2 ;. In the particular embodiment of FIG. 2, the selection component 26 selects the textual forms 2; relating to the legal field. [53] Returning to Figure 3, in a next step 50, the computer 8 transmits to the server 30 the textual forms 2; identified during the subprocess 42. [54] In a subsequent step 52, the server 30 identifies contextual information corresponding to at least some of the textual forms 2; selected. [55] More specifically, according to a particular embodiment illustrated in FIG. 4, step 52 of identifying contextual information comprises, for each textual form 2; identified: - the transmission 54 by the computer 8, to the server 30, a request for identification of entries of the database 32 corresponding to the textual form 2; identified, - the search 56 by the server 30, in the database 32, one or more entries corresponding to this form, and - if the result of the search is positive, the association 58 by the server 30 between the textual form 2; identified and the contextual information associated with the entry (s) found. In the particular exemplary embodiment of FIG. 1, the search sub-step 56 is performed by the server 30 via the search engine 34 allowing access to the database 32. [56] Preferably, the step 52 of contextual information identification further comprises, for each textual form 2; identified, if the result of the search is negative, a substep 60 of transmitting to the computer 8 a message indicating that no entry corresponding to the textual form was found, and a substep 62 display by the display means 12 of this message. This makes it possible to inform a user of the absence of contextual information associated with the identified textual form 2i, in the or each database. [57] Returning to FIG. 3, following step 52 of identifying contextual information, the server 30 transmits to the computer 8 the contextual information identified during a next step 64. [57] 58] In a subsequent step 66, the display means 12 of the computer 8 display the identified contextual information and the textual forms 2; corresponding. In the particular embodiment of FIG. 2, the contextual information identified and the textual forms 2; Corresponding windows are displayed in a dedicated window of the graphic interface associated with the word processor module 20. This dedicated window is for example distinct from the display area of the text of a digital document 3 being processed via the module. word processor 20. According to a particular embodiment, in the case where a user selects and attempts to move all or part of identified contextual information and textual form 2 to the text display area; corresponding, the display step 66 further comprises the execution, by the processor 14, the component of the word processor module 20 capable of implementing a "drag and drop" function. The selected part is thus copied from the dedicated window of the graphic interface to the display area of the text being processed. This facilitates the copying, including the copy in the text of the digital document 3, content contextual information associated with this text. [59] Preferably, as illustrated in FIG. 3, the method of determining contextual information further comprises, between the step 64 of transmitting contextual information and the display step 66, a step 65 of setting form, by the processor 14, contextual information transmitted. In the particular embodiment of FIG. 2, in the case where a user selects and copies all or part of the text of a digital document 3 stored in the memory 16 via an application other than the application 18, the step of formatting 65 includes the execution, by the processor 14, of the application module 18 adapted to implement a function "clipboard". The selected portion of text is thus copied, via the function "clipboard", into the graphical interface associated with the word processor module 20, and displayed via the display means 12. In this particular case, the set the method of determining contextual information is implemented on the selected part of the text of the digital document 3. This facilitates the implementation of the method of determining contextual information on all or part of the text of a digital document 3 [60] The formatting step 65 may also include changes in font, color, and layout of the transmitted contextual information, to facilitate reading and understanding of the information. during the display step 66. [61] In the particular embodiment of FIG. 2 according to which the application 18 comprises a module 20 for asserting text Associated with a graphical interface component, the method for determining contextual information thus makes it possible to automatically detect, retrieve and display the contextual information as the digital document 3 is being written by a user, or as soon as it is opened. via the module 20. [62] Furthermore, in the method of determining contextual information according to the invention, only part of the digital document 3, namely the textual forms of the document, is transmitted by the computer 8 to the server. 30. Thus, with equal configurations, the latency time of the contextual information determination system 6 according to the invention is reduced in comparison with the latency time of the systems of the prior art, in which the entire digital document is transmitted.

Cette caractéristique permet en outre d'améliorer la confidentialité du procédé de détermination d'informations contextuelles. [63] Dans une variante de réalisation non illustrée sur les figures, le procédé d'identification 42 selon l'invention comprend en outre, après l'étape de sélection 46, une étape d'affichage, par les moyens d'affichage 12, des formes textuelles 2; sélectionnées et d'un message indicatif d'un mode de fonctionnement local. Cette variante de réalisation, particulièrement adaptée en cas de déconnexion au réseau de communication 4 et/ou d'interruption de service du serveur 30, et donc en cas d'impossibilité de mise en oeuvre du procédé de détermination d'informations contextuelles, permet ainsi un fonctionnement local pour la mise à disposition à un utilisateur d'informations partielles associées au texte du document numérique 3. Les informations partielles sont alors les formes textuelles 2; affichées par les moyens d'affichage 12. Si une reconnexion au réseau de communication 4 et/ou une remise en service du serveur 30 interviennent ultérieurement, le procédé de détermination d'informations contextuelles tel que décrit précédemment est alors mis en oeuvre. [64] Le procédé d'identification de formes textuelles selon l'invention présente plusieurs avantages : - grâce au fait que l'intégralité du procédé est mise en oeuvre sur un seul ordinateur, par exemple un ordinateur d'un utilisateur, il n'est pas nécessaire de centraliser les calculs et les communications associées sur un serveur dédié ; les ressources informatiques nécessaires et les coûts de production associés sont ainsi réduits ; - grâce à la caractéristique du point ci-dessus combinée à l'application d'implantations exécutables de langages réguliers lors de l'étape d'extraction de formes textuelles, les formes textuelles relatives à au moins un domaine sont identifiées localement de manière fiable, et le temps d'exécution du procédé est réduit ; - du fait qu'aucune transmission du document numérique n'est effectuée sur une liaison de données non sécurisée, le niveau global de confidentialité associé au procédé est amélioré. [65] L'invention est décrite dans ce qui précède à titre d'exemple. Il est entendu que l'homme du métier est à même de réaliser différentes variantes de réalisation de l'invention sans pour autant sortir du cadre de l'invention. En particulier, bien que l'invention soit décrite en référence à un procédé d'identification de formes textuelles relatives au domaine juridique dans un document numérique, elle s'applique plus généralement à tout procédé d'identification de formes textuelles relatives à au moins un domaine, dans un document numérique.This characteristic also makes it possible to improve the confidentiality of the process for determining contextual information. [63] In an alternative embodiment not illustrated in the figures, the identification method 42 according to the invention further comprises, after the selection step 46, a display step, by the display means 12, textual forms 2; selected and a message indicative of a local operating mode. This embodiment variant, particularly adapted in the event of disconnection from the communication network 4 and / or service interruption of the server 30, and therefore in case of impossibility of implementing the method of determining contextual information, thus makes it possible a local operation for providing a user with partial information associated with the text of the digital document 3. The partial information is then the textual forms 2; displayed by the display means 12. If a reconnection to the communication network 4 and / or a return to service of the server 30 occur later, the method of determining contextual information as described above is then implemented. [64] The method of identifying textual forms according to the invention has several advantages: - thanks to the fact that the entire process is implemented on a single computer, for example a computer of a user, it does not it is not necessary to centralize calculations and associated communications on a dedicated server; the necessary IT resources and associated production costs are thus reduced; thanks to the feature of the above point combined with the application of executable implementations of regular languages during the step of extracting textual forms, the textual forms relating to at least one domain are identified locally reliably, and the execution time of the process is reduced; - Since no transmission of the digital document is performed on an unsecured data link, the overall level of confidentiality associated with the method is improved. [65] The invention is described in the foregoing by way of example. It is understood that the skilled person is able to achieve different embodiments of the invention without departing from the scope of the invention. In particular, although the invention is described with reference to a method of identifying textual forms relating to the legal field in a digital document, it applies more generally to any method of identifying textual forms relating to at least one document. domain, in a digital document.

Claims

REVENDICATIONS1. A method (42), implemented by computer (8), for identifying textual forms (2;) relating to at least one domain in a digital document (3), the computer comprising at least one processor (14) and at least one memory (16) storing an application (18) which, when executed by said at least one processor (16), implements the method, the digital document (3) being stored within the computer (8) and comprising text, the text containing a set of characters in the form of a natural language, each textual form being defined as a subset of characters associated with the same type, said type being relative to a particular domain and representing the general nature of the textual form in this field, the method comprising: a step (44) of extracting textual forms (2i) by application, for all the fields relating to the textual forms (2i) of the text of the digital document , a set of implantatio ns executables (29;) of regular languages on the text of the digital document (3), and - a step (46) of selection, from extracted textual forms (2i), of textual forms (2; predetermined set of said domains, by detection, for each extracted textual form (2i), of the type representing said form (2i).

2. Method (42) according to claim 1, characterized in that it further comprises, before the extraction step (44), an initial step (43) of normalization, according to a predetermined format, of the text of the document number (3) .30

3. Method (42) according to claim 1 or 2, characterized in that it further comprises a step of displaying the selected textual forms (2;) and a message indicative of a local mode of operation.

4. Computer program product (18) downloadable from a communication network and / or recorded on a medium (16) readable by a computer and / or executable by a processor (14), characterized in that it comprises instructions for program adapted to implement the method (42) according to any one of the preceding claims when the program product (18) is executed on a computer (8).

5. computer program product (18) according to claim 4, characterized in that it comprises a module (20) for word processing associated with a graphical interface, said program instructions being adapted to implement the method ( 42) according to any one of claims 1 to 3 so as to identify textual forms (2;) relating to at least one domain in the text of a digital document (3) processed by the processing module (20). text.

A method for determining contextual information associated with a text of a digital document (3), the method comprising a step (40) of storing the digital document (3) in a computer (8) of a user, the method being characterized in that it comprises: - a sub-method (42) for identifying textual forms (2;) relating to at least one domain according to any one of claims 1 to 3, the sub-method (42) method (42) being implemented by the computer (8) on the text of the digital document (3), - a step (50) of transmitting the identified textual forms (2;) to a processing device (10) of data comprising at least one server (30) connected to at least one database (32), - a step (52) of identification, by the device (10) of data processing, of contextual information corresponding to the least some of the identified textual forms (2;), said contextual information being stored in the database (32), - a step (64) of transmitting to the computer (8) the contextual information identified, and - a step (66) of display, by the computer (8), information identified contexts and corresponding textual forms (2;).

Method according to claim 6, characterized in that the database (32) comprises entries associated with the stored contextual information, and that the contextual information identification step (52) comprises, for each form identified text (2;): - the transmission (54) by the computer (8), to the server (30), a request for identification of entries of the database (32) corresponding to the form (2;), - the search (56) by the server (30), in the database (32), one or more input (s) corresponding to the form (2;), and - if the result of the search (56) is positive, the association (58) by the server (30) between the said form (2;) and the contextual information associated with the entry (s) found.

8. Method according to claim 7, characterized in that, if the result of the search (56) is negative, the method comprises a step (60) of transmitting to the computer (8) a message indicating that no entry corresponding to the form (2;) was found, and a step (62) of display by the computer (8) of this message.

9. Method according to any one of claims 6 to 8, characterized in that it further comprises, before the step (66) for displaying contextual information associated with the identified inputs, a step (65) of implementation. form, by the computer (8), this contextual information.

10. System (6) for determining contextual information associated with a text of a digital document (3), comprising: a computer (8) provided with display means (12), at least one processor ( 14) and at least one memory (16), the memory (16) comprising an application (18) and being adapted to store the digital document (3), the application (18) being clean when it is executed by said at least one processor (14), to implement the method (42) for identifying textual forms (2;) relating to at least one domain according to any one of claims 1 to 3, on the text of the digital document (3), and - a data processing device (10) comprising at least one server (30) connected to at least one database (32), the server (30) being connected to the computer (8) ) via a data link and being able to identify contextual information corresponding to at least some of the selected textual forms born (2;), said contextual information being stored in the database (32).