FR3030810A1 - Procede d'analyse automatique de la qualite litteraire d'un texte selon le genre litteraire ou selon le type d'article - Google Patents
Procede d'analyse automatique de la qualite litteraire d'un texte selon le genre litteraire ou selon le type d'article Download PDFInfo
- Publication number
- FR3030810A1 FR3030810A1 FR1554544A FR1554544A FR3030810A1 FR 3030810 A1 FR3030810 A1 FR 3030810A1 FR 1554544 A FR1554544 A FR 1554544A FR 1554544 A FR1554544 A FR 1554544A FR 3030810 A1 FR3030810 A1 FR 3030810A1
- Authority
- FR
- France
- Prior art keywords
- text
- literary
- learning
- quality
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
L'invention concerne un perfectionnement au procédé d'analyse de la qualité littéraire d'un texte, mise en œuvre par un programme d'ordinateur selon la demande de brevet FR 14 63074. Le perfectionnement consiste à tenir compte du genre littéraire du texte ou du type d'article du texte.
Description
PROCEDE D'ANALYSE AUTOMATIQUE DE LA QUALITE LITTERAIRE D'UN TEXTE SELON LE GENRE LITTERAIRE OU SELON LE TYPE D'ARTICLE Domaine technique La présente invention concerne un procédé d'analyse automatique de la qualité littéraire d'un texte selon le genre littéraire ou le type d'article. Par « qualité littéraire d'un texte», on entend dans le cadre de l'invention, la qualité littéraire d'un texte qui lui est intrinsèque et qui se matérialise une fois le procédé selon l'invention réalisé par une note discrète de 1 à 10, par un score continu dans [0, 1], comme un score réel ]-00, +00[ ou comme des labels « très bon », « bon », « moyen », etc. Par « qualité littéraire connue d'un texte d'apprentissage», on entend dans le cadre de l'invention, la note donnée par un groupe d'experts de lecture pour estimer la qualité de celui-ci. Par « genre littéraire connu d'un texte », on entend dans le cadre de l'invention, la classification selon le genre littéraire qu'un groupe d'experts de lecture attribue à un texte. Par « type d'article connu d'un texte », on entend dans le cadre de l'invention, la classification selon le type d'article qu'un groupe d'experts de lecture attribue à un texte. Le type d'article peut être un article de journal, un article scientifique....
Etat de la technique De manière générale, le but de la catégorisation automatique de textes est d'apprendre à une machine informatique à classer un texte dans la bonne catégorie en se basant sur son contenu. On peut résoudre par des algorithmes de catégorisation, divers problèmes de catégorisation de textes. En ce qui concerne l'analyse de la qualité d'un texte littéraire ou scientifique, différentes approches ont déjà été effectuées et différents algorithmes de catégorisation mis en oeuvre. Il existe ainsi plusieurs travaux qui concernent la qualité d'un texte littéraire, mais la plupart ne sont pas pertinents car ils définissent la notion de qualité dans un sens qui leur est propre et donc non réellement indépendante des facteurs qui sont choisis.
On peut citer le brevet US7200606 dans lequel la notion de qualité est considérée dans le sens de pertinence vis-à-vis d'une requête utilisateur. Ainsi, une des approches pertinentes est l'approche dite intrinsèque selon laquelle il s'agit d'utiliser des algorithmes de catégorisation pour classer des documents en fonction de caractéristiques textuelles (indicateurs) qui sont intrinsèques au texte: composition, éléments de style, précision du vocabulaire par rapport à un sujet, construction des raisonnements, orthographe, etc. Les caractéristiques de tri relèvent d'approches orthographiques, lexicales et stylistiques très variables, parmi lesquelles la longueur des mots, régularité du vocabulaire, analyse des cooccurrences, usage de la ponctuation, détection d'erreurs grammaticales et orthographiques, facilité de lecture, liens lexicaux avec un thème ou un genre, etc. Ces caractéristiques liées au texte peuvent être complétées utilement par des méthodes sémantiques faites autour des rapports entre qualité et respect des règles orthographiques et typographiques, de la grammaire (mesure de qualité sur des n-grammes longs), de la capitalisation, de la densité du texte (rapport entre lettres et espaces) ou de son entropie (au niveau des mots, voire au niveau des caractères). La lexicométrie, méthode d'analyse quantitative des textes, peut s'avérer un outil utile pour la mesure de qualité ou de non-qualité, paradoxalement. Quels que soient les méthodes et les algorithmes de catégorisation retenus, la difficulté première réside dans le choix des indicateurs et de l'algorithme, et dans leur combinaison pour évaluer la qualité littéraire d'un texte. On trouve peu de littérature qui s'intéresse à la qualité littéraire d'un texte par approche intrinsèque. On peut citer tout d'abord les publications [1] et [2] qui décrivent une extraction d'indicateurs intrinsèques à partir d'un texte littéraire brut puis une régression ou une classification pour atteindre la valeur cible que l'on cherche à déterminer. Le choix des indicateurs reste relativement sommaire, ce qui ne permet pas d'affiner avec une très bonne précision l'analyse de la qualité. La publication [3] divulgue une prédiction de la qualité à partir d'un nombre restreint d'articles de journal (journal « Wall Street Journal »). L'analyse selon cette publication reste basique, puisque seule une corrélation est établie entre chaque indicateur et une valeur cible réalisée sur une trentaine d'articles de référence.
Le demandeur a déposé le 22 décembre 2014 sous le n° 14 63074 une demande de brevet française relative à un procédé d'analyse de la qualité littéraire d'un texte, qui permet d'assurer une meilleure précision de l'analyse. Il existe encore un besoin non pris en compte qui est d'améliorer l'analyse de la qualité littéraire en fonction du genre littéraire (romance, drame, policier...). Le but de l'invention est de répondre au moins en partie à ce besoin. Exposé de l'invention Pour ce faire, l'invention a pour objet selon une première alternative, un procédé d'analyse de la qualité littéraire d'un texte selon le genre littéraire, mis en oeuvre par un programme d'ordinateur, comprenant les étapes suivantes : a/ recevoir une pluralité de textes dit textes d'apprentissage; b/ extraire les indicateurs numériques de chaque texte d'apprentissage, c/ générer une représentation vectorielle de chaque texte d'apprentissage à partir de ses indicateurs numériques, d/ apprentissage des relations entre les composantes de la représentation vectorielle de chaque texte d'apprentissage selon l'étape c/ et le genre littéraire connu de ce dernier, de sorte à obtenir un modèle prédictif de genre littéraire ; e/ réitérer les étapes a/ et b/ ; f/ générer une représentation vectorielle de chaque texte d'apprentissage à partir de ses indicateurs numériques et du modèle prédictif de genre littéraire construit à l'étape d/, g/ apprentissage des relations entre les composantes de la représentation vectorielle de chaque texte d'apprentissage selon l'étape f/ et la qualité littéraire connue de ce dernier, de sorte à obtenir un modèle prédictif de la qualité littéraire ; h/ recevoir un nouveau texte à analyser ; i/ appliquer au nouveau texte le modèle prédictif de la qualité littéraire de sorte à obtenir la qualité littéraire du nouveau texte selon le genre littéraire. Selon une deuxième alternative, l'invention concerne un procédé d'analyse de la qualité littéraire d'un texte selon le type d'article, mis en oeuvre par un programme d'ordinateur, comprenant les étapes suivantes : a/ recevoir une pluralité de textes dit textes d'apprentissage; b/ extraire les indicateurs numériques de chaque texte d'apprentissage, c/ générer une représentation vectorielle de chaque texte d'apprentissage à partir de ses indicateurs numériques, d/ apprentissage des relations entre les composantes de la représentation vectorielle de chaque texte d'apprentissage selon l'étape c/ et le type d'article connu de ce dernier, de sorte à obtenir un modèle prédictif de type d'article; e/ réitérer les étapes a/ et b/ ; f/ générer une représentation vectorielle de chaque texte d'apprentissage à partir de ses indicateurs numériques et du modèle prédictif de type d'article construit à l'étape d/, g/ apprentissage des relations entre les composantes de la représentation vectorielle de chaque texte d'apprentissage selon l'étape f/ et la qualité littéraire connue de ce dernier, de sorte à obtenir un modèle prédictif de la qualité littéraire ; h/ recevoir un nouveau texte à analyser ; i/ appliquer au nouveau texte le modèle prédictif de la qualité littéraire de sorte à obtenir la qualité littéraire du nouveau texte selon le type d'article. L'inventeur de la présente invention est parti du constat que l'invention selon la demande de brevet FR 14 63074 précitée permet bien d'améliorer la précision de l'analyse littéraire d'un texte, mais qu'elle n'était pas complètement satisfaisante car elle ne permet pas d'avoir une qualité en fonction du genre littéraire du texte ou du type d'article du texte. Aussi, l'invention consiste essentiellement à construire un modèle prédictif du genre littéraire ou du type d'article et utiliser la prédiction du genre littéraire respectivement du type d'article comme indicateur en plus des autres indicateurs numériques pour prédire la qualité littéraire.
L'invention concerne également un programme d'ordinateur de mise en oeuvre du procédé décrit précédemment. Description détaillée D'autres avantages et caractéristiques de l'invention ressortiront mieux à la lecture de la description détaillée d'exemples de mise en oeuvre de l'invention faite à titre illustratif et non limitatif en référence aux figures suivantes : - figure 1 : organigramme des étapes d'apprentissage du procédé selon l'invention mis en oeuvre par programme d'ordinateur ; - figure 2 : organigramme des étapes d'apprentissage du procédé selon l'invention également mis en oeuvre par programme d'ordinateur et utilisant le modèle prédictif du genre littéraire selon la figure 1; - figure 3 : organigramme des étapes de prédiction de l'analyse de la qualité littéraire du procédé selon l'invention également mis en oeuvre par programme d'ordinateur et utilisant le modèle prédictif de la qualité littéraire selon la figure 2. Par la suite, on utilise indifféremment les termes « algorithme » et «programme d'ordinateur » qui est le codage lisible par un ordinateur de l'algorithme. Ainsi, un algorithme est un plan d'exécution pour un ordinateur. L'ordinateur prend des données entrantes, applique le traitement décrit par l'algorithme et renvoie en retour un résultat à l'utilisateur. Dans le cadre de l'invention, l'algorithme mis en oeuvre pour l'analyse prédictive est un algorithme d'apprentissage automatique (« machine learning » en anglais). Dans ce type d'algorithme, ses règles de décisions ne sont pas fixées à la conception, car il est conçu pour qu'il puisse modifier ses règles de décisions, en fonction des données qu'il voit. Le procédé proprement dit selon l'invention, comprend trois phases successives, les deux premières étant des phases d'apprentissage et la suivante étant la phase de prédiction également deux phases successives.
On réalise tout d'abord les phases d'apprentissage. Une population d'experts de lecture identifie chaque texte littéraire d'un ensemble de textes d'apprentissage qui va servir d'ensemble de textes de référence, en fonction du genre littéraire auquel il appartient : roman, policier, drame....Ainsi, le genre littéraire de chaque texte d'apprentissage est connu par la population d'experts.
Cette population d'experts de lecture donne également une série de notes pour chaque texte littéraire d'apprentissage. Ces notes mesurent la qualité littéraire de chaque texte et elle sont pondérées en étant centrées puis réduites selon l'équation: x' = (x - m) / s où : x est la note donnée entre 1 et 10 par un individu M pour une oeuvre, m est la moyenne des notes données par M, s est l'écart-type des notes données par M, x' est la nouvelle note corrigée. Ainsi, x' quantifie la qualité littéraire connue de la population d'experts. L'algorithme réalise les étapes suivantes, à partir des textes d'apprentissage à analyser.
On extrait les indicateurs numériques des textes d'apprentissage (étape SO). On construit alors la représentation vectorielle de chaque texte littéraire d'apprentissage (étape Si). L'algorithme peut avantageusement procéder de la manière suivante pour la construction de la représentation vectorielle. L'algorithme réalise les étapes suivantes, à partir d'un texte brut à analyser.
Il génère plusieurs sous-représentations vectorielles du texte reçu pour obtenir des indicateurs bas-niveau. La première sous-représentation consiste en une représentation par sac de mots selon laquelle on analyse les distributions de chaque mot et on analyse les distributions de certains unigrams, bi-grams, 3-grams, 4-grams, 5-grams et 6-grams à l'échelle du mot et des caractères. Ainsi, dans cette étape, le texte est transformé en une suite de tokens selon des expressions régulières de découpage. La représentation par sac-de-mots ne tient pas compte de la mise en forme du texte, de l'ordre des mots, de leur sens ou des relations structurées par des mots de liaison. La deuxième sous-représentation représente la structure morphosyntaxique, selon laquelle on calcule les paramètres des distributions des mots grammaticaux dans le texte et on analyse les distributions de chaque fonction syntaxique dans le texte, les paragraphes, les phrases et les propositions. Les mots grammaticaux sont les articles, les prépositions, les adjectifs non qualificatifs. Le calcul des paramètres de la distribution des mots grammaticaux est fait à partir de critères choisis parmi la moyenne, la variance, l'écart type, l'entropie, la distance entre les distributions ou une combinaison de ceux-ci. Une fonction syntaxique est un verbe, un nom, un adjectif, un adverbe, un déterminant, une préposition. Ainsi, cette étape permet d'extraire des éléments de structure du texte dans pour autant monter jusqu'au niveau pragmatique de la compréhension générale du texte.
La troisième sous-représentation représente des fautes d'écriture selon laquelle on calcule le nombre de fois où chaque règle de chacune des catégories de fautes d'écriture n'est pas respectée. Les fautes d'écriture sont les fautes d'orthographe, de grammaire, de conjugaison, d'anglicisme, de syntaxe, d'expression, et d'usage. Ainsi, cette étape consiste à analyser automatiquement les différents types de fautes apparaissant dans le texte. La quatrième sous-représentation représente la stylométrie selon laquelle on calcule la longueur du texte, la longueur des paragraphes, la longueur des phrases, la longueur des propositions, la longueur des mots en caractères, le nombre de chaque signe de ponctuation, et enfin les paramètres de la distribution des dialogues dans le texte. La longueur du texte est calculée à partir du nombre de paragraphes, phrases, propositions, mots, caractères. La longueur d'un paragraphe est calculée à partir du nombre de phrases, propositions, mots, caractères. La longueur des phrases est calculée à partir du nombre de propositions, mots, caractères. La longueur des propositions est calculée à partir du nombre de mots, caractères. Le calcul des paramètres de la distribution des dialogues dans le texte est fait à partir de critères choisis parmi la moyenne, la variance, l'écart type, l'entropie, la distance entre les distributions ou une combinaison de ceux-ci. Ainsi, cette étape permet d'identifier le style du texte. A partir de toutes les sous-représentations précédentes, l'algorithme génère une cinquième sous-représentation qui est une méta-description selon laquelle on analyse le vocabulaire du texte par les différents niveaux de rareté des mots, les champs lexicaux utilisés, les mots adaptés à la jeunesse, et on calcule des agrégations (sommes) et ratios (divisions) des indicateurs bas-niveau obtenus précédemment. On donne ci-après un exemple d'agrégation calculé à partir d'indicateurs bas niveau qui sont les suivants: - NIN = nombre de verbes à l'infinitif - NPR = nombre de verbes au présent - NFU = nombre de verbes au futur - NPA = nombre de verbes au passé. L'agrégation calculé donne un indicateur de niveau intermédiaire NV qui est le nombre total de verbes, soit NV = NIN + NPR + NFU + NPA. On donne ci-après un exemple de ratio calculé à partir d'indicateurs bas niveau qui sont les suivants: - NP = nombre de phrases - NV = nombre de verbes.
Le ratio calculé donne un indicateur de niveau intermédiaire NM qui est le nombre moyen de verbes par phrases, soit NM = NV / NP. Ainsi, cette étape permet d'obtenir des méta-descriptions telles que la lisibilité, l'étendue du vocabulaire ou la cohésion lexicale.
A partir de la sous-représentation par sac-de-mots, l'algorithme génère une sixième sous-représentation qui représente des champs lexicaux présents dans le texte, par une analyse en composantes principales (PCA, acronyme anglais pour « Principal Components Analysis ») et/ou une analyse sémantique latente (LSA, acronyme anglais pour « Latent Semantic Analysis ») et/ou une factorisation en matrices non négatives (NMF, acronyme anglais pour « Non-negative Matrix Factorization »). Il s'agit donc ici d'une étape de réduction de dimensionnalité pour obtenir des champs lexicaux. Lorsqu'on obtient trop de champs lexicaux par ces trois analyses, l'algorithme génère une étape supplémentaire de réduction de la dimensionnalité. Cette étape consiste donc à mettre tous les champs lexicaux ensemble et à n'en conserver qu'un nombre restreint afin que ceux conservés soient des champs uniques et pertinents. Autrement dit, en cas de redondance dans les composantes du vecteur généré selon l'étape précédente, cette étape permet de sélectionner les composantes non redondantes du vecteur. Une fois toutes les sous-représentations vectorielles générées, l'algorithme réalise leur concaténation en une représentation finale du texte.
Ainsi, une fois la représentation vectorielle de chaque texte d'apprentissage réalisée, l'algorithme peut faire l'apprentissage entre les composantes de la représentation vectorielle de chaque texte d'apprentissage et le genre littéraire connu de ce dernier, de sorte à obtenir un modèle prédictif de genre littéraire (étape S2). L'algorithme procède alors à la deuxième phase d'apprentissage.
On réitère ainsi l'étape SO à partir des mêmes textes d'apprentissage (étape S3). On génère alors une représentation vectorielle de chaque texte d'apprentissage à partir de ses indicateurs numériques et du modèle prédictif de genre littéraire construit à lors de la phase d'apprentissage précédente (étape S4). Ainsi, le modèle prédictif de genre littéraire est un indicateur numérique en tant que tel qui vient se rajouter aux autres indicateurs numériques des textes d'apprentissage obtenus par leur extraction.
L'algorithme procède alors à l'apprentissage des relations entre les composantes de la représentation vectorielle de chaque texte d'apprentissage construit à l'étape S4 et la qualité littéraire connue de ce dernier, de sorte à obtenir un modèle prédictif de la qualité littéraire (étape S5).
Pour établir la prédiction de la qualité littéraire d'un nouveau texte, l'algorithme applique à ce nouveau texte, le modèle prédictif de la qualité littéraire construit selon l'étape S5 (étape S6). L'invention qui vient d'être décrite peut être déclinée sous une autre alternative qui tient compte non pas du genre littéraire mais du type d'article, tel qu'article de journaux, article scientifique... L'invention qui vient d'être décrite permet ainsi d'obtenir de manière précise et fiable la qualité littéraire de tout texte littéraire en fonction du genre littéraire ou du type d'article. De nombreuses variantes et améliorations peuvent être envisagées sans pour autant sortir du cadre de l'invention.
REFERENCES CITEES [1]: «DEFT2014, analyse automatique de textes littéraires et scientifiques en langue française», Lecluze and al., 21ème Traitement Automatique des Langues Naturelles, Marseille, 2014; [2] : « Catégorisation sémantique fine des expressions d'opinion pour la détection de consensus », Benamara and al., 21ème Traitement Automatique des Langues Naturelles, Marseille, 2014; [3] : « Revisiting Readability: A Unified Framework for Predicting Text Quality », Pitler and al. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP '08). Association for Computational Linguistics, Stroudsburg, PA, USA, 186-195.15
Claims (6)
- REVENDICATIONS1. Procédé d'analyse de la qualité littéraire d'un texte selon le genre littéraire, mis en oeuvre par un programme d'ordinateur, comprenant les étapes suivantes : a/ recevoir une pluralité de textes dit textes d'apprentissage; b/ extraire les indicateurs numériques de chaque texte d'apprentissage, c/ générer une représentation vectorielle de chaque texte d'apprentissage à partir de ses indicateurs numériques, d/ apprentissage des relations entre les composantes de la représentation vectorielle de chaque texte d'apprentissage selon l'étape c/ et le genre littéraire connu de ce dernier, de sorte à obtenir un modèle prédictif de genre littéraire ; e/ réitérer les étapes a/ et b/ ; f/ générer une représentation vectorielle de chaque texte d'apprentissage à partir de ses indicateurs numériques et du modèle prédictif de genre littéraire construit à l'étape d/, g/ apprentissage des relations entre les composantes de la représentation vectorielle de chaque texte d'apprentissage selon l'étape f/ et la qualité littéraire connue de ce dernier, de sorte à obtenir un modèle prédictif de la qualité littéraire ; h/ recevoir un nouveau texte à analyser ; i/ appliquer au nouveau texte le modèle prédictif de la qualité littéraire de sorte à obtenir la qualité littéraire du nouveau texte selon le genre littéraire.
- 2. Procédé d'analyse de la qualité littéraire d'un texte selon le type d'article, mis en oeuvre par un programme d'ordinateur, comprenant les étapes suivantes : a/ recevoir une pluralité de textes dit textes d'apprentissage; b/ extraire les indicateurs numériques de chaque texte d'apprentissage, c/ générer une représentation vectorielle de chaque texte d'apprentissage à partir de ses indicateurs numériques, d/ apprentissage des relations entre les composantes de la représentation vectorielle de chaque texte d'apprentissage selon l'étape c/ et le type d'article connu de ce dernier, de sorte à obtenir un modèle prédictif de type d'article ; e/ réitérer les étapes a/ et b/ ; f/ générer une représentation vectorielle de chaque texte d'apprentissage à partir de ses indicateurs numériques et du modèle prédictif de type d'article construit à l'étape d/,g/ apprentissage des relations entre les composantes de la représentation vectorielle de chaque texte d'apprentissage selon l'étape f/ et la qualité littéraire connue de ce dernier, de sorte à obtenir un modèle prédictif de la qualité littéraire ; h/ recevoir un nouveau texte à analyser ; i/ appliquer au nouveau texte le modèle prédictif de la qualité littéraire de sorte à obtenir la qualité littéraire du nouveau texte selon le type d'article.
- 3. Procédé d'analyse selon la revendication 1 ou 2, comprenant, pour la génération vectorielle d'un texte d'apprentissage selon l'étape c/, les étapes suivantes : cl/ générer plusieurs sous-représentations vectorielles du texte reçu pour obtenir des indicateurs, dits indicateurs bas-niveau, les sous-représentations consistant en : - une représentation par sac de mots selon laquelle on analyse les distributions de chaque mot et on analyse les distributions de certains unigrams, bi-grams, 3-grams,
- 4-grams,
- 5-grams et
- 6-grams à l'échelle du mot et des caractères, - une représentation dite de structure morphosyntaxique, selon laquelle on calcule les paramètres des distributions des mots grammaticaux dans le texte et on analyse les distributions de chaque fonction syntaxique dans le texte, les paragraphes, les phrases et les propositions, - une représentation des fautes d'écriture selon laquelle on calcule le nombre de fois où chaque règle de chacune des catégories de fautes d'écriture n'est pas respectée, - une représentation de stylométrie selon laquelle on calcule la longueur du texte, la longueur des paragraphes, la longueur des phrases, la longueur des propositions, la longueur des mots en caractères, le nombre de chaque signe de ponctuation, et enfin les paramètres de la distribution des dialogues dans le texte ; c2/ générer: - une méta-description selon laquelle on analyse le vocabulaire du texte par les différents niveaux de rareté des mots, les champs lexicaux utilisés, les mots adaptés à la jeunesse, et on calcule des agrégations et ratios des indicateurs bas-niveau obtenus en c 1 / ; - une représentation des champs lexicaux présents dans le texte à partir de la représentation par sac de mots effectuée en cl/, par analyse en composantes principales (PCA, acronyme anglais pour « Principal Components Analysis ») et/ou une analyse sémantique latente (LSA, acronyme anglais pour « Latent Semantic Analysis ») et/ou unefactorisation en matrices non négatives (NMF, acronyme anglais pour « Non-negative Matrix Factorization »). c3/ concaténation de sous-représentation vectorielles générées en cl/ et c2/. 4. Programme d'ordinateur de mise en oeuvre du procédé selon l'une des revendications précédentes.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1463074A FR3030809A1 (fr) | 2014-12-22 | 2014-12-22 | Procede d'analyse automatique de la qualite litteraire d'un texte |
Publications (1)
Publication Number | Publication Date |
---|---|
FR3030810A1 true FR3030810A1 (fr) | 2016-06-24 |
Family
ID=53872087
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR1463074A Pending FR3030809A1 (fr) | 2014-12-22 | 2014-12-22 | Procede d'analyse automatique de la qualite litteraire d'un texte |
FR1554546A Pending FR3030812A1 (fr) | 2014-12-22 | 2015-05-21 | Procede d'analyse automatique de la qualite litteraire d'un texte selon le profil du lecteur |
FR1554544A Withdrawn FR3030810A1 (fr) | 2014-12-22 | 2015-05-21 | Procede d'analyse automatique de la qualite litteraire d'un texte selon le genre litteraire ou selon le type d'article |
FR1554545A Pending FR3030811A1 (fr) | 2014-12-22 | 2015-05-21 | Procede d'analyse automatique de la qualite litteraire d'un texte dedie a la jeunesse ou en fonction du niveau de francais langue etrangere (fle) |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR1463074A Pending FR3030809A1 (fr) | 2014-12-22 | 2014-12-22 | Procede d'analyse automatique de la qualite litteraire d'un texte |
FR1554546A Pending FR3030812A1 (fr) | 2014-12-22 | 2015-05-21 | Procede d'analyse automatique de la qualite litteraire d'un texte selon le profil du lecteur |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR1554545A Pending FR3030811A1 (fr) | 2014-12-22 | 2015-05-21 | Procede d'analyse automatique de la qualite litteraire d'un texte dedie a la jeunesse ou en fonction du niveau de francais langue etrangere (fle) |
Country Status (1)
Country | Link |
---|---|
FR (4) | FR3030809A1 (fr) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162797A (zh) * | 2019-06-21 | 2019-08-23 | 北京百度网讯科技有限公司 | 文章质量检测方法和装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737446B (zh) * | 2020-06-22 | 2024-04-05 | 北京百度网讯科技有限公司 | 用于构建质量评估模型的方法、装置、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7200606B2 (en) * | 2000-11-07 | 2007-04-03 | The Regents Of The University Of California | Method and system for selecting documents by measuring document quality |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6029195A (en) * | 1994-11-29 | 2000-02-22 | Herz; Frederick S. M. | System for customized electronic identification of desirable objects |
FR2803928B1 (fr) * | 2000-01-18 | 2002-11-29 | Auralog | Systeme de traitement de donnees pour l'evaluation d'un texte |
-
2014
- 2014-12-22 FR FR1463074A patent/FR3030809A1/fr active Pending
-
2015
- 2015-05-21 FR FR1554546A patent/FR3030812A1/fr active Pending
- 2015-05-21 FR FR1554544A patent/FR3030810A1/fr not_active Withdrawn
- 2015-05-21 FR FR1554545A patent/FR3030811A1/fr active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7200606B2 (en) * | 2000-11-07 | 2007-04-03 | The Regents Of The University Of California | Method and system for selecting documents by measuring document quality |
Non-Patent Citations (6)
Title |
---|
ANONYMOUS: "Découverte automatique des textes littéraires qui présentent les caractéristiques statistiques d'un texte de qualité", 23 September 2014 (2014-09-23), XP055230748, Retrieved from the Internet <URL:http://dumas.ccsd.cnrs.fr/dumas-01066867> [retrieved on 20151124] * |
ANONYMOUS: "Maaouia Hamza, Découverte automatique des textes littéraires qui présentent les caractéristiques statistiques d'un texte de qualité | ISIDORE - Accès aux données et services numériques de SHS", 10 July 2014 (2014-07-10), XP055230677, Retrieved from the Internet <URL:http://www.rechercheisidore.fr/search/resource/?uri=10670/1.zqpm41> [retrieved on 20151124] * |
CHARLOTTE LECLUZE ET AL: "DEFT 2014, analyse automatique de textes littéraires et scientifiques en langue française", 1 July 2014 (2014-07-01), XP055230403, Retrieved from the Internet <URL:http://www.aclweb.org/anthology/W14-6302> [retrieved on 20151123] * |
EMILY PITLER ET AL: "Revisiting readability", PROCEEDINGS OF THE CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, EMNLP '08, 1 January 2008 (2008-01-01), Morristown, NJ, USA, pages 186, XP055230406, DOI: 10.3115/1613715.1613742 * |
HAMZA MAAOUIA: "Découverte automatique des textes littéraires qui présentent les caractéristiques statistiques d'un texte de qualité", 23 September 2014 (2014-09-23), XP055230685, Retrieved from the Internet <URL:http://dumas.ccsd.cnrs.fr/dumas-01066867/document> [retrieved on 20151124] * |
THIERRY HAMON ET AL: "Analyse automatique de textes littéraires et scientifiques : présentation et résultats du défi fouille de texte DEFT2014", 1 July 2014 (2014-07-01), XP055230401, Retrieved from the Internet <URL:https://deft.limsi.fr/actes/2014/pdf/deft2014_00_limsi.pdf> [retrieved on 20141124] * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162797A (zh) * | 2019-06-21 | 2019-08-23 | 北京百度网讯科技有限公司 | 文章质量检测方法和装置 |
CN110162797B (zh) * | 2019-06-21 | 2023-04-07 | 北京百度网讯科技有限公司 | 文章质量检测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
FR3030812A1 (fr) | 2016-06-24 |
FR3030811A1 (fr) | 2016-06-24 |
FR3030809A1 (fr) | 2016-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104881402B (zh) | 中文网络话题评论文本语义倾向分析的方法及装置 | |
Lazaridou et al. | Compositional-ly derived representations of morphologically complex words in distributional semantics | |
Lita et al. | Truecasing | |
US7587308B2 (en) | Word recognition using ontologies | |
Cummins et al. | Multimodal bag-of-words for cross domains sentiment analysis | |
US9002866B1 (en) | Generating context-based spell corrections of entity names | |
Batista et al. | Bilingual experiments on automatic recovery of capitalization and punctuation of automatic speech transcripts | |
CN102929860B (zh) | 一种基于上下文语境的中文分句情感极性判别方法 | |
Paul et al. | Hidden Markov model based part of speech tagging for Nepali language | |
US9063923B2 (en) | Method for identifying the integrity of information | |
Bruckmaier | Getting at GET in World Englishes: A corpus-based semasiological-syntactic analysis | |
FR3030810A1 (fr) | Procede d'analyse automatique de la qualite litteraire d'un texte selon le genre litteraire ou selon le type d'article | |
Van Tuijl et al. | The productivity of Dutch diminutives | |
Efthymiou et al. | Productivity of verb-forming suffixes in Modern Greek: a corpus-based study | |
US20180082681A1 (en) | Bilingual corpus update method, bilingual corpus update apparatus, and recording medium storing bilingual corpus update program | |
Sun et al. | Syntactic parsing of web queries | |
Sharounthan et al. | Retracted: Singlish Sentiment Analysis Based Rating For Public Transportation | |
Kaur et al. | Sentiment detection from Punjabi text using support vector machine | |
JP2017151863A (ja) | 文書要約装置 | |
Mekki et al. | COTA 2.0: An automatic corrector of Tunisian Arabic social media texts | |
Peinl et al. | Quality assurance for speech synthesis with ASR | |
Kaur et al. | Extraction of unigram and bigram topic list by using Latent Dirichlet Markov allocation and sentiment classification | |
JP5128328B2 (ja) | 曖昧性評価装置およびプログラム | |
Kreutz et al. | BATS: BenchmArking Text Simplicity🦇 | |
WO2013117872A1 (fr) | Procede d'identification d'un ensemble de phrases d'un document numerique, procede de generation d'un document numerique, dispositif associe |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ST | Notification of lapse |
Effective date: 20170131 |