FR3030811A1 - Procede d'analyse automatique de la qualite litteraire d'un texte dedie a la jeunesse ou en fonction du niveau de francais langue etrangere (fle) - Google Patents

Procede d'analyse automatique de la qualite litteraire d'un texte dedie a la jeunesse ou en fonction du niveau de francais langue etrangere (fle) Download PDF

Info

Publication number
FR3030811A1
FR3030811A1 FR1554545A FR1554545A FR3030811A1 FR 3030811 A1 FR3030811 A1 FR 3030811A1 FR 1554545 A FR1554545 A FR 1554545A FR 1554545 A FR1554545 A FR 1554545A FR 3030811 A1 FR3030811 A1 FR 3030811A1
Authority
FR
France
Prior art keywords
text
level
learning
age
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR1554545A
Other languages
English (en)
Inventor
Quentin Pleple
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Short Edition
Original Assignee
Short Edition
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Short Edition filed Critical Short Edition
Publication of FR3030811A1 publication Critical patent/FR3030811A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

L'invention concerne un perfectionnement au procédé d'analyse de la qualité littéraire d'un texte, mise en œuvre par un programme d'ordinateur selon la demande de brevet FR 14 63074. Le perfectionnement consiste à tenir compte de l'âge du lecteur et plus particulièrement d'un lecteur appartenant à la catégorie jeunesse, c'est-à-dire à la catégorie des 6, 8, 10... ans, ou du niveau de Français Langue Etrangère (FLE).

Description

PROCEDE D'ANALYSE AUTOMATIQUE DE LA QUALITE LITTERAIRE D'UN TEXTE DEDIE A LA JEUNESSE OU EN FONCTION DU NIVEAU DE FRANÇAIS LANGUE ETRANGERE (FLE) Domaine technique La présente invention concerne un procédé d'analyse automatique de la qualité littéraire d'un texte dédié à la jeunesse ou en fonction du niveau de Français Langue Etrangère (FLE). Par « qualité littéraire d'un texte», on entend dans le cadre de l'invention, la qualité littéraire d'un texte qui lui est intrinsèque et qui se matérialise par une note discrète de 1 à 10, par un score continu dans [0, 1], comme un score réel ]-00, -Fo< ou comme des labels « très bon », « bon », « moyen », etc. Par « qualité littéraire connue d'un texte d'apprentissage», on entend dans le cadre de l'invention, la note donnée par un groupe d'experts de lecture pour estimer la qualité de celui-ci.
Par « âge minimum connu de lecture d'un texte d'apprentissage », on entend dans le cadre de l'invention, l'âge minimum à partir duquel un groupe d'experts de lecture estime que la lecture de ce texte peut être faite. Par « niveau de Français Langue Etrangère connu d'un texte d'apprentissage », on entend dans le cadre de l'invention, le niveau codifié Al, A2, Bi, B2....qu'un groupe d'experts de lecture estime pour ce texte. Etat de la technique De manière générale, le but de la catégorisation automatique de textes est d'apprendre à une machine informatique à classer un texte dans la bonne catégorie en se basant sur son contenu.
On peut résoudre par des algorithmes de catégorisation, divers problèmes de catégorisation de textes. En ce qui concerne l'analyse de la qualité d'un texte littéraire ou scientifique, différentes approches ont déjà été effectuées et différents algorithmes de catégorisation mis en oeuvre.
Il existe ainsi plusieurs travaux qui concernent la qualité d'un texte littéraire, mais la plupart ne sont pas pertinents car ils définissent la notion de qualité dans un sens qui leur est propre et donc non réellement indépendante des facteurs qui sont choisis.
On peut citer le brevet US7200606 dans lequel la notion de qualité est considérée dans le sens de pertinence vis-à-vis d'une requête utilisateur. Ainsi, une des approches pertinentes est l'approche dite intrinsèque selon laquelle il s'agit d'utiliser des algorithmes de catégorisation pour classer des documents en fonction de caractéristiques textuelles (indicateurs) qui sont intrinsèques au texte: composition, éléments de style, précision du vocabulaire par rapport à un sujet, construction des raisonnements, orthographe, etc. Les caractéristiques de tri relèvent d'approches orthographiques, lexicales et stylistiques très variables, parmi lesquelles la longueur des mots, régularité du vocabulaire, analyse des cooccurrences, usage de la ponctuation, détection d'erreurs grammaticales et orthographiques, facilité de lecture, liens lexicaux avec un thème ou un genre, etc. Ces caractéristiques liées au texte peuvent être complétées utilement par des méthodes sémantiques faites autour des rapports entre qualité et respect des règles orthographiques et typographiques, de la grammaire (mesure de qualité sur des n-grammes longs), de la capitalisation, de la densité du texte (rapport entre lettres et espaces) ou de son entropie (au niveau des mots, voire au niveau des caractères). La lexicométrie, méthode d'analyse quantitative des textes, peut s'avérer un outil utile pour la mesure de qualité ou de non-qualité, paradoxalement. Quels que soient les méthodes et les algorithmes de catégorisation retenus, la difficulté première réside dans le choix des indicateurs et de l'algorithme, et dans leur combinaison pour évaluer la qualité littéraire d'un texte. On trouve peu de littérature qui s'intéresse à la qualité littéraire d'un texte par approche intrinsèque. On peut citer tout d'abord les publications [1] et [2] qui décrivent une extraction d'indicateurs intrinsèques à partir d'un texte littéraire brut puis une régression ou une classification pour atteindre la valeur cible que l'on cherche à déterminer. Le choix des indicateurs reste relativement sommaire, ce qui ne permet pas d'affiner avec une très bonne précision l'analyse de la qualité. La publication [3] divulgue une prédiction de la qualité à partir d'un nombre restreint d'articles de journal (journal « Wall Street Journal »). L'analyse selon cette publication reste basique, puisque seule une corrélation est établie entre chaque indicateur et une valeur cible réalisée sur une trentaine d'articles de référence.
Le demandeur a déposé le 22 décembre 2014 sous le n° 14 63074 une demande de brevet française relative à un procédé d'analyse de la qualité littéraire d'un texte, qui permet d'assurer une meilleure précision de l'analyse. Il existe encore un besoin non pris en compte qui est d'améliorer l'analyse de la qualité littéraire en fonction de l'âge du lecteur et plus particulièrement d'un lecteur appartenant à la catégorie jeunesse, c'est-à-dire à la catégorie des 6, 8, 10... ans, ou en fonction du niveau de Français Langue Etrangère (FLE). Le but de l'invention est de répondre au moins en partie à ce besoin. Exposé de l'invention Pour ce faire, l'invention a pour objet un procédé d'analyse de la qualité littéraire d'un texte dédié à la jeunesse ou en fonction du niveau de Français Langue Etrangère (FLE), mis en oeuvre par un programme d'ordinateur, comprenant les étapes suivantes : a/ recevoir une pluralité de textes dit textes d'apprentissage; b/ extraire les indicateurs numériques de chaque texte d'apprentissage, c/ générer une représentation vectorielle de chaque texte d'apprentissage à partir de ses indicateurs numériques, d/ faire l'apprentissage des relations entre les composantes de la représentation vectorielle du texte et l'âge minimum connu du lecteur ou du niveau de FLE de chaque texte d'apprentissage, de sorte à obtenir un modèle prédictif d'âge minimum de lecture ou du niveau de FLE; e/ regrouper les textes d'apprentissage par tranches d'âges, telles que 6-8 ans, 8-10 ans ...ou par niveaux de FLE, tels que Al, A2, Bi... f/ pour chaque tranche d'âge ou pour chaque niveau de FLE, réitérer les étapes a/ à c/ à partir uniquement des textes d'apprentissage de la tranche d'âge ou du niveau de FLE considéré(e); g/ faire l'apprentissage des relations entre les composantes de la représentation vectorielle des textes d'apprentissage de la tranche d'âge ou du niveau de FLE considéré(e) et la qualité littéraire connue de ceux-ci, de sorte à obtenir un modèle prédictif de la qualité littéraire pour les textes d'apprentissage de la tranche d'âge ou du niveau de FLE considéré(e); h/ recevoir un nouveau texte à analyser ; i/ appliquer au nouveau texte le modèle prédictif d'âge minimum de lecture ou du niveau de FLE construit à l'étape d/; j/ choisir le modèle prédictif de la qualité littéraire construit à l'étape g/, qui correspond à l'âge minimum ou au niveau de FLE prédit selon l'étape i/ et appliquer ledit modèle prédictif choisi au même nouveau texte, de sorte à obtenir la qualité littéraire du nouveau texte. L'inventeur de la présente invention est parti du constat que l'invention selon la demande de brevet FR 14 63074 précitée permet bien d'améliorer la précision de l'analyse littéraire d'un texte, mais qu'elle n'était pas complètement satisfaisante car elle ne permet pas d'avoir une qualité de texte en fonction de l'âge, et plus particulièrement de texte dédié à la jeunesse ou en fonction d'un niveau de Français Langue Etrangère (FLE). Aussi, l'invention consiste essentiellement à construire un modèle prédictif d'une tranche d'âge, c'est-à-dire en tenant compte de l'âge minimum d'une personne à partir duquel un texte peut être lu, ou d'un niveau de Français Langue Etrangère (FLE), d'établir un modèle prédictif de qualité par tranche d'âge ou par niveau de FLE et d'utiliser le premier modèle prédictif pour déterminer l'âge minimum ou le niveau FLE, puis d'appliquer le modèle prédictif de qualité littéraire correspondant à la tranche d'âge ou le niveau FLE, pour prédire la qualité littéraire du texte. De préférence, les indicateurs numériques comprennent le nombre de mots rares et leur distribution dans le texte ; la longueur des phrases en caractères, mots, propositions ; l'ordre du sujet, verbe et objet(s) dans une phrase ; les temps verbaux; la mesure de la distance entre sujet et verbe ; la mesure du nombre et de la taille des énumérations ; et le nombre et le ratio de formes verbales passives. L'invention concerne également un programme d'ordinateur de mise en oeuvre du procédé décrit précédemment. Description détaillée D'autres avantages et caractéristiques de l'invention ressortiront mieux à la lecture de la description détaillée d'exemples de mise en oeuvre de l'invention faite à titre illustratif et non limitatif en référence aux figures suivantes : - figure 1 : organigramme des étapes d'apprentissage du procédé selon l'invention mis en oeuvre par programme d'ordinateur ; - figure 2 : organigramme des étapes d'apprentissage du procédé selon l'invention également mis en oeuvre par programme d'ordinateur pour les textes d'apprentissage regroupés par tranches d'âge ; - figure 3 : organigramme des étapes de prédiction de l'âge minimum de lecture du procédé selon l'invention également mis en oeuvre par programme d'ordinateur et utilisant le modèle prédictif de l'âge selon la figure 1; - figure 4 : organigramme des étapes de prédiction de l'analyse de la qualité littéraire du procédé selon l'invention également mis en oeuvre par programme d'ordinateur et utilisant le modèle prédictif de la qualité littéraire selon la figure 2.
Par la suite, on utilise indifféremment les termes « algorithme » et «programme d'ordinateur » qui est le codage lisible par un ordinateur de l'algorithme. Ainsi, un algorithme est un plan d'exécution pour un ordinateur. L'ordinateur prend des données entrantes, applique le traitement décrit par l'algorithme et renvoie en retour un résultat à l'utilisateur.
Dans le cadre de l'invention, l'algorithme mis en oeuvre pour l'analyse prédictive est un algorithme d'apprentissage automatique (« machine learning » en anglais). Dans ce type d'algorithme, ses règles de décisions ne sont pas fixées à la conception, car il est conçu pour qu'il puisse modifier ses règles de décisions, en fonction des données qu'il voit.
Le procédé proprement dit selon l'invention, comprend quatre phases successives, les deux premières étant des phases d'apprentissage et les deux suivantes étant des phases de prédiction successives. On réalise tout d'abord les phases d'apprentissage. Une population d'experts identifie chaque texte littéraire d'apprentissage en fonction de l'âge minimum à partir duquel la lecture est possible : 6, 8 ou 10 ans.... Cette population d'experts de lecture donne également une série de notes pour chaque texte littéraire d'apprentissage. Ces notes mesurent la qualité littéraire de chaque texte et elle sont pondérées en étant centrées puis réduites selon l'équation: x' = (x - m) / s où : x est la note donnée entre 1 et 10 par un individu M pour une oeuvre, m est la moyenne des notes données par M, s est l'écart-type des notes données par M, x' est la nouvelle note corrigée. Ainsi, x' quantifie la qualité littéraire connue de la population d'experts. L'algorithme réalise les étapes suivantes, à partir des textes d'apprentissage à analyser. On extrait les indicateurs numériques des textes d'apprentissage (étape SO). On construit alors la représentation vectorielle de chaque texte littéraire d'apprentissage (étape Si). L'algorithme peut avantageusement procéder de la manière suivante pour la construction de la représentation vectorielle.
L'algorithme réalise les étapes suivantes, à partir d'un texte brut à analyser. Il génère plusieurs sous-représentations vectorielles du texte reçu pour obtenir des indicateurs bas-niveau. La première sous-représentation consiste en une représentation par sac de mots selon laquelle on analyse les distributions de chaque mot et on analyse les distributions de certains unigrams, bi-grams, 3-grams, 4-grams, 5-grams et 6-grams à l'échelle du mot et des caractères. Ainsi, dans cette étape, le texte est transformé en une suite de tokens selon des expressions régulières de découpage. La représentation par sac-de-mots ne tient pas compte de la mise en forme du texte, de l'ordre des mots, de leur sens ou des relations structurées par des mots de liaison.
La deuxième sous-représentation représente la structure morphosyntaxique, selon laquelle on calcule les paramètres des distributions des mots grammaticaux dans le texte et on analyse les distributions de chaque fonction syntaxique dans le texte, les paragraphes, les phrases et les propositions. Les mots grammaticaux sont les articles, les prépositions, les adjectifs non qualificatifs. Le calcul des paramètres de la distribution des mots grammaticaux est fait à partir de critères choisis parmi la moyenne, la variance, l'écart type, l'entropie, la distance entre les distributions ou une combinaison de ceux-ci. Une fonction syntaxique est un verbe, un nom, un adjectif, un adverbe, un déterminant, une préposition. Ainsi, cette étape permet d'extraire des éléments de structure du texte dans pour autant monter jusqu'au niveau pragmatique de la compréhension générale du texte. La troisième sous-représentation représente des fautes d'écriture selon laquelle on calcule le nombre de fois où chaque règle de chacune des catégories de fautes d'écriture n'est pas respectée. Les fautes d'écriture sont les fautes d'orthographe, de grammaire, de conjugaison, d'anglicisme, de syntaxe, d'expression, et d'usage. Ainsi, cette étape consiste à analyser automatiquement les différents types de fautes apparaissant dans le texte.
La quatrième sous-représentation représente la stylométrie selon laquelle on calcule la longueur du texte, la longueur des paragraphes, la longueur des phrases, la longueur des propositions, la longueur des mots en caractères, le nombre de chaque signe de ponctuation, et enfin les paramètres de la distribution des dialogues dans le texte. La longueur du texte est calculée à partir du nombre de paragraphes, phrases, propositions, mots, caractères. La longueur d'un paragraphe est calculée à partir du nombre de phrases, propositions, mots, caractères. La longueur des phrases est calculée à partir du nombre de propositions, mots, caractères. La longueur des propositions est calculée à partir du nombre de mots, caractères. Le calcul des paramètres de la distribution des dialogues dans le texte est fait à partir de critères choisis parmi la moyenne, la variance, l'écart type, l'entropie, la distance entre les distributions ou une combinaison de ceux-ci. Ainsi, cette étape permet d'identifier le style du texte. A partir de toutes les sous-représentations précédentes, l'algorithme génère une cinquième sous-représentation qui est une méta-description selon laquelle on analyse le vocabulaire du texte par les différents niveaux de rareté des mots, les champs lexicaux utilisés, les mots adaptés à la jeunesse, et on calcule des agrégations (sommes) et ratios (divisions) des indicateurs bas-niveau obtenus précédemment. On donne ci-après un exemple d'agrégation calculé à partir d'indicateurs bas niveau qui sont les suivants: - NIN = nombre de verbes à l'infinitif - NPR = nombre de verbes au présent - NFU = nombre de verbes au futur - NPA = nombre de verbes au passé. L'agrégation calculé donne un indicateur de niveau intermédiaire NV qui est le nombre total de verbes, soit NV = NIN + NPR + NFU + NPA.
On donne ci-après un exemple de ratio calculé à partir d'indicateurs bas niveau qui sont les suivants: - NP = nombre de phrases - NV = nombre de verbes. Le ratio calculé donne un indicateur de niveau intermédiaire NM qui est le nombre moyen de verbes par phrases, soit NM = NV / NP. Ainsi, cette étape permet d'obtenir des méta-descriptions telles que la lisibilité, l'étendue du vocabulaire ou la cohésion lexicale. A partir de la sous-représentation par sac-de-mots, l'algorithme génère une sixième sous-représentation qui représente des champs lexicaux présents dans le texte, par une analyse en composantes principales (PCA, acronyme anglais pour « Principal Components Analysis ») et/ou une analyse sémantique latente (LSA, acronyme anglais pour « Latent Semantic Analysis ») et/ou une factorisation en matrices non négatives (NMF, acronyme anglais pour « Non-negative Matrix Factorization »). Il s'agit donc ici d'une étape de réduction de dimensionnalité pour obtenir des champs lexicaux. Lorsqu'on obtient trop de champs lexicaux par ces trois analyses, l'algorithme génère une étape supplémentaire de réduction de la dimensionnalité. Cette étape consiste donc à mettre tous les champs lexicaux ensemble et à n'en conserver qu'un nombre restreint afin que ceux conservés soient des champs uniques et pertinents. Autrement dit, en cas de redondance dans les composantes du vecteur généré selon l'étape précédente, cette étape permet de sélectionner les composantes non redondantes du vecteur. Une fois toutes les sous-représentations vectorielles générées, l'algorithme réalise leur concaténation en une représentation finale du texte. Ainsi, une fois la représentation vectorielle de chaque texte d'apprentissage réalisée, l'algorithme peut faire l'apprentissage entre les composantes de la représentation vectorielle de chaque texte d'apprentissage et l'âge minimum de lecture connu pour ce dernier, de sorte à obtenir un modèle prédictif de l'âge minimum (étape S2).
L'algorithme procède alors à la deuxième phase d'apprentissage. On regroupe alors les différentes textes d'apprentissage en tranches d'âges, telles que correspondant à des lecteurs âgés de 6 à 8 ans, de 8 à 10 ans... Pour chaque tranche, on réitère les étapes SO et Si à partir uniquement des textes d'apprentissage de la tranche d'âge considérée.
L'algorithme fait alors la corrélation entre les composantes de la représentation vectorielle des textes d'apprentissage de la tranche d'âge et la qualité littéraire connue de ceux-ci, de sorte à obtenir un modèle prédictif de la qualité littéraire pour les textes d'apprentissage de la tranche d'âge considérée (étape S3). Ainsi, pour chaque tranche d'âge, on obtient un modèle prédictif de la qualité littéraire. Pour établir la prédiction de la qualité littéraire d'un nouveau texte qui intègre à la fois la qualité littéraire chiffrée et le modèle prédictif de la tranche d'âge considérée, l'algorithme procède alors aux phases de prédiction. On extrait les indicateurs numériques du nouveau texte à analyser et on applique le modèle prédictif d'âge minimum de lecture construit précédemment (étape S4). On choisit alors le modèle prédictif de la qualité littéraire construit précédemment et, qui correspond à l'âge minimum prédit et on applique ledit modèle prédictif choisi au même nouveau texte, de sorte à obtenir la qualité littéraire du nouveau texte (étape S5). L'invention qui vient d'être décrite permet ainsi d'obtenir de manière précise et fiable la qualité littéraire de tout texte littéraire dédié à la jeunesse.
De nombreuses variantes et améliorations peuvent être envisagées sans pour autant sortir du cadre de l'invention. Au lieu de prédire la qualité littéraire d'un nouveau texte en fonction de tranches d'âges, on peut tout aussi bien réaliser la prédiction en fonction du niveau de FLE recherché, tel qu'Al, A2, Bi...20 REFERENCE S CITEES [1]: «DEFT2014, analyse automatique de textes littéraires et scientifiques en langue française», Lecluze and al., 21ème Traitement Automatique des Langues Naturelles, Marseille, 2014; [2] : « Catégorisation sémantique fine des expressions d'opinion pour la détection de consensus », Benamara and al., 21ème Traitement Automatique des Langues Naturelles, Marseille, 2014; [3] : « Revisiting Readability: A Unified Framework for Predicting Text Quality », Pitler and al. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP '08). Association for Computational Linguistics, Stroudsburg, PA, USA, 186-195.15

Claims (6)

  1. REVENDICATIONS1. Procédé d'analyse de la qualité littéraire d'un texte dédié à la jeunesse ou en fonction du niveau de Français Langue Etrangère (FLE), mis en oeuvre par un (micro)processeur d'ordinateur, comprenant les étapes suivantes : a/ recevoir une pluralité de textes dit textes d'apprentissage; b/ extraire les indicateurs numériques de chaque texte d'apprentissage, c/ générer une représentation vectorielle de chaque texte d'apprentissage à partir de ses indicateurs numériques, d/ faire l'apprentissage des relations entre les composantes de la représentation 10 vectorielle du texte et l'âge minimum connu du lecteur ou du niveau de FLE de chaque texte d'apprentissage, de sorte à obtenir un modèle prédictif d'âge minimum de lecture ou du niveau de FLE; e/ regrouper les textes d'apprentissage par tranches d'âges, telles que 6-8 ans, 8-10 ans ...ou par niveaux de FLE, tels que Al, A2, Bi... 15 f/ pour chaque tranche d'âge ou pour chaque niveau de FLE, réitérer les étapes a/ à c/ à partir uniquement des textes d'apprentissage de la tranche d'âge ou du niveau de FLE considéré(e); g/ faire l'apprentissage des relations entre les composantes de la représentation vectorielle des textes d'apprentissage de la tranche d'âge ou du niveau de FLE 20 considéré(e) et la qualité littéraire connue de ceux-ci, de sorte à obtenir un modèle prédictif de la qualité littéraire pour les textes d'apprentissage de la tranche d'âge ou du niveau de FLE considéré(e); h/ recevoir un nouveau texte à analyser ; i/ appliquer au nouveau texte le modèle prédictif d'âge minimum de lecture ou du 25 niveau de FLE construit à l'étape d/; j/ choisir le modèle prédictif de la qualité littéraire construit à l'étape g/, qui correspond à l'âge minimum ou au niveau de FLE prédit selon l'étape i/ et appliquer ledit modèle prédictif choisi au même nouveau texte, de sorte à obtenir la qualité littéraire du nouveau texte. 30
  2. 2. Procédé d'analyse selon la revendication 1, comprenant, pour la génération vectorielle d'un texte d'apprentissage selon l'étape c/, les étapes suivantes :cl/ générer plusieurs sous-représentations vectorielles du texte reçu pour obtenir des indicateurs, dits indicateurs bas-niveau, les sous-représentations consistant en : - une représentation par sac de mots selon laquelle on analyse les distributions de chaque mot et on analyse les distributions de certains unigrams, bi-grams,
  3. 3-grams,
  4. 4-grams,
  5. 5-grams et
  6. 6-grams à l'échelle du mot et des caractères, - une représentation dite de structure morphosyntaxique, selon laquelle on calcule les paramètres des distributions des mots grammaticaux dans le texte et on analyse les distributions de chaque fonction syntaxique dans le texte, les paragraphes, les phrases et les propositions, - une représentation des fautes d'écriture selon laquelle on calcule le nombre de fois où chaque règle de chacune des catégories de fautes d'écriture n'est pas respectée, - une représentation de stylométrie selon laquelle on calcule la longueur du texte, la longueur des paragraphes, la longueur des phrases, la longueur des propositions, la longueur des mots en caractères, le nombre de chaque signe de ponctuation, et enfin les paramètres de la distribution des dialogues dans le texte ; c2/ générer: - une méta-description selon laquelle on analyse le vocabulaire du texte par les différents niveaux de rareté des mots, les champs lexicaux utilisés, les mots adaptés à la jeunesse, et on calcule des agrégations et ratios des indicateurs bas-niveau obtenus en cl!; - une représentation des champs lexicaux présents dans le texte à partir de la représentation par sac de mots effectuée en cil, par analyse en composantes principales (PCA, acronyme anglais pour « Principal Components Analysis ») et/ou une analyse sémantique latente (LSA, acronyme anglais pour « Latent Semantic Analysis ») et/ou une factorisation en matrices non négatives (NMF, acronyme anglais pour « Non-negative Matrix Factorization »). c3/ concaténation de sous-représentation vectorielles générées en cl/ et c2/. 3. Procédé d'analyse selon la revendication 1 ou 2, les indicateurs numériques comprenant le nombre de mots rares et leur distribution dans le texte ; la longueur des phrases en caractères, mots, propositions ; l'ordre du sujet, verbe et objet(s) dans une phrase ; les temps verbaux; la mesure de la distance entre sujet et verbe ; la mesure dunombre et de la taille des énumérations ; et le nombre et le ratio de formes verbales passives. 4. Programme d'ordinateur comprenant des instructions de code de programme pour l'exécution des étapes du procédé selon l'une des revendications précédentes lorsque ledit programme est exécuté sur un ordinateur.
FR1554545A 2014-12-22 2015-05-21 Procede d'analyse automatique de la qualite litteraire d'un texte dedie a la jeunesse ou en fonction du niveau de francais langue etrangere (fle) Pending FR3030811A1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1463074A FR3030809A1 (fr) 2014-12-22 2014-12-22 Procede d'analyse automatique de la qualite litteraire d'un texte

Publications (1)

Publication Number Publication Date
FR3030811A1 true FR3030811A1 (fr) 2016-06-24

Family

ID=53872087

Family Applications (4)

Application Number Title Priority Date Filing Date
FR1463074A Pending FR3030809A1 (fr) 2014-12-22 2014-12-22 Procede d'analyse automatique de la qualite litteraire d'un texte
FR1554545A Pending FR3030811A1 (fr) 2014-12-22 2015-05-21 Procede d'analyse automatique de la qualite litteraire d'un texte dedie a la jeunesse ou en fonction du niveau de francais langue etrangere (fle)
FR1554546A Pending FR3030812A1 (fr) 2014-12-22 2015-05-21 Procede d'analyse automatique de la qualite litteraire d'un texte selon le profil du lecteur
FR1554544A Withdrawn FR3030810A1 (fr) 2014-12-22 2015-05-21 Procede d'analyse automatique de la qualite litteraire d'un texte selon le genre litteraire ou selon le type d'article

Family Applications Before (1)

Application Number Title Priority Date Filing Date
FR1463074A Pending FR3030809A1 (fr) 2014-12-22 2014-12-22 Procede d'analyse automatique de la qualite litteraire d'un texte

Family Applications After (2)

Application Number Title Priority Date Filing Date
FR1554546A Pending FR3030812A1 (fr) 2014-12-22 2015-05-21 Procede d'analyse automatique de la qualite litteraire d'un texte selon le profil du lecteur
FR1554544A Withdrawn FR3030810A1 (fr) 2014-12-22 2015-05-21 Procede d'analyse automatique de la qualite litteraire d'un texte selon le genre litteraire ou selon le type d'article

Country Status (1)

Country Link
FR (4) FR3030809A1 (fr)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162797B (zh) * 2019-06-21 2023-04-07 北京百度网讯科技有限公司 文章质量检测方法和装置
CN111737446B (zh) * 2020-06-22 2024-04-05 北京百度网讯科技有限公司 用于构建质量评估模型的方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7200606B2 (en) * 2000-11-07 2007-04-03 The Regents Of The University Of California Method and system for selecting documents by measuring document quality

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
FR2803928B1 (fr) * 2000-01-18 2002-11-29 Auralog Systeme de traitement de donnees pour l'evaluation d'un texte

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7200606B2 (en) * 2000-11-07 2007-04-03 The Regents Of The University Of California Method and system for selecting documents by measuring document quality

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
ANONYMOUS: "Découverte automatique des textes littéraires qui présentent les caractéristiques statistiques d'un texte de qualité", 23 September 2014 (2014-09-23), XP055230748, Retrieved from the Internet <URL:http://dumas.ccsd.cnrs.fr/dumas-01066867> [retrieved on 20151124] *
ANONYMOUS: "Maaouia Hamza, Découverte automatique des textes littéraires qui présentent les caractéristiques statistiques d'un texte de qualité | ISIDORE - Accès aux données et services numériques de SHS", 10 July 2014 (2014-07-10), XP055230677, Retrieved from the Internet <URL:http://www.rechercheisidore.fr/search/resource/?uri=10670/1.zqpm41> [retrieved on 20151124] *
CHARLOTTE LECLUZE ET AL: "DEFT 2014, analyse automatique de textes littéraires et scientifiques en langue française", 1 July 2014 (2014-07-01), XP055230403, Retrieved from the Internet <URL:http://www.aclweb.org/anthology/W14-6302> [retrieved on 20151123] *
CHENHAO TAN ET AL: "To each his own: Personalized Content Selection based on Text Comprehensibility", PROCEEDINGS OF THE FIFTH ACM INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MINING, WSDM '12, 1 January 2012 (2012-01-01), New York, New York, USA, pages 233, XP055233266, ISBN: 978-1-4503-0747-5, DOI: 10.1145/2124295.2124325 *
EMILY PITLER ET AL: "Revisiting readability", PROCEEDINGS OF THE CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, EMNLP '08, 1 January 2008 (2008-01-01), Morristown, NJ, USA, pages 186, XP055230406, DOI: 10.3115/1613715.1613742 *
HAMZA MAAOUIA: "Découverte automatique des textes littéraires qui présentent les caractéristiques statistiques d'un texte de qualité", 23 September 2014 (2014-09-23), XP055230685, Retrieved from the Internet <URL:http://dumas.ccsd.cnrs.fr/dumas-01066867/document> [retrieved on 20151124] *
MICHAEL HEILMAN ET AL: "An analysis of statistical models and features for reading difficulty prediction", PROCEEDINGS OF THE THIRD WORKSHOP ON INNOVATIVE USE OF NLP FOR BUILDING EDUCATIONAL APPLICATIONS, EANL '08, 1 January 2008 (2008-01-01), Morristown, NJ, USA, pages 71 - 79, XP055233219, ISBN: 978-1-932432-08-4, DOI: 10.3115/1631836.1631845 *
PETERSEN S E ET AL: "A machine learning approach to reading level assessment", COMPUTER SPEECH AND LANGUAGE, ELSEVIER, LONDON, GB, vol. 23, no. 1, 1 January 2009 (2009-01-01), pages 89 - 106, XP022941623, ISSN: 0885-2308, [retrieved on 20080507], DOI: 10.1016/J.CSL.2008.04.003 *

Also Published As

Publication number Publication date
FR3030812A1 (fr) 2016-06-24
FR3030810A1 (fr) 2016-06-24
FR3030809A1 (fr) 2016-06-24

Similar Documents

Publication Publication Date Title
Lita et al. Truecasing
US9208144B1 (en) Crowd-sourced automated vocabulary learning system
Cummins et al. Multimodal bag-of-words for cross domains sentiment analysis
US7587308B2 (en) Word recognition using ontologies
CN111108476A (zh) 通过语音驱动的计算基础设施进行的图形用户界面渲染管理
CN102929860B (zh) 一种基于上下文语境的中文分句情感极性判别方法
Masmoudi et al. Transliteration of Arabizi into Arabic script for Tunisian dialect
US20100241419A1 (en) Method for identifying the integrity of information
Bruckmaier Getting at GET in World Englishes: A corpus-based semasiological-syntactic analysis
Solovyev et al. Computational linguistics and discourse complexology: Paradigms and research methods
WO2014017023A1 (fr) Dispositif d&#39;extraction d&#39;une expression de cause, procédé d&#39;extraction d&#39;une expression de cause et programme d&#39;extraction d&#39;une expression de cause
FR3030811A1 (fr) Procede d&#39;analyse automatique de la qualite litteraire d&#39;un texte dedie a la jeunesse ou en fonction du niveau de francais langue etrangere (fle)
CN117033796A (zh) 基于用户表达偏好的智能回复方法、装置、设备及介质
Sharounthan et al. Retracted: Singlish Sentiment Analysis Based Rating For Public Transportation
Aliero et al. Systematic review on text normalization techniques and its approach to non-standard words
Riou et al. Reinforcement adaptation of an attention-based neural natural language generator for spoken dialogue systems
Cero et al. Lexicon-based sentiment analysis in behavioral research
Solov'ev et al. Using sentiment-analysis for text information extraction
Brun Learning opinionated patterns for contextual opinion detection
CN113139058A (zh) 一种用户障碍识别方法和系统
Bilal A linguistic system for predicting sentiment in arabic tweets
Moghadam et al. Investigating Lexical and Syntactic Differences in Written and Spoken English Corpora
US20240176950A1 (en) Aspect based sentiment analysis with contextual grouping of aspects
Minn et al. Myanmar word stemming and part-of-speech tagging using rule based approach
Rogne The use of non-standard features in British and American English–a comparative attitudinal study.

Legal Events

Date Code Title Description
PLSC Publication of the preliminary search report

Effective date: 20160624