CN113743085A

CN113743085A - 一种文本质量评价系统及方法

Info

Publication number: CN113743085A
Application number: CN202110998121.XA
Authority: CN
Inventors: 刘三女牙; 张立山; 赵爱茹; 曹欢欢; 袁阳凯; 李亭亭; 戴志诚
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-12-03
Anticipated expiration: 2041-08-27
Also published as: CN113743085B

Abstract

本发明提供了一种文本质量评价系统及方法，属于写作评价领域，系统包括：数据获取模块用于收集文本数据；文本分析模块用于从基本篇幅、知识密度、专业表达和句型结构方面对文本给予分析并反馈；指标维度计算模块用于根据文本分析模块反馈数据，计算指标维度的数值；指标维度包括：基本篇幅指标维度、知识密度指标维度、专业表达指标维度和句型结构指标维度；基本篇幅指标维度的计算是统计文本的字、词和句的数目；知识密度指标维度和专业表达指标维度的计算是计算各种词性在总词数中的占比；句型结构指标维度的计算是计算句平均词数以及单句占比；本发明不仅可以对当前文本能给予客观的质量评价，也可以快速提高文本创建者的写作质量。

Description

一种文本质量评价系统及方法

技术领域

本发明属于写作评价领域，更具体地，涉及一种文本质量评价系统及方法。

背景技术

学生的论文质量学术研究成就的重要指标之一，论文写作是学生在完成论文研究内容之后对研究再升华的重要环节，而当前学生在学术论文方面容易出现撰写方面的问题。在写作过程中给予建议是对于提高文章质量的有用做法之一。

现在已有的公开了一种论文初步审查评价方法，该方法对论文的题目、作者、单位、中文摘要、关键词、章节名称、参考文献、英文摘要、表格和图等每个组成部分各自包含的元素数量进行统计，根据元素数量与预置的各个组成部分对应的元素标准数量进行比对再生成对比结果，并没有对论文句子结果和语言表述进行评价，也并没有针对学习者的论文给予比较详细的评价和修改建议。也有研究者提出基于中文摘要关键词的毕业论文质量评价系统，它以Python编程语言为切入点，利用Python编程语言第三方中文分词数据库jieba库，对毕业论文的中文摘要以及正文部分进行了词频统计，根据输出的文章中最常出现的10个单词及出现次数，与毕业论文的摘要部分关键词进行比对，依据指定的评价标准细则，以对大学生毕业论文的质量进行评价，并给出反馈修改意见。该研究主要是从摘要关键词在论文摘要和正文中出现频率的角度以衡量论文的好坏，单一的用关键词以衡量论文的优劣过于片面，未考虑到语法结构和专业表达对论文质量的影响。总的来讲，目前已经有的论文评价系统的评价指标比较片面，不能针对各人的差异给出比较详细的修改建议，并且只是对论文进行结论性评价，没有对论文进行即时评价反馈的功能。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种文本质量评价系统及方法，旨在解决现有的文本评价系统的评价指标比较片面，不能针对各人的差异给出详细修改建议，只能对文本进行结论性评价，没有对文本进行实时评价反馈功能的问题。

为实现上述目的，一方面，本发明提供了一种文本质量评价系统包括：顺次连接的数据获取模块、文本分析模块和指标维度计算模块；

数据获取模块用于收集文本数据；

文本分析模块用于对文本数据进行分析，从基本篇幅、知识密度、专业表达和句型结构方面对文本给予反馈；

指标维度计算模块用于根据文本分析模块反馈数据，计算指标维度的数值，以评价文本质量；其中，指标维度包括：基本篇幅指标维度、知识密度指标维度、专业表达指标维度和句型结构指标维度；

其中，文本分析模块中的基本篇幅的反馈是提供文本的篇幅长度；知识密度的反馈是提供文本的知识量；专业表达的反馈是提升文本创建者的遣词造句的建议；句型结构的反馈是文本创建者使用的标点和句子结构是否正确；

基本篇幅指标维度的计算是统计文本的字、词和句的数目；知识密度指标维度和专业表达指标维度的计算是计算各种词性在总词数中的占比；句型结构指标维度的计算是计算句平均词数以及单句占比。

优选地，基本篇幅指标维度的计算包括：统计文本的总字数、计算文本中的总词语数、统计文本中的整句数和统计文本中的分句数；

知识密度指标维度的计算包括：计算文本中的名词数除以总词数、计算文本中的连词数除以总词数、计算文本中的介词数除以总词数；

专业表达指标维度的计算包括：计算相异词除以总词数、计算文本中的代词数除以总词数、计算文本中的人称代词数除以总词数；

句型结构指标维度的计算包括：计算总词数除以整句数和计算整句数除以分句数。

优选地，文本分析模块用于文本数据分析的单元包括分词词性提取单元、相异词计算单元、句法分析单元和潜在语义分析单元；

分词词性提取单元用于采用jieba分词将连续的语句划分为单个词语，并识别词语的词性；

相异词计算单元用于使用词袋模型计算文本中的相异词数量；

潜在语义分析单元用于采用潜在语义分析方法挖掘词语在文本环境中的使用含义；

句法分析单元用于识别句子中词汇之间的依存关系或句子的句法结构，且用于识别标点及其使用频率。

优选地，文本质量评价系统还包括：文本等级评估模块和用户反馈模块；

文本等级评估模块的输入端与指标维度计算模块的输出端相连；用户反馈模块的输入端与文本等级评估模块的输出端相连；

文本等级评估模块用于接收所述指标维度计算模块的各指标维度的数值，对照文本等级标准表，获取各指标维度的等级，并根据历史各指标维度数值与当前各指标维度数值绘制折线图；

用户反馈模块用于向文本创建者反馈各指标维度的数值和折线图，以及将文本指导者对文本的指导建议传递至文本创建者；且向文本指导者反馈文本创建者文本的各指标维度的数值以及各指标维度的等级；

其中，文本等级标准表的建立方法为：根据历史若干文本各指标维度的数值，将各指标维度划分为不同的等级，所有指标维度划分等级的基准表组建为文本等级标准表。

优选地，每个指标维度的等级按照从优到劣的顺序依次为专家期、发展期、学习者期、成长期和新手期。

另一方面，本发明提供了一种文本质量评价方法，包括以下步骤：

(1)对文本数据进行分析后，从基本篇幅、知识密度、专业表达和句型结构方面对文本数据给予分析反馈；

(2)根据步骤(1)反馈的数据，计算指标维度的数值，以反映文本质量；

将指标维度的数值反馈至用户端；

其中，对文本数据基本篇幅的反馈是提供文本的篇幅长度；知识密度的反馈是提供文本的知识量；专业表达的反馈是提升文本创建者的遣词造句的建议；句型结构的反馈是文本创建者使用的标点和句子结构是否正确；

所述指标维度包括：基本篇幅指标维度、知识密度指标维度、专业表达指标维度和句型结构指标维度；

优选地，所述基本篇幅指标维度的计算包括：统计文本的总字数、计算文本中的总词语数、统计文本中的整句数和统计文本中的分句数；

所述知识密度指标维度的计算包括：计算文本中的名词数除以总词数、计算文本中的连词数除以总词数、计算文本中的介词数除以总词数；

所述专业表达指标维度的计算包括：计算相异词除以总词数、计算文本中的代词数除以总词数、计算文本中的人称代词数除以总词数；

所述句型结构指标维度的计算包括：计算总词数除以整句数和计算整句数除以分句数。

优选地，文本质量评价方法，还包括以下步骤：

将各指标维度的数值与等级标准表对照，向文本创建者反馈各指标维度的数值，并反馈根据历史各指标维度数值与当前各指标维度数值绘制的折线图；且向文本指导者反馈文本创建者文本的各指标维度的数值以及各指标维度的等级，文本指导者给出文本的指导建议；

优选地，文本数据的分析方法为：

采用jieba分词将连续的语句划分为单个词语，并识别词语的词性；

使用词袋模型计算文本中的相异词数量；

采用潜在语义分析方法挖掘词语在文本环境中的使用含义；

识别句子中词汇之间的依存关系或句子的句法结构，且识别标点及其使用频率。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明不仅限于某一方面对文本进行评价，而是基于四类指标维度给予文本创建者评价建议，具体来讲，文本分析模块中的基本篇幅的反馈是检测文本的篇幅长度，使文本创建者的文本篇幅字词数适中；知识密度的反馈可以辅助扩充文本的知识量；专业表达的反馈是提升文本创建者的遣词造句的建议，学习专家等级的书面表达；句型结构的反馈是文本创建者使用的标点和句子结构是否正确；提醒文本创建者合理的使用标点，恰当的安排文本中的句子结构。文本创建者可以从以上四个方面针对反馈意见可以修改文本，从而通过不断的“提交-反馈-修正”及时反思文本创建状况，从多个维度进行评价并给予建议，不仅可以对当前文本能给予客观的质量评价，也可以快速提高文本创建者的写作质量。

本发明中文本创建者可以直观看到针对文本的写作建议和写作进步折线图，激发文本创建者的写作积极性和创造性；文本指导者同样也可以看到每位文本创建者的写作进度，及时了解文本创建者的写作状态，对于写作进度稍慢的文本创建者可以及时给予适当的干预，有利于文本写作质量的提升。

本发明提供的文本质量评价系统能够自动检测文本创建者的文本写作情况，与传统的通过文本指导者的逐篇评阅相比，本发明判断文本创建者的写作进度更加科学和高效。

附图说明

图1是本发明实施例提供的文本写作评价方法的流程示意图；

图2是本发明实施例提供的学习者写作进步图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

一方面，本发明提供了一种文本质量评价系统包括：顺次连接的数据获取模块、文本分析模块和指标维度计算模块；

数据获取模块用于收集文本数据；

指标维度计算模块用于根据文本分析模块反馈的结果，计算指标维度的数值，以评价文本质量；其中，指标维度包括：基本篇幅指标维度、知识密度指标维度、专业表达指标维度和句型结构指标维度；

(1)对文本数据进行分析后，从基本篇幅、知识密度、专业表达和句型结构方面对文本数据给予反馈；

将指标维度的数值反馈至用户端；

其中，所述指标维度包括：基本篇幅指标维度、知识密度指标维度、专业表达指标维度和句型结构指标维度；

对文本数据基本篇幅的反馈是提供文本的篇幅长度；知识密度的反馈是提供文本的知识量；专业表达的反馈是提升文本创建者的遣词造句的建议；句型结构的反馈是文本创建者使用的标点和句子结构是否正确；

优选地，文本质量评价方法，还包括以下步骤：

优选地，文本数据的分析方法为：

使用词袋模型计算文本中的相异词数量；

采用潜在语义分析方法挖掘词语在文本环境中的使用含义；

实施例

本实施例提供了一种论文质量评价系统，学习者将论文输入至系统中，系统根据论文文本的内容分析判断，给出相应的反馈建议，图1是本实施例论文质量评价方法的整体流程图；

(1)论文文本的获取：学习者使用论文写作评价系统每周在平台上提交论文，论文写作评价系统中的数据获取模块收集学习者提交的文本数据；

(2)文本分析模块对文本进行分析，包括分词词性提取单元、相异词计算单元、句法分析单元和潜在语义分析单元；

(3)通过对文本分析，基于学习者论文在基本篇幅、知识密度、专业表达和句型结构给予写作的反馈；

在论文的基本篇幅方面是观测学习者论文的篇幅长度，使学习者的论文篇幅字词数适中；

知识密度的建议是为了辅助扩充论文的知识量；

专业表达的建议是旨在帮助学习者练习提升论文中的遣词造句，学习专家论文中的书面表达；

句型结构的建议是为了提醒学习者合理的使用标点，恰当的安排论文中的句子结构；

(4)根据基本篇幅、知识密度、专业表达和句型结构的分析，构建论文的指标数据；

(5)利用指标数据对比论文等级表，做出在线写作评价并可视化；

可视化的内容主要包括两方面：一方面是学习者可以在系统中直观看到针对论文的写作建议和写作情况折线图；除了给予学习者论文各维度的评价，教师还会给出具体地修改建议，以及根据学习者的指标维度的数据在系统中绘制折线图，帮助学习者及时了解个人的写作情况；另一方面是教师在后台可以看到每位学习者的写作进度，以及学习者提交的论文在各项指标中的等级。

需指出，将反馈建议的功能运用到学习者的写作过程中，旨在帮助学习者写出更高质量的论文；

对于文本分析模块具体内容如下：

分词词性提取单元在对论文文本进行处理时，运用到jieba分词对论文先进行基础分词，将连续的语句划分成一个一个的词语；

jieba分词是自然语言处理的重要预操作，jieba分词首先需要基于Trie树结构实现高效的词图扫描，生成句子中汉语所有可能成词情况所构成的有向无环图(DAG)；然后依据不同的选择模式，寻找最短的路径，从而对句子进行截取或直接对句子进行截取；

需指出为了提高分词的准确性jieba分词支持用户自定义词典，而对于未登陆词使用HMM模块运用了Viterbi方法进行新词发现；

jieba分词能较好实现中文分词，在分完词的基础上使用词性分割和词性标注的功能对论文划分出的词语进行词性标注，用于统计论文中的总词数和各种词性的数量(词性包括：名词、代词、介词、连词和人称代词)。

相异词计算单元使用词袋模型(Bag-of-words model)计算论文中的相异词数量(即重复出现的词语只计算一次)，词袋模型在部分保留文本语义的前提下对文本进行向量化表示；词袋模型使用一组词语序列以表示一段文本，该组词语序列也可以叫词汇表，简单来说词袋模型就是将所有词语装进一个袋子里，不考虑其词法和语序的问题，即每个词语都是独立的，不存在顺序上的差异。在本系统中使用了词袋模型的word2bow方法以计算文本中的相异词个数；

潜在语义分析单元采用潜在语义分析(latent semantic analysis，LSA)方法，潜在语义分析方法是自然语言处理中的索引和检索方法，该方法和向量空间模型(VSM)的思路相同，都是使用向量以表示词和文档，并通过向量之间的关系以推断词与文档之前的关系；

LSA的原理是对大量的文本集进行统计分析，从中挖掘出词语在上下文环境中使用的含义；再采用SVD分解进行降维等操作，解决了同义词、一词多义的问题；

由于论文文本语言的学术性，使用潜在语义分析构建分词时用户自定义字典，使得分析结果更加准确；

句法分析单元用于句法分析，是确定句子中词汇之间的依存关系或句子的句法结构，本实施例中句法分析包括统计整句数和分句数的个数；某些关键标点的使用频次(标点包括句号、问号、感叹号、逗号、分号和省略号等)；

句法分析有助于对语言语义的理解和分析，反映文本之间的逻辑关系；一般来讲，句法分析有句法结构分析和依存关系分析两种，其中句法结构分析方法可以分为基于规则的分析方法和基于统计的分析方法两大类，在本发明中使用了句法分析的句法结构分析中的基于统计的分析方法。

指标维度的介绍如下：

本实施例基于文本分析建立了四种指标维度，分别是基本篇幅指标维度、知识密度指标维度、专业表达指标维度和句型结构指标维度；每个指标维度下又细分了多干评价指标共12项，如表1所示；其中，基本篇幅指标维度包括字数评价指标、词数评价指标、整句数评价指标和分句数评价指标；知识密度指标维度包括名词占比评价指标、连词占比评价指标和介词占比评价指标；专业表达指标维度包括相异词占比评价指标、代词占比评价指标和人称代词占比评价指标；句型结构指标维度包括句平均词数评价指标和单句占比评价指标；

具体的四个指标维度的计算方式如下：

基本篇幅指标维度：统计论文的总字数、计算论文中的总词语数、统计论文中的整句数和统计论文中的分句数；

知识密度指标维度：计算论文中的名词数除以总词数、计算论文中的连词数除以总词数、计算论文中的介词数除以总词数；

专业表达指标维度：计算相异词除以总词数、计算论文中的代词数除以总词数、计算论文中的人称代词数除以总词数；

句型结构指标维度：总词数除以整句数、整句数除以分句数；

表1

指标维度	指标内容(*代表负向指标)
		基本篇幅	字数、词数、整句数、分句数
知识密度	名词占比、连词占比、介词占比
		专业表达	相异词占比、代词占比、人称代词占比*
句型结构	句平均词数、单句占比*

通过统计训练，将每一个指标维度划分为五个等级，分别是专家期、发展期、学习者期、成长期和新手期；所有指标维度的等级划分构成论文等级；划分数据的依据来源于分析专家的130篇学术论文和学习者的45篇学术论文，分析发现专家和学习者在表1指标维度的表现上有明显差异，学习者的论文话题和专家论文在同一领域，使数据更加具有代表性和可比性；

在指标维度划分等级时，先统计每一篇搜集的专家和学习者论文在各项指标上的数据，计算属于专家的各项均值M和标准差SD，以及学习者各项指标的均值和标准差；在具体12项评价指标中，字数、词数、整句数、分句数、名词占比和句平均词数是属于正向指标，即数值越大越靠近专家水平；剩余的6项指标属于负向指标(表1中带有*)，即希望学习者的数值越偏小越靠近专家水平；

论文等级的划分方法经过区间的计算，等级数据大于等于专家的均值减0.3倍的标准差归为专家期；等级数据大于等于学习者的均值加0.3倍的标准差且小于专家的均值减0.3倍的标准差归为发展期；等级数据大于等于学习者的均值减0.3倍的标准差且小于学习者的均值加0.3倍的标准差归为学习者期；等级数据大于等于学习者的均值减0.8倍的标准差且小于学习者的均值减0.3倍的标准差归为成长期；等级数据小于学习者的均值减0.8倍的标准差归为新手期；

完成指标维度等级的划分后可以对学习者的论文进行评级，根据不同的等级给予不同的建议，如表2所示。

表2

论文等级	划分方法
		专家期	>＝专家M-0.3*SD
发展期	(专家M+0.3*SD，学习者M+0.3SD]
		学习者期	(学习者M+0.3*SD，学习者M-0.3SD]
成长期	(学习者M-0.3*SD，学习者M-0.8SD]
		新手期	<学习者M-0.8SD

在实际的等级数据计算时将12项指标多了标准化的处理，根据先前统计的专家和学习者的各项数据的最大值，若给出一组某数据，标准化如表2中等级判定依据公式所示，计算使得各项指标都在(0，1)区间内，指标数据越大越靠近专家值；

本实施例学习者使用的主要过程具体设计如下：

在学习者课程的第一学期，学习者每周阅读与自己想写的论文主题相关的文献，在阅读过程中记录笔记；在阅读后完成笔记的整理和论文的构思，前期积累文献知识并熟悉课程的写作主题；

学习者在阅读了八篇有关论文主题的文本后，以积累的文献内容为基础，加以学习者个人的知识积累构思论文；

授课老师在上课时每一周的课后会布置相应的阅读和写作任务，学习者需在系统中完成，从开课的第二周开始计算，每周的写作任务约为250字，系统的写作反馈机制在学期的第九周加入，即从第九周开始，学习者在线写作时会被给予写作的评价建议，延续到第十八周期末的完稿；

学习者每周在系统中提交论文，在学习者提交论文后，为了帮助学习者更好地了解自己的写作水平，系统中基于四个指标维度给予学习者评价建议，如表3所示；

表3

学习者根据建议修改自己的论文，学习者每周可在系统提交草稿，同时查看意见并修改论文，根据该同学的指标数据在系统中绘制写作情况的折线图，帮助学习者及时了解个人的写作情况，如图2所示，帮助学习者修改直至撰写出论文的完稿；在此过程中保存学习者每周提交的文本同时也记录每位学习者在系统中各个指标数据，如表4所示。

表4

综上所述，本发明与现有技术相比，存在以下优势：

本发明中文本创建者可以直观看到针对文本的写作建议和写作进步折线图，激发文本创建者的写作积极性和创造性；文本指导者同样也可以看到每位同学的写作进度，及时了解文本创建者的写作状态，对于写作进度稍慢的文本创建者可以及时给予适当的干预，有利于文本写作质量的提升。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本质量评价系统，其特征在于，包括：顺次连接的数据获取模块、文本分析模块和指标维度计算模块；

所述数据获取模块用于收集文本数据；

所述文本分析模块用于对文本数据进行分析，从基本篇幅、知识密度、专业表达和句型结构方面对文本给予反馈；

所述指标维度计算模块用于根据文本分析模块反馈数据，计算指标维度的数值，以评价文本质量；

基本篇幅指标维度的计算是统计文本的字、词和句的数目；知识密度指标维度和专业表达指标维度的计算是计算各种词性在总词数中的占比；句型结构指标维度的计算是计算句平均词数以及单句占比；

文本分析模块中基本篇幅的反馈是提供文本的篇幅长度；知识密度的反馈是提供文本的知识量；专业表达的反馈是提升文本创建者遣词造句的建议；句型结构的反馈是文本创建者使用的标点和句子结构是否正确。

2.根据权利要求1所述的文本质量评价系统，其特征在于，所述基本篇幅指标维度的计算包括：统计文本的总字数、计算文本中的总词语数、统计文本中的整句数和统计文本中的分句数；

3.根据权利要求1所述的文本质量评价系统，其特征在于，所述文本分析模块用于文本数据分析的单元包括分词词性提取单元、相异词计算单元、句法分析单元和潜在语义分析单元；

所述分词词性提取单元用于采用jieba分词将连续的语句划分为单个词语，并识别词语的词性；

所述相异词计算单元用于使用词袋模型计算文本中的相异词数量；

所述潜在语义分析单元用于采用潜在语义分析方法挖掘词语在文本环境中的使用含义；

所述句法分析单元用于识别句子中词汇之间的依存关系或句子的句法结构，且用于识别标点及其使用频率。

4.权利要求1至3任一所述的文本质量评价系统，其特征在于，还包括：文本等级评估模块和用户反馈模块；

所述文本等级评估模块的输入端与所述指标维度计算模块的输出端相连；用户反馈模块的输入端与文本等级评估模块的输出端相连；

所述文本等级评估模块用于接收所述指标维度计算模块的各指标维度的数值，对照文本等级标准表，获取各指标维度的等级，并根据历史各指标维度数值与当前各指标维度数值绘制折线图；

5.根据权利要求4所述的文本质量评价系统，其特征在于，每个指标维度的等级按照从优到劣的顺序依次为专家期、发展期、学习者期、成长期和新手期。

6.一种文本质量评价方法，其特征在于，包括以下步骤：

(2)根据步骤(1)反馈的数据，计算指标维度的数值，以评价文本质量；

7.根据权利要求6所述的文本质量评价方法，其特征在于，所述基本篇幅指标维度的计算包括：统计文本的总字数、计算文本中的总词语数、统计文本中的整句数和统计文本中的分句数；

8.根据权利6或7所述的文本质量评价方法，其特征在于，还包括以下步骤：

9.根据权利要求8所述的文本质量评价方法，其特征在于，每个指标维度的等级按照从优到劣的顺序依次为专家期、发展期、学习者期、成长期和新手期。

10.根据权利要求6所述的文本质量评价方法，其特征在于，文本数据的分析方法为：

使用词袋模型计算文本中的相异词数量；

采用潜在语义分析方法挖掘词语在文本环境中的使用含义；