CN113326348A

CN113326348A - 一种博客质量评估方法及工具

Info

Publication number: CN113326348A
Application number: CN202110591333.6A
Authority: CN
Inventors: 谢妃梅; 张贺; 周鑫; 荣国平; 邵栋
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-08-31

Abstract

本发明公开了一种博客质量评估方法及工具，其中本方法具体包括博客的搜索、博客质量的定量分析，博客质量的综合分析以及灰色文献评估标准权重生成；其中通过该方法构建了一个博客评估工具，所述工具包含由搜索博客并处理博客数据构成的博客搜索模块；由博客质量定量和综合分析构成的博客质量评估模块；由博客质量评估标准修改和灰色文献评估标准权重生成构成的权重计算模块。本发明实现了灰色文献评估标准的权重计算以及博客搜索和质量评估的流程的自动化，方便研究人员在研究过程中应用博客，并帮助从业人员在实践中获取高质量博客中的同行的经验和观点。

Description

一种博客质量评估方法及工具

技术领域

本发明涉及计算机技术领域，具体为一种博客质量评估方法及工具。

背景技术

灰色文献指的是未正式发表在书籍或期刊等出版物中的文献，被认为是重要的信息来源。而博客作为灰色文献的一个类型，它的作用包括：技术趋势分析、获取实际软件实践情况等。且每个用户都能在互联网上发布博客，随着越来越多的用户利用互联网来传播信息和知识，产生了一个丰富的信息来源，这些信息是极有价值的；

博客具有较大的研究和应用价值，但博客的质量差异大且数量颇多，若要使用互联网上的博客内容，不可避免会遇到问题；如何在互联网中筛选出高质量的博客仍是一个挑战，主要包括以下两点：

1)由于博客质量参差不齐，在研究和实践中应用博客时首先需要鉴别博客的质量，但目前缺乏统一的博客质量评估标准，以衡量博客的标准；

2)难以从互联网浩如烟海的信息中自动提取出高质量的博客，目前在内容质量的相关研究中提出的标准大多从定性方面出发，需要进行主观判断，但阅读大量博客费时费力，且难以根据这些标准来自动评估博客的质量；

所以人们需要一个包含博客检索和评估的博客质量评估方法及工具来解决上述问题。

发明内容

本发明的目的在于提供一种博客质量评估方法及工具，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：一种博客质量评估工具，包括：权重计算模块、博客搜索模块、博客质量评估模块；

所述权重计算模块用于供用户进行博客质量评估标准的权重值修改，并对灰色文献质量评估标准进行裁剪和权重计算；

所述博客搜索模块用于供用户搜索博客，获取博客相关数据，并对博客数据进行预处理；

所述博客质量评估模块用于为用户提供博客质量分析服务，输入定性数据进行综合质量分析；

进一步的，所述权重计算模块包括灰色文献评估标准权重生成子模块和博客质量评估标准修改子模块；

所述灰色文献评估标准权重生成子模块用于供用户进行灰色文献质量评估标准的裁剪与权重计算；

所述博客质量评估标准修改子模块用于供用户修改博客质量评估标准权重值以应用于博客质量评估任务。

进一步的，所述博客搜索模块包括数据爬取子模块、数据处理子模块；

所述数据爬取子模块用于从博客网站上抓取博客信息，并将博客信息存储至数据库中；

所述数据处理子模块用于处理博客的文本及非文本数据。

进一步的，所述博客质量评估工具包括博客质量定量分析子模块和博客质量综合分析子模块；

所述博客质量定量分析子模块用于供用户根据可量化标准判断博客质量，为用户提供可视化分析结果；

所述博客质量综合分析子模块用于供用户从定性和定量两个方面评估博客质量；

所述博客质量定量分析子模块包括写作质量分析单元、用户反馈分析单元和相关性分析单元；

所述写作质量分析单元用于从博客内容的角度分析质量；

所述用户反馈分析单元用于对句子进行情感分析，从而获取用户对于博客的态度倾向；

所述相关性分析单元用于对博客内容和搜索关键字的相关性进行分析。

一种博客质量评估方法，该方法包括如下步骤：

步骤S100：生成灰色文献标准权重，对博客评估标准的权重值进行修改；

步骤S110：从博客网站中爬取相关博客，包括博客数据、博客评论数据和博客数据预处理；

步骤S120：分析步骤S110中所述博客数据中文本内容的写作质量；

步骤S130：根据定性标准数据进行博客质量综合分析。

在所述步骤S100中包括以下步骤：

步骤S101：判断矩阵构造，获取用户选择的灰色文献质量评估标准，对每一个层次中的标准进行两两比较以生成判断矩阵；

步骤S102：一致性检验，计算步骤S101中所述判断矩阵的特征根，通过一致性比率做一致性检验；

步骤S103：计算权重，经过步骤S102的一致性检验后，计算特征向量，并将特征向量归一化以获得各个标准的权重；

步骤S104：修改博客评论权重，对博客评估过程中所使用的评估标准权重进行修改；

在所述步骤S102中，对于矩阵A，若满足Ax＝λx，矩阵的最大特征根λ_max,并通过如下公式计算一致性指标CI：

检验过程中需要考虑一致性偏离存在随机因素，一致性比率是一致性指标与随即一致性指标的比较，公式如下：

其中，x是矩阵的特征向量，λ是A的特征值，RI是指一致性比率。

所述步骤S110具体包括如下步骤：

步骤S111：模拟用户向网站发出请求；

步骤S112：获取相关博客的链接；

步骤S113：从博客网站中爬取博客信息；

步骤S114：处理步骤S113中所述博客信息；

步骤S115：将博客数据存入数据库。

所述步骤S120具体包括如下步骤：

步骤S121：分析博客文本的可读性；

步骤S122：分析博客文本的正式程度；

步骤S123：获取博客文本的语法错误数量；

步骤S124：根据步骤S121-步骤S123，通过指标数值计算文本的写作质量得分。

所述步骤S130具体包括如下步骤：

步骤S131：从博客网站上获取评论相关数据进行数据清洗并开展特征工程，获得数据集；

步骤S132：将数据集按照七比三的比例分成训练集与测试集；

步骤S133：使用支持向量回归算法构建模型文本摘要模型，并利用验证集测试模型的效果；

步骤S134：使用步骤S133中所述模型对博客评论文本进行分析；

验证模型有效性是通过对比摘要算法TextRank，其步骤如下：

W1：将评论数据分割成若干句子，将句子中的每个单词通过词向量进行表示；

W2：将已训练好的M维词向量，将N个单词转换成N*M大小的矩阵，例如，M＝50，形成50维的词向量；

W3：将M维词向量的平均值作为评论整个句子的特征向量，根据向量之间的余弦相似性可得到评论句子之间的相似性；

W4：根据句子间的相似度计算TextRank分值，并将TextRank中权值高的句子来构成摘要；

将本文模型与TextRank算法生成摘要，并通过ROUGE-N进行效果验证与对比且公式如下：

其中，N代表n元语法(即文本连续出现的n个词)的长度，分子代表在候选摘要和参考摘要中同时出现的n元语法的个数，分母代表参考摘要中的n元语法的个数。

所述步骤S140具体包括如下步骤：

步骤S141：从数据库中获取博客信息并进行数据处理；

步骤S142：结合步骤S141、步骤130和步骤140所述的相关数据、写作质量得分和博客评论分析结果进行定量分析；

步骤S143：根据步骤S142中所述定量分析结果和定性标准数据进行综合质量分析。

与现有技术相比，本发明所达到的有益效果是：

本发明提供的一种博客质量评估方法及工具，帮助用户进行博客检索和博客质量评估。本发明提供的方法中所使用的标准可分为定量和定性两个类别。对定量标准，使用了自然语言处理、机器学习等技术实现了其自动化计算，包括用户反馈分析、写作清晰度等。其中，用户反馈对于博客的质量评估来说是一个重要维度，因此使用支持向量回归算法构建回归模型，分析博客的评论数据以及用户对于文章的情感倾向。本发明提供的工具为用户提供了可量化指标的综合评估结果，用于筛选博客。对于定性标准，本文提供了检查表以便于用户对博客的特性(如创新性)进行判断。基于博客定量分析结果，可根据博客质量定性标准检查表再进行主观判断，以获取综合定性和定量的博客质量评分。本发明提供的方法与工具实现了博客质量评估的流程自动化，方便研究人员在研究过程中应用博客，并帮助从业人员在实践中获取高质量博客中的同行的经验和观点。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明一种博客质量评估方法的流程图示意图；

图2是本发明一种博客质量评估方法的权重计算模块流程图；

图3是本发明一种博客质量评估方法的博客搜索模块流程图；

图4是本发明一种博客质量评估方法的博客写作质量分析流程图；

图5是本发明一种博客质量评估方法中用户反馈分析的流程图；

图6是本发明一种博客质量评估方法的博客质量评估模块流程图；

图7是本发明一种博客质量评估工具的模块详情图；

图8是本发明一种博客质量评估工具的系统框图；

图9是本发明一种博客质量评估工具的博客搜索模块中数据爬取单元的流程图；

图10是本发明一种博客质量评估工具的案例架构图；

图11是本发明一种博客质量评估工具的用户使用流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-11，本发明提供技术方案：

层次分析法，是一种将定量与定性相结合，用于处理复杂问题的决策方法，其应用遍及各个领域。层次分析法采用两两比较的方式来衡量各个标准的相对重要性，提高了结果的准确性并加快了决策过程；

MySQL,MySQL是一种关系型数据库管理系统，关系数据库将数据保存在不同的表中，增加了数据处理速度并提高了灵活性；MySQL所使用的SQL语言是用于访问数据库的最常用标准化语言；MySQL体积小、速度快、总体拥有成本低，并采用了双授权，将软件分为社区版和商业版，且源码是开放的；

Flask,Flask是Web框架，相对于主流的Python框架Django，使用Flask框架能够更快速地完成网站开发。Flask框架也被称作“微框架”，能够使代码保持简洁且易于扩展。虽然Flask本身不包含身份验证，数据验证等技术，但可通过Flask-extension插入所需的相关扩展功能，使得系统具有良好的可扩展性；

NLTK,NLTK是用于处理人类语言数据的用于Python编程语言编写的英语符号和统计自然语言处理(NLP)的库和程序。它不仅提供文本处理库，还提供了一个接口，通过这个接口可以获取多达50多个语料库和词汇资源(如WordNet)；它包括用于计算和语料库语言学中许多常见任务，用于分类、标记化、词干分析、标记、语法分析等等；

文本预处理,在自然语言处理流程通常包括，获取原始文本、分词、文本清洗、标准化、特征提取、建模等，其中分词、文本清洗等都属于文本预处理中的步骤；

分词,分词是自然语言处理中最基本的问题，在英文中使用空格来对句子做分词工作，而中文分词中通常需要理解语义；

词性还原,词形还原将不同的词形变化进行分组，每组中含相同的标记，即语法不同但语义相同；词形还原中考虑了到词的语境并在还原过程中使用词典；

自然语言处理,即NLP(Natural Language Processing),自然语言处理涉及计算机和人类语言之间的交互；NLP是信息工程、人工智能和计算机科学的一个子领域。词性标注、词性还原和词干提取等都是自然语言处理中常见的研究任务；

机器学习,机器学习是对计算机系统用来有效执行特定任务的算法和统计模型的科学研究，其不需要使用明确的指令，而是依赖于模式和推理。机器学习算法建立关于这个空间的模型，使它在新情况下产生足够准确的预测，利用给定的类别已知的训练数据来学习分类规则，然后对未知数据进行分类(或预测)；

支持向量回归模型,即SVM(Support Vector Regression),是一种有监督学习方法，通过最大化间隔带的宽度与最小化总损失来优化模型，被广泛应用于线性回归问题；

灰色文献,灰色文献指的是未正式发表在书籍或期刊等出版物中的文献；灰色文献不受传统学术同行评审程序约束，包括多种多样非传统文件，比如技术文档、博客文章、白皮书等。在健康科学，教育研究等学科领域，灰色文献被认为是重要的信息来源；

词性标注,即POStagging(Part-Of-Speech tagging)，词性标注也被称为语法标注(grammatical tagging)，其将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术；

词干提取，词干提取用于除去英文单词分词结尾的变换，即去除词缀得到词根；其中，应用最为广泛的词干提取算法是波特词干算法，也叫波特词干器(Porter Stemmer)；

文本摘要，文本摘要指的是使用各种技术将一篇或多篇文本中包含的重要关键信息提取概括出来，形成具有概括性含义的文本。自动摘要技术分为抽取式摘要和生成式摘要。前者对原文句子进行重要性排序，选取一定比例的句子作为摘要；后者对原文本进行深层语义理解和特征表示，实现原文内容重新表述，概括中心思想。根据摘要的处理对象可分成单文档摘要和多文档摘要；

文本可读性，可读性指的是阅读文本的难易程度，最初由教育学家为推荐适合阅读的文本而提出；随着互联网的发展，文本可读性分析有了更加广泛的应用场景；

归一化，归一化是将有量纲的表达式，经过变换，化为无量纲的表达式，成为标量，以消除不同量纲对于计算的影响；归一化是一种简化计算的方式。

GloVe词向量，GloVe的全称是Global Vectors for Word Representation，GloVe词向量模型将单词表示成由实数组成的向量，该向量可以捕捉到单词之间的语义特性，如相似性和类比性等；且可通过向量来计算欧几里得距离或余弦相似度，从而计算两个单词之间的语义相似性；

TextRank，TextRank是PageRank算法的一个变体，将文本转换成图结构(其中节点为句子，边的权重为句子相似度)，通过相似度即可计算图结构中的每个句子的权值；

SentiStrength，是情感分析常用的程序应用，SentiStrength利用词典方法可分析文本的情感强度与倾向。

一种博客质量评估工具，包括：权重计算模块、博客搜索模块、博客质量评估模块；

用户可对四个层面的标准进行灰色文献质量评估标准的裁剪与权重计算；用户可对四个层面的标准进行选择，即权威性、证据支持、写作质量和论据说服力，构成自定义的灰色文献评估标准。并且对于各个层级的标准可输入两两之间的相对重要性，将会得到标准权重；对于博客质量评估而言，用户可在博客质量评估标准修改模块212中修改各个标准的权重。若在搜索之前则可以在相关的质量评估任务中应用最新的权重值，如果不进行修改则会使用默认值；用户可以选择使用不同的默认权重值(领域专家意见权重或业界专家意见权重)进行计算。

所述灰色文献评估标准权重生成子模块用于供用户进行灰色文献质量评估标准的裁剪与权重计算；负责提供灰色文献质量评估标准的裁剪服务，并利用层次分析法对标准权重进行计算。

通过模拟用户向网站发出请求，在网站上通过爬虫获取相关博客的链接，可用过数据库直接读取相关指标和信息，若不存在于数据库，则需要进一步爬取博客的信息并计算量化指标，随后将相关信息存入数据库；

所述数据处理子模块用于处理博客的文本及非文本数据，非文本数据包含直接从网站上爬取到的数值数据，这类数据往往包含其他字符，需要进行清理操作；对于文本数据，使用了NLTK进行预处理操作，预处理中包括分词、数字移除、词性还原等操作；在文本数据处理过程中，除了通用的文本预处理，还包括其它清理操作，例如时间数据的格式转换等。

使用写作质量分析单元从博客内容的角度分析质量，指标包括：博客长度、文章更新次数、写作清晰度和论证清晰度；用户反馈分析单元对句子进行情感分析，从而获取用户对于博客的态度倾向；相关性分析单元进行博客内容与搜索关键字的相关性分析；

所述写作质量分析单元用于从博客内容的角度分析质量，指标包括：博客长度、文章更新次数、写作清晰度和论证清晰度；

一种博客质量评估方法，该方法包括如下步骤：

步骤S130：根据定性标准数据进行博客质量综合分析。

在所述步骤S100中包括以下步骤：

灰色质量评估标准见表1：

表1

步骤S104：修改博客评论权重，对博客评估过程中所使用的评估标准权重进行修改；博客质量评估标准如下表2：

表2

其中，x是矩阵的特征向量，λ是A的特征值，RI是指一致性比率；

一致性指标的取值，一般如表3所示：

表3

在所述步骤S101中，通过判断矩阵的值为对应行和对应列上的因素之间的重要性判断，可根据表4得到因素间的相对重要性判断；

表4

分值	因素i比因素j
		1	同等重要
3	稍微重要
		5	很重要
7	非常重要
		9	极端重要
2,4,6,8	相邻判断中间值

如下表5是由灰色文献质量评估标准的四个层面的重要性判断构成的判断矩阵

表5

	权威	证据支持	写作质量	论证说服力
					权威	1	1/3	1/5	5
证据支持	3	1	1/3	5
					写作质量	5	3	1	7
论证说服力	1/5	1/5	1/7	1

所述步骤S110具体包括如下步骤：

步骤S111：模拟用户向网站发出请求；

步骤S112：获取相关博客的链接；

步骤S113：从博客网站中爬取博客信息；

步骤S114：处理步骤S113中所述博客信息；

步骤S115：将博客数据存入数据库。

所述步骤S120具体包括如下步骤：

步骤S121：分析博客文本的可读性，通过利用Flesch-Kincaid公式计算文本可读性，将词长、音节数、句长等作为线性方程的特征，计算公式如下：

RL＝0.39*SL+11.8*WL-15.59；

其中：RL指的是可读性的级别，SL为一段文本中的句子的平均单词数，WL指的是单词的平均长度；

步骤S122：分析博客文本的正式程度；

将词性分成两种类型，即语境类和正式类，其中语境类包括代词、动词、副词和感叹词，正式类包含名词、形容词、介词和冠词。将正式类词语的频数之和减去语境类词语的频数之和，进行归一化后即可得到正式程度的分值；

步骤S123：获取博客文本的语法错误数量；

所述步骤S130具体包括如下步骤：

需使用自然语言处理相关技术进行文本预处理，包括：分词、词形还原、词干提取和词性标注等。其中，构建模型时使用的特征是从评论相关数据中提取出的，可分为三种类型：文本特征、情感特征和质量特征。其中，文本特征指的是从评论中提取出的与句子特性相关的特征，情感特征则指的是用户在评论中表达的情感倾向以及情感强度，而质量特征指的是文本外部获取的质量信息，即博客网站上的相关数据，具体特征信息见如下表6：

表6

步骤S132：将数据集按照七比三的比例分成训练集与测试集；

验证模型有效性是通过对比摘要算法TextRank，其步骤如下：

W2：将已训练好的M维词向量，将N个单词转换成N*M大小的矩阵；

所述步骤S140具体包括如下步骤：

步骤S141：从数据库中获取博客信息并进行数据处理；

定量标准的计算方法见下表7：

表7

步骤S143：根据步骤S142中所述定量分析结果和定性标准数据进行综合质量分析；

定性标准的检查表如下表8所示：

表8

标准值是通过收集专家对于这些标准的相对重要性判断并经过分析得到的,标准的取值如下表9所示:

问卷的发放对象是软件工程领域专家和业界专家，他们在灰色文献的使用和在软件工程理论研究上有丰富的经验，因此他们的意见具有代表性。本文收集了七位领域专家的和七位业界专家的反馈，使用层次分析法分别对领域专家和业界专家的意见进行分析计算。

表9

实施例：通过下述方式进行验证模型的有效性，通过如下公式进行验证：

根据实验，得到本文模型与TextRank算法的模型效果如下：

通过上述的过程，能够判断出本文所构建的模型(支持向量回归算法)相比于TextRank而言，效果得到了显著的提升。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种博客质量评估工具，其特征在于：包括：权重计算模块、博客搜索模块、博客质量评估模块；

所述博客质量评估模块用于为用户提供博客质量分析服务，输入定性数据进行综合质量分析。

2.根据权利要求1所述的一种博客质量评估工具，其特征在于：所述权重计算模块包括灰色文献评估标准权重生成子模块和博客质量评估标准修改子模块；

3.根据权利要求1所述的一种博客质量评估工具，其特征在于：所述博客搜索模块包括数据爬取子模块、数据处理子模块；

所述数据处理子模块用于处理博客的文本及非文本数据。

4.根据权利要求1所述的一种博客质量评估工具，其特征在于：所述博客质量评估工具包括博客质量定量分析子模块和博客质量综合分析子模块；

所述写作质量分析单元用于从博客内容的角度分析质量；

5.一种博客质量评估方法，其特征在于：该方法包括如下步骤：

步骤S130：根据定性标准数据进行博客质量综合分析。

6.根据权利要求1所述的一种博客质量评估方法，其特征在于：在所述步骤S100中包括以下步骤：

7.根据权利要求1所述的一种博客质量评估方法，其特征在于：所述步骤S110具体包括如下步骤：

步骤S111：模拟用户向网站发出请求；

步骤S112：获取相关博客的链接；

步骤S113：从博客网站中爬取博客信息；

步骤S114：处理步骤S113中所述博客信息；

步骤S115：将博客数据存入数据库。

8.根据权利要求1所述的一种博客质量评估方法，其特征在于：所述步骤S120具体包括如下步骤：

步骤S121：分析博客文本的可读性；

步骤S122：分析博客文本的正式程度；

步骤S123：获取博客文本的语法错误数量；

9.根据权利要求1所述的一种博客质量评估方法，其特征在于：所述步骤S130具体包括如下步骤：

步骤S132：将数据集按照七比三的比例分成训练集与测试集；

验证模型有效性是通过对比摘要算法TextRank，其步骤如下：

W4：根据句子间的相似度计算TextRank权重值，并将TextRank中权值高的句子来构成摘要；

10.根据权利要求1所述的一种博客质量评估方法，其特征在于：所述步骤S140具体包括如下步骤：

步骤S141：从数据库中获取博客信息并进行数据处理；