CN107193805A

CN107193805A - 基于人工智能的文章价值评估方法、装置及存储介质

Info

Publication number: CN107193805A
Application number: CN201710417749.XA
Authority: CN
Inventors: 黄波; 李大任; 佘俏俏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-06-06
Filing date: 2017-06-06
Publication date: 2017-09-22
Anticipated expiration: 2037-06-06
Also published as: US20180349734A1; CN107193805B; US11481572B2

Abstract

本发明公开了基于人工智能的文章价值评估方法、装置及存储介质，可预先挖掘出作为训练数据的优质文章及劣质文章，并根据训练数据训练得到价值评分模型，这样，当需要对待评估的文章进行价值评估时，可首先对待评估的文章进行特征提取，进而根据提取出的特征以及价值评分模型，确定出待评估的文章的评分，从而实现了对于文章价值的有效评估。

Description

基于人工智能的文章价值评估方法、装置及存储介质

【技术领域】

本发明涉及人工智能技术，特别涉及基于人工智能的文章价值评估方法、装置及存储介质。

【背景技术】

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

移动互联网的信息分发平台为了更好地满足用户碎片化时间上的使用，会尽量给用户推荐一些符合其口味的新的、短的文章。内容生产方为了得到更多的展现机会，也会迎合这种需求，更多地生产一些可以吸引点击、但是内容偏少的文章。

这样就会使得一些真正有价值、有信息量的优质文章得不到充分的展现，内容生产方也就没有动力再去生产这样的文章，从而形成一个恶性循环，使得优质文章越来越少，而没多大营养的劣质文章越来越多。

劣质文章的增多，对用户是否信任互联网的信息资源是一个极大的威胁。

因此，在进行信息分发时，需要尽可能地减少劣质文章的分发量并增加优质文章的分发量，从而使得用户能够获取到更多的优质资源，在提升用户体验的同时也鼓励了优质文章的创作，进而营造出一个健康的互联网内容生态。

相应地，则需要对文章的价值进行评估，从而将价值较高的文章作为优质文章推荐给用户，但现有技术中还没有一种有效的价值评估方法。

【发明内容】

有鉴于此，本发明提供了基于人工智能的文章价值评估方法、装置及存储介质。

具体技术方案如下：

一种基于人工智能的文章价值评估方法，包括：

挖掘作为训练数据的优质文章及劣质文章，根据所述训练数据训练得到价值评分模型；

对待评估的文章进行特征提取；

根据提取出的特征以及所述价值评分模型，确定出所述待评估的文章的评分。

根据本发明一优选实施例，挖掘所述训练数据包括：

根据人工标注的信息、用户的反馈行为以及预先设定的挖掘规则，挖掘出所述训练数据。

根据本发明一优选实施例，所述根据人工标注的信息、用户的反馈行为以及预先设定的挖掘规则，挖掘出所述训练数据包括：

将人工标注为优质的内容源对应的文章作为优质文章，加入到所述训练数据中；

将根据用户的反馈行为确定出的优质文章及劣质文章加入到所述训练数据中；

将具备预先设定的劣质文章特征的文章作为劣质文章，加入到所述训练数据中。

根据本发明一优选实施例，所述对待评估的文章进行特征提取包括：

针对所述待评估的文章中的每个段落，分别提取以下特征之一或任意组合：

所述段落与所述待评估的文章的标题之间的相关性；

所述段落与所述段落的相邻前一段落之间的相关性；

所述段落中的新增词数；

所述段落中的总词数；

所述段落是否以小标题开头；

所述段落中的图片数量；

所述段落中的句子数；

所述段落中的句子平均长度；

所述段落中的代词个数。

根据本发明一优选实施例，该方法进一步包括：

通过将所述评分与预先设定的阈值进行比较，确定出所述待评估的文章为优质文章还是劣质文章。

根据本发明一优选实施例，该方法进一步包括：

获取设定的M个劣质文章特征，M为正整数；

若所述待评估的文章具备任一劣质文章特征，则将所述待评估的文章确定为劣质文章。

根据本发明一优选实施例，所述劣质文章特征包括以下之一或任意组合：

文章中重复内容数超过预定阈值；

文章中的字数小于预定阈值，且文章中没有图片；

文章中存在字数超过预定阈值的段落；

文章中存在表述不完整的情况；

文章中存在错别字。

一种基于人工智能的文章价值评估装置，包括：挖掘单元、训练单元以及评估单元；

所述挖掘单元，用于挖掘作为训练数据的优质文章及劣质文章，并将所述训练数据发送给所述训练单元；

所述训练单元，用于根据所述训练数据训练得到价值评分模型，并将所述价值评分模型发送给所述评估单元；

所述评估单元，用于对待评估的文章进行特征提取，根据提取出的特征以及所述价值评分模型，确定出所述待评估的文章的评分。

根据本发明一优选实施例，所述挖掘单元根据人工标注的信息、用户的反馈行为以及预先设定的挖掘规则，挖掘出所述训练数据。

根据本发明一优选实施例，所述挖掘单元将人工标注为优质的内容源对应的文章作为优质文章，加入到所述训练数据中；

所述挖掘单元将根据用户的反馈行为确定出的优质文章及劣质文章加入到所述训练数据中；

所述挖掘单元将具备预先设定的劣质文章特征的文章作为劣质文章，加入到所述训练数据中。

根据本发明一优选实施例，所述评估单元针对所述待评估的文章中的每个段落，分别提取以下特征之一或任意组合：

所述段落与所述待评估的文章的标题之间的相关性；

所述段落与所述段落的相邻前一段落之间的相关性；

所述段落中的新增词数；

所述段落中的总词数；

所述段落是否以小标题开头；

所述段落中的图片数量；

所述段落中的句子数；

所述段落中的句子平均长度；

所述段落中的代词个数。

根据本发明一优选实施例，所述评估单元进一步用于，

获取设定的M个劣质文章特征，M为正整数；

文章中重复内容数超过预定阈值；

文章中的字数小于预定阈值，且文章中没有图片；

文章中存在字数超过预定阈值的段落；

文章中存在表述不完整的情况；

文章中存在错别字。

一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上所述的方法。

基于上述介绍可以看出，采用本发明所述方案，可预先挖掘出作为训练数据的优质文章及劣质文章，并根据训练数据训练得到价值评分模型，这样，当需要对待评估的文章进行价值评估时，可首先对待评估的文章进行特征提取，进而根据提取出的特征以及价值评分模型，确定出待评估的文章的评分，从而实现了对于文章价值的有效评估。

【附图说明】

图1为本发明所述基于人工智能的文章价值评估方法实施例的流程图。

图2为本发明所述RNN模型的结构示意图。

图3为本发明所述基于人工智能的文章价值评估方法的实现过程示意图。

图4为本发明所述基于人工智能的文章价值评估装置实施例的组成结构示意图。

图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。

【具体实施方式】

为了使本发明的技术方案更加清楚、明白，以下参照附图并举实施例，对本发明所述方案进行进一步说明。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明所述基于人工智能的文章价值评估方法实施例的流程图，如图1所示，包括以下具体实现方式。

在101中，挖掘作为训练数据的优质文章及劣质文章，根据训练数据训练得到价值评分模型。

训练价值评分模型需要挖掘大量的训练数据，通过挖掘到的包括优质文章及劣质文章的训练数据，训练出价值评分模型。

本实施例中，可根据人工标注的信息、用户的反馈行为以及预先设定的挖掘规则等，挖掘出训练数据，分别介绍如下。

1)人工标注

比如可将人工标注为优质的内容源对应的文章作为优质文章，加入到训练数据中。

具体地，可首先根据作者站点等内容源的发文数据量及活跃度等筛选出一批候选的内容源，之后由人工根据各候选的内容源所发文章的综合质量进行打分，并将分数超过预定阈值的内容源确定为优质的内容源，进而可将优质的内容源对应的文章作为优质文章，加入到训练数据中。

可以看出，上述方式主要用于挖掘优质文章。

2)用户的反馈行为

比如可以将根据用户的反馈行为确定出的优质文章及劣质文章加入到训练数据中。

在实际应用中，用户在看到一篇文章后会产生收藏、评论、分享等一系列反馈行为，因此可根据用户的反馈行为来挖掘训练数据。

比如，某篇文章被很多用户吐槽质量很差，那么则可认为这篇文章为劣质文章，并将其加入到训练数据中。

再比如，某篇文章被很多用户收藏且人均阅读时长较长，那么则可认为这篇文章为优质文章，并将其加入到训练数据中。

可以看出，上述方式既能够用于挖掘优质文章，也能够用于挖掘劣质文章。

3)挖掘规则

比如可以将具备预先设定的劣质文章特征的文章作为劣质文章，加入到训练数据中。

可预先设定劣质文章特征，这样，在对某篇文章进行分析后，如果发现其具备劣质文章特征，则可认为该文章为劣质文章，并将其加入到训练数据中。

可以看出，上述方式主要通过设定的规则/策略来挖掘劣质文章。

在获取到足够数量的训练数据之后，即可根据训练数据训练得到价值评分模型。

其中，在进行训练时，可分别按照后续102中所述方式对作为训练数据的优质文章和劣质文章进行特征提取，并可将优质文章的评分设置为1，将劣质文章的评分设置为0，进而训练得到价值评分模型，如何进行训练为现有技术。

所述价值评分模型可为深度学习模型，如循环神经网络(RNN，Recurrent NeuralNetworks)模型等。

在102中，对待评估的文章进行特征提取。

优质文章通常具有如下特点：排版良好、论据充分、逻辑清楚、观点明确、用词专业等。

基于上述特点，可预先人工设定多个要提取的特征，进而针对待评估的文章，进行这些特征的提取。

比如，可针对待评估的文章中的每个段落，分别提取以下特征之一或任意组合：

特征1：该段落与待评估的文章的标题之间的相关性；

特征2：该段落与该段落的相邻前一段落之间的相关性；

特征3：该段落中的新增词数；

特征4：该段落中的总词数；

特征5：该段落是否以小标题开头；

特征6：该段落中的图片数量；

特征7：该段落中的句子数；

特征8：该段落中的句子平均长度；

特征9：该段落中的代词个数。

表一给出了上述各特征在衡量文章价值时所起到的作用。

特征	作用
		特征1	观点是否明确
特征2	逻辑是否清晰
		特征3	论据是否充分
特征4	排版是否良好
		特征5	排版是否良好
特征6	排版是否良好
		特征7	排版是否良好
特征8	排版是否良好
		特征9	用词是否专业

表一各特征在衡量文章价值时所起到的作用

对于待评估的文章中的每个段落，可分别提取上述9个特征。

其中，对于待评估的文章中的第一个段落来说，由于不存在该段落的相邻前一段落，因此可将该段落与标题之间的相关性作为该段落与该段落的相邻前一段落之间的相关性，即特征1＝特征2。

对于非第一个段落来说，比如，第二个段落，特征1是指第二个段落与标题之间的相关性，而特征2则是指第二个段落与第一个段落之间的相关性。

另外，特征3通常是指相比于该段落内容之前的所有内容，该段落中的新增词数，比如，对于第二个段落来说，特征3可以是指相比于第一个段落以及标题所组成的内容，第二个段落中的新增词数。

本实施例中，可利用预先训练得到的基于卷积神经网络(CNN，ConvolutionalNeural Network)的深度学习语义相似度模型，来确定出特征1和特征2，即特征1和特征2可共用一个模型，将标题作为一个段落来看待。

如何训练基于CNN的深度学习语义相似度模型为现有技术，比如，可以人工构造足够数量的训练数据，从而根据训练数据训练得到基于CNN的深度学习语义相似度模型，如可利用一个标题及一个段落组成一个pair对，即构成一个训练样本，或者，利用两个段落组成一个pair对，如果pair对中的两个组成部分来自同一文章，则可将pair对对应的相关性为1，否则，可设置为0。

在103中，根据提取出的特征以及价值评分模型，确定出待评估的文章的评分。

在提取出102中所述的特征之后，即可将提取出的特征输入给价值评分模型，从而得到价值评分模型输出的待评估的文章的评分。

由于文章的段落之间是一个序列的关系，因此如前所述，可采用RNN模型作为价值评分模型。

图2为本发明所述RNN模型的结构示意图，如图2所示，该模型最终将输出一个评分，取值可在0到1之间，评分越高，说明文章的价值越大。

对于待评估的文章，在得到其评分之后，可将该评分进一步与预先设定的阈值进行比较，根据比较结果确定出待评估的文章为优质文章还是劣质文章。

比如，若评分大于阈值，则可确定待评估的文章为优质文章，否则，为劣质文章。

可以看出，通过上述实施例所述方式，可实现对于文章价值的有效评估。

价值评分模型的优点是泛化能力强，但也可能存在未能识别一些具有明显劣质文章特征的文章的情况，为了克服该问题，从而进一步提高评估结果的准确性，可采用以下处理方式。

获取预先设定的M个劣质文章特征，M为正整数，若待评估的文章具备任一劣质文章特征，则将待评估的文章确定为劣质文章。

具体将哪些特征作为劣质文章特征可根据实际情况而定，比如，可包括以下之一或任意组合：

特征A：文章中重复内容数超过预定阈值；

特征B：文章中的字数小于预定阈值，且文章中没有图片；

特征C：文章中存在字数超过预定阈值的段落；

特征D：文章中存在表述不完整的情况；

特征E：文章中存在错别字。

对于特征A来说，如果文章中存在大量的重复内容，比如标题的内容在很多段落均被重复提及，当重复数量达到一定程度时，则可认为文章为劣质文章。

对于特征B来说，如果文章中的字数过少，且没有图片，则可认为文章为劣质文章。

对于特征C来说，如果文章中存在某一段落的字数过多的情况，则可认为文章为劣质文章。

对于特征D来说，如果文章的标题或正文中存在表述不完整的情况，如“**明星今日现身……”，则可认为文章为劣质文章。

对于特征E来说，如果文章的标题或正文中出现了错别字，则可认为文章为劣质文章。

对于待评估的文章来说，如果其具备A～E中的任一特征，则可认为其为劣质文章。

为便于表述，将上述根据评分来确定待评估的文章为优质文章还是劣质文章的方式称为第一评估方式，将上述根据劣质文章特征来确定待评估的文章为优质文章还是劣质文章的方式称为第二评估方式。

在实际应用中，可以将第一评估方式和第二评估方式相结合使用，即可基于文章的内容表述和内容深度两个维度的特征来评估文章的价值，具体结合方式不限，比如，针对待评估的文章，如果按照第一评估方式和第二评估方式均确定其为劣质文章，那么则认为待评估的文章为劣质文章，或者，在按照第一评估方式确定出待评估的文章为优质文章之后，进一步利用第二评估方式确定待评估的文章为优质文章还是劣质文章，如果是劣质文章，则认为待评估的文章为劣质文章，否则，为优质文章。

上述介绍中涉及到的各阈值的具体取值均可根据实际需要而定。

综合上述介绍，图3为本发明所述基于人工智能的文章价值评估方法的实现过程示意图，如图3所示，主要由训练数据离线挖掘以及在线价值评估两部分组成。

相比于现有技术，上述实施例中提供了一种对于文章价值的有效评估方式，而且，提取出的特征能够准确、直观地反应文章的优劣情况，从而提高了评估结果的准确性，并且，利用较少的训练数据即可取得较好的训练效果，另外，两种评估方式可灵活结合，便于根据实际需求灵活调整。

相应地，后续在进行信息分发时，可减少劣质文章的分发量并增加优质文章的分发量，从而使得用户能够获取到更多的优质资源，在提升用户体验的同时也鼓励了优质文章的创作，进而营造出一个健康的互联网内容生态。

以上是关于方法实施例的介绍，以下通过装置实施例，对本发明所述方案进行进一步说明。

图4为本发明所述基于人工智能的文章价值评估装置实施例的组成结构示意图，如图4所示，包括：挖掘单元401、训练单元402以及评估单元403。

挖掘单元401，用于挖掘作为训练数据的优质文章及劣质文章，并将训练数据发送给训练单元402。

训练单元402，用于根据训练数据训练得到价值评分模型，并将价值评分模型发送给评估单元403。

评估单元403，用于对待评估的文章进行特征提取，根据提取出的特征以及价值评分模型，确定出待评估的文章的评分。

挖掘单元401可根据人工标注的信息、用户的反馈行为以及预先设定的挖掘规则等，挖掘出训练数据。

比如，挖掘单元401可将人工标注为优质的内容源对应的文章作为优质文章，加入到训练数据中。

挖掘单元401还可将根据用户的反馈行为确定出的优质文章及劣质文章加入到训练数据中。

挖掘单元401还可将具备预先设定的劣质文章特征的文章作为劣质文章，加入到训练数据中。

在获取到足够数量的训练数据之后，可由训练单元402根据训练数据训练得到价值评分模型。

价值评分模型可为深度学习模型，如RNN模型等。

经过上述处理后，当需要对待评估的文章进行价值评估时，评估单元403可首先对待评估的文章进行特征提取，之后根据提取出的特征以及价值评分模型，确定出待评估的文章的评分。

基于上述特点，可预先人工设定多个要提取的特征，进而由评估单元403针对待评估的文章，进行这些特征的提取。

具体地，针对待评估的文章中的每个段落，评估单元403可分别提取以下特征之一或任意组合：

该段落与待评估的文章的标题之间的相关性；

该段落与该段落的相邻前一段落之间的相关性；

该段落中的新增词数；

该段落中的总词数；

该段落是否以小标题开头；

该段落中的图片数量；

该段落中的句子数；

该段落中的句子平均长度；

该段落中的代词个数。

对于待评估的文章中的每个段落，可分别提取上述9个特征。

上述各特征在衡量文章价值时所起到的作用如表一所示。

评估单元403可将提取出的特征输入给价值评分模型，从而得到价值评分模型输出的待评估的文章的评分，评分越高，说明文章的价值越大。

之后，评估单元403还可通过将评分与预先设定的阈值进行比较，确定出待评估的文章为优质文章还是劣质文章。

另外，评估单元403还可获取设定的M个劣质文章特征，M为正整数，若待评估的文章具备任一劣质文章特征，则将待评估的文章确定为劣质文章。

特征A：文章中重复内容数超过预定阈值；

特征B：文章中的字数小于预定阈值，且文章中没有图片；

特征C：文章中存在字数超过预定阈值的段落；

特征D：文章中存在表述不完整的情况；

特征E：文章中存在错别字。

图4所示装置实施例的具体工作流程等请参照前述方法实施例中的相应说明，不再赘述。

后续在进行信息分发时，可减少劣质文章的分发量并增加优质文章的分发量，从而使得用户能够获取到更多的优质资源，在提升用户体验的同时也鼓励了优质文章的创作，进而营造出一个健康的互联网内容生态。

图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图5显示的计算机系统/服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器(处理单元)16，存储器28，连接不同系统组件(包括存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图5所示，网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机系统/服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现图1所示实施例中的方法，即挖掘作为训练数据的优质文章及劣质文章，根据训练数据训练得到价值评分模型，对待评估的文章进行特征提取，根据提取出的特征以及价值评分模型，确定出待评估的文章的评分等。

具体实现请参照前述各实施例中的相关说明，不再赘述。

本发明同时公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时将实现如图1所示实施例中的方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法等，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于人工智能的文章价值评估方法，其特征在于，包括：

对待评估的文章进行特征提取；

2.根据权利要求1所述的方法，其特征在于，

挖掘所述训练数据包括：

3.根据权利要求2所述的方法，其特征在于，

所述根据人工标注的信息、用户的反馈行为以及预先设定的挖掘规则，挖掘出所述训练数据包括：

4.根据权利要求1所述的方法，其特征在于，

所述对待评估的文章进行特征提取包括：

所述段落与所述待评估的文章的标题之间的相关性；

所述段落与所述段落的相邻前一段落之间的相关性；

所述段落中的新增词数；

所述段落中的总词数；

所述段落是否以小标题开头；

所述段落中的图片数量；

所述段落中的句子数；

所述段落中的句子平均长度；

所述段落中的代词个数。

5.根据权利要求1所述的方法，其特征在于，

该方法进一步包括：

6.根据权利要求5所述的方法，其特征在于，

该方法进一步包括：

获取设定的M个劣质文章特征，M为正整数；

7.根据权利要求6所述的方法，其特征在于，

所述劣质文章特征包括以下之一或任意组合：

文章中重复内容数超过预定阈值；

文章中的字数小于预定阈值，且文章中没有图片；

文章中存在字数超过预定阈值的段落；

文章中存在表述不完整的情况；

文章中存在错别字。

8.一种基于人工智能的文章价值评估装置，其特征在于，包括：挖掘单元、训练单元以及评估单元；

9.根据权利要求8所述的装置，其特征在于，

所述挖掘单元根据人工标注的信息、用户的反馈行为以及预先设定的挖掘规则，挖掘出所述训练数据。

10.根据权利要求9所述的装置，其特征在于，

所述挖掘单元将人工标注为优质的内容源对应的文章作为优质文章，加入到所述训练数据中；

11.根据权利要求8所述的装置，其特征在于，

所述评估单元针对所述待评估的文章中的每个段落，分别提取以下特征之一或任意组合：

所述段落与所述待评估的文章的标题之间的相关性；

所述段落与所述段落的相邻前一段落之间的相关性；

所述段落中的新增词数；

所述段落中的总词数；

所述段落是否以小标题开头；

所述段落中的图片数量；

所述段落中的句子数；

所述段落中的句子平均长度；

所述段落中的代词个数。

12.根据权利要求8所述的装置，其特征在于，

所述评估单元进一步用于，

13.根据权利要求12所述的装置，其特征在于，

所述评估单元进一步用于，

获取设定的M个劣质文章特征，M为正整数；

14.根据权利要求13所述的装置，其特征在于，

所述劣质文章特征包括以下之一或任意组合：

文章中重复内容数超过预定阈值；

文章中的字数小于预定阈值，且文章中没有图片；

文章中存在字数超过预定阈值的段落；

文章中存在表述不完整的情况；

文章中存在错别字。

15.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～7中任一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～7中任一项所述的方法。