CN109213845B - 基于文章特征的原创新闻评估方法和系统 - Google Patents

基于文章特征的原创新闻评估方法和系统 Download PDF

Info

Publication number
CN109213845B
CN109213845B CN201811038828.0A CN201811038828A CN109213845B CN 109213845 B CN109213845 B CN 109213845B CN 201811038828 A CN201811038828 A CN 201811038828A CN 109213845 B CN109213845 B CN 109213845B
Authority
CN
China
Prior art keywords
keyword
original
source
information
news
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811038828.0A
Other languages
English (en)
Other versions
CN109213845A (zh
Inventor
姚洲鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Fanews Technology Co ltd
Original Assignee
Hangzhou Fanews Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Fanews Technology Co ltd filed Critical Hangzhou Fanews Technology Co ltd
Priority to CN201811038828.0A priority Critical patent/CN109213845B/zh
Publication of CN109213845A publication Critical patent/CN109213845A/zh
Application granted granted Critical
Publication of CN109213845B publication Critical patent/CN109213845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文章特征的原创新闻评估方法和系统,其中,方法包括:获取新闻文章的特征信息,特征信息包括来源特征信息和关键词特征信息;将来源特征信息与预设的来源关键词库进行匹配评估,得到第一评估报告;根据预设的转载关键词库、原创关键词库以及媒体关键词库利用预设规则对关键词特征信息进行提取评估,得到第二评估报告;根据第一评估报告和第二评估报告确定新闻文章原创性等级。本发明直接利用多个词库进行评估得到的第一评估报告和第二评估报告能够确定新闻文章原创性等级,使得判定结果更加准确。

Description

基于文章特征的原创新闻评估方法和系统
技术领域
本发明涉及数字信息处理技术领域,尤其涉及一种基于文章特征的原创新闻评估方法和系统。
背景技术
随着互联网的迅猛发展以及智能移动客户端的普及,传统媒体和新型媒体上均可以发布新闻文章。但是新型媒体依托互联网和移动客户端,可以通过多种途径上传或者转载新闻文章;而传统媒体也会从互联网中获取新闻文章来使用。使得各类新闻文章越来越多,更新越来越快,新闻文章的质量也参差不齐。但是新闻文章作为一种具有极强传播性与影响力的事物,在舆论中发挥着重要的作用。但是由于不易监管的特性,导致新闻文章原创性较差,更易出现抄袭行为。
目前,新闻文章原创性判定方法,将采集的新闻文章特征与新闻文章数据库做相似度计算,包括逐字比对、提取特征词条进行比对匹配等等,进而确定发布时间最早一篇为原创新闻文章。由于新闻文章数据库中相似度计算的复杂性及时效性,而且需要人工辅助手段作为判断依据,导致判定结果的可靠性较差。
发明内容
本发明提供的基于文章特征的原创新闻评估方法和系统,其主要目的在于克服现有的原创性判定方法需要人工辅助手段作为判断依据,导致判定结果的可靠性较差的问题。
为解决上述技术问题,本发明采用如下技术方案:
一种基于文章特征的原创新闻评估方法,包括以下步骤;
获取新闻文章的特征信息,所述特征信息包括来源特征信息和关键词特征信息;
将所述来源特征信息与预设的来源关键词库进行匹配评估,得到第一评估报告;
根据预设的转载关键词库、原创关键词库以及媒体关键词库利用预设规则对关键词特征信息进行提取评估,得到第二评估报告;
根据所述第一评估报告和第二评估报告确定新闻文章原创性等级。
作为一种可实施方式,所述将所述来源特征信息与预设的来源关键词库进行匹配评估,得到第一评估报告,包括以下步骤;
将所述来源特征信息与预设的来源关键词库进行匹配,得到新闻文章的标注来源信息和实际来源信息;根据所述标注来源信息和实际来源信息判断新闻文章是否为转载;
若所述来源特征信息中的标注来源与实际来源不同,则将所述新闻文章标记为一级转载,并生成第一评估报告;
若所述来源特征信息中的标注来源与实际来源相同,则根据预设的转载关键词规则利用转载关键词库对所述关键词特征信息进行转载关键词提取。
作为一种可实施方式,所述根据预设的转载关键词库、原创关键词库以及媒体关键词库利用预设规则对关键词特征信息进行提取评估,得到第二评估报告,包括以下步骤;
根据预设的转载关键词规则利用转载关键词库对所述关键词特征信息进行转载关键词提取;
若所述关键词特征信息提取不到转载关键词,则根据预设的原创关键词规则利用原创关键词库对所述关键词特征信息进行原创关键词提取;若所述关键词特征信息提取到原创关键词,则将所述新闻文章标记为一级原创;若所述关键词特征信息提取不到原创关键词,则将所述新闻文章标记为三级原创;
若所述关键词特征信息提取到转载关键词,则将所述转载关键词与所述媒体关键词库进行匹配,将匹配得到的媒体名称关键词与该新闻文章中的所述实际来源信息进行判断,若所述媒体名称关键词与实际来源信息不一致,则将所述新闻文章标记为二级转载;
若所述媒体名称关键词与实际来源信息一致,则根据预设的原创关键词规则利用原创关键词库对所述关键词特征信息进行原创关键词提取;
若所述关键词特征信息提取到原创关键词,则将所述新闻文章标记为一级原创;
若所述关键词特征信息提取不到原创关键词,则将所述新闻文章标记为二级原创。
作为一种可实施方式,本发明提供的基于文章特征的原创新闻评估方法,还包括以下步骤;
在将所述新闻文章标记为三级原创之后,根据作者信息、发布时间以及数字报稿件信息对三级原创进行修正,根据修正结果确定新闻文章原创性等级。
作为一种可实施方式,本发明提供的基于文章特征的原创新闻评估方法,还包括以下步骤;
实时获取当前新闻文章,根据当前新闻文章对来源关键词库、转载关键词库、原创关键词库以及媒体关键词库进行补充。
相应的,本发明还提供一种基于文章特征的原创新闻评估系统,包括获取模块、第一评估模块、第二评估模块以及判定模块;
所述获取模块,用于获取新闻文章的特征信息,所述特征信息包括来源特征信息和关键词特征信息;
所述第一评估模块,用于将所述来源特征信息与预设的来源关键词库进行匹配评估,得到第一评估报告;
所述第二评估模块,用于根据预设的转载关键词库、原创关键词库以及媒体关键词库利用预设规则对关键词特征信息进行提取评估,得到第二评估报告;
所述判定模块,用于根据所述第一评估报告和第二评估报告确定新闻文章原创性等级。
作为一种可实施方式,所述第一评估模块包括判断单元、生成单元以及提取单元;
所述判断单元,用于将所述来源特征信息与预设的来源关键词库进行匹配,得到新闻文章的标注来源信息和实际来源信息;根据所述标注来源信息和实际来源信息判断新闻文章是否为转载;
所述生成单元,用于若所述来源特征信息中的标注来源与实际来源不同,则将所述新闻文章标记为一级转载,并生成第一评估报告;
所述提取单元,用于若所述来源特征信息中的标注来源与实际来源相同,则根据预设的转载关键词规则利用转载关键词库对所述关键词特征信息进行转载关键词提取。
作为一种可实施方式,所述第二评估模块包括第二评估单元;
所述第二评估单元,用于根据预设的转载关键词规则利用转载关键词库对所述关键词特征信息进行转载关键词提取;
若所述关键词特征信息提取不到转载关键词,则根据预设的原创关键词规则利用原创关键词库对所述关键词特征信息进行原创关键词提取;若所述关键词特征信息提取到原创关键词,则将所述新闻文章标记为一级原创;若所述关键词特征信息提取不到原创关键词,则将所述新闻文章标记为三级原创;
若所述关键词特征信息提取到转载关键词,则将所述转载关键词与所述媒体关键词库进行匹配,将匹配得到的媒体名称关键词与该新闻文章中的所述实际来源信息进行判断,若所述媒体名称关键词与实际来源信息不一致,则将所述新闻文章标记为二级转载;
若所述媒体名称关键词与实际来源信息一致,则根据预设的原创关键词规则利用原创关键词库对所述关键词特征信息进行原创关键词提取;
若所述关键词特征信息提取到原创关键词,则将所述新闻文章标记为一级原创;
若所述关键词特征信息提取不到原创关键词,则将所述新闻文章标记为二级原创。
作为一种可实施方式,所述第二评估模块包括修正单元;
所述修正单元,用于在将所述新闻文章标记为三级原创之后,根据作者信息、发布时间以及数字报稿件信息对三级原创进行修正,根据修正结果确定新闻文章原创性等级。
作为一种可实施方式,本发明提供的基于文章特征的原创新闻评估系统,还包括实时补充模块;
所述实时补充模块,用于实时获取当前新闻文章,根据当前新闻文章对来源关键词库、转载关键词库、原创关键词库以及媒体关键词库进行补充。
与现有技术相比,本技术方案具有以下优点:
本发明提供的基于文章特征的原创新闻评估方法和系统,通过新闻文章的特征信息中的来源特征信息和关键词特征信息;来与多个独立预设的词库进行评估,得到第一评估报告和第二评估报告,再由第一评估报告和第二评估报告确定新闻文章原创性等级。本发明直接利用多个词库进行评估得到的第一评估报告和第二评估报告能够确定新闻文章原创性等级,使得判定结果更加准确。
附图说明
图1为本发明实施例一提供的基于文章特征的原创新闻评估方法的流程示意图;
图2为本发明实施例一提供的基于文章特征的原创新闻评估方法的逻辑示意图;
图3为本发明实施例三提供的基于文章特征的原创新闻评估系统的结构示意图;
图4为图3中第一评估模块的结构示意图。
图中:100、获取模块;200、第一评估模块;210、判断单元;220、生成单元;230、提取单元;300、第二评估模块;310、第二评估单元;400、判定模块;500、实时补充模块。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的部分实施例,而不是全部实施例。
请参阅图1,本发明实施例一提供的基于文章特征的原创新闻评估方法,包括以下步骤;
S100、获取新闻文章的特征信息,特征信息包括来源特征信息和关键词特征信息;
S200、将来源特征信息与预设的来源关键词库进行匹配评估,得到第一评估报告;
S300、根据预设的转载关键词库、原创关键词库以及媒体关键词库利用预设规则对关键词特征信息进行提取评估,得到第二评估报告;
S400、根据第一评估报告和第二评估报告确定新闻文章原创性等级。
需要说明的是,新闻文章可以是来自网络或者报纸,对于网络新闻文章的获取,可以是两种方式实现,分别为在指定新闻数据库中收集和/或利用爬虫技术从新闻网页中抓取。第一种方式,在指定新闻数据库中收集。例如,某些网站中会设置新闻数据库,即在该新闻数据库中会包括用户针对做过的新闻提交的新闻文章,在定向收集时,只需要到指定新闻数据库的位置,在相应的新闻数据库中收集新闻文章。第二种方式,爬虫技术是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么利用爬虫技术就可以把互联网上所有的网页都抓取下来。可以设置一些该新闻的关键词,采用利用爬虫技术的搜索引擎,由搜索引擎基于爬虫技术的广度收集原理从网页中提取匹配的搜索结果,即抓取新闻的新闻文章。报纸新闻文章也可以通过定向抓取得到数据。在得到需要评估的新闻文章后,利用分词工具对新闻文章进行处理,再对处理结果进行一系列预处理,从而得到来源特征信息和关键词特征信息。
于本实施例中,来源特征信息不单是来源的信息还包括其来源的限定信息,比如,人民网发文、来自人民网、来源新华网以及据新浪报道等。利用来源特征信息与预设的来源关键词库进行匹配评估能够确定新闻文章的具体来源,来源的对象和限定信息可以确认新闻文章来着网络或者报纸。如果来自网络,其来源特征信息具有网址的字段来源。需要说明的是,第一评估报告只是初步的评估结果,是对来源进行区分后方便进行后续评估判断,以简化和提升原创性评估的准确度。如果判定新闻文章来源报纸,则直接进入步骤S300。
而第二评估报告是根据预设的转载关键词库、原创关键词库以及媒体关键词库利用预设规则对关键词特征信息进行提取评估得到的。具体的说,转载关键词库、原创关键词库以及媒体关键词库是根据现有发表过的新闻预先设置的,各个词库存储着当前新闻文章最新的相关词。可以是实时获取当前新闻文章,根据当前新闻文章对来源关键词库、转载关键词库、原创关键词库以及媒体关键词库进行补充;从而保证各词库的可靠性,进一步提高原创性判断的准确性。而预设规则即为设定的判断词性的规则,包括不限于转载关键词规则、原创关键词规则等。对于各个数据库的补充可以在任何阶段进行,但是涉及一片新闻文章的评估,都是基于当前的各个数据库进行,再评估完成后可以利用补充后的数据库进行二次评估。
在第一评估报告中,只会体现第一层级别的原创性判断。而在第二评估报告中会产生第二层、第三层的原创性判断。可以简单理解为每一层的原创性是由新闻文章中特征信息包含的完整性确定,即新闻文章中各类特征信息均有涉及评估,原创性级别越高。于本实施例中,一级原创、二级原创、三级原创等原创级别的原创性是逐步降低的。对于转载也是一样。那么第一评估报告和第二评估报告包括不限于评估的结果和评估的过程。而新闻文章原创性等级即为评估结果中具体确定的一种。使得用户能够更加直观的了解新闻文章的原创性。
本发明提供的基于文章特征的原创新闻评估方法和系统,通过新闻文章的特征信息中的来源特征信息和关键词特征信息;来与多个独立预设的词库进行评估,得到第一评估报告和第二评估报告,再由第一评估报告和第二评估报告确定新闻文章原创性等级。本发明直接利用多个词库进行评估得到的第一评估报告和第二评估报告能够确定新闻文章原创性等级,使得判定结果更加准确。
先对本申请涉及的原创性等级做个说明:在评估后。1、若新闻文章中有原创关键词无转载关键词,且对比的各个数据库中没有来自其他媒体的原创新闻文章,将新闻文章标记为一级原创;2、若新闻文章中标注来源与实际来源不同,或具有转载关键词,将新闻文章标记为一级转载;3、若新闻文章中没有原创关键字,但转载关键词中只匹配到了本身的来源特征信息,即匹配到了本身的媒体或文章作者,则将新闻文章标记为二级原创;4、若新闻文章中出现转载关键词,且转载关键词匹配到了不止本身的来源特征信息,将文章标记为二级转载;5、若新闻文章中无明显标识,则将新闻文章中暂时标记为三级原创。若在接下来的各个数据库中有相关的原创文章存在,则原创级别会相应进行修正为三级转载。
下面对具体的评估步骤进行详细说明,于本实施例中,主要是通过步骤200和步骤300实现。步骤200和步骤300具有先后顺序,步骤200在步骤300之前,步骤200具体的包括以下步骤;
S210、将来源特征信息与预设的来源关键词库进行匹配,得到新闻文章的标注来源信息和实际来源信息;根据标注来源信息和实际来源信息判断新闻文章是否为转载;
S220、若来源特征信息中的标注来源与实际来源不同,则将新闻文章标记为一级转载,并生成第一评估报告;
S230、若来源特征信息中的标注来源与实际来源相同,则根据预设的转载关键词规则利用转载关键词库对关键词特征信息进行转载关键词提取。
在来源关键词库中存储的文章中提取和实际来源的各类来源信息具有分类存储。标注来源信息是由与来源关键词库中的文章中提取来源关键词匹配得到的。而实际来源信息是由与来源关键词库中实际来源关键词匹配得到的,实际来源信息包括不限于作者、发布者以及转载则等。当然,与之对应的来源关键词库也包括作者或发布则的信息。实际来源信息指的是从发文链接、发文客户端以及发文管方等来源确定。在匹配后,如果来源特征信息中的标注来源与实际来源不同,则认定该新闻文章为一级转载。生成的第一评估报告包括评估过程和一级转载的评估结果。而来源特征信息中的标注来源与实际来源相同则需要进行后续补充判断,得到第二评估报告。当然,于本实施例中,第二评估报告也是包括了整个评估过程和涉及的评估结果。
进一步的,根据预设的转载关键词库、原创关键词库以及媒体关键词库利用预设规则对关键词特征信息进行提取评估,得到第二评估报告,包括以下步骤;
S310、根据预设的转载关键词规则利用转载关键词库对关键词特征信息进行转载关键词提取;
S320、若关键词特征信息提取不到转载关键词,则根据预设的原创关键词规则利用原创关键词库对关键词特征信息进行原创关键词提取;若关键词特征信息提取到原创关键词,则将新闻文章标记为一级原创;若关键词特征信息提取不到原创关键词,则将新闻文章标记为三级原创;
S330、若所述关键词特征信息提取到转载关键词,则将所述转载关键词与所述媒体关键词库进行匹配,将匹配得到的媒体名称关键词与该新闻文章中的所述实际来源信息进行判断,若所述媒体名称关键词与实际来源信息不一致,则将所述新闻文章标记为二级转载;
S340、若所述媒体名称关键词与实际来源信息一致,则根据预设的原创关键词规则利用原创关键词库对关键词特征信息进行原创关键词提取;
S350、若关键词特征信息提取到原创关键词,则将新闻文章标记为一级原创;
S360、若关键词特征信息提取不到原创关键词,则将新闻文章标记为二级原创。
在评估二级转载时,媒体关键词库中存在相同媒体的各类不同名称,那么在将转载关键词与媒体关键词库进行匹配后,即能得到该新闻文章明确的转载的媒体名称关键词。使得媒体名称关键词与该新闻文章的实际来源信息通过简单的比对既能判断是否来着同一媒体,来自不同媒体即为二级转载。而在上述步骤中,每个步骤的判断逻辑是从上往下顺序执行的,对于具体的新闻文章,其不一定会走完上述全部的步骤,只要判断到具有具体的原创性级别即可。因此,本申请的方案相对于现有计算相似度的方案来说,在评估效率上具有很大的优势。对数据处理复杂性的要求也会低很多。对于整个方案的判断逻辑可以参考图2所示,其为本发明基于文章特征的原创新闻评估方法的逻辑示意图。由图2可以清楚的确定本发明对原创性级别的判断过程,在此就不一一阐述。
本发明实施例二提供的基于文章特征的原创新闻评估方法,与实施例一相比,区别在于,还包括以下步骤;
在将新闻文章标记为三级原创之后,根据作者信息、发布时间以及数字报稿件信息对三级原创进行修正,根据修正结果确定新闻文章原创性等级。也就是说,在原创性的判断可以是动态调整的,在每次对数据库进行补充或者升级后,可以对先去评估的原创性进行动态的调整评估。在从小评估时,只需要将原新闻文章的特征信息与新入库的各类特征进行匹配评估集合,从而加快评估速度,通过评估流程,并通过不断的修正,提升原创性评估的准确度。
基于同一发明构思,本发明实施例还提供一种基于文章特征的原创新闻评估系统,该系统的实施可参照上述方法的过程实现,重复之处不再冗述。
如图3所示,是本发明实施例三提供的基于文章特征的原创新闻评估系统的结构示意图,包括获取模块100、第一评估模块200、第二评估模块300以及判定模块400;获取模块100用于获取新闻文章的特征信息,特征信息包括来源特征信息和关键词特征信息;第一评估模块200用于将来源特征信息与预设的来源关键词库进行匹配评估,得到第一评估报告;第二评估模块300用于根据预设的转载关键词库、原创关键词库以及媒体关键词库利用预设规则对关键词特征信息进行提取评估,得到第二评估报告;判定模块400用于根据第一评估报告和第二评估报告确定新闻文章原创性等级。
本发明直接利用多个词库进行评估得到的第一评估报告和第二评估报告能够确定新闻文章原创性等级,使得判定结果更加准确。
如图4所示,为第一评估模块200的结构示意图,包括判断单元210、生成单元220以及提取单元230;判断单元210用于将来源特征信息与预设的来源关键词库进行匹配,得到新闻文章的标注来源信息和实际来源信息;根据标注来源信息和实际来源信息判断新闻文章是否为转载;生成单元220用于若来源特征信息中的标注来源与实际来源不同,则将新闻文章标记为一级转载,并生成第一评估报告;提取单元230用于若来源特征信息中的标注来源与实际来源相同,则根据预设的转载关键词规则利用转载关键词库对关键词特征信息进行转载关键词提取。
为了使评估更加准确,第二评估模块300包括第二评估单元310;第二评估单元310用于根据预设的转载关键词规则利用转载关键词库对关键词特征信息进行转载关键词提取;
若关键词特征信息提取不到转载关键词,则根据预设的原创关键词规则利用原创关键词库对关键词特征信息进行原创关键词提取;若关键词特征信息提取到原创关键词,则将新闻文章标记为一级原创;若关键词特征信息提取不到原创关键词,则将新闻文章标记为三级原创;
若所述关键词特征信息提取到转载关键词,则将所述转载关键词与所述媒体关键词库进行匹配,将匹配得到的媒体名称关键词与该新闻文章中的所述实际来源信息进行判断,若所述媒体名称关键词与实际来源信息不一致,则将所述新闻文章标记为二级转载;
若所述媒体名称关键词与实际来源信息一致,则根据预设的原创关键词规则利用原创关键词库对关键词特征信息进行原创关键词提取;若关键词特征信息提取到原创关键词,则将新闻文章标记为一级原创;若关键词特征信息提取不到原创关键词,则将新闻文章标记为二级原创。
进一步的,第二评估模块300包括修正单元;修正单元用于在将新闻文章标记为三级原创之后,根据作者信息、发布时间以及数字报稿件信息对三级原创进行修正,根据修正结果确定新闻文章原创性等级。
本发明实施例四提供的基于文章特征的原创新闻评估系统,与实施例三相比,区别在于,还包括实时补充模块500;实时补充模块500用于实时获取当前新闻文章,根据当前新闻文章对来源关键词库、转载关键词库、原创关键词库以及媒体关键词库进行补充。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。

Claims (8)

1.一种基于文章特征的原创新闻评估方法,其特征在于,包括以下步骤;
获取新闻文章的特征信息,所述特征信息包括来源特征信息和关键词特征信息;
将所述来源特征信息与预设的来源关键词库进行匹配评估,得到第一评估报告;
根据预设的转载关键词库、原创关键词库以及媒体关键词库利用预设规则对关键词特征信息进行提取评估,得到第二评估报告,包括以下步骤:
根据预设的转载关键词规则利用转载关键词库对所述关键词特征信息进行转载关键词提取;
若所述关键词特征信息提取不到转载关键词,则根据预设的原创关键词规则利用原创关键词库对所述关键词特征信息进行原创关键词提取;若所述关键词特征信息提取到原创关键词,则将所述新闻文章标记为一级原创;若所述关键词特征信息提取不到原创关键词,则将所述新闻文章标记为三级原创;
若所述关键词特征信息提取到转载关键词,则将所述转载关键词与所述媒体关键词库进行匹配,将匹配得到的媒体名称关键词与该新闻文章中的实际来源信息进行判断,若所述媒体名称关键词与实际来源信息不一致,则将所述新闻文章标记为二级转载;
若所述媒体名称关键词与实际来源信息一致,则根据预设的原创关键词规则利用原创关键词库对所述关键词特征信息进行原创关键词提取;
若所述关键词特征信息提取到原创关键词,则将所述新闻文章标记为一级原创;
若所述关键词特征信息提取不到原创关键词,则将所述新闻文章标记为二级原创;
根据所述第一评估报告和第二评估报告确定新闻文章原创性等级。
2.如权利要求1所述的基于文章特征的原创新闻评估方法,其特征在于,所述将所述来源特征信息与预设的来源关键词库进行匹配评估,得到第一评估报告,包括以下步骤;
将所述来源特征信息与预设的来源关键词库进行匹配,得到新闻文章的标注来源信息和实际来源信息;根据所述标注来源信息和实际来源信息判断新闻文章是否为转载;
若所述来源特征信息中的标注来源与实际来源不同,则将所述新闻文章标记为一级转载,并生成第一评估报告;
若所述来源特征信息中的标注来源与实际来源相同,则根据预设的转载关键词规则利用转载关键词库对所述关键词特征信息进行转载关键词提取。
3.如权利要求1所述的基于文章特征的原创新闻评估方法,其特征在于,还包括以下步骤;
在将所述新闻文章标记为三级原创之后,根据作者信息、发布时间以及数字报稿件信息对三级原创进行修正,根据修正结果确定新闻文章原创性等级。
4.如权利要求1所述的基于文章特征的原创新闻评估方法,其特征在于,还包括以下步骤;
实时获取当前新闻文章,根据当前新闻文章对来源关键词库、转载关键词库、原创关键词库以及媒体关键词库进行补充。
5.一种基于文章特征的原创新闻评估系统,其特征在于,包括获取模块、第一评估模块、第二评估模块以及判定模块;
所述获取模块,用于获取新闻文章的特征信息,所述特征信息包括来源特征信息和关键词特征信息;
所述第一评估模块,用于将所述来源特征信息与预设的来源关键词库进行匹配评估,得到第一评估报告;
所述第二评估模块,用于根据预设的转载关键词库、原创关键词库以及媒体关键词库利用预设规则对关键词特征信息进行提取评估,得到第二评估报告;
所述第二评估模块包括第二评估单元;
所述第二评估单元,用于根据预设的转载关键词规则利用转载关键词库对所述关键词特征信息进行转载关键词提取;
若所述关键词特征信息提取不到转载关键词,则根据预设的原创关键词规则利用原创关键词库对所述关键词特征信息进行原创关键词提取;若所述关键词特征信息提取到原创关键词,则将所述新闻文章标记为一级原创;若所述关键词特征信息提取不到原创关键词,则将所述新闻文章标记为三级原创;
若所述关键词特征信息提取到转载关键词,则将所述转载关键词与所述媒体关键词库进行匹配,将匹配得到的媒体名称关键词与该新闻文章中的实际来源信息进行判断,若所述媒体名称关键词与实际来源信息不一致,则将所述新闻文章标记为二级转载;
若所述媒体名称关键词与实际来源信息一致,则根据预设的原创关键词规则利用原创关键词库对所述关键词特征信息进行原创关键词提取;
若所述关键词特征信息提取到原创关键词,则将所述新闻文章标记为一级原创;
若所述关键词特征信息提取不到原创关键词,则将所述新闻文章标记为二级原创;
所述判定模块,用于根据所述第一评估报告和第二评估报告确定新闻文章原创性等级。
6.如权利要求5所述的基于文章特征的原创新闻评估系统,其特征在于,所述第一评估模块包括判断单元、生成单元以及提取单元;
所述判断单元,用于将所述来源特征信息与预设的来源关键词库进行匹配,得到新闻文章的标注来源信息和实际来源信息;根据所述标注来源信息和实际来源信息判断新闻文章是否为转载;
所述生成单元,用于若所述来源特征信息中的标注来源与实际来源不同,则将所述新闻文章标记为一级转载,并生成第一评估报告;
所述提取单元,用于若所述来源特征信息中的标注来源与实际来源相同,则根据预设的转载关键词规则利用转载关键词库对所述关键词特征信息进行转载关键词提取。
7.如权利要求5所述的基于文章特征的原创新闻评估系统,其特征在于,所述第二评估模块包括修正单元;
所述修正单元,用于在将所述新闻文章标记为三级原创之后,根据作者信息、发布时间以及数字报稿件信息对三级原创进行修正,根据修正结果确定新闻文章原创性等级。
8.如权利要求5所述的基于文章特征的原创新闻评估系统,其特征在于,还包括实时补充模块;
所述实时补充模块,用于实时获取当前新闻文章,根据当前新闻文章对来源关键词库、转载关键词库、原创关键词库以及媒体关键词库进行补充。
CN201811038828.0A 2018-09-06 2018-09-06 基于文章特征的原创新闻评估方法和系统 Active CN109213845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811038828.0A CN109213845B (zh) 2018-09-06 2018-09-06 基于文章特征的原创新闻评估方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811038828.0A CN109213845B (zh) 2018-09-06 2018-09-06 基于文章特征的原创新闻评估方法和系统

Publications (2)

Publication Number Publication Date
CN109213845A CN109213845A (zh) 2019-01-15
CN109213845B true CN109213845B (zh) 2021-06-08

Family

ID=64987783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811038828.0A Active CN109213845B (zh) 2018-09-06 2018-09-06 基于文章特征的原创新闻评估方法和系统

Country Status (1)

Country Link
CN (1) CN109213845B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502734A (zh) * 2019-07-30 2019-11-26 苏州闻道网络科技股份有限公司 一种文本生成方法和装置
CN111666749B (zh) * 2020-06-03 2023-09-19 杭州凡闻科技有限公司 热点文章识别方法
CN111930610B (zh) * 2020-07-07 2024-05-17 北京鸿渐科技有限公司 软件同源性检测方法、装置、设备及存储介质
CN112579800A (zh) * 2020-08-28 2021-03-30 太极计算机股份有限公司 一种融媒体新闻原创作品及首发媒体自动识别方法
CN112270183B (zh) * 2020-10-21 2024-03-19 北京钛氪新媒体科技有限公司 一种基于文本的新闻传播效果监测系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102651012A (zh) * 2012-03-09 2012-08-29 华中科技大学 互联网新闻文本之间的转载关系识别方法
CN103761222A (zh) * 2013-12-31 2014-04-30 上海兵飞软件有限公司 语义分析算法识别伪原创方法
CN105786799A (zh) * 2016-03-21 2016-07-20 成都寻道科技有限公司 网络文章原创性判定方法
CN106708947B (zh) * 2016-11-25 2020-06-09 成都寻道科技有限公司 一种基于大数据的网络文章转发识别方法

Also Published As

Publication number Publication date
CN109213845A (zh) 2019-01-15

Similar Documents

Publication Publication Date Title
CN109213845B (zh) 基于文章特征的原创新闻评估方法和系统
CN102053991B (zh) 用于多语言文档检索的方法及系统
CN103246644B (zh) 一种网络舆情信息处理方法和装置
CN101571875A (zh) 一种基于图像识别的图像搜索系统的实现方法
CN103955529A (zh) 一种互联网信息搜索聚合呈现方法
CN101950284A (zh) 中文分词方法及系统
CN104199965A (zh) 一种语义信息检索方法
CN101350032A (zh) 判断网页内容是否相同的方法
CN112182148B (zh) 一种基于全文检索的标准辅助编写方法
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN104699835A (zh) 用于确定网页页面中包括兴趣点poi数据的方法及装置
CN111625621B (zh) 一种文档检索方法、装置、电子设备及存储介质
CN104598577A (zh) 一种网页正文的提取方法
CN102622553A (zh) 检测网页安全的方法及装置
EP2790111A1 (en) Method and device for acquiring structured information in layout file
CN108021667A (zh) 一种文本分类方法和装置
CN206411669U (zh) 一种SaaS古籍知识服务云平台
CN111324801A (zh) 基于热点词的司法领域热点事件发现方法
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN111026787A (zh) 网点检索方法、装置及系统
CN103020083A (zh) 需求识别模板的自动挖掘方法、需求识别方法及对应装置
WO2017000659A1 (zh) 一种富集化url的识别方法和装置
US20090182759A1 (en) Extracting entities from a web page
CN109918661B (zh) 同义词获取方法及装置
CN114238735B (zh) 一种互联网数据智能采集方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant