CN109543090A - 一种评价网络文章的方法和装置 - Google Patents
一种评价网络文章的方法和装置 Download PDFInfo
- Publication number
- CN109543090A CN109543090A CN201810890782.9A CN201810890782A CN109543090A CN 109543090 A CN109543090 A CN 109543090A CN 201810890782 A CN201810890782 A CN 201810890782A CN 109543090 A CN109543090 A CN 109543090A
- Authority
- CN
- China
- Prior art keywords
- web documents
- dimensions
- evaluated
- information
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的实施方式提供了一种评价网络文章的方法。该方法包括:获取待评价的网络文章;提取待评价的网络文章的评分维度的信息;基于评分维度的信息得到网络文章评分。本发明给出的一种客观评价网络文章的方法,最大限度地避免了热度信息对评价网络文章产生的不良影响。此外,本发明的实施方式还提供了一种评价网络文章的装置、一种电子设备以及一种计算机可读存储介质。
Description
技术领域
本发明的实施方式涉及数据挖掘领域,更具体地,本发明的实施方式涉及一种评价网络文章的方法、一种评价网络文章的装置、一种电子设备以及一种计算机可读存储介质。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
网络上每天新出现的文章数以万计,这些网络文章良莠不齐,需要有一种方法从这些海量网络文章中筛选出高质量的文章给用户。
目前现有技术主要是利用用户的反馈信息,比如阅读点击数、阅读时长、用户评论和收藏等信息来判断网络文章的质量。但是阅读点击数、阅读时长、用户评论和收藏等信息都是热度信息,其可以在一定程度上反映热门新闻,但并不能真正客观地反映网络文章的质量。此外,上述热度信息很可能是网络机器人或水军操纵完成的。因此,现有技术利用热度信息给用户推荐的所谓高质量网络文章是不准确的,其中很多网络文章质量低劣,严重影响了用户阅读体验。
发明内容
发明人认识到,目前很多网络文章充斥着广告营销等相关的内容,同时也有很多标题党泛滥的网络文章,其标题往往哗众取宠、赚用户眼球,但与真实内容却相差甚远;还有很多文章内容排版混乱,重点不清晰,严重影响阅读质量和感受。目前的网络文章质量评价方法,基本上都是从热度信息维度来衡量,这并不是一种客观的评价方法。
发明人认为,高质量的网络文章必须具有长度适宜、优质排版、内容丰富、图文并茂、重点突出等特点,而这些特点是可以通过量化的方法来评价的。
基于上述认识,本发明的实施方式期望提供一种评价网络文章的方法、一种评价网络文章的装置、一种电子设备以及一种计算机可读存储介质。
在本发明实施方式的第一方面中,提供了一种评价网络文章的方法,包括:获取待评价的网络文章;提取待评价的网络文章的评分维度的信息;基于评分维度的信息得到网络文章评分。
在本发明的一个实施例中,所述网络文章包括图片。
在本发明的另一实施例中,所述评分维度是内容长度、标题长度、图片密度、字符标记、表格样式、层次标记、关联程度以及段落分布中的任意一种或多种。
在本发明的又一个实施例中,所述字符标记是指粗体、斜体、下划线以及颜色中的任意一种或多种。
在本发明的再一个实施例中,所述关联程度是指网络文章的标题和正文之间的关联度。
在本发明的再一个实施例中,所述网络文章的标题和正文之间的关联度是基于TF-IDF算法计算的。
在本发明的再一个实施例中,所述基于评分维度的信息得到网络文章评分是基于每个评分维度的得分加权求和得到。
在本发明实施方式的第二方面中,提供了一种评价网络文章的装置,包括:获取模块,用于获取待评价的网络文章;提取模块,用于提取待评价的网络文章的评分维度的信息;评分模块,用于基于评分维度的信息得到网络文章评分。
在本发明的一个实施例中,所述网络文章包括图片。
在本发明的另一实施例中,所述评分维度是内容长度、标题长度、图片密度、字符标记、表格样式、层次标记、关联程度以及段落分布中的任意一种或多种。
在本发明的又一个实施例中,所述字符标记是指粗体、斜体、下划线以及颜色中的任意一种或多种。
在本发明的再一个实施例中,所述关联程度是指网络文章的标题和正文之间的关联度。
在本发明的再一个实施例中,所述网络文章的标题和正文之间的关联度是基于TF-IDF算法计算的。
在本发明的再一个实施例中,所述基于评分维度的信息得到网络文章评分是基于每个评分维度的得分加权求和得到。
在本发明实施方式的第三方面中,提供了一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现如前文所述的任意一种方法。
在本发明实施方式的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,能够实现如前文所述的任意一种方法。
本发明依靠客观的计算方法来评价网络文章。所有的评价维度都是从网络文章本身出发,评价过程不依赖于任何主观或者受第三方恶意干扰。根据本发明实施方式的一种评价网络文章的方法、一种评价网络文章的装置、一种电子设备以及一种计算机可读存储介质,给出了一种客观评价网络文章的模式,从而实现了为用户推荐高质量文章的目的。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了根据本发明一实施方式的一种评价网络文章的方法的流程图;
图2示意性地示出了根据本发明一实施方式的一种评价网络文章的装置的结构示意图;
图3示意性地示出了根据本发明一实施方式的一种电子设备的结构示意图;
图4示意性地示出了根据本发明一实施方式的一种计算机可读存储介质的示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品等。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种评价网络文章的方法、一种评价网络文章的装置、一种电子设备以及一种计算机可读存储介质。
在本文中,需要理解的是,TF-IDF(term frequency-inverse documentfrequency)是一种用于信息检索与数据挖掘的加权算法。此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明通过提取网络文章的多个评分维度的信息,根据设定的评分模型,给网络文章进行量化评分,从而客观评价网络文章的质量。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
根据本发明实施方式,可以实现本发明的应用场景包括评价网络文章的质量这一大的场景。
示例性方法
下面参考图1来描述根据本发明示例性实施方式的一种评价网络文章的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
图1示意性地示出了根据本发明一实施例的一种评价网络文章的方法的流程图。该方法通常需要借助计算机、智能终端等类似设备实现。具体地,该评价网络文章的方法可以包括:
S110,获取待评价的网络文章。
为本发明目的,网络文章的体裁、主题、类型、语言、格式、构成、修饰等不受任何限制,只要带有文字即属于本发明所指的网络文章。可以理解,有些网络文章是由文字、图片以及其他要素构成的。此外,本发明不对网络文章的载体或形式做任何限定,其可以是图片形式的,也可以是可复制文本或不可复制文本形式的。对于图片形式的网络文章,可以通过光学字符识别(OCR)技术进行文字识别,此不赘述。
在本发明背景下,获取待评价的网络文章的形式也不做任何限定,可以通过各种形式获得网络文章,无论是自动的、半自动的,抑或其他。为实现本发明目的,以网页爬取(俗称“爬虫”)的方式获取待评价的网络文章最为优选。
S120,提取待评价的网络文章的评分维度的信息。
在本发明背景下,一篇网络文章的评分维度可以是多元的。为了进一步评价网络文章,需要根据评分维度提取出该网络文章的评分维度的信息。
在本发明中,评分维度可以是内容长度、标题长度、图片密度、字符标记、表格样式、层次标记、关联程度以及段落分布中的任意一种或多种。具体地,内容长度是网络文章全篇的字符数量;标题长度是网络文章标题的字符数量;图片密度是网络文章全篇中图片数量与字符数量的比率;字符标记是指对网络文章中字符设置的粗体、斜体、下划线、颜色等标记;表格样式是指网络文章中的表格;层次标记是指有利于阅读的层次关系的标记,比如“首先,其次,再次…”、“第一,第二…”、“一,二,三…”等;关联程度是指网络文章的标题与正文之间的关联度,这种关联度可以基于TF-IDF算法计算,关联度有两个值,即关联或非关联;段落分布是指网络文章全篇中的字符数量与段落数量的比率。
特别地,对于上述关联度的计算,示例性的方法可以是:一方面,从网络文章的正文中提取关键词并计算关键词的权重,取其中的前10个关键词的权重计算总和(W1);另一方面,从网络文章的标题中提取关键词并计算关键词的权重,取其中的前5个关键词的权重计算总和(W2)。然后,匹配正文中关键词和标题中关键词中相同的关键词列表,计算相同的关键词的个数(N)以及它们的权重之和(W),当N≥2并且P=W/(W1+W2)>0.2时,关联度的值为关联,否则为不关联。
在本步骤中,提取网络文章的评分维度的信息,具体地,可以提取待评价的网络文章的字符数量,即内容长度的信息;可以提取待评价的网络文章标题的字符数量,即标题长度的信息;可以提取待评价的网络文章中的图片数量,即图片密度的信息;可以提取待评价的网络文章中字符是否设置有粗体、斜体、下划线、颜色等标记,即字符标记的信息;可以提取待评价的网络文章中是否有表格,即表格样式的信息;可以提取待评价的网络文章中是否有层次关系的标记,即层次标记的信息;可以提取待评价的网络文章的标题与正文之间是否关联,即关联程度的信息;可以提取待评价的网络文章的段落数量,即段落分布的信息。在上述各个评分维度的信息中,均可以包含待评价的网络文章的字符数量。
S130,基于评分维度的信息得到网络文章评分。
在上一步骤中,已经提取了网络文章的评分维度的信息。本步骤基于评分维度的信息得到网络文章评分。作为示例,可以通过计算每个评分维度的得分然后加权求和得到网络文章评分FS。作为示例,网络文章评分FS=内容长度得分LC+标题长度得分LT+图片密度得分LI+字符标记得分LY+表格样式得分LB+层次标记得分LR+关联程度得分LG+段落分布得分LD。分数越高,网络文章的质量越高;反之,网络文章的质量越低。其中,每个评分维度的得分计算方式如下:
A、内容长度得分LC
对于网络文章而言,内容长度过短或过长,都会影响用户阅读体验。如果文章太长,对于一般的读者不会全部读完;如果文章过短,包含的信息也会过于简单。通过随机抽取果壳网上(果壳网的文章覆盖众多学科领域,其文章的质量在业界也很受认可)的500篇高质量文章进行统计,平均字符数为2927.89。基于上述统计,加上标点在内,一篇高质量文章的字符数平均在3000字左右,作为示例,可以用下列二段式函数来计算网络文章的内容长度得分LC:
如果x∈[0,3000]:LC=a1x2+b1x+c1;
如果x∈[3000,∞):LC=a2x2+b2x+c2。
其中a1,b1,c1,a2,b2,c2为方程式系数,可以通过坐标值(1000,0)、(3000,1)、(5000,0)以及(50000,0)求解该方程式系数。
B、标题长度得分LT
据统计,80%以上的用户往往是通过文章标题中的信息来判断是否要真正进入文章继续浏览,所以一个好的标题十分重要。一般来说,标题长度过短则不足以点题,太长又过于冗余。
通过抽取人民日报网首页1000篇文章标题进行统计,得出平均标题长度是20.32,所以文章标题在20字左右属于一个比较理想的长度。
通过上述描述,作为示例,可以用一个开口向下的二次函数模型计算网络文章的标题长度得分LT:
LT=ax2+bx+c
其中a,b,c为方程式系数,可以通过坐标值(0,0)、(20,1)以及(40,0)求解该方程式系数。
C、图片密度得分LI
一般来说,图文并茂的文章会更受欢迎,更易于阅读、理解。但是图片密度也不宜过大,如果满篇文章都是图片,会造成内容过于宽泛。
通过随机抽取果壳网500篇高质量文章,统计发现平均每篇文章的图片数量为4.66张,相当于每640个字就会有一幅配图。因此,作为示例,可以利用公式Density=CL/IC计算一篇网络文章的图片密度,其中,CL为该网络文章的内容长度,IC为该网络文章的图片数量,进而根据图片密度Density得到图片密度得分LI。作为示例,在600≤Density≤800时,图片密度得分LI为0.25;在800<Density≤1200时,图片密度得分LI为0.15;在1200<Density≤2000时,图片密度得分LI为0.05;在2000<Density时,图片密度得分LI为-0.05;在400≤Density<600时,图片密度得分LI为0.2;在100≤Density<400时,图片密度得分LI为0.05;在0<Density<100时,图片密度得分LI为-0.05;在没有图片时,图片密度得分LI为-0.2。
D、字符标记得分LY
一般来说,文章中带有字符标记,如字符带有粗体、斜体、下划线以及颜色等,则该文章更能吸引用户。将文章重要内容附以这些字符标记,能够帮助读者快速获取文章的关键信息。
作为示例,如果带有上述字符标记的字符在网络文章中出现两次或以上,字符标记得分LY为0.15;如果带有上述字符标记的字符出现一次,并且字符数大于或等于10个,字符标记得分LY为0.1;如果带有颜色标记的字体出现两次或以上,字符标记得分LY为0.1;如果上述条件都不匹配,字符标记得分LY为0。
E、表格样式得分LB
网络文章中带有利于阅读的表格,这是高质量网络文章的表现。
作为示例,网络文章带有表格,表格样式得分LB为0.1;否则,表格样式得分LB为0。
F、层次标记得分LR
在文章的文字排版和叙述中,如果有一些利于阅读的层次关系的标记,对读者是有很大帮助的,比如含有“首先,其次,再次…”、“第一,第二…”、“一,二,三…”等层次关系的标记。
作为示例,网络文章中含有有利于阅读的层次标记,层次标记得分LR为0.2;否则,层次标记得分LR为0。
G、关联程度得分LG
如今有很多网络文章为了吸引用户点击文章以获得更多流量,故意让标题更加吸引人,比如采用疑问、反问句,感叹句,极度夸张词汇等形式。然而文章内容却不知所云,和标题严重不符;或者文章内容和标题词不达意。有必要判断网络文章的标题和正文之间的关联度。
作为示例,如果是关联,LG=0.5*P,其中如上文所述P=W/(W1+W2),关联度越高,LG的分值也越高;如果是非关联,关联程度得分LG为-1。
H、段落分布得分LD
高质量的文章,首先在文章段落布局上也是尽量照顾阅读者的习惯。首先不会一篇文章就一个段落,显得臃肿不堪,难以阅读;其次,除了诗歌意外,很少有文章会一句话一个段落,让普通读者不易读下去。经过分析果壳网随机抽取的500篇文章,其平均段落数量是27.97个,平均100个字符一个段落。经过统计,一般文章段落平均数在80到150个字符是一个比较理想的区间。
作为示例,如果网络文章的段落数量为1,当网络文章的内容长度大于等于500时,段落分布得分LD为-0.5;当网络文章的内容长度小于500时,段落分布得分LD为-0.3。如果网络文章的段落数量大于1,根据网络文章全篇中的字符数量与段落数量的比率PVC,段落分布得分LD如下:80≤PVC≤150时,段落分布得分LD为0.15;150<PVC≤300时,段落分布得分LD为0.1;500<PVC时,段落分布得分LD为-0.05;30≤PVC≤50时,段落分布得分LD为-0.05;PVC<30时,段落分布得分LD为-0.1。
示例性装置
在介绍了本发明示例性实施方式的方法之后,接下来,参考图2对本发明示例性实施方式的一种评价网络文章的装置进行说明。
图2示意性地示出了根据本发明一实施例的一种评价网络文章的装置的结构示意图。通常,该装置可以独立成为一体,当然,本发明实施方式也不排除将该装置或者该装置的一部分设置于服务器中或者其他设备中,本发明对此不进行限定。该评价网络文章的装置可以包括获取模块210、提取模块220以及评分模块230,具体地:
获取模块210,用于获取待评价的网络文章。
为本发明目的,网络文章的体裁、主题、类型、语言、格式、构成、修饰等不受任何限制,只要带有文字即属于本发明所指的网络文章。可以理解,有些网络文章是由文字、图片以及其他要素构成的。此外,本发明不对网络文章的载体或形式做任何限定,其可以是图片形式的,也可以是可复制文本或不可复制文本形式的。对于图片形式的网络文章,可以通过光学字符识别(OCR)技术进行文字识别,此不赘述。
在本发明背景下,获取待评价的网络文章的形式也不做任何限定,可以通过各种形式获得网络文章,无论是自动的、半自动的,抑或其他。为实现本发明目的,以网页爬取(俗称“爬虫”)的方式获取待评价的网络文章最为优选。
提取模块220,用于提取待评价的网络文章的评分维度的信息。
在本发明背景下,一篇网络文章的评分维度可以是多元的。为了进一步评价网络文章,需要根据评分维度提取出该网络文章的评分维度的信息。
在本发明中,评分维度可以是内容长度、标题长度、图片密度、字符标记、表格样式、层次标记、关联程度以及段落分布中的任意一种或多种。具体地,内容长度是网络文章全篇的字符数量;标题长度是网络文章标题的字符数量;图片密度是网络文章全篇中图片数量与字符数量的比率;字符标记是指对网络文章中字符设置的粗体、斜体、下划线、颜色等标记;表格样式是指网络文章中的表格;层次标记是指有利于阅读的层次关系的标记,比如“首先,其次,再次…”、“第一,第二…”、“一,二,三…”等;关联程度是指网络文章的标题与正文之间的关联度,这种关联度可以基于TF-IDF算法计算,关联度有两个值,即关联或非关联;段落分布是指网络文章全篇中的字符数量与段落数量的比率。
特别地,对于上述关联度的计算,示例性的方法可以是:一方面,从网络文章的正文中提取关键词并计算关键词的权重,取其中的前10个关键词的权重计算总和(W1);另一方面,从网络文章的标题中提取关键词并计算关键词的权重,取其中的前5个关键词的权重计算总和(W2)。然后,匹配正文中关键词和标题中关键词中相同的关键词列表,计算相同的关键词的个数(N)以及它们的权重之和(W),当N≥2并且P=W/(W1+W2)>0.2时,关联度的值为关联,否则为不关联。
在本模块中,提取网络文章的评分维度的信息,具体地,可以提取待评价的网络文章的字符数量,即内容长度的信息;可以提取待评价的网络文章标题的字符数量,即标题长度的信息;可以提取待评价的网络文章中的图片数量,即图片密度的信息;可以提取待评价的网络文章中字符是否设置有粗体、斜体、下划线、颜色等标记,即字符标记的信息;可以提取待评价的网络文章中是否有表格,即表格样式的信息;可以提取待评价的网络文章中是否有层次关系的标记,即层次标记的信息;可以提取待评价的网络文章的标题与正文之间是否关联,即关联程度的信息;可以提取待评价的网络文章的段落数量,即段落分布的信息。在上述各个评分维度的信息中,均可以包含待评价的网络文章的字符数量。
评分模块230,用于基于评分维度的信息得到网络文章评分。
在上一模块中,已经提取了网络文章的评分维度的信息。本模块基于评分维度的信息得到网络文章评分。作为示例,可以通过计算每个评分维度的得分然后加权求和得到网络文章评分FS。作为示例,网络文章评分FS=内容长度得分LC+标题长度得分LT+图片密度得分LI+字符标记得分LY+表格样式得分LB+层次标记得分LR+关联程度得分LG+段落分布得分LD。分数越高,网络文章的质量越高;反之,网络文章的质量越低。其中,每个评分维度的得分计算方式如上文示例性方法部分所述,此不赘述。
示例性设备
在介绍了本发明示例性实施方式的方法、装置之后,接下来,参考图3对本发明示例性实施方式的一种电子设备进行说明。
图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器30的框图。图3示出的计算机系统/服务器30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,计算机系统/服务器30以通用计算设备的形式表现。计算机系统/服务器30的组件可以包括但不限于:一个或者多个处理器或者处理单元301,系统存储器302,连接不同系统组件(包括系统存储器302和处理单元301)的总线303。
计算机系统/服务器30典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器30访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器302可以包括易失性存储器形式的计算机系统可读介质,例如,随机存取存储器(RAM)3021和/或高速缓存存储器3022。计算机系统/服务器30可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,ROM 3023可以用于读写不可移动的、非易失性磁介质(图3中未示出,通常称为“硬盘驱动器”)。尽管未在图3中示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线303相连。系统存储器302中可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块3024的程序/实用工具3025,可以存储在例如系统存储器302中,且这样的程序模块3024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块3024通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器30也可以与一个或多个外部设备304(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口305进行。并且,计算机系统/服务器30还可以通过网络适配器306与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图3所示,网络适配器306通过总线303与计算机系统/服务器30的其它模块(如处理单元301等)通信。应当明白的是,尽管图3中未示出,可以结合计算机系统/服务器30使用其它硬件和/或软件模块。
处理单元301通过运行存储在系统存储器302中的计算机程序,从而执行各种功能应用以及数据处理,例如,执行用于实现上述方法实施例中的各步骤的指令;具体而言,处理器301可以执行存储器302中存储的计算机程序,且该计算机程序被执行时,下述指令被运行:获取待评价的网络文章;提取待评价的网络文章的评分维度的信息;基于评分维度的信息得到网络文章评分。
示例性介质
在介绍了本发明示例性实施方式的方法、装置以及电子设备之后,接下来,参考图4对本发明示例性实施方式的一种计算机可读存储介质进行说明。
图4的计算机可读存储介质为光盘40,其上存储有计算机程序(即程序产品),该程序被处理器执行时,会实现上述方法实施方式中所记载的各步骤,例如,获取待评价的网络文章;提取待评价的网络文章的评分维度的信息;基于评分维度的信息得到网络文章评分。
应当注意,尽管在上文详细描述中提及了一种评价网络文章的装置的若干模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (16)
1.一种评价网络文章的方法,其特征在于,包括:
获取待评价的网络文章;
提取待评价的网络文章的评分维度的信息;
基于评分维度的信息得到网络文章评分。
2.如权利要求1所述的方法,其特征在于,所述网络文章包括图片。
3.如权利要求2所述的方法,其特征在于,所述评分维度是内容长度、标题长度、图片密度、字符标记、表格样式、层次标记、关联程度以及段落分布中的任意一种或多种。
4.如权利要求3所述的方法,其特征在于,所述字符标记是指粗体、斜体、下划线以及颜色中的任意一种或多种。
5.如权利要求3-4所述的方法,其特征在于,所述关联程度是指网络文章的标题和正文之间的关联度。
6.如权利要求5所述的方法,其特征在于,所述网络文章的标题和正文之间的关联度是基于TF-IDF算法计算的。
7.如权利要求6所述的方法,其特征在于,所述基于评分维度的信息得到网络文章评分是基于每个评分维度的得分加权求和得到。
8.一种评价网络文章的装置,其特征在于,包括:
获取模块,用于获取待评价的网络文章;
提取模块,用于提取待评价的网络文章的评分维度的信息;
评分模块,用于基于评分维度的信息得到网络文章评分。
9.如权利要求8所述的装置,其特征在于,所述网络文章包括图片。
10.如权利要求9所述的装置,其特征在于,所述评分维度是内容长度、标题长度、图片密度、字符标记、表格样式、层次标记、关联程度以及段落分布中的任意一种或多种。
11.如权利要求10所述的装置,其特征在于,所述字符标记是指粗体、斜体、下划线以及颜色中的任意一种或多种。
12.如权利要求10-11所述的装置,其特征在于,所述关联程度是指网络文章的标题和正文之间的关联度。
13.如权利要求12所述的装置,其特征在于,所述网络文章的标题和正文之间的关联度是基于TF-IDF算法计算的。
14.如权利要求13所述的装置,其特征在于,所述基于评分维度的信息得到网络文章评分是基于每个评分维度的得分加权求和得到。
15.一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的所述计算机程序,且所述计算机程序被执行时,实现权利要求1-7中任意一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1-7中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810890782.9A CN109543090A (zh) | 2018-08-07 | 2018-08-07 | 一种评价网络文章的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810890782.9A CN109543090A (zh) | 2018-08-07 | 2018-08-07 | 一种评价网络文章的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109543090A true CN109543090A (zh) | 2019-03-29 |
Family
ID=65839047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810890782.9A Pending CN109543090A (zh) | 2018-08-07 | 2018-08-07 | 一种评价网络文章的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109543090A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111260197A (zh) * | 2020-01-10 | 2020-06-09 | 光明网传媒有限公司 | 网络文章评价方法、系统、计算机设备及可读存储介质 |
CN111488931A (zh) * | 2020-04-10 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 文章质量评估方法、文章推荐方法及其对应的装置 |
CN111815188A (zh) * | 2020-07-14 | 2020-10-23 | 混沌时代(北京)教育科技有限公司 | 一种文章表达呈现能力的评价方法 |
CN112561334A (zh) * | 2020-12-16 | 2021-03-26 | 咪咕文化科技有限公司 | 阅读对象的评分方法、装置、电子设备及存储介质 |
CN113536769A (zh) * | 2021-07-21 | 2021-10-22 | 深圳证券信息有限公司 | 文本简洁明晰程度评价方法及相关设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102279844A (zh) * | 2011-08-31 | 2011-12-14 | 中国科学院自动化研究所 | 汉语作文自动测试方法及系统 |
CN107193805A (zh) * | 2017-06-06 | 2017-09-22 | 北京百度网讯科技有限公司 | 基于人工智能的文章价值评估方法、装置及存储介质 |
US20180081626A1 (en) * | 2016-09-22 | 2018-03-22 | Guangzhou Ucweb Computer Technology Co., Ltd. | Article quality scoring method and device, client, server, and programmable device |
-
2018
- 2018-08-07 CN CN201810890782.9A patent/CN109543090A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102279844A (zh) * | 2011-08-31 | 2011-12-14 | 中国科学院自动化研究所 | 汉语作文自动测试方法及系统 |
US20180081626A1 (en) * | 2016-09-22 | 2018-03-22 | Guangzhou Ucweb Computer Technology Co., Ltd. | Article quality scoring method and device, client, server, and programmable device |
CN107193805A (zh) * | 2017-06-06 | 2017-09-22 | 北京百度网讯科技有限公司 | 基于人工智能的文章价值评估方法、装置及存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111260197A (zh) * | 2020-01-10 | 2020-06-09 | 光明网传媒有限公司 | 网络文章评价方法、系统、计算机设备及可读存储介质 |
CN111488931A (zh) * | 2020-04-10 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 文章质量评估方法、文章推荐方法及其对应的装置 |
CN111488931B (zh) * | 2020-04-10 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 文章质量评估方法、文章推荐方法及其对应的装置 |
CN111815188A (zh) * | 2020-07-14 | 2020-10-23 | 混沌时代(北京)教育科技有限公司 | 一种文章表达呈现能力的评价方法 |
CN112561334A (zh) * | 2020-12-16 | 2021-03-26 | 咪咕文化科技有限公司 | 阅读对象的评分方法、装置、电子设备及存储介质 |
CN113536769A (zh) * | 2021-07-21 | 2021-10-22 | 深圳证券信息有限公司 | 文本简洁明晰程度评价方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543090A (zh) | 一种评价网络文章的方法和装置 | |
Sha et al. | De-fake: Detection and attribution of fake images generated by text-to-image generation models | |
Abbasi et al. | Applying authorship analysis to extremist-group web forum messages | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
Halteren | Author verification by linguistic profiling: An exploration of the parameter space | |
CN109710841A (zh) | 评论推荐方法和装置 | |
Nalisnick et al. | Extracting sentiment networks from Shakespeare's plays | |
Cao et al. | Machine learning based detection of clickbait posts in social media | |
Otto et al. | Characterization and classification of semantic image-text relations | |
Hopp et al. | A Graph-Learning Approach for Detecting Moral Conflict in Movie Scripts. | |
CN110020005A (zh) | 一种病历中主诉和现病史中症状匹配方法 | |
JP3735336B2 (ja) | 文書要約方法及びシステム | |
Visconti et al. | Handbook of communication in the legal sphere | |
Burghardt et al. | Same same, but different? On the Relation of Information Science and the Digital Humanities A Scientometric Comparison of Academic Journals Using LDA and Hierarchical Clustering | |
CN108701126A (zh) | 主题推定装置、主题推定方法以及存储介质 | |
Xu et al. | Estimating similarity of rich internet pages using visual information | |
CN104462151A (zh) | 评估网页发布时间的方法和相关装置 | |
CN112257408A (zh) | 一种文本对比的方法及相关装置 | |
Wilson et al. | SQSE: a measure to assess sample quality of authorial style as a cognitive biometric trait | |
Nguyen-Son et al. | Detecting machine-translated text using back translation | |
Wen et al. | Development of a Domain Specific Sentiment Lexicon (DSSL) for Evaluating the Quality of Experience (QoE) of Cloud Gaming | |
Kliegr et al. | Wikipedia as the premiere source for targeted hypernym discovery | |
JP3943005B2 (ja) | 情報検索プログラム | |
Mason et al. | Apples to oranges: Evaluating image annotations from natural language processing systems | |
KAUSHIK | CYBERBULLING DETECTION MODEL |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190329 |
|
RJ01 | Rejection of invention patent application after publication |