CN104850642A - 网络内容质量评价方法和装置 - Google Patents

网络内容质量评价方法和装置 Download PDF

Info

Publication number
CN104850642A
CN104850642A CN201510274495.1A CN201510274495A CN104850642A CN 104850642 A CN104850642 A CN 104850642A CN 201510274495 A CN201510274495 A CN 201510274495A CN 104850642 A CN104850642 A CN 104850642A
Authority
CN
China
Prior art keywords
feature
quality
chapters
web content
sections
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510274495.1A
Other languages
English (en)
Other versions
CN104850642B (zh
Inventor
黄胤人
陈萌辉
李媛媛
陈一宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Shenma Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shenma Mobile Information Technology Co Ltd filed Critical Guangzhou Shenma Mobile Information Technology Co Ltd
Priority to CN201510274495.1A priority Critical patent/CN104850642B/zh
Publication of CN104850642A publication Critical patent/CN104850642A/zh
Priority to PCT/CN2016/082376 priority patent/WO2016188347A1/zh
Application granted granted Critical
Publication of CN104850642B publication Critical patent/CN104850642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网络内容质量评价方法和装置。该方法包括:获取网络内容的内容质量特征,所述内容质量特征包括目录特征、来源质量特征、元信息特征以及主体质量特征中的至少一项特征;计算所述至少一项特征中每一项的特征分值;以及根据所述特征分值计算所述网络内容的质量分。本发明还包括了依据质量分对多个网络内容进行排序的方法和系统。由此,能够对网络内容的质量进行评价,从而更为合理地向用户推荐网络内容。

Description

网络内容质量评价方法和装置
技术领域
本发明涉及网络内容,尤其涉及网络内容质量评价方法和装置。
背景技术
随着网络及其相关技术的发展,现今人们花在线上活动上的时间越来越多。例如,人们会在线阅读书籍(例如,连载的小说),在线收听音乐和网络电台,在线选择自己喜欢的APP进行下载等。
由于上述网络内容(例如,书籍、音乐和网络电台、APP等)的大量存在,如何对这些内容进行更为合理的筛选成为课题。例如,可以使用搜索引擎进行关键字搜索,根据排行榜和分类列表进行选择等。
现有搜索引擎对搜索结果的排序通常主要根据相关性和热门度进行。在例如单纯对信息进行搜索的情况下,这种搜索方式效果良好。但是对于某些种类的搜索(例如,书籍,尤其是连载的网络小说),由于一本小说可能被大量不同网站转载,即使同一本小说在不同网站也会有不同的标题,更有不同质量的问题,所以依据上述两个特征对小说搜索结果排序时可能抓取到大量低质重复的书。
根据本申请人另一待决申请“一种基于simhash和章节匹配的同本识别”所公开的方法,可以做到识别出“同本”,但并不能判断出这些“同本”的书籍哪本质量更好,哪本更适合在排序中优先展示。
另外,对于能够根据某些参数对其质量本身进行评价的网络内容,诸如音乐、网络电台和APP等,同样存在对其质量进行评价以方便用户选择的需要。
因此,我们需要一种网络内容质量评价方法及装置。
发明内容
本发明所要解决的一个技术问题是提供一种网络内容质量评价方法和装置,其能够对网络内容本身的质量做出评价,由此方便人们对网络内容进行选择。
根据本发明的一个方面,公开了一种网络内容质量评价方法,包括:获取网络内容的内容质量特征,所述内容质量特征包括目录特征、来源质量特征、元信息特征以及主体质量特征中的至少一项特征;计算所述至少一项特征中每一项的特征分值;以及根据所述特征分值计算所述网络内容的质量分。
由此,就能够根据网络内容的诸如目录特征、来源、元信息和主体质量的至少一个方面来具体实现对网络内容本身质量的评价,从而为基于质量的网络内容推选提供基础。
优选地,网络内容是由如下各项中的任一项:书籍、音乐、APP、网络电台。
对于书籍(例如,连载的网络小说)而言,就可以根据该书籍本身的目录特征、书籍来源、书籍元信息及其正文质量(即,书籍的主体质量)等来评价书籍本身的质量。
对于音乐而言,可以对其诸如音轨或光盘编号的目录特征、源自诸如QQ音乐或是百度音乐的来源特征、诸如专辑、歌手、歌曲名的元信息特征、以及歌曲星级评价等的主体质量特征中的至少一项来具体评价音乐质量。
对于APP和网络电台而言,也可以针对其具体的目录、来源、元信息和主体质量的至少一项来具体评价其质量。
优选地,内容质量特征包括目录特征、来源质量特征、元信息特征以及主体质量特征中的至少两项特征。并且本发明所公开的网络内容质量评价方法还包括:为所述至少两项特征中的每一项分配特征权重,其中,通过对所述至少两项特征的特征分值进行加权求和来计算所述网络内容的质量分。
这样,就能够根据网络内容的诸如目录特征、来源、元信息和主体质量的至少两个方面,并在考虑这些方面的不同的重要性的情况下具体实现对网络内容本身质量的评价,从而使得质量评价更为全面、灵活和准确。
优选地,目录特征包括以下特征中的一项或多项:更新及时率;空章率;无用章率;章节长度;为所述网络内容的主站分配的主站权威分;以及该主站的实际章节率。
这样,就能够根据更细化的参数来评价目录特征,从而进一步提高内容质量评价的全面性和准确性。
优选地,更新分=Time_gap^[1/(Time_gap+1)],其中Time_gap=1-(当前时间-最后更新时间)/30天且位于区间[0,1]内,当最后更新时间超过30天时,Time_gap为0;并且/或者
空章率=空章节数/章节总数;并且/或者
无用章率=无用章节数/章节总数;并且/或者
章节长度=章节数/1000,其中章节数是1到1000之间的整数,当章节数大于1000时,章节长度取值为1;并且/或者
主站权威分取值为:
如果主站权威分值高于一定阈值或者转载量多于一定数量的站点,则直接使用主站自身的权威分,否则根据转载量增加主站自身的权威分得到最终的主站权威分;并且/或者
实际章节率=主站章节数/平均章节数,其中平均章节数是所述网络内容所有来源的平均章节数,但当主站章节数不小于平均章节数时,实际章节率为1。
这样,就能够更为方便准确的计算更新分、空章率、无用章率、章节长度、主站权威分和实际章节率,从而为实现质量分的准确快速计算提供了进一步的基础。
优选地,如下求取所述目录特征分:更新分、空章率、无用章率和章节长度相加,其中每个特征都乘以主站权威分及实际章节率,且目录特征分值的取值范围为[0,1]。
这样,就能够更为方便准确地计算目录特征分,从而为实现质量分的准确快速计算提供了再进一步的基础。
优选地,质量分的计算可以包括以下取值的一项或多项:
来源特征分=Ave_host_score*(1+Host_factor),且所述来源特征分的取值范围为[0,1],其中小说所有来源站的平均权重Ave_host_score=(Σhost_score)/host_num,host_num是来源站数且host_score是来源站各自的权重,而来源数权重Host_factor=host_num/30,其中host_num是1到30之间的整数,当host_num大于30时,来源数权重取值为1;并且/或者
元信息特征分=一级目录分+二级目录分+图片信息分+标签分+简介分,其中一级目录分、二级目录分、图片信息分、标签分和简介分各自在一级目录、二级目录、图片信息、标签和简介存在时取值为0.2,否则为0;并且/或者
主体质量分=所有章节的总得分/章节数,且主体质量分的取值范围为[0,1]。
这样,就在方便准确地计算目录特征之外,进一步实现了对来源特征分、元信息特征分和正文质量分的方便准确的计算,从而为实现质量分的准确快速计算提供了又进一步的基础。
优选地,如下求取所述网络内容的质量分:以6:1:3:5的比例加权相加目录特征分、元信息特征分、来源特征分和正文质量特征分得到最终的质量分。
这样,就进一步优化了最终质量分的计算过程,从而为参考质量分进行选择提供了基础。
根据本发明的另一个方面,公开了一种对多个网络内容进行排序的方法,包括:使用根据上述任一方法或优选方法来为所述多个网络内容中每一个评定质量分;以及以所述质量分作为排序依据之一对所述多个网络内容进行排序。
由此,就能够根据网络内容本身的质量分来对多个网络内容进行排序,从而提高排序的准确性,方便用户对网络内容的选择。
优选地,对多个网络进行排序包括:响应于用户的网络内容查询请求而对搜索得到的多个网络内容进行排序;或者以网络内容分类列表来排序多个网络内容;或者以排行榜单来排序多个网络内容。
这样,用户就能够通过关键字搜索、分类列表和排行榜来得到考虑了网络内容本身质量的排序,从而具体化了用户选择网络内容的途径。
根据本发明的再一个方面,提供了一种网络内容质量评价装置,包括:用于获取网络内容的内容质量特征的特征获取单元,所述内容质量特征包括目录特征、来源质量特征、元信息特征以及主体质量特征中的至少一项特征;用于计算所述至少一项特征中每一项的特征分值的特征分计算单元;以及用于根据所述特征分值计算所述网络内容的质量分的质量分计算单元。
优选地,所述内容质量特征包括目录特征、来源质量特征、元信息特征以及正文质量特征中的至少两项特征,该装置还包括用于为所述至少两项特征中的每一项分配特征权重的权重分配单元,其中,所述质量分计算单元通过对所述至少两项特征的特征分值进行加权求和来计算所述网络内容的质量分。
由此,就为实现网络内容质量分的计算提供了装置支持。
根据本发明的再一个方面,提供了一种对多个网络内容进行排序的系统,包括:如上所述的网络内容质量评价装置,所述装置为所述多个网络内容中每一个评定质量分;以及排序装置,用于以所述质量分作为排序依据之一对所述多个网络内容进行排序。
优选地,所述排序装置包括:搜索排序单元,用于响应于用户的网络内容查询请求而对搜索得到的多个网络内容进行排序;或者分类列表排序单元,用于以网络内容分类列表来排序多个网络内容;以及排行榜排序单元,以排行榜单来排序多个网络内容。
由此,就为实现依据网络内容质量分进行排序提供了系统支持。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1是根据本发明的一个实施例的网络内容质量评价方法的示意性流程图。
图2是图1所示方法的替换方案。
图3是根据本发明的一个实施例的对多个网络内容进行排序的方法的示意性流程图。
图4是图3所示步骤S40可以包括的子步骤的流程图。
图5是根据本发明的一个实施例的网络内容质量评价装置的示意性方框图。
图6是根据本发明的一个实施例的对多个网络内容进行排序的系统的示意性方框图。
图7是根据本发明的一个实施例的排序装置的示意性方框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
I.网络内容质量评价方法
图1是根据本发明的一个实施例的网络内容质量评价方法的示意性流程图。
在步骤S10,获取网络内容的内容质量特征。内容质量特征包括如下的至少一项特征:目录特征、来源质量特征、元信息特征以及主体质量特征。
在步骤S20,计算上述至少一项特征中每一项的特征分值。
在步骤S30,根据特征分值计算网络内容的质量分。
在此,选择能够代表网络内容质量的内容质量特征,通过对一项或多项特征的量化(即,计算各特征的特征分值)来计算网络内容的质量分。
图2是图1所示方法的替换方案。
在步骤S10’,获取网络内容的上述内容质量特征中的至少两项特征。即,获取目录特征、来源质量特征、元信息特征以及主体质量特征中的至少两项特征。
在步骤S20’,计算上述至少两项特征中每一项的特征分值。
在步骤S21’,为上述至少两项特征中每一项分配权重。
在步骤S30’,根据特征分值及权重加权求取网络内容的质量分。
其中,步骤S20’和S21’的顺序可以调换,即,先为每一项特征分配权重再计算每一项特征的特征分值,这不会影响对最终的质量分的评价。
在此,通过获取至少两项特征并向不同特征分配相同或不同的权重,就能够考虑各种特征对质量的不同的影响,从而使得对网络内容的量化更为全面和准确。
具体地,网络内容可以是书籍,诸如连载的网络小说。另外,网络内容也可以是能够为其选择并定义代表质量的特征并量化这些特征的任何网络内容,诸如音乐、网络电台或APP等。
应该理解的是,虽然如下对于内容质量特征的具体描述是针对书籍给出的,但是所公开的方法也适用于能够被质量评价的其他网络内容。
如下将以小说为例,给出内容质量特征的获取以及特征分值的计算的具体方法。
1.小说的目录特征
本公开中所涉及的目录特征,应该理解为与网络内容有关的不包括主体质量(例如,小说的正文质量)和文件所携带的元信息之外的、但又与该网络内容的质量密切相关的内容。
对于小说而言,上述目录特征可以包括但不限于更新速度(即,更新分,尤其针对网络连载小说)、空章率、无用章率、章节长度、实际章节率和主站权威分等。
1.1更新速度(更新分)
对于连载中的作品(尤其是网络小说)而言,更新的及时性能够作为判定该作品好坏的一个标准。因此获取书籍更新是否及时(更新分)这一目录特征能够对书籍质量分的计算做出贡献。
具体地,对小说更新分的计算可以包括首先判断该小说是否已完结,若已完结,则更新分取预设的固定数值,若是未完结小说,则获取它的最近更新时间,并且最近更新时间离当前时刻越近则更新分越高,当超过一定天数(例如,30天)未更新时则更新分为0分。
更新分的计算公式可以是:update_score=Time_gap^[1/(time_gap+1)],其中Time_gap=1-(当前时间-最近更新时间)/30天。Time_gap位于区间[0,1]中,当最近更新时间超过30天时,Time_gap为0。
由于函数y=x^[1/(1+x)]在x属于[0,1]的取值区间内有着良好的平滑性,并且x越趋近于1,函数斜率越大。在更新分的计算中使用这一函数,可以使得更加越及时,分数上升的越快,由此更好的突出书籍的优点和缺点,以便于优质书籍和劣质书籍有更明显的分数差异。
通过在小说质量分中包括更新分的计算,就能够在质量评价体系中将读者通常最为关心的作者“填坑”速度(更新频度)、是否“弃坑”(即,放弃更新)等现象考虑在内,从而提高质量分对于用户选择的指导性。
1.2空章率
空章指的是作为一章但没有内容的章节,因此小说的空章越少,表明质量越高,小说空章率的计算公式于是可以是:emptyChapterRate=空章节数/章节总数。
通过在质量评价中引入空章率,就能够进一步帮助用户从章节数看上去很多的小说中选择实际内容丰富,而非仅靠空章来拉长章数的优质小说。
1.3无用章率
无用章率是指有内容但是非小说正文的章节,如作者请假条,作者的感言等等,因此无用章越少,则表明书籍质量越高,所以无用章率的计算公式为:uselessChapetrRate=无用章节数/章节总数。
类似于上述1.2的阐述,通过在质量评价中引入无用章率,就能够进一步帮助用户从章节数看似很多的小说中选择实际内容丰富,而非仅靠作者感言等无用章来拉长章数的优质小说。
1.4章节长度
由于通常作者会在小说饱受好评的情况下进行长期连载,因此小说的章节数量可以作为反映小说质量的一个标准。即,章节数越多,表明小说越受欢迎,书籍质量越高。
另外,在小说章节数超过一定章数,例如1000章时,可以认为章节长度达到满分,即章节长度值为1。
因此,在这里章节长度值的计算公式为:chapterLength=章节数/1000。章节数是1到1000之间的整数。当章节数大于1000时,chapterLength为1。
通过引入章节长度,就能够在质量评价中体现出长期连载小说的优势,从而为用户的准确选择提供帮助。
1.5主站权威性(主站权威分)
由于网络上连载的小说往往会被进行多次的转载,因此小说的来源通常不止一个网站。但出于方便性和可行性的考虑,会为每一本小说选择一个目录来源,该来源称为该小说的主站。
主站的权威性可以作为小说质量的一个评价标准。即,主站的权威性越高,表明相关小说的质量越好。但是考虑到存在着在权威小说站点断章而导致该小说分数不合理上升的情况,可以对小说站点的权重做了一定的平滑处理。如果该站点的权威值不足则可以通多较多的转载率来提升自身主站的不足(例如,使用转载量乘以一系数,再与主站自身的权威分相加以得到主站权威分)。但如果自身的主站权威值很高或者转载率已经多于例如30个站点,则可以直接使用该小说自己主站的权威分。
1.6实际章节率
在如上对主站权威性的描述中可知会为每一本小说选择一个目录来源作为该小说的主站。但是由于存在主站并非小说的初始登载站或更新站的情况,这里提出实际章节率这一系数作为该小说主站的一个可信度判断。
具体地,实际章节率的计算方法可以是:先计算该小说的所有来源的平均章节数,若该小说的主站连载的章节数多余此平均章节数,则认为连载完整,实际章节率的为1,若主站连载的章节数小于此平均章节数,则认为连载不完整,主站的可信度不高。由此,实际章节率的计算公式可以是:实际章节率=主站章节数/平均章节数。实际章节率并不能作为一个单独的特征指标分数存在,在计算小说质量分时将被作为其他特征的可信度一起使用。
1.7目录特征分值的计算
由上可以得到对上述6个特征的具体计算方法。而根据上述6个特征计算小说的目录特征分值的方法例如可以是:
相加(例如,均等相加)更新分、空章率、无用章率和章节长度,其中每个特征都需乘以该小说的主站权威分以及实际章节率来平滑可能出现的误差,并且最终的目录特征分值的取值范围为[0,1]。
另外,也可以按照重要程度或经验值为更新分、空章率、无用章率和章节长度分配权重,再乘以该小说的主站权威分及实际章节率,由此计算最终的目录特征。
通过对更新分、空章率、无用章率和章节长度这四项特征中的每一项都乘以该小说的主站权威分以及实际章节率,就能够用该小说主站的可信度和该小说在主站上的可信度两者来平滑上述四项的值,从而根据小说与主站相关的这两个可信度来更为客观地评价小说质量。
综上给出了求取小说目录特征分值的具体方法。虽然上文公开了根据更新分、空章率、无用章率、章节长度、主站权威分以及实际章节率求取小说目录特征分值的方法,但显见的是,以上各项只是评价小说目录特征的例子,各项分值的计算方法也仅仅作为例子示出,本领域技术人员能够根据本发明的公开想到其他的评价方法。
2.小说的来源质量特征
网络小说通常不止有一个来源站。通常小说越受欢迎,该小说被转载的次数就越多(即,来源站就越多)。因此,来源站的数目能从一个侧面反映该书籍质量的高低。如果小说来源数超过一定数量,例如30站,则可认为来源特征分达到满分。且小说的来源站越是原创站、大站也同样表明书籍质量越高。因此,对小说的最终来源特征分需要考虑到来源站的数量以及各来源站自身的权威性。
由此,计算每一本小说的最终来源特征分的方法例如可以是:首先,给小说的每一个来源站分配一个权重,计算一本小说所有来源站的平均权重,然后再计算该小说的来源数权重,最后根据上述所有来源站的平均权重以及来源数权重来计算来源质量特征分值。
给小说的每一个来源站分配一个权重是为了表明每一个来源站的重要程度以及权威性,小说所有来源站的平均权重的计算公式为Ave_host_score=(Σhost_score)/host_num,其中host_num是来源站数,host_score是来源站各自的权重,各来源站的权重根据该来源站热门书籍占总体热门书籍比重综合确定。
来源数权重的计算公式例如可以是:Host_factor=host_num>=30?1:host_num/30。也就是说,当host_num是1到30之间的整数时,Host_factor=host_num/30,而当host_num大于30时,来源数权重取值为1。
来源质量特征分值是用于综合判定来源质量,来源质量特征分值的计算公式为Host_score=Ave_host_score*(1+Host_factor),且Host_score的取值范围为[0,1]。
通过从小说主站和转载站来综合评定小说的来源质量特征,就能够进一步提升小说质量评分的可信度,从而有助于用户对小说的选择。
3.小说的元信息特征
对于小说而言,其元信息通常可以包含一级目录,二级目录,图片信息,标签与简介这五项内容。小说包含的元信息完整与否,可以作为该小说质量评价的一个参考。也就是说,一本小说包含以上元信息越多则表明该元信息完整性分值越高,相应的书籍质量就越好。
因此,元信息完整性分值(元信息特征分)的计算方法为:判断小说中是否包含上述五项元信息,每包含一项则元信息完整性分值MetaScore加0.2,当包含上述五项元信息时,则MetaScore为1,且MetaScore的取值范围为[0,1]。
通过将小说元信息完整与否引入小说质量评价体系,就能够在小说的最终质量分中体现小说文件本身(与内容无关)的制作水平,从而更为客观地评价小说的质量。
4.小说的正文质量特征
在本公开中,小说的正文质量特征是指正文是否有较多的标点,水印,正文内容是否完整等。该正文质量特征的计算算法是调用系统内部另外的接口,并非本方案主要内容,所以在此不再详述。正文质量特征分值aveChapterScore=所有章节的总得分/章节数,且aveChapterScore的取值范围为[0,1]
通过对小说文法质量的评价,就能够更为准确地评价小说本身的质量,从而促进最终质量分对小说质量的准确反映。
5.小说质量分的计算
以上公开了求取目录特征、来源质量特征、元信息特征与正文质量特征这四个特征的分值的示例性方法。如下将讨论如何根据这四个特征来计算小说最终的质量分。
计算小说质量分的方法可以是将这目录特征、来源质量特征、元信息特征与正文质量特征的分值直接相加,也可以分别分配合适的权重进行加权求和。
在一个优选实施例中,通过对数据分配不同权重进行的实验表明,将目录特征,元信息特征,来源特征和正文质量特征,分别以6:1:3:5的比例加权相加,得到最终的书籍质量分有比较好的效果。
当然,显见的是,给出的上述比值只是一个经验值,并且本领域技术人员能够根据具体情况给出不同的权重或比值。
6.上述方法的总结
通过以上的公开,给出了网络内容评价方法的具体例子。虽然上文针对书籍(尤其是网络小说)给出了质量分计算的例子,但是本领域技术人员显而易见的是诸如音乐、APP和网络电台之类的能够评价其目录特征的网络内容也适用于上述公开的原理。
例如,对于音乐而言,可以对其诸如音轨或光盘编号的目录特征、源自诸如QQ音乐或是百度音乐的来源特征、诸如专辑、歌手、歌曲名的元信息特征、以及歌曲星级评价等的主体特征中的至少一项来具体评价音乐质量。
对于APP和网络电台而言,也可以针对其具体的目录特征、来源、元信息和主体质量中的至少一项来具体评价其质量,在此不再赘述。
另外,虽然上文给出了各特征的具体计算方法和公式,但本发明不限于这些具体例子,而是根据特定情况使用更为合适的其他方法和公式。
II.对多个网络内容进行排序的方法
图3是根据本发明的一个实施例的对多个网络内容进行排序的方法的示意性流程图。
图3中的步骤S40将使用图1或图2所述的方法计算出的质量分作为排序依据之一(其他依据可以包括搜索热度、相关性等),对多个网络内容进行排序。
由此,通过将小说质量引入网络内容排序体系,就能够在呈现最热门最相关的网络内容的基础上保证呈现网络内容的质量,从而有助于用户对网络内容的正确选择。
图4是图3所示步骤S40可以包括的子步骤的流程图。
在步骤S401,响应于用户的网络内容查询请求而对搜索得到的多个网络内容进行排序。
在步骤S402,以网络内容分类列表来排序多个网络内容。
在步骤S403,以排行榜单来排序多个网络内容。
在这里需要强调的是,以上三个步骤可以同时存在,存在两个或单独存在,并且在存在两个及以上步骤时,其先后顺序可以调换,而不会影响该排序方法的实现。
由此,将网络内容排序进一步明确为相应于查询的排序、分类列表和排行榜单。上述三种方法也是用户选择网络内容最为常见的手段。通过让查询结果、分类列表和排行榜单上的具体排序至少部分基于网络内容的质量分,就能够为用户日常的网络内容选择提供实际质量的参考,从而有助于用户最终选择到更为优质称心的网络内容。
III.装置和系统
上面参考图1-4详细描述了网络内容的质量评价和排序方法。下面参考图5描述网络内容质量评价的装置,参考图6-7描述了网络内容排序系统及其所包含的排序装置。
下面描述的装置和系统的很多单元和装置的功能分别与上面参考图1-4描述的相应步骤的功能相同。为了避免重复,这里重点描述该装置和系统可以具有的单元或装置结构,而对于一些细节则不再赘述,可以参考上文中的相应描述。
图5是根据本发明的一个实施例的网络内容质量评价装置500的示意性方框图。
如图5所示,该网络内容质量评价装置500包括特征获取单元510、特征分计算单元520和质量分计算单元530,并且可选地包括权重分配单元521(用虚线示出)。
特征获取单元510用于获取网络内容的内容质量特征,上述内容质量特征包括目录特征、来源质量特征、元信息特征以及主体质量特征中的至少一项特征。
特征分计算单元520用于计算所述至少一项特征中每一项的特征分值。
质量分计算单元530用于根据所述特征分值计算所述网络内容的质量分。
另外,在上述内容质量特征包括目录特征、来源质量特征、元信息特征以及主体质量特征中的至少两项特征的情况下,可选的权重分配单元521用于为所述至少两项特征中的每一项分配特征权重。随后,质量分计算单元530通过对所述至少两项特征的特征分值进行加权求和来计算所述网络内容的质量分。
图6是根据本发明的一个实施例的对多个网络内容进行排序的网络内容排序系统1000的示意性方框图。
该网络内容排序系统1000包括网络内容质量评价装置600和排序装置640。该网络内容质量评价装置600可以与图5公开的网络内容质量评价装置500相同或不同,并且用于为所述多个网络内容中每一个评定质量分。
排序装置640用于以所述质量分作为排序依据之一对所述多个网络内容进行排序。
图7是根据本发明的一个实施例的排序装置740的示意性方框图。排序装置740可以与图6公开的排序装置640相同或不同。
排序装置740可以包括搜索排序单元741、分类列表排序单元742以及排行榜排序单元743中的任一项、两项或全部。
搜索排序单元741可以用于响应于用户的网络内容查询请求而对搜索得到的多个网络内容进行排序。
分类列表排序单元742可以用于以网络内容分类列表来排序多个网络内容。
排行榜排序单元743可以用于以排行榜单来排序多个网络内容。
结合图5-7公开的装置和系统也可以使用与在部分I中各特征的计算方法和公式(参见部分I中的1-5小节)相对应的计算装置来求取各特征的分值,在此不再赘述。
此外,根据本发明的方法还可以实现为一种计算机程序产品,该计算机程序产品包括计算机可读介质,在该计算机可读介质上存储有用于执行本发明的方法中限定的上述功能的计算机程序。本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (14)

1.一种网络内容质量评价方法,包括:
获取网络内容的内容质量特征,所述内容质量特征包括目录特征、来源质量特征、元信息特征以及主体质量特征中的至少一项特征;
计算所述至少一项特征中每一项的特征分值;以及
根据所述特征分值计算所述网络内容的质量分。
2.如权利要求1所述的方法,其中所述网络内容是如下各项中的任一项:
书籍、音乐、APP、网络电台。
3.如权利要求1所述的方法,其中,
所述内容质量特征包括目录特征、来源质量特征、元信息特征以及主体质量特征中的至少两项特征,
该方法还包括:
为所述至少两项特征中的每一项分配特征权重,
其中,通过对所述至少两项特征的特征分值进行加权求和来计算所述网络内容的质量分。
4.如权利要求1所述的方法,其中所述目录特征包括以下特征中的一项或多项:
更新分;
空章率;
无用章率;
章节长度;
为所述网络内容的主站分配的主站权威分;以及
所述主站的实际章节率。
5.如权利要求4所述的方法,其中
更新分=Time_gap^[1/(Time_gap+1)],其中Time_gap=1-(当前时间-最后更新时间)/30天且位于区间[0,1]内,当最后更新时间超过30天时,Time_gap为0;并且/或者
空章率=空章节数/章节总数;并且/或者
无用章率=无用章节数/章节总数;并且/或者
章节长度=章节数/1000,其中章节数是1到1000之间的整数,当章节数大于1000时,章节长度取值为1;并且/或者
主站权威分取值为:
如果主站权威分值高于一定阈值或者转载量多于一定数量的站点,则直接使用主站自身的权威分,否则根据转载量增加主站自身的权威分得到最终的主站权威分;并且/或者
实际章节率=主站章节数/平均章节数,其中平均章节数是所述网络内容所有来源的平均章节数,但当主站章节数不小于平均章节数时,实际章节率为1。
6.如权利要求5所述的方法,如下求取所述目录特征分:
更新分、空章率、无用章率和章节长度相加,其中每个特征都乘以主站权威分及实际章节率,且目录特征分的取值范围为[0,1]。
7.如权利要求1所述的方法,其中所述质量分的计算包括以下取值的一项或多项:
来源特征分=Ave_host_score*(1+Host_factor),且所述来源特征分的取值范围为[0,1],其中小说所有来源站的平均权重Ave_host_score=(Σhost_score)/host_num,host_num是来源站数且host_score是来源站各自的权重,而来源数权重Host_factor=host_num/30,其中host_num是1到30之间的整数,当host_num大于30时,来源数权重取值为1;并且/或者
元信息特征分=一级目录分+二级目录分+图片信息分+标签分+简介分,其中一级目录分、二级目录分、图片信息分、标签分和简介分各自在一级目录、二级目录、图片信息、标签和简介存在时取值为0.2,否则为0;并且/或者
主体质量分=所有章节的总得分/章节数,且主体质量分的取值范围为[0,1]。
8.如权利要求1所述的方法,如下求取所述网络内容的质量分:
以6:1:3:5的比例加权相加目录特征分、元信息特征分、来源特征分和主体质量特征分得到所述质量分。
9.一种对多个网络内容进行排序的方法,包括:
使用根据权利要求1至8中任何一项所述的方法,为所述多个网络内容中每一个评定质量分;以及
以所述质量分作为排序依据之一对所述多个网络内容进行排序。
10.如权利要求9所述的方法,其中,对所述多个网络进行排序包括:
响应于用户的网络内容查询请求而对搜索得到的多个网络内容进行排序;或者
以网络内容分类列表来排序多个网络内容;或者
以排行榜单来排序多个网络内容。
11.一种网络内容质量评价装置,包括:
用于获取网络内容的内容质量特征的特征获取单元,所述内容质量特征包括目录特征、来源质量特征、元信息特征以及主体质量特征中的至少一项特征;
用于计算所述至少一项特征中每一项的特征分值的特征分计算单元;以及
用于根据所述特征分值计算所述网络内容的质量分的质量分计算单元。
12.如权利要求11所述的装置,其中,
所述内容质量特征包括目录特征、来源质量特征、元信息特征以及主体质量特征中的至少两项特征,
该装置还包括:
用于为所述至少两项特征中的每一项分配特征权重的权重分配单元,
其中,所述质量分计算单元通过对所述至少两项特征的特征分值进行加权求和来计算所述网络内容的质量分。
13.一种对多个网络内容进行排序的系统,包括:
根据权利要求11或12所述的网络内容质量评价装置,所述装置为所述多个网络内容中每一个评定质量分;以及
排序装置,用于以所述质量分作为排序依据之一对所述多个网络内容进行排序。
14.如权利要求13所述的系统,其中,所述排序装置包括:
搜索排序单元,用于响应于用户的网络内容查询请求而对搜索得到的多个网络内容进行排序;或者
分类列表排序单元,用于以网络内容分类列表来排序多个网络内容;或者
排行榜排序单元,以排行榜单来排序多个网络内容。
CN201510274495.1A 2015-05-26 2015-05-26 网络内容质量评价方法和装置 Active CN104850642B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510274495.1A CN104850642B (zh) 2015-05-26 2015-05-26 网络内容质量评价方法和装置
PCT/CN2016/082376 WO2016188347A1 (zh) 2015-05-26 2016-05-17 网络质量评价方法及装置、网络内容排序方法及系统、计算设备及非暂时性机器可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510274495.1A CN104850642B (zh) 2015-05-26 2015-05-26 网络内容质量评价方法和装置

Publications (2)

Publication Number Publication Date
CN104850642A true CN104850642A (zh) 2015-08-19
CN104850642B CN104850642B (zh) 2017-05-17

Family

ID=53850286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510274495.1A Active CN104850642B (zh) 2015-05-26 2015-05-26 网络内容质量评价方法和装置

Country Status (2)

Country Link
CN (1) CN104850642B (zh)
WO (1) WO2016188347A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302913A (zh) * 2015-11-12 2016-02-03 北京奇虎科技有限公司 网络小说章节列表评估方法及装置
CN105787287A (zh) * 2016-05-06 2016-07-20 广州爱九游信息技术有限公司 一种生成榜单数据的系统、设备、装置及方法
WO2016188347A1 (zh) * 2015-05-26 2016-12-01 广州神马移动信息科技有限公司 网络质量评价方法及装置、网络内容排序方法及系统、计算设备及非暂时性机器可读存储介质
CN106649468A (zh) * 2016-09-28 2017-05-10 杭州电子科技大学 一种cdn网络内容查询方法及系统
CN107784109A (zh) * 2017-10-31 2018-03-09 浠绘旦 一种网络小说商业价值的评估方法及系统
CN107870912A (zh) * 2016-09-22 2018-04-03 广州市动景计算机科技有限公司 文章质量评分方法、设备、客户端、服务器及可编程设备
CN108733672A (zh) * 2017-04-14 2018-11-02 腾讯科技(深圳)有限公司 实现网络信息质量评估的方法和装置
CN110008369A (zh) * 2018-12-26 2019-07-12 阿里巴巴集团控股有限公司 信息处理方法及其装置、电子设备、计算机可读介质
CN110472096A (zh) * 2019-08-22 2019-11-19 腾讯音乐娱乐科技(深圳)有限公司 歌曲库的管理方法、装置、设备及存储介质
CN110727841A (zh) * 2019-09-12 2020-01-24 上海麦克风文化传媒有限公司 一种网络电台的音频专辑内容质量评价方法及系统
CN110728966A (zh) * 2019-09-12 2020-01-24 上海麦克风文化传媒有限公司 一种音频专辑内容质量评价方法及系统
CN111260197A (zh) * 2020-01-10 2020-06-09 光明网传媒有限公司 网络文章评价方法、系统、计算机设备及可读存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115277070B (zh) * 2022-06-17 2023-08-29 西安热工研究院有限公司 一种网络安全运维热力图的生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009097254A1 (en) * 2008-02-01 2009-08-06 Realnetworks, Inc. Improving the quality of deep metadata associated with media content
CN101582086A (zh) * 2009-06-11 2009-11-18 腾讯科技(深圳)有限公司 获取博客质量信息的方法和装置
CN103609069A (zh) * 2011-06-21 2014-02-26 汤姆逊许可公司 用于评估媒体数据质量的用户终端设备、服务器设备、系统及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090100094A1 (en) * 2007-10-15 2009-04-16 Xavier Verdaguer Recommendation system and method for multimedia content
CN102999490A (zh) * 2011-09-08 2013-03-27 北京无限讯奇信息技术有限公司 商户文档权重评价方法
US20140089322A1 (en) * 2012-09-14 2014-03-27 Grail Inc. System And Method for Ranking Creator Endorsements
CN104219575B (zh) * 2013-05-29 2020-05-12 上海连尚网络科技有限公司 相关视频推荐方法及系统
CN104239468A (zh) * 2014-09-02 2014-12-24 百度在线网络技术(北京)有限公司 一种用于对推荐信息进行重新排序的方法与装置
CN104850642B (zh) * 2015-05-26 2017-05-17 广州神马移动信息科技有限公司 网络内容质量评价方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009097254A1 (en) * 2008-02-01 2009-08-06 Realnetworks, Inc. Improving the quality of deep metadata associated with media content
CN101582086A (zh) * 2009-06-11 2009-11-18 腾讯科技(深圳)有限公司 获取博客质量信息的方法和装置
CN103609069A (zh) * 2011-06-21 2014-02-26 汤姆逊许可公司 用于评估媒体数据质量的用户终端设备、服务器设备、系统及方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016188347A1 (zh) * 2015-05-26 2016-12-01 广州神马移动信息科技有限公司 网络质量评价方法及装置、网络内容排序方法及系统、计算设备及非暂时性机器可读存储介质
CN105302913B (zh) * 2015-11-12 2018-09-18 北京奇虎科技有限公司 网络小说章节列表评估方法及装置
CN105302913A (zh) * 2015-11-12 2016-02-03 北京奇虎科技有限公司 网络小说章节列表评估方法及装置
CN105787287A (zh) * 2016-05-06 2016-07-20 广州爱九游信息技术有限公司 一种生成榜单数据的系统、设备、装置及方法
US10956473B2 (en) 2016-09-22 2021-03-23 Guangzhou Ucweb Computer Technology Co., Ltd. Article quality scoring method and device, client, server, and programmable device
CN107870912A (zh) * 2016-09-22 2018-04-03 广州市动景计算机科技有限公司 文章质量评分方法、设备、客户端、服务器及可编程设备
CN106649468A (zh) * 2016-09-28 2017-05-10 杭州电子科技大学 一种cdn网络内容查询方法及系统
CN108733672A (zh) * 2017-04-14 2018-11-02 腾讯科技(深圳)有限公司 实现网络信息质量评估的方法和装置
CN108733672B (zh) * 2017-04-14 2023-01-24 腾讯科技(深圳)有限公司 实现网络信息质量评估的方法和系统
CN107784109A (zh) * 2017-10-31 2018-03-09 浠绘旦 一种网络小说商业价值的评估方法及系统
CN110008369A (zh) * 2018-12-26 2019-07-12 阿里巴巴集团控股有限公司 信息处理方法及其装置、电子设备、计算机可读介质
CN110472096A (zh) * 2019-08-22 2019-11-19 腾讯音乐娱乐科技(深圳)有限公司 歌曲库的管理方法、装置、设备及存储介质
CN110728966A (zh) * 2019-09-12 2020-01-24 上海麦克风文化传媒有限公司 一种音频专辑内容质量评价方法及系统
CN110727841A (zh) * 2019-09-12 2020-01-24 上海麦克风文化传媒有限公司 一种网络电台的音频专辑内容质量评价方法及系统
CN110728966B (zh) * 2019-09-12 2023-05-23 上海麦克风文化传媒有限公司 一种音频专辑内容质量评价方法及系统
CN111260197A (zh) * 2020-01-10 2020-06-09 光明网传媒有限公司 网络文章评价方法、系统、计算机设备及可读存储介质

Also Published As

Publication number Publication date
CN104850642B (zh) 2017-05-17
WO2016188347A1 (zh) 2016-12-01

Similar Documents

Publication Publication Date Title
CN104850642A (zh) 网络内容质量评价方法和装置
KR20200069352A (ko) 융합 데이터 처리 방법 및 정보 추천 시스템
US10284623B2 (en) Optimized browser rendering service
CN101266620B (zh) 向用户提供目标信息的方法及设备
CN104662529A (zh) 用于高性能分析的数据精炼引擎的系统和方法
CN103020226A (zh) 一种获取搜索结果的方法和装置
US20170364931A1 (en) Distributed model optimizer for content consumption
CN102073699A (zh) 用于基于用户行为来改善搜索结果的方法、装置和设备
CN102193999A (zh) 一种对搜索结果进行排序的方法及设备
CN101984437A (zh) 音乐资源个性化推荐方法及系统
CN106445954B (zh) 一种业务对象的展示方法和装置
CN102073726A (zh) 搜索引擎系统及该搜索引擎系统的结构化数据引入方法
CN105589922A (zh) 页面显示方法、装置、系统以及页面显示辅助方法、装置
CN107679103B (zh) 用于实体的属性分析方法及系统
JP2013125468A (ja) 広告配信装置
US20140188882A1 (en) Specific online resource identification and extraction
CN110516164B (zh) 一种信息推荐方法、装置、设备及存储介质
Naumann et al. The Eco-label blue angel for software—development and components
CN104573033A (zh) 一种动态url过滤方法及装置
CN107679186A (zh) 基于实体库进行实体搜索的方法及装置
CN104077288B (zh) 网页内容推荐方法和网页内容推荐设备
JP2019219774A (ja) コンバージョンレポート表示装置、その表示プログラムおよびその表示方法
CN110889029A (zh) 城市目标推荐方法和装置
CN111311105A (zh) 组合产品评分方法、装置、设备及可读存储介质
US20140324581A1 (en) Providing Task-Based Information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200817

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 12 layer self unit 01

Patentee before: GUANGZHOU SHENMA MOBILE INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right