CN108733672B - 实现网络信息质量评估的方法和系统 - Google Patents
实现网络信息质量评估的方法和系统 Download PDFInfo
- Publication number
- CN108733672B CN108733672B CN201710244071.XA CN201710244071A CN108733672B CN 108733672 B CN108733672 B CN 108733672B CN 201710244071 A CN201710244071 A CN 201710244071A CN 108733672 B CN108733672 B CN 108733672B
- Authority
- CN
- China
- Prior art keywords
- network information
- given network
- text
- title
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明揭示了一种实现网络信息质量评估的方法和系统。所述方法包括:获取请求进行质量评估的给定网络信息;在内容特征维度上针对给定网络信息中的标题、正文和图片进行特征提取,获得给定网络信息的内容描述特征;根据所述内容描述特征进行所述给定网络信息的质量预测得到所述给定网络信息的质量得分。至此,所获得给定网络信息的质量得分,是以给定网络信息的内容描述特征为依据而预测得到的,通过内容描述特征实现了给定网络信息内容上的量化,进而使得最终得到的质量得分是与实质质量相匹配,相对于实质质量而言,有效的提高了质量得分的准确率。
Description
技术领域
本发明涉及计算机应用技术领域,特别涉及一种实现网络信息质量评估的方法和系统。
背景技术
随着网络信息的发展,用户可以经由网络获得各种纯文本信息甚至于图文并茂内容丰富的图文信息,以满足其在工作和生活中的各种需求。所存在的网络信息,可以是某些用户自行编辑之后随意上传至网络中的,也可以是由专业人士经由高质量编辑之后所上传的,因此,网络信息的质量大都参差不齐。
例如,近年来随着各类网络文章的兴起,越来越多的人们已经摆脱纸质书写,而在电脑和智能手机上进行网络文章编辑,进而上传到网络中。
与之相对应的,用户借由电脑和智能手机浏览网络文章。但是,由于质量参差不齐,网络中的网络信息,特别是网络文章往往都会面对一个通用的问题,即如何在诸多网络信息中实现质量评估,进而快速准确的确定优质的网络信息,获得优质流量内容。
现有网络信息质量评估存在着两个方向:一是单纯考虑网络信息的阅读量、转发量和点赞数等用户反馈特征,并且为不同的用户反馈特征赋予不同权重进行质量打分;二是单纯考虑网络信息的词频特征,使用分类模型给出网络信息的质量得分。
具体而言,对于单纯考虑来自用户反馈特征的阅读量、转发量和点赞数等用户反馈特征的网络信息质量评估方式,存在着一个天然的缺陷,即,对于冷启动的文章,将无法给出一个合理的质量得分。另外,由于线上不同重力曝光以及运营、渠道的影响,比如,阅读量可能是造假作弊,又比如,网络上获得较多关注的人随便发一篇网络信息所引发的阅读量、转发量和点赞数都很大,进而带来较高的质量得分,但实际上,其并不一定是优质的,这种“马太”效应对于长尾优质网络信息是极其不公平的。
第二种单纯考虑词频特征使用分类模型给出网络信息质量得分的方式,其缺陷在于词频特征维度太过于单一,没有对网络信息内容进行量化,进而使得最终获得的质量得分准确率很低,不符合人们的认知。
综上所述,现有网络信息质量评估方式,并无法对网络信息内容进行量化,质量得分相对于网络信息的质量而言准确率很低。
发明内容
为了解决现有网络信息质量评估无法在网络信息内容上量化,质量得分相对实质质量而言准确率很低的技术问题,本发明提供了一种实现网络信息质量评估的方法和系统。
一种实现网络信息质量评估的方法,所述方法包括:
获取请求进行质量评估的给定网络信息;
在内容特征维度上针对给定网络信息中的标题、正文和图片进行特征提取,获得给定网络信息的内容描述特征;
根据所述内容描述特征进行所述给定网络信息的质量预测得到所述给定网络信息的质量得分。
一种实现网络信息质量评估的系统,所述系统包括:
获取模块,用于获取请求进行质量评估的给定网络信息;
特征提取模块,用于在内容特征维度上针对给定网络信息中的标题、正文和图片进行特征提取,获得给定网络信息的内容描述特征;
预测模块,用于根据所述内容描述特征进行所述给定网络信息的质量预测得到所述给定网络信息的质量得分。
本发明的实施例提供的技术方案可以包括以下有益效果:
在进行网络信息质量评估的实现中,首先获取请求进行质量评估的给定网络信息,然后在内容特征维度上对这一给定网络信息中的标题、正文和图片进行特征提取,获得给定网络信息的内容描述特征,最后根据内容描述特征进行给定网络信息的质量预测得到给定网络信息的质量得分,至此,所获得给定网络信息的质量得分,是以给定网络信息的内容描述特征为依据而预测得到的,通过内容描述特征实现了给定网络信息内容上的量化,进而使得最终得到的质量得分是与实质质量相匹配,相对于实质质量而言,有效的提高了质量得分的准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是根据本发明所涉及的实施环境的示意图;
图2是根据一示例性实施例示出的一种装置的框图;
图3是根据一示例性实施例示出的一种实现网络信息质量评估的方法的流程图;
图4是根据一示例性实施例示出的对步骤330中标题中词所相关的特征包括标题内容量化值时的细节进行描述的流程图;
图5是根据图4对应实施例示出的对步骤333的细节在一个示例性实施例进行描述的流程图;
图6是根据图4对应实施例示出的对步骤333的细节在另一个示例性实施例进行描述的流程图;
图7是根据另一示例性实施例示出的对给定网络信息中的标题,在内容特征维度上进行标题中词所相关的特征以及标题中词与正文之间相关性的提取,获得标题相关特征步骤的流程图;
图8是根据一示例性实施例示出的对步骤330中内容描述特征包括主题特征时的细节进行描述的流程图;
图9是根据一示例性实施例示出的实现文章质量评估的总体流程图;
图10是根据一示例性实施例示出的一种实现网络信息质量评估的系统的框图;
图11是根据一个示例性实施例示出的对特征提取模块的细节进行描述的框图;
图12是根据另一示例性实施例示出的对特征提取模块的细节进行描述的框图;
图13是根据另一示例性实施例示出的对特征提取模块的细节进行描述的框图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的系统和方法的例子。
图1是根据本发明所涉及的实施环境的示意图。该实施环境包括:请求方110以及与请求方110进行数据交互的网络信息处理服务器130。
请求方110在获得各种网络信息之后,便可请求网络信息处理服务器130对其进行网络信息质量评估,进而获得各网络信息的质量得分。
请求方110在获得各网络信息的质量得分之后,即可向用户推荐优质的网络信息。
也就是说,请求110和网络信息处理服务器130形成用户进行网络信息浏览的后台服务器,进而实现优质网络信息的提供。
图2是根据一示例性实施例示出的一种装置的框图。装置200可以是服务器,例如,在一示例性实施例中,可以是图1所示实施环境的网络信息处理服务器130。
参见图2,该装置200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)222(例如,一个或一个以上处理器)和存储器232,一个或一个以上存储应用程序242或数据244的存储介质230(例如一个或一个以上海量存储设备)。其中,存储器232和存储介质230可以是短暂存储或持久存储。存储在存储介质230的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对装置200中的一系列指令操作。更进一步地,中央处理器222可以设置为与存储介质230通信,在装置200上执行存储介质230中的一系列指令操作。装置200还可以包括一个或一个以上电源226,一个或一个以上有线或无线网络接口250,一个或一个以上输入输出接口258,和/或,一个或一个以上操作系统241,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。上述图3、图4、图5、图6、图7和图8所示实施例中执行的步骤可以基于该图2所示的装置结构。
图3是根据一示例性实施例示出的一种实现网络信息质量评估的方法的流程图。该实现网络信息质量评估的方法,可以应用于图1所示实施环境的网络信息处理服务器130,如图3所示,可以包括以下步骤。
在步骤310中,获取请求进行质量评估的给定网络信息。
其中,给定网络信息是指请求进行质量评估的任意网络信息。例如,网络信息可以是网络文章、随意发表的网络消息以及虚拟网络社区中发布的帖子等等。
后台服务器将获取请求进行质量评估的网络信息,即给定网络信息,以通过执行后续的步骤而获得相应的质量得分。
例如,请求方在获得一更新的网络信息之后,便随之请求进行此网络信息的质量评估。此时,更新的网络信息被请求方推送至后台服务器。对于接收到网络信息的后台服务器而言,这一接收的网络信息,即为给定网络信息。
在步骤330中,在内容特征维度上针对给定网络信息中的标题、正文和图片进行特征提取,获得给定网络信息的内容描述特征。
其中,首先应当说明的是,给定网络信息包括标题和正文,正文包括文字和图片两大部分。给定网络信息在内容上存在着标题、正文和图片三个维度,因此,基于给定网络信息在内容上存在的维度,有其所对应的内容特征维度。
内容特征维度用于指示所进行的特征提取是基于内容特征进行的,以此来保证所提取的特征能够反映给定网络信息中的内容。
在给定网络信息中,按照内容特征维度进行特征提取而获得内容描述特征。内容描述特征用于对给定网络信息在内容上进行特征量化,因此,内容描述特征一方面能够准确反映给定网络信息的内容,例如,反映给定网络信息的内容是否丰富,主题是否明确、内容是否翔实是否可读性强,是否图文并茂等;另一方面,也在数值上进行了给定网络信息中内容的准确量化,有助于准确评估给定网络信息的质量。
在一个示例性实施例中,内容描述特征,包括文本特征、图片特征和主题特征,以对应于给定网络信息的内容。
给定网络信息中,在内容上存在着标题、正文和图片三个维度,
在步骤350中,根据内容描述特征进行给定网络信息的质量预测得到给定网络信息的质量得分。
其中,如前所述的,内容描述特征能够对给定网络信息中内容进行数值上的量化,因此,能够根据内容描述特征来得到表征给定网络信息中内容优劣的质量得分。
在一个示例性实施例中,根据内容描述特征而进行的质量预测,可以通过预先训练的预测模型实现。预测模型是以大量网络信息而预先训练得到的。在为给定网络信息所进行的质量得分预测中,将向预测模型输入给定网络信息的内容描述特征,从而即可获得预测模型输出的质量得分。
质量得分用于衡量给定网络信息的质量优劣。例如,质量得分越高,则说明给定网络信息的质量越高,其内容也更为优质;质量得分越低,给定网络信息的质量越低,其内容则更为低劣。
在一个示例性实施例的具体实现中,采用机器学习方法来实现预测模型的训练。首先进行百万级别的网络信息标注,即为每篇网络信息均标注其是否为优质网络信息。
然后,计算出每篇网络信息的内容描述特征,如前述所指的文本特征、图片特征和主题特征。以所计算的内容描述特征为输入,将已经进行标注的网络信息作为样本而最终完成预测模型的训练。
例如,以“汽车”主题为例,使用将近10万篇样本,首先会按照2:1的比例分成训练集和测试集,使用梯度提升决策树(GBDT,Gradient Boost Decision Tree)算法,在训练集上训练预测模型,得到预测模型的参数。
与之相对应的,当请求方发送请求后,将对请求进行质量评估的给定网络信息提取内容描述特征,并输入预测模型,最后输出网络信息质量的概率值,即给定网络信息为优质网络信息的概率值,此概率值用于表征给定网络信息为优质网络信息的可能性。
在数值上,预测模型输出的概率值处于0~1的数值范围,将概率值换算成0-100的数值,即得到质量得分。
此外,也可配合使用GBDT和LR(Logistic Regression Classifier,逻辑回归分类器,来使得准确率得到进一步的提升。
通过如上所述的示例性实施例,便对给定网络信息基于内容进行了准确的质量评估,从网络信息本身出发,将所进行的质量评估与用户行为特征的反馈剥离,既解耦了信息和用户的关联,客观地量化人们常说的“主题明确”、“标题明晰”、“内容翔实”和“图文并茂”等难以表达的概念,进而能够挖掘出网络中更多的长尾优质内容。
在一个示例性实施例中,内容描述特征包括文本特征,文本特征包括标题相关特征,步骤330的实现过程为:
对给定网络信息中的标题,在内容特征维度上进行标题中词所相关的特征以及标题中词与正文之间相关性的提取,获得标题相关特征。
其中,文本特征用于反映给定网络信息的内容中在文本方面所存在的特征,即数值化处理给定网络信息中内容在文本上存在的特点。网络信息中的文本包括两大部分,一为标题,二为正文,因此,与之相对应的,文本特征便包括了标题相关特征。
标题相关特征用于衡量标题是否言之有物,是否存在吸引人,是否切题,是否是全网的热度体现等等。
在一个示例性实施例中,标题相关特征包括标题中词所相关的特征以及标题中词与正文之间的相关性。
标题中词所相关的特征包括标题长度、标题重要词性个数(形容词、句词、动词、副词、问号和感叹号等),标题内容量化值、标题命中优质Tag词个数和标题命中TBI热词个数。
优质Tag词,是经过审核的Tag词语,TBI热词则是实时统计全网词语热度所获得的。
例如,标题的长度和重要词性的个数能够间接反映出标题在多大程度上吸引人。
图4是根据一示例性实施例示出的对步骤330中标题中词所相关的特征包括标题内容量化值时的细节进行描述的流程图。该标题中词所相关的特征包括标题内容量化值,该步骤330,如图4所示,具体可以包括以下步骤。
在步骤331中,分别对给定网络信息的所有文字和正文进行主题概率分布的运算,获得所有文字和正文分别对应的主题概率分布。
在步骤333中,通过所有文字和正文分别对应的主题概率分布进行标题内容量化值的运算。
其中,首先应当说明的是,给定网络信息的所有文字,即为正文标题合并文本所对应的文字。预先配置了大量主题,例如,1000个主题。分别对所有文字和正文运算出在这1000个主题上的概率分布,即得到所有文字对应的主题概率分布和正文对应的概率分布。
在一个示例性实施例的具体实现中,可以通过LDA(Latent DirichletAllocation)主题模型进行主题概率分布的运算。向LDA主题模型输入的是所有文字,则输出的是所有文字对应的主题概率分布;若向LDA主题模型输入的是正文,则输出的是正文所对应的主题概率分布。
所获得的主题概率分布,对于所预先配置的大量主题,例如1000个主题而言,是一个1000维度的向量表示,这个向量表示文本在1000个主题上的概率分布。
在获得所有文字和正文分别对应的主题概率分布之后,即可从中计算标题内容量化值。
标题内容量化值包括标题信息增益和标题分散度。标题信息增益将反映了标题对正文所起到的语义上的提示作用。标题信息增益越高,表示用户通过标题能够获取的对所在网络信息的信息量越大,也意味着标题明确性强,易于解读。而标题分散度则直接用于量化标题的语义明确性。
通过如上所述的示例性实施例,实现了标题内容的量化,进而基于内容实现了标题的质量评估,对于给定网络信息而言,标题的质量将直接影响着整个网络信息是否优质,因此,对标题内容的准确评估有利于保证整体上进行质量评估的准确性。
图5是根据图4对应实施例示出的对步骤333的细节在一个示例性实施例进行描述的流程图。在一个示例性实施例中,标题内容量化值包括标题信息增益,该步骤333,如图5所示,可以包括以下步骤。
在步骤401中,通过所有文字和正文分别对应的主题概率分布进行信息熵的运算,得到正文标题合并文本的信息熵和正文信息熵。
在步骤403中,计算正文标题合并文本的信息熵和正文信息熵之间的差值,得到标题信息增益。
其中,通过所有文字对应的主题概率分布、正文对应的主题概率分布,分别进行信息熵的运算,由此而相应得到正文标题合并文本的信息熵和正文信息熵。
如前述所指的,在给定网络信息中,所有文字即为正文标题合并文本,因此由所有文字对应的主题概率分布运算其信息熵,即可得到正文标题合并文本的信息熵。
具体而言,信息熵可以通过如下公式运算得到,即:
其中,p为主题概率分布,N为主题概率分布p所对应的向量维度,H则是所运算得到的信息熵。
通过上述公式运算得到正文标题合并文本的信息熵和正文信息熵之后,就可以计算二者之间的差值,即:
正文标题合并文本的信息熵-正文信息熵
由此得到的差值即为标题信息熵。从中可以得知标题在多大程度上减少了正文的不确定性,直接反映用户在阅读标题时在多大程度上能够感知给定网络信息的主旨大意是什么,衡量标题是否言之有物。
进一步的,在一个示例性实施例中,标题内容量化值还包括标题分散度。图6是根据图4对应实施例示出的对步骤333的细节在另一个示例性实施例进行描述的流程图。该步骤333,如图6所示,可以包括以下步骤。
在步骤501中,根据正文标题合并文本的信息熵和正文信息熵分别计算得到正文标题合并文本的分散度和正文分散度。
在步骤503中,计算正文标题合并文本的分散度和正文分散度之间的差值得到标题分散度。
分散度在主题概率分布中计算公式如下:
D=2H
其中,H为前述所运算得到的信息熵,D为分散度。
通过上述公式,由正文标题文本的信息熵运算得到正文标题文本的分散度,由正文信息熵运算得到正文分散度。
至此,便可以得到,标题分散度=正文标题文本的分散度-正文分散度。
图7是根据另一示例性实施例示出的对给定网络信息中的标题,在内容特征维度上进行标题中词所相关的特征以及标题中词与正文之间相关性的提取,获得标题相关特征步骤的流程图。该步骤,如图7所示,可以包括以下步骤。
在步骤601中,获取标题中存在的实体词。
其中,实体词是指语义上具有具体含义或者抽象含义的名词。实现标题中实体词获取的具体过程为:对标题进行分词,从分词结果中提取得到实体词。
在步骤603中,根据实体词在正文中的位置运算得到该实体词的词半径影响因子。
其中,可以理解的,与标题相类似的,正文也存在着实体词,具体而言,正文存在着与标题中实体词相一致的实体词。因此,在获取得到标题中存在的实体词之后,便可以在正文中找到这一实体词存在的位置。
针对标题中获得的每一实体词,在正文中找出此实体词的存在,即定位此实体词在正文的位置,获得此实体词在正文第一次出现的位置和最后出现的位置。
根据第一次出现的位置和最后出现的位置运算得到位置差,即此实体词的词语半径,进而经由词语半径运算得到词语半径影响因子,具体运算公式如下:
r为词语半径影响因子,d为词语半径。
在步骤605中,根据该实体词的词半径影响因子和正文长度计算得到标题中词与正文之间的相关性。
在正文获得标题中实体词所对应的词频a,正文长度为M,通过下述公式运算得到标题中词与正文之间的相关性。
b为实体词在正文第一次出现的位置。N为标题中实体词的数量。
在另一个示例性实施例中,内容描述特征包括文本特征,文本特征包括正文相关特征,则步骤330还包括以下步骤。
在给定网络信息的正文中,从内容特征维度上提取正文长度和图文比例,获得包含正文长度和图文比例的正文相关特征。
其中,正文相关特征是对给定网络信息中的正文在内容上进行量化。正文相关特征包括正文长度和图文比例。在一个示例性实施例的具体实现中,图文比例可以是每千字图文比。
正文相关特征通过正文长度和图文比例间接是出出用户对于内容是否翔实,是否图文并茂的体验。
在另一个示例性实施例中,内容描述特征包括图片特征,则步骤330还包括以下步骤。
对给定网络信息所存在的图片,从内容特征维度上进行图片特征的提取,获得描述给定网络信息中内容质量的图片特征。
其中,图片特征包括正文图片个数、正文动图个数、图片平均清晰度、图片平均高度、图片平均宽度、图片平均亮度指数、图片平均灰度值、图片平均色偏、图片色彩饱和度和图片色彩丰富程度。
具体而言,对于图片平均清晰度所相关的图片清晰度,其可以采用拉普拉斯算子,通过对图片的灰度值做卷积运算,然后计算方差,该方差即为图片清晰度的衡量。
图8是根据一示例性实施例示出的对步骤330中内容描述特征包括主题特征时的细节进行描述的流程图。内容描述特征包括主题特征,该步骤330,如图8所示,可以包括以下步骤。
在步骤810中,根据给定网络信息进行主题分类获得给定网络信息归属的主题以及给定网络信息相对所有主题的概率分布。
其中,可以理解的,预先配置了所有主题,对给定网络信息进行主题分类来获得给定网络信息相对所有主题的概率分布,进而将此概率分布中最大概率值对应的主题确定为给定网络信息归属的主题。
在一个示例性实施例的具体实现中,可预先训练分类器来实现主题分类。例如,此分类器可以是支持向量机(Support Vector Machine,简称SVM)。
对于分类器的训练,首先标注百万级别的样本,标注每个样本的主题,比如,一样本属于娱乐主题,另一样本属于科技主题。
然后对每一样本进行分词,得到一系列的词,计算词语的TF-IDF(词频-逆词频),再采用SVM算法进行模型训练即可得到分类器。分类器的输出为某个主题的概率值,范围为0-1。
由预先训练的分类器可以对每一给定网络信息给出所有主题的概率值,其中取最大的概率值为主题相关性得分。
在步骤830中,根据给定网络信息相对所有主题的概率分布计算给定网络信息中主题明确程度的量化值,给定网络信息中主题明确程度的量化值即为给定网络信息的主题特征。
其中,主题明确程度的量化值包括主题相关性得分、被分为多少个主题以及主题熵值。
假定给定网络信息被分为N个主题,每个主题的概率值为p,那么主题熵值可通过下述公式计算得到:
在另一个示例性实施例中,在内容特征维度上,内容描述特征还可以包括关键词的向量。将给定网络信息的内容通过具体词语的向量表示,进而获得质量评估的更高准确率。
在另一个示例性实施例中,由于图片也承载着许多含义,比如,图片描述的是一只猫等。可以通过深度学习而进行图片识别和语义分析,进而输出一个语句,将此语句合并到正文中,使得用于进行质量评估的携带的内容更加丰富,进而用于处理实现质量评估的内容也更加丰富。
图9是根据一示例性实施例示出的实现文章质量评估的总体流程图。在一应用场景下,网络信息可以是文章,通过如上所述的过程,便实现了图9所示的文章质量评估。
通过此应用场景,能够为冷启动文章,即刚存入数据库的资讯文章,不包含任何用户阅读相关的反馈信息。
下述为本发明系统实施例,可以用于执行本发明上述实现实现网络信息质量评估的方法实施例。对于本发明系统实施例中未披露的细节,请参照本发明实现网络信息质量评估的方法实施例。
图10是根据一示例性实施例示出的一种实现网络信息质量评估的系统的框图。该实现网络信息质量评估的系统,如图10所示,包括:获取模块910、特征提取模块930和预测模块950。
获取模块910,用于获取请求进行质量评估的给定网络信。
特征提取模块930,用于在内容特征维度上针对给定网络信息中的标题、正文和图片进行特征提取,获得给定网络信息的内容描述特征。
预测模块950,用于根据内容描述特征进行给定网络信息的质量预测得到所述给定网络信息的质量得分。
在一个示例性实施例中,内容描述特征包括文本特征,文本特征包括标题相关特征,特征提取模块930进一步用于对给定网络信息中的标题,在内容特征维度上进行标题中词所相关的特征以及标题中词与正文之间相关性的提取,获得标题相关特征。
图11是根据一个示例性实施例示出的对特征提取模块的细节进行描述的框图。标题中词所相关的特征包括标题内容量化值,特征提取模块930,如图11所示,可以包括但不限于:主题概率分布运算单元1001和标题内容量化单元1003。
主题概率分布运算单元1001,用于分别对给定网络信息的所有文字和正文进行主题概率分布的运算,获得所有文字和正文分别对应的主题概率分布。
标题内容量化单元1003,用于通过所有文字和正文分别对应的主题概率分布进行标题内容量化值的运算。
图12是根据另一示例性实施例示出的对特征提取模块的细节进行描述的框图。特征提取模块930,如图12所示,可以包括但不限于:实体词获取单元1101、影响因子运算单元1103和相关性运算单元1105。
实体词获取单元1101,用于获取标题中存在的实体词。
影响因子运算单元1103,用于根据实体词在正文中的位置运算得到实体词的词半径影响因子。
相关性运算单元1105,用于根据实体词的词半径影响因子和正文长度计算得到标题中词与正文之间的相关性。
在另一个示例性实施例中,内容描述特征包括文本特征,文本特征包括正文相关特征,特征提取模块930进一步用于在给定网络信息的正文中,从内容特征维度上提取正文长度和图文比例,获得包含正文长度和图文比例的正文相关特征。
在另一个示例性实施例中,内容描述特征包括图片特征,所述特征提取模块930进一步用于对给定网络信息所存在的图片,从内容特征维度上进行图片特征的提取,获得描述给定网络信息中内容质量的图片特征。
图13是根据另一示例性实施例示出的对特征提取模块的细节进行描述的框图。该特征提取模块930,如图13所示,可以包括但不限于:概率分布获得单元931和明确程度量化单元933。
概率分布获得单元931,用于根据给定网络信息进行主题分类获得给定网络信息归属的主题以及给定网络信息相对所有主题的概率分布。
明确程度量化单元933,用于根据给定网络信息相对所有主题的概率分布计算给定网络信息中主题明确程度的量化值,给定网络信息中主题明确程度的量化值即为给定网络信息的主题特征。
可选的,本发明还提供一种服务器,执行图3、图4、图5、图6、图7和图8任一所示的实现网络信息质量评估的方法的全部或者部分步骤,所述服务器包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行:
获取请求进行质量评估的给定网络信息;
在内容特征维度上针对给定网络信息中的标题、正文和图片进行特征提取,获得给定网络信息的内容描述特征;
根据所述内容描述特征进行所述给定网络信息的质量预测得到所述给定网络信息的质量得分。
该实施例中的服务器的处理器执行操作的具体方式已经在有关该实现网络信息质量评估的方法的实施例中执行了详细描述,此处将不做详细阐述说明。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种实现网络信息质量评估的方法,其特征在于,所述方法包括:
获取请求进行质量评估的给定网络信息;
在内容特征维度上针对给定网络信息中的标题、正文和图片进行特征提取,获得给定网络信息的内容描述特征;
所述内容描述特征包括文本特征,所述文本特征包括标题相关特征,所述在内容特征维度上针对给定网络信息中的标题、正文和图片进行特征提取,获得给定网络信息的内容描述特征,包括:
对所述给定网络信息中的标题,在内容特征维度上进行所述标题中词所相关的特征以及所述标题中词与正文之间相关性的提取,获得标题相关特征;
所述标题中词所相关的特征包括标题内容量化值,所述对所述给定网络信息中的标题,在内容特征维度上进行所述标题中词所相关的特征以及所述标题中词与正文之间相关性的提取,获得标题相关特征,包括:
分别对所述给定网络信息的所有文字和正文进行主题概率分布的运算,获得所有文字和正文分别对应的主题概率分布;
通过所有文字和正文分别对应的主题概率分布进行所述标题内容量化值的运算;
根据所述内容描述特征进行所述给定网络信息的质量预测得到所述给定网络信息的质量得分。
2.根据权利要求1所述的方法,其特征在于,所述对所述给定网络信息中的标题,在内容特征维度上进行所述标题中词所相关的特征以及所述标题中词与正文之间相关性的提取,获得标题相关特征,包括:
获取所述标题中存在的实体词;
根据实体词在正文中的位置运算得到所述实体词的词半径影响因子;
根据所述实体词的词半径影响因子和正文长度计算得到所述标题中词与正文之间的相关性。
3.根据权利要求1所述的方法,其特征在于,所述内容描述特征包括文本特征,所述文本特征包括正文相关特征,所述在内容特征维度上针对给定网络信息中的标题、正文和图片进行特征提取,获得给定网络信息的内容描述特征,包括:
在所述给定网络信息的正文中,从内容特征维度上提取正文长度和图文比例,获得包含所述正文长度和图文比例的正文相关特征。
4.根据权利要求1所述的方法,其特征在于,所述内容描述特征包括图片特征,所述在内容特征维度上针对给定网络信息中的标题、正文和图片进行特征提取,获得给定网络信息的内容描述特征,包括:
对所述给定网络信息所存在的图片,从内容特征维度上进行图片特征的提取,获得描述所述给定网络信息中内容质量的图片特征。
5.根据权利要求1所述的方法,其特征在于,所述内容描述特征包括主题特征,所述在内容特征维度上针对给定网络信息中的标题、正文和图片进行特征提取,获得给定网络信息的内容描述特征,包括:
根据所述给定网络信息进行主题分类获得所述给定网络信息归属的主题以及所述给定网络信息相对所有主题的概率分布;
根据所述给定网络信息相对所有主题的概率分布计算所述给定网络信息中主题明确程度的量化值,所述给定网络信息中主题明确程度的量化值即为所述给定网络信息的主题特征。
6.一种实现网络信息质量评估的系统,其特征在于,所述系统包括:
获取模块,用于获取请求进行质量评估的给定网络信息;
特征提取模块,用于在内容特征维度上针对给定网络信息中的标题、正文和图片进行特征提取,获得给定网络信息的内容描述特征;
所述内容描述特征包括文本特征,所述文本特征包括标题相关特征,所述特征提取模块进一步用于对所述给定网络信息中的标题,在内容特征维度上进行所述标题中词所相关的特征以及所述标题中词与正文之间相关性的提取,获得标题相关特征;
所述标题中词所相关的特征包括标题内容量化值,所述特征提取模块包括:
主题概率分布运算单元,用于分别对所述给定网络信息的所有文字和正文进行主题概率分布的运算,获得所有文字和正文分别对应的主题概率分布;
标题内容量化单元,用于通过所有文字和正文分别对应的主题概率分布进行所述标题内容量化值的运算;
预测模块,用于根据所述内容描述特征进行所述给定网络信息的质量预测得到所述给定网络信息的质量得分。
7.根据权利要求6所述的系统,其特征在于,所述特征提取模块包括:
实体词获取单元,用于获取所述标题中存在的实体词;
影响因子运算单元,用于根据实体词在正文中的位置运算得到所述实体词的词半径影响因子;
相关性运算单元,用于根据所述实体词的词半径影响因子和正文长度计算得到所述标题中词与正文之间的相关性。
8.根据权利要求6所述的系统,其特征在于,所述内容描述特征包括文本特征,所述文本特征包括正文相关特征,所述特征提取模块进一步用于在所述给定网络信息的正文中,从内容特征维度上提取正文长度和图文比例,获得包含所述正文长度和图文比例的正文相关特征。
9.根据权利要求6所述的系统,其特征在于,所述内容描述特征包括图片特征,所述特征提取模块进一步用于对所述给定网络信息所存在的图片,从内容特征维度上进行图片特征的提取,获得描述所述给定网络信息中内容质量的图片特征。
10.根据权利要求6所述的系统,其特征在于,所述内容描述特征包括主题特征,所述特征提取模块包括:
概率分布获得单元,用于根据所述给定网络信息进行主题分类获得所述给定网络信息归属的主题以及所述给定网络信息相对所有主题的概率分布;
明确程度量化单元,用于根据所述给定网络信息相对所有主题的概率分布计算所述给定网络信息中主题明确程度的量化值,所述给定网络信息中主题明确程度的量化值即为所述给定网络信息的主题特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710244071.XA CN108733672B (zh) | 2017-04-14 | 2017-04-14 | 实现网络信息质量评估的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710244071.XA CN108733672B (zh) | 2017-04-14 | 2017-04-14 | 实现网络信息质量评估的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108733672A CN108733672A (zh) | 2018-11-02 |
CN108733672B true CN108733672B (zh) | 2023-01-24 |
Family
ID=63924487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710244071.XA Active CN108733672B (zh) | 2017-04-14 | 2017-04-14 | 实现网络信息质量评估的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108733672B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111193795B (zh) * | 2019-12-30 | 2021-07-02 | 腾讯科技(深圳)有限公司 | 信息推送方法及装置、电子设备和计算机可读存储介质 |
CN111311554B (zh) * | 2020-01-21 | 2023-09-01 | 腾讯科技(深圳)有限公司 | 图文内容的内容质量确定方法、装置、设备及存储介质 |
CN113343555B (zh) * | 2021-05-11 | 2022-10-14 | 重庆金美通信有限责任公司 | 一种基于gbdt与lr集成模型的微波通信效能评估方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1503336A2 (en) * | 2003-07-30 | 2005-02-02 | Xerox Corporation | System and method for measuring and quantizing document quality |
CN101448173A (zh) * | 2008-10-24 | 2009-06-03 | 华为技术有限公司 | 网络视频质量评估方法、装置与系统 |
CN102298583A (zh) * | 2010-06-22 | 2011-12-28 | 腾讯科技(深圳)有限公司 | 一种电子公告板网页质量评价方法和系统 |
CN103049637A (zh) * | 2011-10-11 | 2013-04-17 | 塔塔咨询服务有限公司 | 强化社交平台的内容质量和用户参与度的系统和方法 |
CN103440329A (zh) * | 2013-09-04 | 2013-12-11 | 北京邮电大学 | 权威作者和高质量论文推荐系统和推荐方法 |
CN103544257A (zh) * | 2013-10-15 | 2014-01-29 | 北京国双科技有限公司 | 网页质量检测方法和装置 |
CN103699521A (zh) * | 2012-09-27 | 2014-04-02 | 腾讯科技(深圳)有限公司 | 文本分析方法及装置 |
CN104462284A (zh) * | 2014-11-27 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 判定网页质量的方法及系统 |
CN104850642A (zh) * | 2015-05-26 | 2015-08-19 | 广州神马移动信息科技有限公司 | 网络内容质量评价方法和装置 |
US9311363B1 (en) * | 2013-05-15 | 2016-04-12 | Google Inc. | Personalized entity rankings |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070005646A1 (en) * | 2005-06-30 | 2007-01-04 | Microsoft Corporation | Analysis of topic dynamics of web search |
US8793249B2 (en) * | 2008-09-24 | 2014-07-29 | Yahoo! Inc. | Optimization filters for user generated content searches |
US8566360B2 (en) * | 2010-05-28 | 2013-10-22 | Drexel University | System and method for automatically generating systematic reviews of a scientific field |
US9633140B2 (en) * | 2011-02-10 | 2017-04-25 | International Business Machines Corporation | Automated contextual information retrieval based on multi-tiered user modeling and dynamic retrieval strategy |
-
2017
- 2017-04-14 CN CN201710244071.XA patent/CN108733672B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1503336A2 (en) * | 2003-07-30 | 2005-02-02 | Xerox Corporation | System and method for measuring and quantizing document quality |
CN101448173A (zh) * | 2008-10-24 | 2009-06-03 | 华为技术有限公司 | 网络视频质量评估方法、装置与系统 |
CN102298583A (zh) * | 2010-06-22 | 2011-12-28 | 腾讯科技(深圳)有限公司 | 一种电子公告板网页质量评价方法和系统 |
CN103049637A (zh) * | 2011-10-11 | 2013-04-17 | 塔塔咨询服务有限公司 | 强化社交平台的内容质量和用户参与度的系统和方法 |
CN103699521A (zh) * | 2012-09-27 | 2014-04-02 | 腾讯科技(深圳)有限公司 | 文本分析方法及装置 |
US9311363B1 (en) * | 2013-05-15 | 2016-04-12 | Google Inc. | Personalized entity rankings |
CN103440329A (zh) * | 2013-09-04 | 2013-12-11 | 北京邮电大学 | 权威作者和高质量论文推荐系统和推荐方法 |
CN103544257A (zh) * | 2013-10-15 | 2014-01-29 | 北京国双科技有限公司 | 网页质量检测方法和装置 |
CN104462284A (zh) * | 2014-11-27 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 判定网页质量的方法及系统 |
CN104850642A (zh) * | 2015-05-26 | 2015-08-19 | 广州神马移动信息科技有限公司 | 网络内容质量评价方法和装置 |
Non-Patent Citations (3)
Title |
---|
Clairvoyant-push: A real-time news personalized push notifier using topic modeling and social scoring for enhanced reader engagement;Biying Tan等;《2015 IEEE International Conference on Big Data (Big Data)》;20151228;第2913-2915页 * |
Web社会媒体中信息的质量评价及应用研究;韩晓晖;《中国博士学位论文全文数据库 信息科技辑》;20130515;I139-18 * |
垃圾网页检测的关键技术研究;韦莎;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170115;I139-72 * |
Also Published As
Publication number | Publication date |
---|---|
CN108733672A (zh) | 2018-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10387776B2 (en) | Recurrent neural network architectures which provide text describing images | |
US20200327327A1 (en) | Providing a response in a session | |
CN107391760A (zh) | 用户兴趣识别方法、装置及计算机可读存储介质 | |
CN109783631B (zh) | 社区问答数据的校验方法、装置、计算机设备和存储介质 | |
CN110334356B (zh) | 文章质量的确定方法、文章筛选方法、以及相应的装置 | |
US11803731B2 (en) | Neural architecture search with weight sharing | |
CN110909145B (zh) | 针对多任务模型的训练方法及装置 | |
CN109284502B (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
US10915756B2 (en) | Method and apparatus for determining (raw) video materials for news | |
CN108733672B (zh) | 实现网络信息质量评估的方法和系统 | |
CN110569354A (zh) | 弹幕情感分析方法及装置 | |
Garbacea et al. | Judge the judges: A large-scale evaluation study of neural language models for online review generation | |
CN112732974A (zh) | 一种数据处理方法、电子设备及存储介质 | |
US20190019094A1 (en) | Determining suitability for presentation as a testimonial about an entity | |
CN110895656B (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
CN113705792A (zh) | 基于深度学习模型的个性化推荐方法、装置、设备及介质 | |
CN113934835A (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN114330483A (zh) | 数据处理方法及模型训练方法、装置、设备、存储介质 | |
CN113704623B (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
CN109710751A (zh) | 法律文件的智能推荐方法、装置、设备及存储介质 | |
Westbury | Prenominal adjective order is such a fat big deal because adjectives are ordered by likely need | |
Wang et al. | Word intuition agreement among Chinese speakers: a Mechanical Turk-based study | |
CN114048395A (zh) | 基于时间感知与关键信息抽取的用户转发预测方法和系统 | |
Bruchansky | Political footprints: Political discourse analysis using pre-trained word vectors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |