CN110826310A - 一种应用内容质量分析方法及应用内容质量分析装置 - Google Patents
一种应用内容质量分析方法及应用内容质量分析装置 Download PDFInfo
- Publication number
- CN110826310A CN110826310A CN201911055628.0A CN201911055628A CN110826310A CN 110826310 A CN110826310 A CN 110826310A CN 201911055628 A CN201911055628 A CN 201911055628A CN 110826310 A CN110826310 A CN 110826310A
- Authority
- CN
- China
- Prior art keywords
- application
- index
- article
- articles
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种应用内容质量分析方法和应用内容质量分析装置,该方法包括:根据输入的关键字确定相关应用,并确定各所述应用内的文章;分别计算各应用内各文章的有效指数、流量指数以及内容排他性指数;根据所述应用内所有文章的所述有效指数、流量指数和内容排他性指数,分别计算各应用的内容质量指数。本发明可以实现综合性评价应用的内容质量,并且可以在向用户进行应用的个性化推荐时提供一定的决策支撑,帮助用户对应用进行过滤和选择。
Description
技术领域
本发明涉及应用推荐技术领域,具体涉及一种应用内容质量分析方法及应用内容质量分析装置。
背景技术
随着互联网技术的飞速发展,人类的生活和工作越来越依赖于PC(personalcomputer,个人计算机)端应用和移动端应用,应用为人类的生活提供了极大的便利。与此同时,应用市场中各种不同类型的应用呈爆发式增长,在一定程度上满足了用户的各种需求,也为用户提供了更多选择。
目前,海量原创内容型应用如旅游攻略、产品推荐等类型的应用中包含了大量同质化产品,这些同质化的应用功能相同或相似,相互之间可能存在着抄袭、洗稿行为。加之某些应用内的文章大多字数极少、缺乏流量热度等原因,应用的质量参差不齐,这导致用户在使用过程中需要进行过滤和选择,无疑影响了用户的使用体验和原创内容型应用的使用效果。
因此,亟需一种应用内容质量分析方法及应用内容质量分析装置来综合性评价应用的内容质量,在向用户进行应用的个性化推荐时提供一定的决策支撑。
发明内容
为此,本发明提供一种应用内容质量分析方法及应用内容质量分析装置,以解决现有技术中由于海量应用的内容质量参差不齐而导致的用户无法有效过滤和选择的问题。
为了实现上述目的,本发明第一方面提供一种应用内容质量分析方法,该方法包括:
根据输入的关键字确定相关应用,并确定各所述应用内的文章;
分别计算各应用内各文章的有效指数、流量指数以及内容排他性指数;
根据各所述应用内所有文章的所述有效指数、流量指数和内容排他性指数,分别计算各应用的内容质量指数。
优选地,所述根据输入的关键字确定相关应用,并确定各所述应用内的文章,包括:
根据所述关键字确定相关应用的主页链接;
分别确定各主页链接中包含的子链接的数量,所述子链接为所述主页链接对应的应用内的链接;
根据子链接的数量将各应用分类;
根据各应用的类型,获取各应用内的文章。
优选地,所述根据子链接的数量将各应用分类,包括:
响应于所述子链接的数量大于预设的第一阈值,将对应的应用划分为第一类应用;
响应于所述子链接的数量小于或等于所述第一阈值,将对应的应用划分为第二类应用。
优选地,所述计算各应用内各文章的有效指数,包括:
计算所述各应用内各文章的总字数;
根据所述各文章的总字数和预设的第二阈值,分别确定各文章的有效指数。
优选地,所述计算各应用内各文章的流量指数,包括:
分别计算各所述应用内的各文章的分享量、评论量、点赞量和阅读量;
分别确定分享量最大值、评论量最大值、点赞量最大值和阅读量最大值;
根据所述各文章的分享量、评论量、点赞量、阅读量、所述分享量最大值、评论量最大值、点赞量最大值和阅读量最大值以及预设的权重,分别确定各文章的流量指数。
优选地,所述计算各应用内各文章的内容排他性指数,包括:
分别计算各所述应用内任意两篇文章之间的海明距离;
分别针对全部应用内的各文章,确定海明距离在第一范围内,以及海明距离在第二范围内且满足预设条件的文章;
根据海明距离在第一范围内的各文章的海明距离的平均值以及海明距离在第二范围内且满足所述预设条件的各文章的海明距离之和,分别计算各文章的内容排他性指数。
优选地,所述确定海明距离在第二范围内且满足预设条件的文章,包括:针对全部应用内的各文章,确定海明距离在第二范围内的第一文章,从各第一文章中确定发表时间早于当前文章的发表时间的文章。
优选地,所述根据各应用内所有文章的所述有效指数、流量指数和内容排他性指数,分别计算各应用的内容质量指数,包括:
根据各所述应用内各文章的有效指数、流量指数、内容排他性指数和预设的权重计算所述各文章的综合指数;
根据所述各文章的有效指数和内容排他性指数确定所述各文章的最低指数;
分别计算各应用内最低指数小于1的文章的比例,根据各应用内各文章的综合指数和所述最低指数小于1的文章的比例,计算各应用的内容质量指数。
优选地,在所述根据所述有效指数、流量指数和内容排他性指数计算应用的内容质量指数之后还包括:
对所述各应用的内容质量指数排名,并根据所述排名确定待推荐的应用。
为了实现上述目的,本发明第二方面提供一种应用内容质量分析装置,该装置包括确定模块、第一计算模块和第二计算模块,所述确定模块用于,根据输入的关键字确定相关应用,并确定各所述应用内的文章;
所述第一计算模块用于,分别计算各应用内各文章的有效指数、流量指数以及内容排他性指数;
所述第二计算模块用于,根据各所述应用内所有文章的所述有效指数、流量指数和内容排他性指数,分别计算各应用的内容质量指数。
本发明实施例能够达到的有益的技术效果如下:
根据输入的关键字确定相关应用,并确定各所述应用内的文章,分别计算各应用内各文章的有效指数、流量指数以及内容排他性指数,根据所述应用内所有文章的所述有效指数、流量指数和内容排他性指数,分别计算各应用的内容质量指数。本发明可以实现综合性评价应用的内容质量,并且可以在向用户进行应用的个性化推荐时提供一定的决策支撑,帮助用户对应用进行过滤和选择。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。
图1为本发明实施例提供的应用内容质量分析方法的流程示意图;
图2为本发明实施例提供的计算各应用内各文章的有效指数的流程示意图;
图3为本发明实施例提供的计算各应用内各文章的流量指数的流程示意图;
图4为本发明实施例提供的计算各应用内各文章的内容排他性指数的流程示意图;
图5为本发明实施例提供的计算各应用的内容质量指数的流程示意图;
图6a为本发明实施例提供的应用内容质量分析装置的结构示意图之一;
图6b为本发明实施例提供的应用内容质量分析装置的结构示意图之二。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图1所示,本发明提供的一种应用内容质量分析方法,可以包括以下步骤:
步骤S101,根据输入的关键字确定相关应用,并确定各应用内的文章。
在本发明实施例中,应用包括原创内容型应用,例如旅游攻略、产品推荐等类型的网站或APP(Application,智能手机第三方应用程序),需要说明的是,本发明的应用并不包括个人记录的博客网站和网络小说的阅读网站。
关键字可以是表征应用类型的一些词语,例如“旅游网站”和“产品推荐”,通过关键字可以确定相关类型的应用,更改关键字可以确定不同类型的应用。
文章可以是原创内容型应用内的文章,例如某一篇云南旅游路线攻略或者某一篇关于笔记本电脑的推荐文章。在本步骤中,可以利用爬虫程序爬取不同类型的应用内的所有文章内容。以输入的关键字为“旅游网站”为例,可以确定相关的应用有途牛、马蜂窝、去哪儿、携程等,进而可以根据爬虫程序确定这些应用内的所有文章内容。
步骤S102,分别计算各应用内各文章的有效指数、流量指数以及内容排他性指数。
爬虫程序可以爬取文章所在的网页链接内的所有内容,爬取文章后,可以获得文章的所有文字内容和流量数据(例如点赞量和转发量)。
在本发明实施例中,有效指数表征文章的有效性,可以根据文章的长度来计算。流量指数表征文章的网络热度,可以根据一些表征文章网络热度的流量数据来计算。内容排他性指数表征文章的相似性,可以根据文章之间文字的相似度来计算。
步骤S103,根据各应用内所有文章的有效指数、流量指数和内容排他性指数,分别计算各应用的内容质量指数。
可以综合应用内所有文章的有效指数、流量指数和内容排他性指数,来评价应用的内容质量。
根据应用内所有文章的有效指数、流量指数和内容排他性指数,分别计算各应用的内容质量指数,可以从应用内文章的有效性、网络热度和相似性等方面综合分析应用的内容质量。进而可以根据应用的内容质量指数进行相关应用筛选、推荐等操作。
通过上述步骤S101-S103可以看出,在本发明中,根据输入的关键字确定相关应用,并确定各所述应用内的文章,分别计算各应用内各文章的有效指数、流量指数以及内容排他性指数,根据所述应用内所有文章的所述有效指数、流量指数和内容排他性指数,分别计算各应用的内容质量指数。本发明可以实现综合性评价应用的内容质量,并且可以在向用户进行应用的个性化推荐时提供一定的决策支撑,帮助用户对应用进行过滤和选择。
进一步地,本发明中根据输入的关键字确定相关应用,并确定各应用内的文章,可以包括以下步骤:根据关键字确定相关应用的主页链接;分别确定各主页链接中包含的子链接的数量,子链接为主页链接对应的应用内的链接;根据子链接的数量将各应用分类;根据各应用的类型,获取各应用内的文章。
在本发明实施例中,可以建立自动化数据采集流程,利用爬虫程序获取关键字的相关应用的主页链接。具体的,在搜索引擎上输入关键字,可以获得大量相关的行业网站或APP的网页链接,爬取所有网页的链接。通常,网页地址中顶级域名后面没有跟随网站目录的网页链接(例如“www.tuniu.com”),可以视为是应用的官网主页链接。可以利用正则筛选器,将相关应用的主页链接筛选出来。
筛选出主页链接后,可以根据搜索的关键字和相关的主页链接建立字典(Key,value)。Key是指输入的关键字,valve是指主页链接中的二级域名(例如www.tuniu.com中的tuniu),并对字典中相同的键值对去重。
在本发明实施例中,可以利用爬虫程序,自动化深入获取应用内的子链接数。通常,地址中二级域名相同的网页链接可以视为是同一应用内的链接,例如“http://www.tuniu.com/trips/31191618”、“http://go.tuniu.com/”和“http://www.tuniu.com/”都是途牛内的链接,前两者可以认为是后者的子链接。具体的,以途牛网站为例,根据爬虫程序,首先获取主页链接http://www.tuniu.com/的后台格式<a href>里域名包括“tuniu”的子链接,进一步地层层获取各个子链接中的其他子链接,最终获取途牛网站中所有的子链接并去重。
通常应用可以包括PC端版本和移动终端(例如手机终端)版本,同时包括PC端版本和移动终端版本的应用相较于只包括移动终端版本的应用,所包括的子链接数量一般更多。因此,可以根据子链接的数量将各应用分类,将同时包括PC端版本和移动终端版本的应用与只包括移动终端版本的应用区分开来。
对于同时包括PC端版本和移动终端版本的应用,只需要采集PC端版本的应用的文章内容。具体的,可以针对不同的应用,建立匹配其页面格式的爬虫程序,自动化迭代爬取并保存各应用内的文章内容。
对于只包括移动终端版本的应用,则需要配合终端下载相应的应用,采集移动终端版本的应用的文章内容。具体的,可以针对不同的应用,建立模拟器环境,自动化下载应用并注册和验证,进而自动化迭代爬取并保存各应用内的文章内容。
进一步地,本发明中根据子链接的数量将各应用分类,可以包括以下步骤:响应于子链接的数量大于预设的第一阈值,将对应的应用划分为第一类应用;响应于子链接的数量小于或等于第一阈值,将对应的应用划分为第二类应用。
在本发明实施例中,可以根据实际情况,设置预设的第一阈值,若子链接的数量大于预设的第一阈值,可以认为该应用同时包括PC端版本和移动终端版本,则将该应用划分为第一类应用,若子链接的数量小于或等于预设第一阈值,可以认为该应用只包括移动终端版本,则将该应用划分为第二类应用。需要说明的是,本发明对预设第一阈值的具体数值并不做特殊的限定,可以根据实际情况进行调整。
进一步地,如图2所示,本发明中计算各应用内各文章的有效指数,可以包括以下步骤:
步骤S201,计算各应用内各文章的总字数。
步骤S202,根据各文章的总字数和预设的第二阈值,分别确定各文章的有效指数。
在本发明实施例中,可以根据实际情况,设置预设的第二阈值,通过比较文章的总字数和预设第二阈值的大小关系,来确定文章的有效指数。需要说明的是,本发明包括但不限于将有效指数设置为0或1。
进一步地,如图3所示,本发明中计算各应用内各文章的流量指数,可以包括以下步骤:
步骤S301,分别计算各应用内的各文章的分享量、评论量、点赞量和阅读量。
具体的,可以根据爬取的文章内容,进一步计算文章的分享量、评论量、点赞量和阅读量,根据这些指标来综合评价文章的流量热度。针对不同的应用,计算每个应用内每一篇文章的分享量、评论量、点赞量和阅读量。
步骤S302,分别确定分享量最大值、评论量最大值、点赞量最大值和阅读量最大值。
具体的,可以确定每个应用内所有文章的分享量之中的最大值,即为分享量最大值,同理可确定每个应用内所有文章之中的评论量最大值、点赞量最大值和阅读量最大值。针对不同的应用,则分别确定应用内所有文章之中的评论量最大值、点赞量最大值和阅读量最大值。
步骤S303,根据各文章的分享量、评论量、点赞量、阅读量、分享量最大值、评论量最大值、点赞量最大值和阅读量最大值以及预设的权重,分别确定各文章的流量指数。
具体的,针对每个应用内的每篇文章,根据该文章的分享量、评论量、点赞量、阅读量,以及该应用内所有文章之中的分享量最大值、评论量最大值、点赞量最大值和阅读量最大值以及预设的权重,可以确定该文章的分享系数、评论系数、点赞系数和阅读系数。例如,某个应用内所有文章之中的分享量最大值为N,该应用内某文章的分享量为K,则该文章的分享系数=K/N,同理可算该文章的评论系数、点赞系数和阅读系数。
在本发明实施例中,可以认为分享量、评论量、点赞量、阅读量在影响文章的流量热度时发挥的重要性是逐渐减小的。例如,可以将分享量、评论量、点赞量、阅读量对应的权重分别设置为P1、P2、P3、P4,则确定各文章的流量指数采用的公式可以是:流量指数=1+(分享系数*P1+评论系数*P2+点赞系数*P3+阅读系数*P4)。需要说明的是,本发明对P1、P2、P3、P4的具体数值并不做特殊限定。
进一步地,如图4所示,本发明中计算各应用内各文章的内容排他性指数,可以包括以下步骤:
步骤S401,分别计算各应用内任意两篇文章之间的海明距离。
在本发明实施例中,可以采用SIMHASH(相似哈希)算法中的部分流程来计算两篇文章之间的海明距离。具体的,第一步,分别对各应用内各文章的文字内容进行分词处理,得到一系列词汇,并去除无意义的语气助词如“的”和“啊”等。第二步,计算每个词汇的哈希值,通过哈希算法,可以将一串数据进行杂糅,最后输出一段固定长度的二进制0、1字符串,最终每个词汇都对应了一个哈希值。第三步,对每个词汇的哈希值进行加权,计算每个词汇在这篇文章中出现的次数,将次数作为词汇对应的权重,即将哈希值中1的部分进行正加权,0的部分进行负加权。例如,某篇文章中,“派驻”出现了4次,其哈希值为10011,将哈希值加权后得到“4,-4,-4,4,4”。第四步,对一篇文章的所有词汇进行合并,即对所有词汇的加权值的相同位置的数字进行加减法运算,例如,两个词汇“5,-5,5,5,-5”和“3,-3,-3,-3,3”合并后可得到“8,-8,2,2,-2”。第五步,对一篇文章加权后的数字串进行降维处理,即将数字串中正数的部分变为1,负数的部分变为0,例如,对“8,-8,2,2,-2”降维后可得到10110。
通过以上步骤,可以分别获得各应用内各文章的一个字符串即SIMHASH签名。根据每篇文章的SIMHASH签名,可以计算所有应用内的任意两篇文章之间的海明距离,即两篇文章的SIMHASH签名之中0、1不同位的个数。具体的,可以对任意两篇文章的SIMHASH签名中的每一个相同位的两个数字进行异或计算,统计异或计算结果中数字1的个数,即为这两篇文章之间的海明距离。
在本发明实施例中,针对每个应用的每篇文章,可以将两个SIMHASH签名的异或结果之中1的个数计做Count1K,K为第K篇与该文章一同参与计算的文章,即计算第K篇文章与当前文章的海明距离并计作Count1K。如果所有应用内共有N篇文章,则针对每个应用的每篇文章,都有(N-1)个的Count1K值,K的取值是[1,N-1]中的任意自然数。
步骤S402,分别针对全部应用内的各文章,确定海明距离在第一范围内,以及海明距离在第二范围内且满足预设条件的文章。
在本发明实施例中,可以将第一范围设置为(3,10],可以将第二范围设置为[0,3]。具体的,以同一关键字的两个应用内共有10篇文章的情况为例,针对其中一个应用的其中一篇文章,则有9个Count1K值,其中K的取值是[1,9]中的任意自然数,从这9个Count1K值中筛选出第一范围内和第二范围内且满足预设条件的Count1K值。需要说明的是,本发明对第一范围和第二范围并不仅限于(3,10]和[0,3],可以根据实际情况进行调整。
针对所有应用内的每一篇文章,分别筛选出符合上述要求的所有文章。
步骤S403,根据海明距离在第一范围内的各文章的海明距离的平均值以及海明距离在第二范围内且满足预设条件的各文章的海明距离之和,分别计算各文章的内容排他性指数。
针对每个应用的每篇文章,根据筛选出来的文章与该文章的海明距离,即可计算第一范围内的各文章的海明距离的平均值和第二范围内且满足所述预设条件的各文章的海明距离之和,可以用上述平均值与和的比值来表示该文章的内容排他性指数。以针对某一篇文章筛选出7篇文章为例,这7篇文章与该文章的海明距离分别是:2、2、3、4、4、5、6,即在第一范围内的海明距离的平均值是:(4+4+5+6)/4=4.75,在第二范围内且满足预设条件的海明距离的和是:(2+2+3)=7。进一步可计算该文章的内容排他性指数R=4.75/7≈0.68。
进一步地,本发明中确定海明距离在第二范围内且满足预设条件的文章,可以包括以下步骤:针对全部应用内的各文章,确定海明距离在第二范围内的第一文章,从各第一文章中确定发表时间早于当前文章的发表时间的文章。
具体的,针对每个应用内的每篇文章,可以先筛选出所有在区间[0,3]之间的Count1K值(即海明距离),这些Count1K值对应的文章为第一文章,然后从所有的第一文章中将发表时间早于当前文章的发表时间文章筛选出来。最终筛选出来的文章就是海明距离在第二范围内且满足预设条件的文章。
进一步地,如图5所示,本发明中根据各应用内所有文章的有效指数、流量指数和内容排他性指数,分别计算各应用的内容质量指数,可以包括以下步骤:
步骤S501,根据各应用内各文章的有效指数、流量指数、内容排他性指数和预设的权重计算各文章的综合指数。
在本发明实施例中,计算一篇文章的综合指数,需要根据这篇文章的三个指数计算获得,可以为文章的流量指数和内容排他性指数分别赋予权重为Q1和Q2,则计算该文章的综合指数采用的公式可以是:综合指数=有效指数*(有效指数*Q1+内容排他性指数*Q2)。需要说明的是,本发明对Q1和Q2的具体数值并不做特殊限定。同理,针对每个应用的每篇文章,都可以计算这篇文章的综合指数。
步骤S502,根据各文章的有效指数和内容排他性指数确定各文章的最低指数。
在本发明实施例中,可以认为至少需要从一篇文章的有效指数和内容排他性指数这两方面来评价这篇文章的内容质量,因此文章的最低指数可以是有效指数和内容排他性指数之中的最小值。同理,针对每个应用的每篇文章,都可以确定这篇文章的最低指数。
步骤S503,分别计算各应用内最低指数小于1的文章的比例,根据各应用内各文章的综合指数和最低指数小于1的文章的比例,计算各应用的内容质量指数。
在本发明实施例中,针对每个应用,首先统计这个应用内最低指数小于1的文章的数量,并集合这个应用内所有文章的总数量,计算最低指数小于1的文章的比例。然后计算这个应用内所有文章的最低指数的平均值。计算应用的内容质量指数采用的公式可以是:内容质量指数=(应用内所有文章的综合指数之和/总文章数)*(应用内最低指数小于1的文章数/总文章数)*100%。同理,针对每个应用,都可以根据应用内所有文章的综合指数和最低指数小于1的文章的比例,计算这个应用的内容质量指数。
在本发明实施例中,应用的内容质量指数表征该应用内的文章有多少百分比的内容是有效、高质量的。
进一步地,本发明中在根据有效指数、流量指数和内容排他性指数计算应用的内容质量指数之后还可以包括以下步骤:对各应用的内容质量指数排名,并根据排名确定待推荐的应用。
在本发明实施例中,可以针对不同关键字的相关应用,构建同类型的内容质量排行榜,当需要根据用户的偏好类型为用户推荐应用时,根据排行榜确定具体推荐哪些应用。可以推荐排行榜上前几名的应用,也可以推荐排行榜上内容质量指数在某一个范围内的所有应用。
在本发明实施例中,还可以定时重复应用内容质量分析方法的流程,重新进行应用排名,为用户提供最新的决策支撑。
基于相同的技术构思,本发明实施例还提供一种应用内容质量分析装置,如图6a所示,该装置可以包括确定模块601、第一计算模块602和第二计算模块603,确定模块601用于,根据输入的关键字确定相关应用,并确定各应用内的文章。
第一计算模块602用于,分别计算各应用内各文章的有效指数、流量指数以及内容排他性指数。
第二计算模块603用于,根据应用内所有文章的有效指数、流量指数和内容排他性指数,分别计算各应用的内容质量指数。
进一步地,确定模块601用于,根据所述关键字确定相关应用的主页链接;分别确定各主页链接中包含的子链接的数量,所述子链接为所述主页链接对应的应用内的链接;根据子链接的数量将各应用分类;根据各应用的类型,获取各应用内的文章。
进一步地,确定模块601用于,响应于所述子链接的数量大于预设的第一阈值,将对应的应用划分为第一类应用;响应于所述子链接的数量小于或等于所述第一阈值,将对应的应用划分为第二类应用。
进一步地,第一计算模块602用于,计算所述各应用内各文章的总字数;根据所述各文章的总字数和预设的第二阈值,分别确定各文章的有效指数。
进一步地,第一计算模块602用于,分别计算各所述应用内的各文章的分享量、评论量、点赞量和阅读量;分别确定分享量最大值、评论量最大值、点赞量最大值和阅读量最大值;根据所述各文章的分享量、评论量、点赞量、阅读量、所述分享量最大值、评论量最大值、点赞量最大值和阅读量最大值以及预设的权重,分别确定各文章的流量指数。
进一步地,第一计算模块602用于,分别计算各所述应用内任意两篇文章之间的海明距离;分别针对全部应用内的各文章,确定海明距离在第一范围,以及海明距离在第二范围内且满足预设条件的文章;根据海明距离在第一范围内的各文章的海明距离的平均值以及海明距离在第二范围内且满足所述预设条件的各文章的海明距离之和,分别计算各文章的内容排他性指数。
进一步地,第一计算模块602用于,针对全部应用内的各文章,确定海明距离在第二范围内的第一文章,从各第一文章中确定发表时间早于当前文章的发表时间的文章。
进一步地,第二计算模块603用于,根据各所述应用内各文章的有效指数、流量指数、内容排他性指数和预设的权重计算所述各文章的综合指数;根据所述各文章的有效指数和内容排他性指数确定所述各文章的最低指数;分别计算各应用内最低指数小于1的文章的比例,根据各应用内各文章的综合指数和所述最低指数小于1的文章的比例,计算各应用的内容质量指数。
进一步地,如图6b所示,本发明实施例提供的一种应用内容质量分析装置,还可以包括推荐模块604,推荐模块604用于,对所述各应用的内容质量指数排名,并根据所述排名确定待推荐的应用。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (10)
1.一种应用内容质量分析方法,其特征在于,所述方法包括:
根据输入的关键字确定相关应用,并确定各所述应用内的文章;
分别计算各应用内各文章的有效指数、流量指数以及内容排他性指数;
根据各所述应用内所有文章的所述有效指数、流量指数和内容排他性指数,分别计算各应用的内容质量指数。
2.根据权利要求1所述的应用内容质量分析方法,其特征在于,所述根据输入的关键字确定相关应用,并确定各所述应用内的文章,包括:
根据所述关键字确定相关应用的主页链接;
分别确定各主页链接中包含的子链接的数量,所述子链接为所述主页链接对应的应用内的链接;
根据子链接的数量将各应用分类;
根据各应用的类型,获取各应用内的文章。
3.根据权利要求2所述的应用内容质量分析方法,其特征在于,所述根据子链接的数量将各应用分类,包括:
响应于所述子链接的数量大于预设的第一阈值,将对应的应用划分为第一类应用;
响应于所述子链接的数量小于或等于所述第一阈值,将对应的应用划分为第二类应用。
4.根据权利要求1所述的应用内容质量分析方法,其特征在于,所述计算各应用内各文章的有效指数,包括:
计算所述各应用内各文章的总字数;
根据所述各文章的总字数和预设的第二阈值,分别确定各文章的有效指数。
5.根据权利要求1所述的应用内容质量分析方法,其特征在于,所述计算各应用内各文章的流量指数,包括:
分别计算各所述应用内的各文章的分享量、评论量、点赞量和阅读量;
分别确定分享量最大值、评论量最大值、点赞量最大值和阅读量最大值;
根据所述各文章的分享量、评论量、点赞量、阅读量、所述分享量最大值、评论量最大值、点赞量最大值和阅读量最大值以及预设的权重,分别确定各文章的流量指数。
6.根据权利要求1所述的应用内容质量分析方法,其特征在于,所述计算各应用内各文章的内容排他性指数,包括:
分别计算各所述应用内任意两篇文章之间的海明距离;
分别针对全部应用内的各文章,确定海明距离在第一范围内,以及海明距离在第二范围内且满足预设条件的文章;
根据海明距离在第一范围内的各文章的海明距离的平均值以及海明距离在第二范围内且满足所述预设条件的各文章的海明距离之和,分别计算各文章的内容排他性指数。
7.根据权利要求6所述的应用内容质量分析方法,其特征在于,所述确定海明距离在第二范围内且满足预设条件的文章,包括:针对全部应用内的各文章,确定海明距离在第二范围内的第一文章,从各第一文章中确定发表时间早于当前文章的发表时间的文章。
8.根据权利要求1所述的应用内容质量分析方法,其特征在于,所述根据各应用内所有文章的所述有效指数、流量指数和内容排他性指数,分别计算各应用的内容质量指数,包括:
根据各所述应用内各文章的有效指数、流量指数、内容排他性指数和预设的权重计算所述各文章的综合指数;
根据所述各文章的有效指数和内容排他性指数确定所述各文章的最低指数;
分别计算各应用内最低指数小于1的文章的比例,根据各应用内各文章的综合指数和所述最低指数小于1的文章的比例,计算各应用的内容质量指数。
9.根据权利要求1-8任意一项所述的应用内容质量分析方法,其特征在于,在所述根据所述有效指数、流量指数和内容排他性指数计算应用的内容质量指数之后还包括:
对所述各应用的内容质量指数排名,并根据所述排名确定待推荐的应用。
10.一种应用内容质量分析装置,其特征在于,所述装置包括确定模块、第一计算模块和第二计算模块,所述确定模块用于,根据输入的关键字确定相关应用,并确定各所述应用内的文章;
所述第一计算模块用于,分别计算各应用内各文章的有效指数、流量指数以及内容排他性指数;
所述第二计算模块用于,根据各所述应用内所有文章的所述有效指数、流量指数和内容排他性指数,分别计算各应用的内容质量指数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911055628.0A CN110826310B (zh) | 2019-10-31 | 2019-10-31 | 一种应用内容质量分析方法及应用内容质量分析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911055628.0A CN110826310B (zh) | 2019-10-31 | 2019-10-31 | 一种应用内容质量分析方法及应用内容质量分析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110826310A true CN110826310A (zh) | 2020-02-21 |
CN110826310B CN110826310B (zh) | 2023-05-09 |
Family
ID=69551938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911055628.0A Active CN110826310B (zh) | 2019-10-31 | 2019-10-31 | 一种应用内容质量分析方法及应用内容质量分析装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110826310B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111552824A (zh) * | 2020-04-26 | 2020-08-18 | 杭州哔次元科技有限公司 | 一种基于用户习惯的漫画推荐系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101582086A (zh) * | 2009-06-11 | 2009-11-18 | 腾讯科技(深圳)有限公司 | 获取博客质量信息的方法和装置 |
US20130204871A1 (en) * | 2012-02-08 | 2013-08-08 | Glam Media, Inc. | Method and apparatus for social content curation and ranking |
CN106708817A (zh) * | 2015-07-17 | 2017-05-24 | 腾讯科技(深圳)有限公司 | 信息搜索方法及装置 |
CN108228745A (zh) * | 2017-12-19 | 2018-06-29 | 北京荣之联科技股份有限公司 | 一种基于协同过滤优化的推荐算法和装置 |
CN110163525A (zh) * | 2019-05-29 | 2019-08-23 | 中国联合网络通信集团有限公司 | 终端推荐方法和终端推荐系统 |
CN110321262A (zh) * | 2018-03-28 | 2019-10-11 | 腾讯科技(深圳)有限公司 | 应用内容监控方法、装置及终端 |
CN110334356A (zh) * | 2019-07-15 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 文章质量的确定方法、文章筛选方法、以及相应的装置 |
-
2019
- 2019-10-31 CN CN201911055628.0A patent/CN110826310B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101582086A (zh) * | 2009-06-11 | 2009-11-18 | 腾讯科技(深圳)有限公司 | 获取博客质量信息的方法和装置 |
US20130204871A1 (en) * | 2012-02-08 | 2013-08-08 | Glam Media, Inc. | Method and apparatus for social content curation and ranking |
CN106708817A (zh) * | 2015-07-17 | 2017-05-24 | 腾讯科技(深圳)有限公司 | 信息搜索方法及装置 |
CN108228745A (zh) * | 2017-12-19 | 2018-06-29 | 北京荣之联科技股份有限公司 | 一种基于协同过滤优化的推荐算法和装置 |
CN110321262A (zh) * | 2018-03-28 | 2019-10-11 | 腾讯科技(深圳)有限公司 | 应用内容监控方法、装置及终端 |
CN110163525A (zh) * | 2019-05-29 | 2019-08-23 | 中国联合网络通信集团有限公司 | 终端推荐方法和终端推荐系统 |
CN110334356A (zh) * | 2019-07-15 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 文章质量的确定方法、文章筛选方法、以及相应的装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111552824A (zh) * | 2020-04-26 | 2020-08-18 | 杭州哔次元科技有限公司 | 一种基于用户习惯的漫画推荐系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110826310B (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11847612B2 (en) | Social media profiling for one or more authors using one or more social media platforms | |
Arguello et al. | Document representation and query expansion models for blog recommendation | |
US8122049B2 (en) | Advertising service based on content and user log mining | |
CN108287821B (zh) | 一种高质量文本筛选方法、装置及电子设备 | |
US20090271391A1 (en) | Method and apparatus for rating user generated content in seach results | |
US20120290551A9 (en) | System And Method For Identifying Trending Targets Based On Citations | |
CN102073699A (zh) | 用于基于用户行为来改善搜索结果的方法、装置和设备 | |
US20120284253A9 (en) | System and method for query suggestion based on real-time content stream | |
CN104268142B (zh) | 基于可拒绝策略的元搜索结果排序方法 | |
US10311072B2 (en) | System and method for metadata transfer among search entities | |
CN103577504A (zh) | 一种投放个性化内容的方法和装置 | |
US8682892B1 (en) | Ranking search results | |
Moya et al. | Integrating web feed opinions into a corporate data warehouse | |
WO2016137690A1 (en) | Efficient retrieval of fresh internet content | |
US20120278298A9 (en) | System and method for query temporality analysis | |
Suzuki et al. | Assessing quality score of Wikipedia article using mutual evaluation of editors and texts | |
KR102718286B1 (ko) | 검열된 미디어 코퍼스에의 통합을 위한 미디어 소스 측정 | |
CN110826310B (zh) | 一种应用内容质量分析方法及应用内容质量分析装置 | |
Jain et al. | Ranking web pages based on user interaction time | |
CN105095450A (zh) | 一种用于确定用户移动互联网访问兴趣点的方法 | |
CN110442801B (zh) | 一种目标事件的关注用户的确定方法及装置 | |
CN111460181A (zh) | 多媒体资源推荐方法、电子设备及存储介质 | |
Zhang et al. | Estimating online review helpfulness with probabilistic distribution and confidence | |
US11113299B2 (en) | System and method for metadata transfer among search entities | |
WO2011159646A1 (en) | A system and method for determining quality of cited objects in search results based on the influence of citing subjects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |