CN104850537B - 对文本内容进行筛选的方法及装置 - Google Patents

对文本内容进行筛选的方法及装置 Download PDF

Info

Publication number
CN104850537B
CN104850537B CN201410053002.7A CN201410053002A CN104850537B CN 104850537 B CN104850537 B CN 104850537B CN 201410053002 A CN201410053002 A CN 201410053002A CN 104850537 B CN104850537 B CN 104850537B
Authority
CN
China
Prior art keywords
text
content
candidate
source
eigenvector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410053002.7A
Other languages
English (en)
Other versions
CN104850537A (zh
Inventor
张红林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410053002.7A priority Critical patent/CN104850537B/zh
Publication of CN104850537A publication Critical patent/CN104850537A/zh
Application granted granted Critical
Publication of CN104850537B publication Critical patent/CN104850537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了对文本内容进行筛选的方法及装置,其中,该方法包括:获取来自不同数据源的至少两个候选文本内容,对每个候选文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第一文本特征向量;获取与候选文本内容关联的标准文本内容,对标准文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第二文本特征向量;计算第一文本特征向量与第二文本特征向量之间的距离,判断计算得到的距离值是否大于距离设定值,如果是,则保留相应的候选文本内容,作为推荐源,否则剔除相应的候选文本内容,作为候选源。本发明方案能够实现自动筛选出优质的文本内容。

Description

对文本内容进行筛选的方法及装置
技术领域
本发明涉及文本信息处理技术,尤其涉及对文本内容进行筛选的方法及装置。
背景技术
通过网络查询目标文本内容时,常存在多个候选文本内容,需要从中筛选出优质的文本内容。所述文本内容例如为小说文本、关于某指定主体的在线文本等;下面以在线阅读小说文本为例进行具体说明。
网络文学最早在互联网上兴起,是一种流行的pc端文字形式。随着网络文学的快速发展,越来越多的网络小说网站涌现。同一本小说往往在很多网站出现,但是各个网站对小说文本的编排质量、杂质程度都不尽相同。实际应用中,常需要对小说文本进行筛选,从中找出优质的小说文本。目前的文本内容筛选方式主要包括以下两种:
方式一、
大部分阅读类产品不对各小说网站的小说内容进行聚合,读者需要分别去各个第三方小说网站上查找网络小说并阅读。
该方式存在以下缺陷:由于第三方小说网站数量庞大,网速、更新速度、内容质量等参差不齐,读者需要耗费大量时间进行人为搜索和甄别,以筛选出优质的网络小说,阅读效率低下。而且往往一本网络小说在甲网站上可以顺利阅读,但另一本网络小说只能去乙网站阅读,造成读者需要记住大量小说网站。
方式二、
部分阅读类产品对各小说网站的小说内容做了简单的内容聚合,为部分目标小说内容提供了相关的小说网站,读者可点击链接,便可访问相应小说网站;这样,读者不需要分开去各个网站上查找小说,只需要从单一入口就可以看到一本书在各个网站上的情况。
该方式存在以下缺陷:这种方案减少了读者的查找时间,但查找后仍需要人为进行筛选,这仍需花费较多的时间;并且,对于一本小说的众多章节还是可能出现某些章节在不同的网站上质量不一致的情况,在阅读一本书的时候可能要进行网站之间的频繁切换,破坏阅读体验的连贯性。
综上,对于存在多个候选文本内容的情形,需要人为参与进行校验,以筛选出优质的文本内容,操作不便,且效率低。
发明内容
本发明提供了一种对文本内容进行筛选的方法,该方法能够实现自动筛选出优质的文本内容。
本发明提供了一种对文本内容进行筛选的装置,该装置能够实现自动筛选出优质的文本内容。
一种对文本内容进行筛选的方法,该方法包括:
获取来自不同数据源的至少两个候选文本内容,对每个候选文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第一文本特征向量;
获取与候选文本内容关联的标准文本内容,对标准文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第二文本特征向量;
计算第一文本特征向量与第二文本特征向量之间的距离,判断计算得到的距离值是否大于距离设定值,如果是,则保留相应的候选文本内容,作为推荐源,否则剔除相应的候选文本内容,作为候选源。
一种对文本内容进行筛选的装置,该装置包括候选文本处理单元、标准文本处理单元和相似运算单元;
所述候选文本处理单元,获取来自不同数据源的至少两个候选文本内容,对每个候选文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第一文本特征向量,发送给所述相似运算单元;
所述标准文本处理单元,获取与候选文本内容关联的标准文本内容,对标准文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第二文本特征向量,发送给所述相似运算单元;
所述相似运算单元,计算第一文本特征向量与第二文本特征向量之间的距离,判断计算得到的距离值是否大于距离设定值,如果是,则保留相应的候选文本内容,作为推荐源,否则剔除相应的候选文本内容,作为候选源。
从上述方案可以看出,本发明中,获取来自不同数据源的至少两个候选文本内容,对每个候选文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第一文本特征向量;获取与候选文本内容关联的标准文本内容,对标准文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第二文本特征向量;计算第一文本特征向量与第二文本特征向量之间的距离,判断计算得到的距离值是否大于距离设定值,如果是,则保留相应的候选文本内容,作为推荐源,否则剔除相应的候选文本内容,作为候选源。采用本发明方案,将自动获取候选文本内容,将候选文本内容与标准文本内容进行相似比较,以确定出优质的文本内容;从而,实现自动筛选出优质的文本内容。这样,无需读者参与进行人为校验,简化了操作,节省了筛选时间,提高了筛选效率。
附图说明
图1为本发明对文本内容进行筛选的方法示意性流程图;
图2为本发明对文本内容进行筛选的方法流程图实例;
图3为本发明对文本内容进行筛选的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明进一步详细说明。
本发明中,自动获取候选文本内容,将候选文本内容与标准文本内容进行相似比较,将相似性高的确定为优质的文本内容;从而,实现对文本内容的自动筛选。参见图1,为本发明对文本内容进行筛选的方法示意性流程图,其包括以下步骤:
步骤101,获取来自不同数据源的至少两个候选文本内容,对每个候选文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第一文本特征向量。
具体地,可以从不同网站获取候选文本内容。权重体现了某个单词在候选文本内容中的重要性。对每个候选文本内容进行分词并确定各单词在相应候选文本内容中的权重,可采用现有的分词算法实现,所述分词算法例如TF-IDF算法。TF-IDF算法是一种统计方法,用以评价某一词对语料库中一个文件的重要程度;采用TF-IDF算法,可以对每个候选文本内容进行分词,并计算出各单词的权重,采用TF-IDF算法计算单词的权重为已有技术,这里不多赘述;而后,可选取权重最高的设定个数的单词,构成一个文本特征向量;所述设定个数根据需要设置,例如为100或500。
步骤102,获取与候选文本内容关联的标准文本内容,对标准文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第二文本特征向量。
针对某一阅读对象,包括标准文本内容和候选文本内容,标准文本内容为已经公布的正版文本内容,无需进行校验,可直接阅读;候选文本内容为未进行校验筛选的文本内容。
以文本内容为小说内容进行具体说明,标准文本内容为已经公布的可免费阅读的正版章节,假设只有前面十章节为正版章节;当前需要进行校验筛选的是第11章节的文本内容,多个网站都发布了免费的第11章节文本内容,这里,候选文本内容也就是从各网站获取的第11章节的文本内容,可以将前面十章正版章节都作为标准文本内容,也可以选择前面部分正版章节作为标准文本内容。
步骤103,计算第一文本特征向量与第二文本特征向量之间的距离,判断计算得到的距离值是否大于距离设定值,如果是,则保留相应的候选文本内容,作为推荐源,否则剔除相应的候选文本内容,作为候选源。
计算两个特征向量之间的距离,可采用现有算法实现,例如余弦相似公式,余弦相似公式为一种根据向量内机计算文本相似程度的算法。
如果推荐源中有一个候选文本内容,则结束流程,得到质量最优的文本内容;如果推荐源中包含至少两个候选文本内容,可以从中选取一个作为质量最优的文本内容。之后,便可根据请求为用户提供筛选后的文本内容,具体地:
接收来自浏览器的关于指定文本标识的读取请求,获取与指定文本标识对应的推荐源和候选源;
将推荐源中的最优文本内容包含在页面中反馈给浏览器,页面中还包含除最优文本内容外的其他各候选文本内容的链接地址。
这样,用户便可直接读取质量最优的文本内容,根据实际需要,用户还可点击页面的其他候选文本内容的链接地址,以读取其他候选文本内容。
进一步地,步骤103之后,该方法还可以包括:
对推荐源中的文本内容进行相似性分类,得到一个或两个分类;如果为两个分类,则分别计算两个分类包含的候选文本内容数量,表示为第一数量和第二数量,判断确定第一数量和第二数量之差是否大于数目设定值,如果是,则从推荐源中剔除包含候选文本内容数量少的分类,将剔除的候选文本内容添加到候选源中;否则,不进行剔除。
相似性分类可采用现有算法实现,例如K-means聚类运算算法,K-means聚类运算算法是一种无监督的自动聚类算法。
进一步地,上述相似性分类处理之后,该方法还可以包括:
确定第一设定维度,根据维度评分算法计算推荐源中各候选文本内容针对第一设定维度的评分值;
从推荐源中剔除评分值小于设定评分值的候选文本内容,将剔除的候选文本内容添加到候选源中。
所述第一设定维度包含至少一个维度,例如文字长度、标点个数、英文字符个数等维度;确定第一设定维度后,便可根据维度评分算法计算出推荐源中各候选文本内容针对第一设定维度的评分值。
维度评分算法可采用现有算法实现,例如朴素贝叶斯评分算法或决策树算法等,朴素贝叶斯算法是基于贝叶斯公式和人工标注样本进行分类的一种机器学习算法。
进一步地,上述进行维度评分算法运算之后,该方法还可以包括:
确定第二设定维度;
针对第二设定维度,选取推荐源中最优的候选文本内容,将推荐源中的其他候选文本内容添加到候选源中。
所述第二设定维度包含至少一个维度,例如文字长度、网站排名等维度;确定第二设定维度后,便可针对第二设定维度,选取推荐源中最优的候选文本内容。
选取推荐源中最优的候选文本内容之后,便可根据请求为用户提供筛选后的文本内容,具体地:
接收来自浏览器的关于指定文本标识的读取请求,获取与指定文本标识对应的推荐源和候选源;
将推荐源中的最优文本内容包含在页面中反馈给浏览器,页面中还包含除最优文本内容以外的其他文本内容的链接地址。
采用本发明方案,将自动获取候选文本内容,将候选文本内容与标准文本内容进行相似比较,以确定出优质的文本内容;从而,实现自动筛选出优质的文本内容。这样,无需读者参与进行人为校验,简化了操作,节省了筛选时间,提高了筛选效率。
下面通过图2的流程,对本发明进行文本内容筛选的方法进行实例说明,本实例中,文本内容具体为小说内容,该流程包括以下步骤:
步骤201,获取来自不同数据源的至少两个候选文本内容,采用TF-IDF算法对每个候选文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第一文本特征向量。
本实例中,假设只有小说的前面十章节为已经公布的可免费阅读的正版章节,前十章的内容即标准文本内容,可以从正版网站获取;当前需要进行校验的是第11章节的文本内容,多个网站都进行了免费公布,但各网站对编排质量、参杂程度都不尽相同,需要从各网站获取第11章节的文本内容,作为候选文本内容,进行筛选。
本实例中,对各网站第11章节的文本内容进行分词,选取权重最高的500个单词,构成第一文本特征向量。
步骤202,获取与候选文本内容关联的标准文本内容,采用TF-IDF算法对标准文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第二文本特征向量。
本实例中,对正版的前10章节的文本内容进行分词,选取权重最高的500个单词,构成第二文本特征向量,作为相应小说的文本特征向量。
步骤203,采用余弦相似公式,计算第一文本特征向量与第二文本特征向量之间的距离,判断计算得到的距离值是否大于距离设定值,如果是,则保留相应的候选文本内容,作为推荐源,否则剔除相应的候选文本内容,作为候选源。
距离值表示了相似度,值越大,越相似;所述距离设定值例如为0.8。
步骤204,采用K-means聚类运算算法,对推荐源中的文本内容进行相似性分类,得到一个或两个分类;如果为两个分类,则分别计算两个分类包含的候选文本内容数量,表示为第一数量和第二数量,确定第一数量和第二数量之差大于数目设定值,从推荐源中剔除包含候选文本内容数量少的分类,将剔除的候选文本内容添加到候选源中。
如果两个分类的数量差距太大,说明其中一个分类的错误较多,将数量少的分类筛选掉,剩下的另一分类投入下一层算法处理。
步骤205,确定第一设定维度,采用朴素贝叶斯评分算法,计算推荐源中各候选文本内容针对第一设定维度的评分值,按照评分值将候选文本内容分为好中差三档。
本实例中,所述第一设定维度包含文字长度、标点个数和英文字符个数,采用朴素贝叶斯评分算法便可计算出各候选文本内容针对第一设定维度的评分值,评分结果可分为好中差三档。
步骤206,从推荐源中剔除评分结果为差的候选文本内容,将剔除的候选文本内容添加到候选源中。
步骤207,确定第二设定维度;针对第二设定维度,选取推荐源中最优的候选文本内容,将推荐源中的其他候选文本内容添加到候选源中。
采用本步骤,可以对推荐源中的候选文本内容进行进一步筛选。确定第二设定维度后,通过简单的比较,便可针对第二设定维度选取推荐源中最优的候选文本内容。
本实例中,所述第二设定维度例如为网站排名,相应地,所述针对第二设定维度,选取推荐源中最优的候选文本内容具体包括:将推荐源中网站排名在第一位的作为最优的候选文本内容。再如,第二设定维度为文字长度和网站排名,相应地,所述针对第二设定维度,选取推荐源中最优的候选文本内容具体包括:首先对所有候选文本内容的文字长度求平均值,将各候选文本内容与平均值相减,将相减值与网站排名相乘,将得到的乘积进行比较,将乘积最小的值作为最优的候选文本内容。推荐源中,可保存具体的文本内容;候选源中,为了节省空间,可采用链接地址方式进行保存,无需保存具体的文本内容
步骤208,接收来自浏览器的关于指定文本标识的读取请求,获取与指定文本标识对应的推荐源和候选源。
当用户需要读取第11章的内容时,点击浏览器显示的关于第11章的入口,向服务器发送关于第11章的读取请求;服务器接收读取请求中,获取第11章的推荐源和候选源。
步骤209,将推荐源中的最优文本内容包含在页面中反馈给浏览器,页面中还包含除最优文本内容以外的其他文本内容的链接地址。
采用本发明方案,装置自动智能选择进行多重算法校验,从众多候选章节里选出一个评分最高的作为默认章节,并在请求时反馈给浏览器展示给读者,减少读者的甄别时间。
参见图3,为本发明对文本内容进行筛选的装置,该装置包括候选文本处理单元、标准文本处理单元和相似运算单元;
所述候选文本处理单元,获取来自不同数据源的至少两个候选文本内容,对每个候选文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第一文本特征向量,发送给所述相似运算单元;
所述标准文本处理单元,获取与候选文本内容关联的标准文本内容,对标准文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第二文本特征向量,发送给所述相似运算单元;
所述相似运算单元,计算第一文本特征向量与第二文本特征向量之间的距离,判断计算得到的距离值是否大于距离设定值,如果是,则保留相应的候选文本内容,作为推荐源,否则剔除相应的候选文本内容,作为候选源。
较佳地,该装置还包括分类运算单元,所述相似运算单元将剔除的候选文本内容作为候选源之后,向所述分类运算单元发送启动指令;
所述分类运算单元,接收启动指令,对推荐源中的文本内容进行相似性分类,得到一个或两个分类;如果为两个分类,则分别计算两个分类包含的候选文本内容数量,表示为第一数量和第二数量,确定第一数量和第二数量之差大于数目设定值,从推荐源中剔除包含候选文本内容数量少的分类,将剔除的候选文本内容添加到候选源中。
较佳地,该装置还包括分类运算单元和评分运算单元;所述相似运算单元将剔除的候选文本内容作为候选源之后,向所述分类运算单元发送启动指令;
所述分类运算单元,接收启动指令,对推荐源中的文本内容进行相似性分类,得到一个或两个分类;如果为两个分类,则分别计算两个分类包含的候选文本内容数量,表示为第一数量和第二数量,确定第一数量和第二数量之差大于数目设定值,从推荐源中剔除包含候选文本内容数量少的分类,将剔除的候选文本内容添加到候选源中,向所述评分运算单元发送启动指令;
所述评分运算单元,接收启动指令,确定第一设定维度,根据维度评分算法计算推荐源中各候选文本内容针对第一设定维度的评分值;从推荐源中剔除评分值小于设定评分值的候选文本内容,将剔除的候选文本内容添加到候选源中。
较佳地,该装置还包括最优文本确定单元,所述评分运算单元从推荐源中剔除评分值小于设定评分值的候选文本内容,将剔除的候选文本内容添加到候选源中之后,向所述最优文本确定单元发送启动指令;
所述最优文本确定单元,接收启动指令,确定第二设定维度;针对第二设定维度,选取推荐源中最优的候选文本内容,将推荐源中的其他候选文本内容添加到候选源中。
较佳地,该装置还包括文本推荐单元,接收来自浏览器的关于指定文本标识的读取请求,获取与指定文本标识对应的推荐源和候选源;将推荐源中的最优文本内容包含在页面中反馈给浏览器,页面中还包含除最优文本内容以外的其他文本内容的链接地址。如果推荐源中只包含一个候选文本内容,则直接将其作为最优文本内容;如果推荐源中包含至少两个候选文本内容,可以从中任意选取一个作为最优文本内容;确定最优文本内容之后,将其他的候选文本内容的链接地址包含在请求页面中,供用户需要时点击。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (9)

1.一种对文本内容进行筛选的方法,其特征在于,该方法包括:
获取来自不同数据源的至少两个候选文本内容,对每个候选文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第一文本特征向量;
获取与候选文本内容关联的标准文本内容,对标准文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第二文本特征向量;
计算第一文本特征向量与第二文本特征向量之间的距离,判断计算得到的距离值是否大于距离设定值,如果是,则保留相应的候选文本内容,作为推荐源,否则剔除相应的候选文本内容,作为候选源;
对推荐源中的文本内容进行相似性分类,得到一个或两个分类;如果为两个分类,则分别计算两个分类包含的候选文本内容数量,表示为第一数量和第二数量,确定第一数量和第二数量之差大于数目设定值,从推荐源中剔除包含候选文本内容数量少的分类,将剔除的候选文本内容添加到候选源中。
2.如权利要求1所述的方法,其特征在于,所述将剔除的候选文本内容添加到候选源中之后,该方法还包括:
确定第一设定维度,根据维度评分算法计算推荐源中各候选文本内容针对第一设定维度的评分值;
从推荐源中剔除评分值小于设定评分值的候选文本内容,将剔除的候选文本内容添加到候选源中。
3.如权利要求2所述的方法,其特征在于,所述从推荐源中剔除评分值小于设定评分值的候选文本内容,将剔除的候选文本内容添加到候选源中之后,该方法还包括:
确定第二设定维度;
针对第二设定维度,选取推荐源中最优的候选文本内容,将推荐源中的其他候选文本内容添加到候选源中。
4.如权利要求3所述的方法,其特征在于,所述对每个候选文本内容数据进行分词包括:采用TF-IDF算法,对每个候选文本内容数据进行分词;
所述计算第一文本特征向量与第二文本特征向量之间的距离包括采用余弦相似公式,计算第一文本特征向量与第二文本特征向量之间的距离;
所述对推荐源中的文本内容进行相似性分类包括:采用K-means聚类运算算法,对推荐源中的文本内容进行相似性分类;
所述维度评分算法包括朴素贝叶斯评分算法或决策树算法。
5.如权利要求4所述的方法,其特征在于,所述将推荐源中的其他候选文本内容添加到候选源中之后,该方法还包括:
接收来自浏览器的关于指定文本标识的读取请求,获取与指定文本标识对应的推荐源和候选源;
将推荐源中的最优文本内容包含在页面中反馈给浏览器,页面中还包含除最优文本内容以外的其他文本内容的链接地址。
6.一种对文本内容进行筛选的装置,其特征在于,该装置包括候选文本处理单元、标准文本处理单元和相似运算单元;
所述候选文本处理单元,获取来自不同数据源的至少两个候选文本内容,对每个候选文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第一文本特征向量,发送给所述相似运算单元;
所述标准文本处理单元,获取与候选文本内容关联的标准文本内容,对标准文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第二文本特征向量,发送给所述相似运算单元;
所述相似运算单元,计算第一文本特征向量与第二文本特征向量之间的距离,判断计算得到的距离值是否大于距离设定值,如果是,则保留相应的候选文本内容,作为推荐源,否则剔除相应的候选文本内容,作为候选源;
该装置还包括分类运算单元,所述相似运算单元将剔除的候选文本内容作为候选源之后,向所述分类运算单元发送启动指令;
所述分类运算单元,接收启动指令,对推荐源中的文本内容进行相似性分类,得到一个或两个分类;如果为两个分类,则分别计算两个分类包含的候选文本内容数量,表示为第一数量和第二数量,确定第一数量和第二数量之差大于数目设定值,从推荐源中剔除包含候选文本内容数量少的分类,将剔除的候选文本内容添加到候选源中。
7.如权利要求6所述的装置,其特征在于,该装置还包括评分运算单元;
所述分类运算单元将剔除的候选文本内容添加到候选源中后,向所述评分运算单元发送启动指令;
所述评分运算单元,接收启动指令,确定第一设定维度,根据维度评分算法计算推荐源中各候选文本内容针对第一设定维度的评分值;从推荐源中剔除评分值小于设定评分值的候选文本内容,将剔除的候选文本内容添加到候选源中。
8.如权利要求7所述的装置,其特征在于,该装置还包括最优文本确定单元,所述评分运算单元从推荐源中剔除评分值小于设定评分值的候选文本内容,将剔除的候选文本内容添加到候选源中之后,向所述最优文本确定单元发送启动指令;
所述最优文本确定单元,接收启动指令,确定第二设定维度;针对第二设定维度,选取推荐源中最优的候选文本内容,将推荐源中的其他候选文本内容添加到候选源中。
9.如权利要求8所述的装置,其特征在于,该装置还包括文本推荐单元,接收来自浏览器的关于指定文本标识的读取请求,获取与指定文本标识对应的推荐源和候选源;将推荐源中的最优文本内容包含在页面中反馈给浏览器,页面中还包含除最优文本内容以外的其他文本内容的链接地址。
CN201410053002.7A 2014-02-17 2014-02-17 对文本内容进行筛选的方法及装置 Active CN104850537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410053002.7A CN104850537B (zh) 2014-02-17 2014-02-17 对文本内容进行筛选的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410053002.7A CN104850537B (zh) 2014-02-17 2014-02-17 对文本内容进行筛选的方法及装置

Publications (2)

Publication Number Publication Date
CN104850537A CN104850537A (zh) 2015-08-19
CN104850537B true CN104850537B (zh) 2017-12-15

Family

ID=53850187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410053002.7A Active CN104850537B (zh) 2014-02-17 2014-02-17 对文本内容进行筛选的方法及装置

Country Status (1)

Country Link
CN (1) CN104850537B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547785B (zh) * 2015-09-22 2020-08-04 阿里巴巴集团控股有限公司 知识库中信息获取方法和系统
CN106056154A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 故障码识别和分类的方法
CN107330592A (zh) * 2017-06-20 2017-11-07 北京因果树网络科技有限公司 一种标的企业对象的筛选方法、装置及计算设备
CN109561326B (zh) * 2017-09-26 2021-02-12 北京国双科技有限公司 一种数据查询方法及装置
CN109840321B (zh) * 2017-11-29 2022-02-01 腾讯科技(深圳)有限公司 文本推荐方法、装置及电子设备
CN109993387A (zh) * 2017-12-29 2019-07-09 Tcl集团股份有限公司 一种基于nlp的自动评分方法及装置、考试系统
CN110750977B (zh) * 2019-10-23 2023-06-02 支付宝(杭州)信息技术有限公司 一种文本相似度计算方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1741012A (zh) * 2004-08-23 2006-03-01 富士施乐株式会社 文本检索装置及方法
CN101923545A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种个性化信息推荐的方法
CN102056335A (zh) * 2009-11-06 2011-05-11 华为技术有限公司 移动搜索方法、装置和系统
CN102147815A (zh) * 2011-04-21 2011-08-10 北京大学 图片搜索方法和图片搜索系统
CN102654881A (zh) * 2011-03-03 2012-09-05 富士通株式会社 用于名称消岐聚类的装置和方法
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
CN102890713A (zh) * 2012-09-20 2013-01-23 浙江大学 一种基于用户当前地理位置和物理环境的音乐推荐方法
CN103309960A (zh) * 2013-05-29 2013-09-18 亿赞普(北京)科技有限公司 一种网络舆情事件多维信息提取的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7567958B1 (en) * 2000-04-04 2009-07-28 Aol, Llc Filtering system for providing personalized information in the absence of negative data

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1741012A (zh) * 2004-08-23 2006-03-01 富士施乐株式会社 文本检索装置及方法
CN101923545A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种个性化信息推荐的方法
CN102056335A (zh) * 2009-11-06 2011-05-11 华为技术有限公司 移动搜索方法、装置和系统
CN102654881A (zh) * 2011-03-03 2012-09-05 富士通株式会社 用于名称消岐聚类的装置和方法
CN102147815A (zh) * 2011-04-21 2011-08-10 北京大学 图片搜索方法和图片搜索系统
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
CN102890713A (zh) * 2012-09-20 2013-01-23 浙江大学 一种基于用户当前地理位置和物理环境的音乐推荐方法
CN103309960A (zh) * 2013-05-29 2013-09-18 亿赞普(北京)科技有限公司 一种网络舆情事件多维信息提取的方法及装置

Also Published As

Publication number Publication date
CN104850537A (zh) 2015-08-19

Similar Documents

Publication Publication Date Title
CN104850537B (zh) 对文本内容进行筛选的方法及装置
US10423648B2 (en) Method, system, and computer readable medium for interest tag recommendation
CN105138653B (zh) 一种基于典型度和难度的题目推荐方法及其推荐装置
US10810499B2 (en) Method and apparatus for recommending social media information
CN104834729B (zh) 题目推荐方法和题目推荐装置
Wang et al. Latent aspect rating analysis without aspect keyword supervision
CN103294778B (zh) 一种推送资讯信息的方法及系统
US20170098165A1 (en) Method and Apparatus for Establishing and Using User Recommendation Model in Social Network
Janssen et al. Model selection for social networks using graphlets
US20140172642A1 (en) Analyzing commodity evaluations
CN109492180A (zh) 资源推荐方法、装置、计算机设备及计算机可读存储介质
US20160055235A1 (en) Determining sentiments of social posts based on user feedback
CN106874314B (zh) 信息推荐的方法和装置
CN111259192A (zh) 音频推荐方法和装置
CN104636371A (zh) 信息推荐方法及设备
CN110334356A (zh) 文章质量的确定方法、文章筛选方法、以及相应的装置
Pichl et al. Combining Spotify and Twitter Data for Generating a Recent and Public Dataset for Music Recommendation.
CN102959539B (zh) 一种业务交叉时的项目推荐方法及系统
CN108959329A (zh) 一种文本分类方法、装置、介质及设备
Zhou et al. Boosting video popularity through keyword suggestion and recommendation systems
CN113961823B (zh) 新闻推荐方法、系统、存储介质及设备
JP2008203933A (ja) カテゴリ作成方法および装置、文書分類方法および装置
Aliannejadi et al. User model enrichment for venue recommendation
Yang et al. Social tag embedding for the recommendation with sparse user-item interactions
JP5416063B2 (ja) コンテンツ推薦装置,コンテンツ推薦プログラムおよびその記録媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190807

Address after: 518057 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Co-patentee after: Tencent cloud computing (Beijing) limited liability company

Patentee after: Tencent Technology (Shenzhen) Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.

TR01 Transfer of patent right