CN106294785A - 内容筛选方法以及系统 - Google Patents

内容筛选方法以及系统 Download PDF

Info

Publication number
CN106294785A
CN106294785A CN201610665956.2A CN201610665956A CN106294785A CN 106294785 A CN106294785 A CN 106294785A CN 201610665956 A CN201610665956 A CN 201610665956A CN 106294785 A CN106294785 A CN 106294785A
Authority
CN
China
Prior art keywords
content
resource
article
content selection
selection result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610665956.2A
Other languages
English (en)
Inventor
林雪清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Innovation Information Technology Co Ltd
Original Assignee
Beijing Innovation Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Innovation Information Technology Co Ltd filed Critical Beijing Innovation Information Technology Co Ltd
Priority to CN201610665956.2A priority Critical patent/CN106294785A/zh
Publication of CN106294785A publication Critical patent/CN106294785A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种内容筛选方法及系统。该内容筛选方法,包括:基于用户的内容请求在内容资源中进行筛选从而生成内容筛选结果;基于内容资源质量评分对所生成的内容筛选结果进行排序处理;以及将经排序处理的内容筛选结果生成为最终内容筛选结果。

Description

内容筛选方法以及系统
技术领域
本申请涉及网络通信技术领域,更具体地,涉及应用内容筛选方法以及系统。
背景技术
随着网络通信技术的迅速发展,各种内容(例如,文章、代码、下载资源、电子书、视频、软件、手机App等等)的电子化越来越普遍,通过网络获取各种电子资源也越来越便利。随之而来的是涌现在网络上的各种各样的电子资源库,用户可以在这些资源库中搜索所需要的资源。
由于资源的类型和数量庞杂,通过原始的人工筛选方式来获得所需内容速度缓慢且精确度偏低,显然已经无法满足用户的各种需求。当前,已经存在一些用于筛选内容的方法和系统,例如,通过对文字内容的电子资源进行关键字/词索引来实现筛选与之相关的资源。
在极大量的内容资源充斥于网络中的今天,内容资源的质量参差不齐,用户通常希望能够筛选到的内容是优质的,而现有的内容筛选方法和系统对所筛选的内容质量缺少评估,用户无法直接获取到所需的优质内容资源,而是需要逐个浏览,即由用户自身人工地进行评估从而进一步筛选和获取优质内容。这种筛选需要耗费大量时间并且由此大大影响了用户的使用体验。
在背景技术中公开的上述信息仅用于加强对本发明的背景的理解,因此其可能包含没有形成为本领域普通技术人员所知晓的现有技术的信息。
发明内容
针对现有技术存在的上述问题中的一个或多个,本发明提出一种内容筛选 方法以及系统,以至少解决现有技术中存在的问题。
根据本申请的一个方面,提供一种内容筛选方法,包括:基于用户的内容请求在内容资源中进行筛选从而生成内容筛选结果;基于内容资源质量评分对所生成的内容筛选结果进行排序处理;以及将经排序处理的内容筛选结果生成为最终内容筛选结果。
如上所述的内容筛选方法,其中生成内容筛选结果包括以下步骤:基于用户的第一内容请求生成第一内容筛选结果;以及基于用户的第二内容请求生成第二内容筛选结果,其中所述第二内容筛选结果基于所述第一内容筛选结果以及所述第二内容请求的结合而生成。
如上所述的内容筛选方法,其中所述第一内容请求具有索引,并且所述第二内容请求不具有索引。
如上所述的内容筛选方法,其中所述内容资源为文章,所述具有索引的第一内容请求包括文章的标题、作者和/或正文。
如上所述的内容筛选方法,其中所述内容资源为文章,所述不具有索引的第二内容请求包括文章的浏览量、下载量、顶踩数和/或创建时间。
如上所述的内容筛选方法,进一步包括在所述排序处理之前对所生成的内容筛选结果进行去重处理。
如上所述的内容筛选方法,其中所述去重处理包括以下步骤:针对所生成的内容筛选结果中的两个或更多个内容资源计算内容相似度S;将所述内容相似度S与相似度阈值S0进行比较;当S≥S0时,确定所述两个或更多个内容资源为相似,并将所述两个或更多个内容资源删除为一个。
如上所述的内容筛选方法,其中所述相似度阈值为0.7。
如上所述的内容筛选方法,其中所述内容资源为IT技术类文章资源,所述内容资源质量评分基于以下评价参数中的一个或多个而获得:文章中的中文 字数、文章中的英文字数、文章所包含的代码中的中文字数、文章所包含的代码中的英文字数以及文章中的图片数。
如上所述的内容筛选方法,其中所述内容资源质量评分通过如下公式计算:
SP=(max(NC,4000)/200*0.4+max(NE,800)/40*0.1+max(NCC,500)/20*0.1+max(NCE,1000)/50*0.2+max(NF,15)/1*0.2),
其中,SP为内容资源质量评分,NC为文章中的中文字数、NE为文章中的英文字数、NCC为文章所包含代码中的中文字数、NCE为文章所包含代码中的英文字数,NF为文章中的图片数。
如上所述的内容筛选方法,进一步包括截取经排序处理的内容筛选结果中的部分作为最终内容筛选结果。
如上所述的内容筛选方法,其中所述部分为经排序处理的内容筛选结果中的前600条结果。
根据本发明的另一个方面,提供一种内容筛选系统,包括:内容质量评价子系统,其收集内容资源的评价参数并基于所述评价参数针对一个或多个内容资源生成内容资源质量评分;全库检索子系统,其基于用户的第一内容请求生成第一内容筛选结果;筛选整理子系统,其包括:筛选模块,其基于所述第一内容筛选结果以及用户的第二内容请求生成第二内容筛选结果;排序模块,其基于所述内容质量评价子系统生成的所述内容资源质量评分对所述第二内容筛选结果进行排序处理从而生成最终内容筛选结果。
如上所述的内容筛选系统,其中所述第一内容请求具有索引,并且所述第二内容请求不具有索引。
如上所述的内容筛选系统,其中所述内容资源为文章,所述具有索引的第一内容请求包括文章的标题、作者和/或正文。
如上所述的内容筛选系统,其中所述内容资源为文章,所述不具有索引的第二内容请求包括文章的浏览量、下载量、顶踩数和/或创建时间。
如上所述的内容筛选系统,其中所述筛选整理子系统进一步去重模块,所述去重模块在所述排序处理之前对所述第二内容筛选结果进行去重处理。
如上所述的内容筛选系统,其中所述去重模块响应于所述第二内容筛选结果的生成而执行以下操作:针对所生成的内容筛选结果中的两个或更多个内容资源计算内容相似度S;将所述内容相似度S与相似度阈值S0进行比较;当S≥S0时,确定所述两个或更多个内容资源为相似,并将所述两个或更多个内容资源删除为一个。
如上所述的内容筛选系统,其中所述相似度阈值为0.7。
如上所述的内容筛选系统,其中所述内容资源为IT技术类文章资源,所述内容资源质量评分基于以下评价参数中的一个或多个而获得:文章中的中文字数、文章中的英文字数、文章所包含的代码中的中文字数、文章所包含的代码中的英文字数以及文章中的图片数。
如上所述的内容筛选系统,其中所述内容资源质量评分通过如下公式计算:
SP=(max(NC,4000)/200*0.4+max(NE,800)/40*0.1+max(NCC,500)/20*0.1+max(NCE,1000)/50*0.2+max(NF,15)/1*0.2),
其中,SP为内容资源质量评分,NC为文章中的中文字数、NE为文章中的英文字数、NCC为文章所包含代码中的中文字数、NCE为文章所包含代码中的英文字数,NF为文章中的图片数。
如上所述的内容筛选系统,其中所述筛选整理子系统进一步包括截取模块,所述截取模块截取经排序处理的内容筛选结果中的部分作为最终内容筛选结果。
如上所述的内容筛选方法,其中所述部分为经排序处理的内容筛选结果中的前600条结果。
这部分旨在提供对本专利申请的主题的概述。这部分并非旨在提供本发明的排他性的或详尽的说明。本文包括了详细的描述,以提供关于本专利申请的进一步信息。
附图说明
在附图中(这些附图不一定是按照比例绘制的),相同的数字能够描述不同视图中的相似部件。附图通过示例而非限制的方式概括地示例了本申请中讨论的各个实施例。下面,将结合附图对本发明的优选实施方式进行进一步详细的说明,其中:
图1示出了实现本申请的一个实施例的内容筛选方法的物理架构的结构示意图。
图2示出了根据本申请的一个实施例的内容筛选系统的框图。
图3A示出了根据本发明的一个实施例的内容质量评价子系统的结构框图。
图3B示出了根据本发明的一个实施例的内容质量评价子系统中文章质量评价模块的处理过程的流程图。
图4A示出了根据本申请的一个实施例的全库检索子系统的结构框图。
图4B示出了根据本发明的一个实施例的全库检索子系统中全库文章检索模块的处理过程的流程图。
图5A示出了根据本申请的一个实施例的筛选整理子系统的结构框图。
图5B示出了根据本发明的一个实施例的筛选整理子系统中筛选模块、去重模块、排序模块和/或截取模块的处理过程的流程图。
图6示出了根据本申请一个实施例的内容筛选方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请的各个实施例中,内容筛选系统经由通信介质(例如,网络)与用户进行交互(以及优选地,与服务器数据库或用户所使用的智能终端进行交互),示例的交互过程如下:基于用户输入的内容请求,内容筛选系统为用户生成内容筛选结果。优选地,内容筛选结果基于内容请求与用户特性(包括但不限于用户的性别、年龄、所在地、所在地的当前时间、偏好、历史检索数据等等)的结合而生成。在一个实施例中,内容请求包括具有索引的第一内容请求,内容筛选系统基于第一内容请求为用户生成第一内容筛选结果;以及不具有索引的第二内容请求,内容筛选系统基于第二内容请求为用户生成第二内容筛选结果。在一个实施例中,基于用户的设定和/或请求,第一和第二内容筛选结果同时生成为一个内容筛选结果。在另一实施例中,基于用户的请求,第二内容筛选结果在第一内容筛选结果之后生成,并且第二内容筛选结果基于第一内容筛选结果以及用户输入的第二内容请求的结合而生成,反之亦然。由于本发明的内容筛选系统包括内容质量评价子系统,所提供的内容筛选结果是根据内容质量评价子系统提供的内容评分排序和截取的,从而使得用户能够直接获取优质内容资源,这样大大优化了内容筛选的过程,节省了用户筛选内容的时间,由此提升了用户体验。
图1示出了实现本申请的一个实施例的内容筛选方法的物理架构100的结构示意图。
根据图1所示,该物理架构100包括一个或多个终端设备110以及一个或多个服务器130,其中,根据本申请实施例的内容筛选系统可以实现在服务器130中。服务器130可以是具有存储器、处理器和/或其他必要的接口的计算装置或计算系统。终端设备110可以是例如智能手机、PC、平板电脑、笔记本电脑、智能机器人等等,但不限于此。终端设备110中安装有应用程序(例如,浏览器、手机App),用户可以通过运行应用程序来经由所显示的用户界面向内容筛选系统提出内容请求以及获取内容筛选结果。
如上所述,内容筛选系统基于用户的内容请求生成内容筛选结果。根据所需的配置,存储器可以是任意类型,包括但不限于易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或其任意组合。存储器中存储有包括各种内容资源的资源库,用户即是在该资源库中筛选并获取所需资源。在一个实施例中,资源库可以包括一种或多种类型的资源,包括但不限于文章、代码、下载资源、电子书、视频、软件、手机App等等。类似地,根据所需的配置,处理器可以是任意类型,包括但不限于微处理器(μP)、微控制器(μC)、数字信号处理器(DSP)或其任意组合。处理器基于内容筛选系统的指令进行相应的操作,操作过程将在下文中具体描述。以下将参照图2具体描述本申请的内容筛选系统。
图2示出了根据本申请的一个实施例的内容筛选系统200的框图。在如图所示的实施例中,内容筛选系统包括内容质量评价子系统201,其用于针对存储器中存储的资源库中的一个或多个资源进行内容质量评价;全库检索子系统202,用于为资源库中的一个或多个资源创建索引,从而使得用户能够通过输入具有索引的第一内容请求而获得相应的第一内容筛选结果;以及筛选整理子系统203,其用于基于用户输入的不具有索引的第二内容请求而获得相应的第二内容筛选结果,并且将所得的第二内容筛选结果进行去重、排序和/或截取处理,从而获得最终内容筛选结果。
根据本发明的各种实施例,基于资源库中的资源类型,内容质量评价子系 统201包括一个或多个质量评价模块。例如,如果资源库中仅包含一种资源类型,那么内容质量评价子系统201中则相应地仅包括一个质量评价模块。如图3中所示的实施例中,内容质量评价子系统201中可以包括对应于资源库中资源类型的三个质量评价模块:文章质量评价模块2011、下载资源质量评价模块2012以及代码片质量评价模块2013。在其他实施例中,内容质量评价子系统可以包括更多或者更少的质量评价模块。
相应地,全库检索子系统202能够针对不同的资源类型创建不同的索引字段。例如,针对文章资源,创建的索引字段可以包括但不限于文章的标题、作者、正文等等。对应于图3A所示的内容质量评价模块201的实施例,全库检索子系统202则可以包括全库文章检索模块2021、全库下载资源检索模块2022、全库电子书检索模块2023和全库视频检索模块2024,如图4A中所示。同样地,全库检索子系统202也可以包括更多或者更少的全库检索模块。
如上所述,筛选整理子系统203通过一系列处理生成最终内容筛选结果。基于不同功能,筛选整理子系统203可以包括筛选模块、去重模块、排序模块和/或截取模块等。根据对功能的需求,筛选整理子系统203同样可以包括更多或者更少的模块。
本申请的内容筛选系统并不限于上述子系统,在其他的实施例中,内容筛选系统200可以根据功能需求而具有更多或者更少的子系统。以下将参考图3-5具体阐述上述子系统具体结构及其模块的处理流程。
图3A是根据本发明的一个实施例的内容质量评价子系统201的结构框图。如上所述,该子系统包括文章质量评价模块2011、下载资源质量评价模块2012以及代码片质量评价模块2013。以下将以文章质量评价模块2011为例具体阐述各个模块的具体处理流程。
图3B是根据本发明的一个实施例的内容质量评价子系统201中文章质量评价模块2011的处理过程300的流程图。如图3B中所示,在步骤301中,文 章质量评价模块2011收集资源库中一个或多个文章资源的评价参数;在步骤302中,文章质量评价模块2011基于所收集的评价参数生成质量评分。
根据本发明的各种实施例,文章资源的评价参数可以基于文章资源的类型不同而不同。例如,在一个实施例中,针对IT技术类文章资源,其评价参数可以包括中文字数(NC)、英文字数(NE)、代码中中文字数(NCC)、代码中英文字数(NCE)以及图片数(NF)。由此,如上所述的文章质量评价模块2011收集资源库中一个或多个IT技术类文章资源的以上评价参数。之后,基于如上所述的评价参数,文章质量评价模块2011根据如下公式分别计算生成质量评分(SP):
SP=(max(NC,4000)/200*0.4+max(NE,800)/40*0.1+max(NCC,500)/20*0.1+max(NCE,1000)/50*0.2+max(NF,15)/1*0.2)
类似地,下载资源质量评价模块2012的处理流程与如上所述的文章质量评价模块2011类似。具体地,下载资源质量评价模块2012能够收集资源库中一个或多个下载资源的评价参数;之后,下载资源质量评价模块2012能够基于所收集的评价参数生成质量评分。在一个实施例中,针对下载资源的评价参数可以包括下载量、点赞数和负面评价。由此,如上所述的下载资源质量评价模块2012收集资源库中一个或多个下载资源的以上评价参数。之后,基于如上所述的评价参数,下载资源质量评价模块2012根据如下公式分别计算生成质量评分(SD):
SD=ND+NG*10-NP*20
其中,SP为下载资源质量评分,ND为下载量、NG为点赞数、NP为负面评价数。
同样类似地,代码片质量评价模块2013的处理流程与如上所述的文章质量评价模块2011类似。具体地,代码片质量评价模块2013能够收集资源库中一个或多个代码片资源的评价参数;之后,代码片质量评价模块2013能够基 于所收集的评价参数生成质量评分。在一个实施例中,针对代码片资源的评价参数可以包括是否可执行、是否有注释、长度、被收藏数以及点赞数。由此,如上所述的下载资源质量评价模块2012收集资源库中一个或多个代码片资源的以上评价参数。之后,基于如上所述的评价参数,代码片质量评价模块2013根据如下公式分别计算生成质量评分(SC):
SC=(1+NE*0.5+NC*0.3)*(max(NL,1000)/200*0.4+max(NF,100)*0.3+max(NG,100)*0.3)
其中,SC为代码片质量评分,NE为否可执行,可能取值为(0,1)、NC为是否有注释,可能取值为(0,1)、NL为长度、NF为被收藏数、NG为点赞数。
通过如上所述的内容质量评价子系统,其中的各个模块针对各个资源生成的质量评分,该质量评分将成为用户筛选优质内容的重要参考,同样也将成为筛选整理子系统进行排序和/或截取处理的标准。
图4A示出了根据本申请的一个实施例的全库检索子系统202的结构框图。相应于如图3A所示的内容质量评价子系统的结构,该全库检索子系统202包括全库文章检索模块2021、全库下载资源检索模块2022、全库代码片检索模块2023。下将以全库文章检索模块2021为例具体阐述各个模块的具体处理流程。
图4B示出了根据本发明的一个实施例的全库检索子系统202中全库文章检索模块2021的处理过程400的流程图。如图4B中所示,在步骤401中,全库文章检索模块2021针对资源库中一个或多个文章资源创建索引;在步骤402中,全库文章检索模块202基于用户输入的具有索引的第一内容请求生成第一内容筛选结果。根据本发明的一个实施例,针对文章资源所创建的索引字段可以包括但不限于文章的标题、作者、正文等等。
类似地,全库下载资源检索模块2022的处理流程与如上所述的全库文章检索模块2021类似。具体地,全库下载资源检索模块2022能够针对资源库中 一个或多个下载资源创建索引;之后,全库下载资源检索模块2022能够基于用户输入的具有索引的第一内容请求生成第一内容筛选结果。根据本发明的一个实施例,针对下载资源所创建的索引字段可以包括但不限于下载资源的名称、上传者姓名等等。
同样类似地,全库代码片检索模块2023的处理流程与如上所述的全库文章检索模块2021类似。具体地,全库代码片检索模块2023能够针对资源库中一个或多个下载资源创建索引;之后,全库代码片检索模块2023能够基于用户输入的具有索引的第一内容请求生成第一内容筛选结果。根据本发明的一个实施例,针对代码片资源所创建的索引字段可以包括但不限于代码片资源的类型、代码量等等。
基于如上所述的全库检索子系统,用户能够通过输入具有索引的第一内容请求快速地搜索出命中所创建索引字段内容,并获得第一内容筛选结果。
图5示出了根据本申请的一个实施例的筛选整理子系统203的结构框图。如上所述,筛选整理子系统203针对第一内容筛选结果进行筛选、去重、排序和/或截取等处理。相应地,如图5所示,筛选整理子系统203包括筛选模块2031、去重模块2032、排序模块2033以及截取模块2034。以下将具体阐述各个模块的具体处理流程。
根据本发明的一个实施例,筛选模块2031基于用户输入的不具有索引的第二内容请求生成第二内容筛选结果。在一个实施例中,基于用户的请求,第一和第二内容筛选结果能够同时生成为一个内容筛选结果。在另一实施例中,基于用户的请求,第二内容筛选结果在第一内容筛选结果之后生成,并且第二内容筛选结果基于第一内容筛选结果以及用户输入的第二内容请求的结合而生成,反之亦然。根据本发明的各种实施例,不具有索引的第二内容请求可以包括但不限于浏览量、下载量、顶踩数、创建时间、是否已经获取等等。如上所述的筛选模块2031能够使得用户不通过索引即可获取内容筛选结果,全库检 索子系统中创建的索引量大大减小,创建索引占据的物理空间由此也大大减少,从而使得用户能够在更短的时间内获得所需的内容资源。
图5B示出了根据本发明的一个实施例的筛选整理子系统203中去重模块2032的处理过程500的流程图。
根据本发明的一个实施例,去重模块2032针对筛选模块2031生成的第二内容筛选结果进行去重处理。如图5B中所示,去重处理过程500包括如下步骤:在步骤501中,去重模块2032将第二内容筛选结果中的内容数字化并计算内容之间的相似度,该步骤能够通过本领域中所公知的任何合适的技术实现。例如,在一个实施例中,去重处理过程500是通过自然语言处理技术来实现的,其中去重模块将第二内容筛选结果中的内容通过词袋模型数字化,并在之后通过余弦相似度算法来计算内容之间的相似度。当所计算出的相似度为1时,表示内容之间不存在不同之处,即完全相同;当所计算出的相似度为0时,表示内容之间不存在相似之处,即完全不同。在步骤502中,去重模块2032将所计算出的相似度S与相似度阈值S0进行比较。当S≥S0时,确定内容为相似内容(步骤503a),当S<S0时,去重模块2032确定内容为不相似内容(步骤503b)。根据本发明的一个实施例,S0为0.7。在其他实施例中,阈值可以根据用户需要设置,例如,阈值可以更高,例如为0.8、0.9、0.95等,或者可以更低,例如为0.65。基于所计算出的相似度与相似度阈值S0的比较结果,去重模块2032对内容作出相应处理:确定内容为相似内容时,删除相似内容(步骤504a);或者,确定内容为不相似内容时,不作删除处理(步骤504b)。最后,在步骤505中,去重模块2032生成第三内容筛选结果。
根据本发明的一个实施例,排序模块2033将经过去重处理而生成的第三内容筛选结果进行排序。在一个实施例中,排序模块2033基于内容质量评价子系统201中各个质量评价模块生成的评分自动地按照从高到低的顺序进行排列。在其他实施例中,排序模块2033也可以根据用户设定的标准来进行排列。例如,在针对文章资源的实施例中,可以根据用户设定/请求将第三内容 筛选结果按照被引用次数从多到少进行排序。基于上述排序处理,最终形成按要求顺序排列的第四内容筛选结果。
根据本发明的一个实施例,截取模块2034将第四内容筛选结果中的一部分截取出来生成最终内容筛选结果。例如,截取模块2034可以自动地将第四内容筛选结果中的前600条截取出来,从而生成最终内容筛选结果。在其他的实施例中,截取模块2034也可以根据用户设定/请求来截取更多或者更少的内容,从而生成最终内容筛选结果。
经过排序处理和截取处理,用户能够更容易地且更快速地获得所需要的资源。在本发明的一个实施例中,用户能够在多达上千万的文章资源中通过上述系统在几分钟甚至一分钟内即可获取所需的内容资源。
以下将根据图6具体阐述上述内容筛选系统能够实现的内容筛选方法。图6示出了根据本申请一个实施例的内容筛选方法600的流程图。根据如图6中所示的实施例,本发明的内容筛选方法600包括以下步骤:
在步骤601中,基于用户的内容请求在内容资源中进行筛选从而生成内容筛选结果。在一个实施例中。该内容请求包括具有索引的第一内容请求以及不具有索引的第二内容请求。如上所述,在一个实施例中,基于用户的设定和/或请求,第一和第二内容筛选结果同时生成为一个内容筛选结果。在另一实施例中,基于用户的请求,第二内容筛选结果在第一内容筛选结果之后生成,并且第二内容筛选结果基于第一内容筛选结果以及用户输入的第二内容请求的结合而生成,反之亦然。
在步骤602中,将生成的内容筛选结果进行去重处理。在一个实施例中,去重处理通过自然语言处理技术来实现,例如,内容筛选结果中的内容通过词袋模型数字化,并在之后通过余弦相似度算法来计算内容之间的相似度,最后基于该相似度与相似度阈值之间的比较结果确定内容是否为相似内容。如果内容为相似内容则删除该相似内容,如果内容为不相似内容,则不进行删除处 理。本领域技术人员能够理解,该去重处理是可选的。在其他实施例中,也可以不包括该去重处理过程,而直接进行如下所述的排序处理。
在步骤603中,将内容筛选结果进行排序处理。根据本发明的一个实施例,排序处理根据内容资源质量评分进行。由于内容资源的类型各不相同,用于计算其评分的评价参数也不同。例如,针对如上所述的IT技术类文章资源,其评价参数可以包括中文字数(NC)、英文字数(NE)、代码中中文字数(NCC)、代码中英文字数(NCE)以及图片数(NF)。
在步骤604中,将内容筛选结果进行截取处理。例如,如上所述,可以自动地将内容筛选结果中的前600条截取出来,从而生成最终内容筛选结果。在其他的实施例中,也可以根据用户设定/请求来截取更多或者更少的内容,从而生成最终内容筛选结果。本领域技术人员能够理解,该截取处理是可选的。在其他实施例中,也可以不包括该截取处理过程,而直接在排序处理之后生成最终内容筛选结果。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元 中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (31)

1.一种内容筛选方法,包括:
基于用户的内容请求在内容资源中进行筛选从而生成内容筛选结果;
基于内容资源质量评分对所生成的内容筛选结果进行排序处理;以及
将经排序处理的内容筛选结果生成为最终内容筛选结果。
2.根据权利要求1所述的内容筛选方法,其中生成内容筛选结果包括以下步骤:
基于用户的第一内容请求生成第一内容筛选结果;以及
基于用户的第二内容请求生成第二内容筛选结果,
其中所述第二内容筛选结果基于所述第一内容筛选结果以及所述第二内容请求的结合而生成。
3.根据权利要求2所述的内容筛选方法,其中所述第一内容请求具有索引,并且所述第二内容请求不具有索引。
4.根据权利要求3所述的内容筛选方法,其中所述内容资源为文章,所述具有索引的第一内容请求包括文章的标题、作者和/或正文。
5.根据权利要求3所述的内容筛选方法,其中所述内容资源为文章,所述不具有索引的第二内容请求包括文章的浏览量、下载量、顶踩数和/或创建时间。
6.根据权利要求1-5中任一项所述的内容筛选方法,进一步包括在所述排序处理之前对所生成的内容筛选结果进行去重处理。
7.根据权利要求6所述的内容筛选方法,其中所述去重处理包括以下步骤:
针对所生成的内容筛选结果中的两个或更多个内容资源计算内容相似度S;
将所述内容相似度S与相似度阈值S0进行比较;
当S≥S0时,确定所述两个或更多个内容资源为相似,并将所述两个或更多个内容资源删除为一个。
8.根据权利要求7所述的内容筛选方法,其中所述相似度阈值为0.7。
9.根据权利要求1-5中任一项所述的内容筛选方法,其中所述内容资源为IT技术类文章资源,所述内容资源质量评分基于以下评价参数中的一个或多个而获得:文章中的中文字数、文章中的英文字数、文章所包含的代码中的中文字数、文章所包含的代码中的英文字数以及文章中的图片数。
10.根据权利要求9所述的内容筛选方法,其中所述内容资源质量评分通过如下公式计算:
SP=(max(NC,4000)/200*0.4+max(NE,800)/40*0.1+max(NCC,500)/20*0.1+max(NCE,1000)/50*0.2+max(NF,15)/1*0.2),
其中,SP为内容资源质量评分,NC为文章中的中文字数、NE为文章中的英文字数、NCC为文章所包含代码中的中文字数、NCE为文章所包含代码中的英文字数,NF为文章中的图片数。
11.根据权利要求1-3和7-8中任一项所述的内容筛选方法,其中所述内容资源为下载资源,所述下载资源质量评分基于以下评价参数中的一个或多个而获得:下载量、点赞数以及负面评价数。
12.根据权利要求11所述的内容筛选方法,其中所述下载资源质量评分通过如下公式计算:
SD=ND+NG*10-NP*20,
其中,SP为下载资源质量评分,ND为下载量、NG为点赞数、NP为负面评价数。
13.根据权利要求1-3和7-8中任一项所述的内容筛选方法,其中所述内容资源为代码片资源,所述代码片资源质量评分基于以下评价参数中的一个或多个而获得:是否可执行、是否有注释、代码片长度、被收藏数以及点赞数。
14.根据权利要求13所述的内容筛选方法,其中所述代码片资源质量评分通过如下公式计算:
SC=(1+NE*0.5+NC*0.3)*(max(NL,1000)/200*0.4+max(NF,100)*0.3+max(NG,100)*0.3)
其中,SC为代码片质量评分,NE为是否可执行,NC为是否有注释,NL为长度,NF为被收藏数,NG为点赞数,其中NE=0时表示不可执行,NE=1时表示可执行,NC=0时表示无注释,NC=1时表示有注释。
15.根据权利要求1-5和7-8中任一项所述的内容筛选方法,进一步包括截取经排序处理的内容筛选结果中的部分作为最终内容筛选结果。
16.根据权利要求15所述的内容筛选方法,其中所述部分为经排序处理的内容筛选结果中的前600条结果。
17.一种内容筛选系统,包括:
内容质量评价子系统,其收集内容资源的评价参数并基于所述评价参数针对一个或多个内容资源生成内容资源质量评分;
全库检索子系统,其基于用户的第一内容请求生成第一内容筛选结果;
筛选整理子系统,其包括:筛选模块,其基于所述第一内容筛选结果以及用户的第二内容请求生成第二内容筛选结果;排序模块,其基于所述内容质量评价子系统生成的所述内容资源质量评分对所述第二内容筛选结果进行排序处理从而生成最终内容筛选结果。
18.根据权利要求17所述的内容筛选系统,其中所述第一内容请求具有索引,并且所述第二内容请求不具有索引。
19.根据权利要求18所述的内容筛选系统,其中所述内容资源为文章,所述具有索引的第一内容请求包括文章的标题、作者和/或正文。
20.根据权利要求18所述的内容筛选系统,其中所述内容资源为文章,所述不具有索引的第二内容请求包括文章的浏览量、下载量、顶踩数和/或创建时间。
21.根据权利要求17-20中任一项所述的内容筛选系统,其中所述筛选整理子系统进一步去重模块,所述去重模块在所述排序处理之前对所述第二内容筛选结果进行去重处理。
22.根据权利要求21所述的内容筛选系统,其中所述去重模块响应于所述第二内容筛选结果的生成而执行以下操作:
针对所生成的内容筛选结果中的两个或更多个内容资源计算内容相似度S;
将所述内容相似度S与相似度阈值S0进行比较;
当S≥S0时,确定所述两个或更多个内容资源为相似,并将所述两个或更多个内容资源删除为一个。
23.根据权利要求22所述的内容筛选系统,其中所述相似度阈值为0.7。
24.根据权利要求17-20中任一项所述的内容筛选系统,其中所述内容资源为IT技术类文章资源,所述内容资源质量评分基于以下评价参数中的一个或多个而获得:文章中的中文字数、文章中的英文字数、文章所包含的代码中的中文字数、文章所包含的代码中的英文字数以及文章中的图片数。
25.根据权利要求24所述的内容筛选系统,其中所述内容资源质量评分通过如下公式计算:
SP=(max(NC,4000)/200*0.4+max(NE,800)/40*0.1+max(NCC,500)/20*0.1+max(NCE,1000)/50*0.2+max(NF,15)/1*0.2),
其中,SP为内容资源质量评分,NC为文章中的中文字数、NE为文章中的英文字数、NCC为文章所包含代码中的中文字数、NCE为文章所包含代码中的英文字数,NF为文章中的图片数。
26.根据权利要求17-20和22-23中任一项所述的内容筛选系统,其中所述内容资源为下载资源,所述下载资源质量评分基于以下评价参数中的一个或多个而获得:下载量、点赞数以及负面评价数。
27.根据权利要求26所述的内容筛选系统,其中所述下载资源质量评分通过如下公式计算:
SD=ND+NG*10-NP*20,
其中,SP为下载资源质量评分,ND为下载量、NG为点赞数、NP为负面评价数。
28.根据权利要求17-20和22-23中任一项所述的内容筛选系统,其中所述内容资源为代码片资源,所述代码片资源质量评分基于以下评价参数中的一个或多个而获得:是否可执行、是否有注释、代码片长度、被收藏数以及点赞数。
29.根据权利要求28所述的内容筛选系统,其中所述代码片资源质量评分通过如下公式计算:
SC=(1+NE*0.5+NC*0.3)*(max(NL,1000)/200*0.4+max(NF,100)*0.3+max(NG,100)*0.3)
其中,SC为代码片质量评分,NE为是否可执行,NC为是否有注释,NL为长度,NF为被收藏数,NG为点赞数,其中NE=0时表示不可执行,NE=1时表示可执行,NC=0时表示无注释,NC=1时表示有注释。
30.根据权利要求17-20和22-23中任一项所述的内容筛选系统,其中所述筛选整理子系统进一步包括截取模块,所述截取模块截取经排序处理的内容筛选结果中的部分作为最终内容筛选结果。
31.根据权利要求30所述的内容筛选方法,其中所述部分为经排序处理的内容筛选结果中的前600条结果。
CN201610665956.2A 2016-08-12 2016-08-12 内容筛选方法以及系统 Pending CN106294785A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610665956.2A CN106294785A (zh) 2016-08-12 2016-08-12 内容筛选方法以及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610665956.2A CN106294785A (zh) 2016-08-12 2016-08-12 内容筛选方法以及系统

Publications (1)

Publication Number Publication Date
CN106294785A true CN106294785A (zh) 2017-01-04

Family

ID=57671786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610665956.2A Pending CN106294785A (zh) 2016-08-12 2016-08-12 内容筛选方法以及系统

Country Status (1)

Country Link
CN (1) CN106294785A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108712569A (zh) * 2018-05-08 2018-10-26 天津网之易创新科技有限公司 内容筛选方法、介质、装置和计算设备
CN108965745A (zh) * 2018-06-27 2018-12-07 Oppo广东移动通信有限公司 回忆视频创建方法及相关装置
CN108989703A (zh) * 2018-06-28 2018-12-11 Oppo广东移动通信有限公司 回忆视频创建方法及相关装置
CN109583958A (zh) * 2018-12-01 2019-04-05 深圳市润隆实业有限公司 一种用于积分商城的点评系统
CN110321262A (zh) * 2018-03-28 2019-10-11 腾讯科技(深圳)有限公司 应用内容监控方法、装置及终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063488A (zh) * 2010-12-29 2011-05-18 南京航空航天大学 一种基于语义的代码搜索方法
CN103106234A (zh) * 2012-11-07 2013-05-15 无锡成电科大科技发展有限公司 一种网页内容搜索方法和装置
CN103853549A (zh) * 2012-12-06 2014-06-11 国际商业机器公司 用于在网络化计算环境中进行程序代码库搜索和选择的方法和系统
CN104504027A (zh) * 2014-12-12 2015-04-08 北京国双科技有限公司 网页内容的自动筛选方法及装置
CN105808649A (zh) * 2016-02-27 2016-07-27 腾讯科技(深圳)有限公司 一种搜索结果排序方法及其设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063488A (zh) * 2010-12-29 2011-05-18 南京航空航天大学 一种基于语义的代码搜索方法
CN103106234A (zh) * 2012-11-07 2013-05-15 无锡成电科大科技发展有限公司 一种网页内容搜索方法和装置
CN103853549A (zh) * 2012-12-06 2014-06-11 国际商业机器公司 用于在网络化计算环境中进行程序代码库搜索和选择的方法和系统
CN104504027A (zh) * 2014-12-12 2015-04-08 北京国双科技有限公司 网页内容的自动筛选方法及装置
CN105808649A (zh) * 2016-02-27 2016-07-27 腾讯科技(深圳)有限公司 一种搜索结果排序方法及其设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321262A (zh) * 2018-03-28 2019-10-11 腾讯科技(深圳)有限公司 应用内容监控方法、装置及终端
CN110321262B (zh) * 2018-03-28 2022-06-21 腾讯科技(深圳)有限公司 应用内容监控方法、装置及终端
CN108712569A (zh) * 2018-05-08 2018-10-26 天津网之易创新科技有限公司 内容筛选方法、介质、装置和计算设备
CN108712569B (zh) * 2018-05-08 2021-03-12 天津网之易创新科技有限公司 内容筛选方法、介质、装置和计算设备
CN108965745A (zh) * 2018-06-27 2018-12-07 Oppo广东移动通信有限公司 回忆视频创建方法及相关装置
CN108965745B (zh) * 2018-06-27 2021-01-12 Oppo广东移动通信有限公司 回忆视频创建方法及相关装置
CN108989703A (zh) * 2018-06-28 2018-12-11 Oppo广东移动通信有限公司 回忆视频创建方法及相关装置
CN108989703B (zh) * 2018-06-28 2021-04-06 Oppo广东移动通信有限公司 回忆视频创建方法及相关装置
CN109583958A (zh) * 2018-12-01 2019-04-05 深圳市润隆实业有限公司 一种用于积分商城的点评系统

Similar Documents

Publication Publication Date Title
US10242121B2 (en) Automatic browser tab groupings
CN106294785A (zh) 内容筛选方法以及系统
CN102567464B (zh) 基于扩展主题图的知识资源组织方法
US20200226133A1 (en) Knowledge map building system and method
WO2017097231A1 (zh) 话题处理方法及装置
CN109299245B (zh) 知识点召回的方法和装置
US11907659B2 (en) Item recall method and system, electronic device and readable storage medium
CN107180093A (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
US20150302036A1 (en) Method, system and computer program for information retrieval using content algebra
US20110252018A1 (en) System and method for creating search index on cloud database
CA2985257A1 (en) System and method for ranking search results
CN106294595A (zh) 一种文档存储、检索方法及装置
CN106649413A (zh) 一种网页标签的分组方法和装置
CN103309869A (zh) 数据对象的展示关键词推荐方法及系统
CN110162778A (zh) 文本摘要的生成方法及装置
JP2007041721A (ja) 情報分類方法およびプログラム、装置および記録媒体
CN105653546B (zh) 一种目标主题的检索方法和系统
CN108133058A (zh) 一种视频检索方法
CN111639255A (zh) 搜索关键词的推荐方法、装置、存储介质及电子设备
CN105512122B (zh) 信息检索系统的排序方法及装置
CN108182200A (zh) 基于语义相似度的关键词拓展方法和装置
CN106156273A (zh) 数据信息展示方法及客户端
CN109062551A (zh) 基于大数据开发命令集的开发框架
CN110019763A (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN116302278A (zh) 业务系统的检测方法、装置以及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190308

Address after: Room 205A, 2nd floor, No. 10 Jiuxianqiao Road, Chaoyang District, Beijing 100015

Applicant after: Beijing Innovation Lezhi Network Technology Co., Ltd.

Address before: Room 801-809, 811 and 812, 8th floor, No. 6 Building, 33 Guangshun North Street, Chaoyang District, Beijing

Applicant before: Beijing Innovation Information Technology Co., Ltd.

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170104