CN105335522A - 资源聚合方法和装置 - Google Patents

资源聚合方法和装置 Download PDF

Info

Publication number
CN105335522A
CN105335522A CN201510846582.XA CN201510846582A CN105335522A CN 105335522 A CN105335522 A CN 105335522A CN 201510846582 A CN201510846582 A CN 201510846582A CN 105335522 A CN105335522 A CN 105335522A
Authority
CN
China
Prior art keywords
resource
information
content
candidate
chapters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510846582.XA
Other languages
English (en)
Other versions
CN105335522B (zh
Inventor
荆宁
王剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201510846582.XA priority Critical patent/CN105335522B/zh
Publication of CN105335522A publication Critical patent/CN105335522A/zh
Application granted granted Critical
Publication of CN105335522B publication Critical patent/CN105335522B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种资源聚合方法和装置,属于计算机技术领域。所述方法包括:对于一个选定资源,获取与选定资源对应的候选资源;将选定资源的特征信息与候选资源的特征信息进行对比,判断选定资源是否与候选资源为同一资源,特征信息包括资源的基本信息以及目录信息和内容信息中的至少一种;在选定资源与候选资源为同一资源时,将候选资源确定为选定资源的映射资源;根据选定资源以及选定资源的所有映射资源生成一个目标资源,生成的目标资源的文本内容与选定资源的文本内容相同。本发明解决了现有技术中由于书名可能会有差异,按照书名将不同资源站点提供的同一本书进行聚合显示的准确率比较低的问题,达到了提高资源聚合准确率的效果。

Description

资源聚合方法和装置
技术领域
本发明涉及计算机技术领域,特别涉及一种资源聚合方法和装置。
背景技术
近年来随着网络文学的兴起,越来越多的用户选择通过互联网阅读网络书籍。
对于同一本书,用户可以通过访问不同的资源站点对该本书进行阅读。但各个资源站点提供的资源质量参差不齐,为了给用户提供更好的阅读体验,相关技术中按照书名将不同资源站点提供的同一本书进行聚合显示。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
由于不同资源站点在提供同一本书时,书名可能会有差异,因此按照书名将不同资源站点提供的同一本书进行聚合显示的准确率比较低。
发明内容
为了解决现有技术中按照书名将不同资源站点提供的同一本书进行聚合显示的准确率比较低的问题,本发明实施例提供了一种资源聚合方法和装置。所述技术方案如下:
第一方面,提供了一种资源聚合方法,所述方法包括:
对于一个选定资源,获取与所述选定资源对应的候选资源;
将所述选定资源的特征信息与所述候选资源的特征信息进行对比,判断所述选定资源是否与所述候选资源为同一资源,所述特征信息包括资源的基本信息以及目录信息和内容信息中的至少一种;
在所述选定资源与所述候选资源为同一资源时,将所述候选资源确定为所述选定资源的映射资源;
根据所述选定资源以及所述选定资源的所有映射资源生成一个目标资源,生成的所述目标资源的文本内容与所述选定资源的文本内容相同。
第二方面,提供了一种资源聚合装置,所述装置包括:
获取模块,用于对于一个选定资源,获取与所述选定资源对应的候选资源;
判定模块,用于将所述选定资源的特征信息与所述候选资源的特征信息进行对比,判断所述选定资源是否与所述候选资源为同一资源,所述特征信息包括资源的基本信息以及目录信息和内容信息中的至少一种;第一确定模块,用于在所述选定资源与所述候选资源为同一资源时,将所述候选资源确定为所述选定资源的映射资源;
生成模块,用于根据所述选定资源以及所述选定资源的所有映射资源生成一个目标资源,生成的所述目标资源的文本内容与所述选定资源的文本内容相同。
本发明实施例提供的技术方案带来的有益效果是:
通过对于一个选定资源,获取与该选定资源对应的候选资源,将选定资源的特征信息与候选资源的特征信息进行对比,判断选定资源是否与候选资源为同一资源,在选定资源与候选资源为同一资源时,将候选资源确定为选定资源的映射资源,而后根据选定资源以及选定资源的所有映射资源生成一个目标资源,生成的目标资源的文本内容与选定资源的文本内容相同;由于在进行同资源判定时,除了考虑到了资源的基本信息,还考虑了资源的目录信息和内容信息中的至少一种,从而使得同资源的判定更为准确,因此解决了相关技术中由于书名可能会有差异,按照书名将不同资源站点提供的同一本书进行聚合显示的准确率比较低的问题;达到了提高资源聚合准确率的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例中提供的资源聚合方法的方法流程图;
图2A是本发明另一个实施例中提供的资源聚合方法的方法流程图;
图2B是本发明另一个实施例中提供的获取与选定资源对应的候选资源的方法流程图;
图2C是本发明另一个实施例中提供的判断候选资源中的一个候选资源与选定资源是否为同一资源的方法流程图;
图2D是本发明另一个实施例中提供的根据选定资源以及选定资源的所有映射资源生成一个目标资源的方法流程图;
图2E是本发明另一个实施例中提供的将目标资源进行显示的一种界面示意图;
图2F是本发明另一个实施例中提供的切换阅读资源时的界面示意图;
图3是本发明一个实施例中提供的资源聚合装置的结构示意图;
图4是本发明另一个实施例中提供的资源聚合装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。文中所讲的“电子设备”可以包括智能手机、平板电脑、智能电视、电子书阅读器、MP3播放器(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
请参考图1,其示出了本发明一个实施例提供的资源聚合方法的方法流程图。该资源聚合方法可以应用于电子设备中,该电子设备可以包括电脑、平板电脑、手机、上网本等。如图1所示,该资源聚合方法可以包括如下步骤:
步骤102,对于一个选定资源,获取与该选定资源对应的候选资源。
步骤104,将选定资源的特征信息与候选资源的特征信息进行对比,判断选定资源是否与候选资源为同一资源。
其中,上述特征信息包括资源的基本信息以及目录信息和内容信息中的至少一种。
步骤106,在选定资源与候选资源为同一资源时,将候选资源确定为选定资源的映射资源。
步骤108,根据选定资源以及选定资源的所有映射资源生成一个目标资源,生成的目标资源的文本内容与选定资源的文本内容相同。
综上所述,本实施例提供的资源聚合方法,通过对于一个选定资源,获取与该选定资源对应的候选资源,将选定资源的特征信息与候选资源的特征信息进行对比,判断选定资源是否与候选资源为同一资源,在选定资源与候选资源为同一资源时,将候选资源确定为选定资源的映射资源,而后根据选定资源以及选定资源的所有映射资源生成一个目标资源,生成的目标资源的文本内容与选定资源的文本内容相同;由于在进行同资源判定时,除了考虑到了资源的基本信息,还考虑了资源的目录信息和内容信息中的至少一种,从而使得同资源的判定更为准确,因此解决了相关技术中由于书名可能会有差异,按照书名将不同资源站点提供的同一本书进行聚合显示的准确率比较低的问题;达到了提高资源聚合准确率的效果。
请参考图2A,其示出了本发明另一个实施例提供的资源聚合方法的方法流程图。该资源聚合方法可以应用于电子设备中,该电子设备可以包括电脑、平板电脑、手机、上网本等。如图2A所示,该的资源聚合方法可以包括如下步骤:
步骤202,对于一个选定资源,获取与该选定资源对应的候选资源。
一般来讲,选定资源可以是客户端存在的本地资源,也可以是客户端所对应服务器中存在的某一资源。这里所讲的候选资源为具有与该选定资源为同一资源的可能性的资源。例如,客户端的小说书架上有一本书为“红楼梦”,则“红楼梦”为选定资源。此外,上述资源是指涉及文本的资源,例如小说资源、微博资源、论坛资源以及新闻资讯资源等等。
在一些情况下,若客户端本地不存在选定资源,则根据用户输入的关键词,将资源库中与关键词最相近的一个资源作为选定资源,这里所讲的资源库可以为客户端所对应的服务器中用于存储资源的资源库,或者可以为该服务器中用于存储资源的资源库以及该服务器监控的其他服务器提供的资源所组成的资源库。例如,用户想要在客户端阅读一本书名为红楼梦的书,用户输入关键词红楼梦,资源库中可能有资源名称为“小说红楼梦”、“红楼梦完整版”、“红楼梦”的几个小说资源,则将与关键词红楼梦最相近的“红楼梦”小说资源作为选定资源。
在实际实现时,由于资源在被存储时资源名称可能并不规整,有些资源名称带有链接地址等累赘信息,因此为了能够保证资源聚合的准确性,步骤202还可以通过图2B所示的各个步骤来实现:
步骤202a,对选定资源的资源名称进行规整,得到规整后的资源名称。
其中,在对选定资源的资源名称进行规整时,可以对选定资源的资源名称进行去标签操作。这里所讲的标签可以为网页地址、标签符号等。例如,某选定资源的资源名称为“红楼梦html××××”,则去除标签后的资源名称为“红楼梦”。
对选定资源的资源名称进行规整时,还可以对选定资源的资源名称进行去除能源杂质的操作。这里所讲的能源杂质可以为用于描述资源的冗余信息,比如常见的“完整版”、“完整本”、“小说”等。例如,某书选定资源的资源名称为“红楼梦完整本”,则“完整本”作为能源杂质被去除,去除能源杂质后的资源名称为“红楼梦”。
通过步骤202a的规整,得到的资源名称中仅包括用于描述资源名称的非冗余信息。
步骤202b,查找资源库中与该资源名称相似的资源。
其中,这里所讲的资源库可以包括客户端所对应服务器中提供的各个网络资源,还可以包括该服务器监控的其他各个网站站点提供的网络资源。
在进行资源名称相似判定时,可以进行资源名称的文本对比,得到匹配度,将匹配度大于预定匹配阈值的资源均确定为与选定资源的资源名称相似的资源。
在实际实现时,当查找到资源库中与选定资源的资源名称相似的资源后,还可以对上述资源库中与选定资源名称相似的资源进行合法性检查,将不合法的资源进行剔除。这里的合法性检查可以通过预设规则进行剔除,比如,对包含广告信息的资源进行剔除。
步骤202c,从查找到的资源中,筛选出描述信息与选定资源相同的资源,将该资源确定为选定资源的候选资源。
上述的描述信息包括作者、简介中的至少一种。
通过上述步骤202a至步骤202c,则可以获得与选定资源可能为同一资源的候选资源。一般来讲,为了减少匹配时的运算量,候选资源的数量不宜过多,但为了能保证可以选取出与选定资源为同一资源的大部分资源,候选资源的数量也不宜过少。
步骤204,将选定资源的特征信息与候选资源的特征信息进行对比,判断选定资源是否与候选资源为同一资源。
上述的特征信息包括资源的基本信息,还可以包括目录信息和内容信息中的至少一种。这里所讲的基本信息一般为资源的名称、作者、简介等。而目标信息一般为用于描述目录简介的信息,比如“第一章”、“第一章第一回”、“第一章穿越唐朝”。内容信息则为资源中用于描述资源内容的文本信息。
步骤204在将选定资源的特征信息与候选资源的特征信息进行对比时,可通过以下几种可能的实施方式来实现。
在第一种可能的实施方式中,当特征信息包括基本信息和目录信息时,在选定资源的基本信息与候选资源的基本信息不相同时,判断选定资源的目录信息是否与候选资源的目录信息相同。
首先判断选定资源的基本信息与候选资源的基本信息是否相同。若选定资源的基本信息与候选资源的基本信息相同,则判定该候选资源与选定资源为同一资源。若选定资源的基本信息与候选资源的基本信息不相同,为了避免因基本信息不同,而实际内容相同的情况,还可以进一步判定选定资源的目录信息是否与候选资源的目录信息相同。
若选定资源的目录信息与候选资源的目录信息相同,则判定该候选资源与选定资源为同一资源。若选定资源的目录信息与候选资源的目录信息不相同,则判定该候选资源与选定资源不是同一资源。
在实际应用中,较多的资源均包含有“第一章”或者“第一回”等不能表示章节内容的词,而这种词会影响同一资源的判定结果,因此当资源的目录信息中包含有用于描述章节排序的章节信息时,剔除该章节信息,比如上述的“第一章”或者“第一回”等。这里所讲的资源可以为选定资源或候选资源。例如,当选定资源或候选资源的目录信息为“第一章第一回穿越唐朝”时,剔除用于描述章节排序的章节信息“第一章第一回”,则踢除章节信息后的目录信息则为“穿越唐朝”。
在第二种可能的实施方式中,当特征信息包括基本信息和内容信息时,在选定资源的基本信息与候选资源的基本信息不相同时,判断选定资源的内容信息是否与候选资源的内容信息相同。
首先判断选定资源的基本信息与候选资源的基本信息是否相同。若选定资源的基本信息与候选资源的基本信息相同,则判定该候选资源与该选定资源为同一资源。若选定资源的基本信息与候选资源的基本信息不相同,则进一步判断选定资源的内容信息是否与候选资源的内容信息相同。
若选定资源的内容信息与候选资源的内容信息相同,则判定该候选资源与选定资源为同一资源。若选定资源的内容信息与候选资源的内容信息不相同,则判定该候选资源与选定资源不是同一资源。
其中,判断选定资源的内容信息是否与候选资源的内容信息相同可通过多种文本相似性判断方法实现,例如余弦距离、海明距离、simhash等。在一种可能的实施方式中,通过进行分词、加权和余弦距离判断文本相似度。
一种可选的方式中,当资源的字数小于预定字数阈值时,将该资源的所有内容确定为该资源的内容信息。
另一种可选的方式中,当资源的字数大于预定字数阈值时,选取该资源中字数大于预定阈值的内容,或,选取字数为该资源总字数的预定比例的内容,将选取的内容确定为该资源的内容信息。也即,当资源的字数大于预定字数阈值时,为了尽可能地保证匹配结果能够代表两个资源的是否为同一资源的情况,需要选取足够多的文本内容。
需要补充说明的是,由于不同资源所涉及的文本内容通常具有较大差别,比如《西游记》涉及的内容一般包括“取经”、“妖精”、“菩萨”等相关内容,而《红楼梦》涉及的内容一般包括“贾母”、“贾宝玉”等相关内容,在进行内容信息的匹配时,即使是同一资源的不同文本内容,其相似度也会较高,而不同资源中的文本内容之间的相似度则较低。因此在实际实现时,需要选取较多的内容信息以进行比较。在实际选取内容信息时,本实施例并不对选取该资源中的内容所处的位置进行限定。例如,可选取该资源中处于开头位置的小于预定字数阈值的内容作为该资源的内容信息,也可从该资源中间部分选取小于预定字数阈值的内容作为该资源的内容信息,这里所讲的资源为选定资源或候选资源。
在第三种可能的实施方式中,当特征信息包括基本信息、目录信息和内容信息时,在选定资源的基本信息与候选资源的基本信息不相同时,判断选定资源的目录信息是否与候选资源的目录信息相同,在选定资源的目录信息与候选资源的目录信息不相同时,判断选定资源的内容信息是否与候选资源的内容信息相同。
如图2C所示,以判断候选资源中的一个候选资源与选定资源是否为同一资源来举例。
首先判断选定资源的基本信息与候选资源的基本信息是否相同。若选定资源的基本信息与候选资源的基本信息相同,则判定该候选资源与选定资源为同一资源。若选定资源的基本信息与候选资源的基本信息步相同,为了保证判断的准确度,则可以进一步判断选定资源的目录信息是否与候选资源的目录信息相同。
若选定资源的目录信息与候选资源的目录信息相同,则判定该候选资源与选定资源为同一资源。若选定资源的目录信息与候选资源的目录信息不相同,为了保证判断的准确度,则可以进一步判断选定资源的内容信息是否与候选资源的内容信息相同。
若选定资源的内容信息与候选资源的内容信息相同,则判定该候选资源与选定资源为同一资源。若选定资源的内容信息与候选资源的内容信息不相同,则判定该候选资源与选定资源不是同一资源。
步骤206,在选定资源与候选资源为同一资源时,将候选资源确定为选定资源的映射资源。
步骤208,根据选定资源以及选定资源的所有映射资源生成一个目标资源,生成的目标资源的文本内容与选定资源的文本内容相同。
在根据选定资源以及选定资源的所有映射资源生成一个目标资源时,可以参见图2D中所示的步骤来实现:
步骤208a,按照章节,依次对比选定资源和映射资源中章节的内容的质量。
章节的内容的质量可以通过内容的文本排版、文本错别字、广告等进行判定。比如,含有广告的章节内容的质量较差,而不含有广告的章节内容的指令较高。
步骤208b,将质量最好的章节的内容添加至目标资源的对应章节。
也就是说,对于第一章节,对比选定资源和映射资源中第一章节的内容的质量,将质量最好的第一章节的内容作为目标资源的第一章节;然后对于第二章节,对比选定资源和映射资源中第二章节的内容的质量,将质量最好的第一章节的内容作为目标资源的第二章节,依此类推。这样,目标资源中的各个章节均是映射资源中质量最好的章节组合得到的。
需要说明的是,在根据选定资源以及选定资源的所有映射资源生成一个目标资源时,目标资源的生成不是将映射资源的章节中的文字内容进行复制,而是将目标资源的章节与映射资源的该章节进行了映射。也即,用户在阅读目标资源的某一章节时,用户阅读的该章节是由映射资源中此章质量最好的一个映射资源提供的。此外,由于映射资源与目标资源的文字编码方式可能不同,客户端在呈现目标资源时需要对每章节对应的映射资源进行转码显示。
另外,由于选定资源以及不同映射资源的文本字体可能并不相同,为了保证用户的阅读的流畅性,还可以将目标资源的所有文本字体统一转换为同一字体、同一格式以及同一背景等。
综上所述,本实施例提供的资源聚合方法,通过对于一个选定资源,获取与该选定资源对应的候选资源,将选定资源的特征信息与候选资源的特征信息进行对比,判断选定资源是否与候选资源为同一资源,在选定资源与候选资源为同一资源时,将候选资源确定为选定资源的映射资源,而后根据选定资源以及选定资源的所有映射资源生成一个目标资源,生成的目标资源的文本内容与选定资源的文本内容相同;由于在进行同资源判定时,除了考虑到了资源的基本信息,还考虑了资源的目录信息和内容信息中的至少一种,从而使得同资源的判定更为准确,因此解决了相关技术中由于书名可能会有差异,按照书名将不同资源站点提供的同一本书进行聚合显示的准确率比较低的问题;达到了提高资源聚合准确率的效果。
另外,在选取候选资源时,先对资源名称进行规整,根据规整后的资源名称选取候选资源,使得选取的候选资源均与选定资源相同或近似,保证了同一资源判定时的准确度。
通过对于每个章节,从选定资源和映射资源中选取中质量最好的章节添加至目标资源的对应章节中,从而可以保证目标资源中各个章节的质量均是最好的,保证了目标资源的质量。
在一种可能的实现场景中,客户端在根据选定资源以及选定资源的所有映射资源生成一个目标资源之后,可以显示该目标资源,此时在客户端的资源架(比如书架)上仅显示整合后的目标资源,而不再显示与该目标资源相关的选定资源以及映射资源。这样,对于用户来讲,仅可以查看到一个目标资源,避免了因对应同一资源内容的多个资源的展示而影响用户阅读的情况。显示的目标资源可以参见图2E所示。
在另一种可能的实现场景中,用户可能比较倾向于阅读某一站点的资源,此时为了保证用户可以切换针对同一目标资源的不同站点,在显示目标资源时,客户端还可以检测是否接收到资源选择指令,在接收到资源选择指令后,显示与目标资源对应的候选资源、选定资源的文本链接;在选定的文本链接被触发后,显示文本链接所对应的资源。
如图2F所示,用户想要切换阅读资源时,可以长触发显示的目标资源(当然也可以通过其他方式),客户端在接收到资源选择指令后,显示与该目标资源对应的候选资源、选定资源的文本链接,比如图2F中的文本链接21a、文本链接21b以及文本链接21c。用户可选定其中一个资源的文本链接,以跳转至对应的站点进行阅读。例如,用户点击一个资源的文链接“××网站小说红楼梦”21a以跳转到××网站进行阅读。
可选地,客户端在显示文本链接所对应的资源时,获取该目标资源正在显示的章节,电子设备打开该资源定位符对应的资源,显示该资源中此章节的内容。
此外,需要说明的一点是,客户端所对应的服务器还可以监控目标资源所对应的映射资源、选定资源是否存在更新章节。若目标资源所对应的映射资源、选定资源存在更新章节且目标资源尚未添加更新章节,则将该更新章节添加至目标资源中。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
请参考图3,其示出了本发明一个实施例提供的资源聚合装置的框图,该资源聚合装置可以包括:获取模块310、判定模块320和生成模块330。
获取模块310,用于对于一个选定资源,获取与该选定资源对应的候选资源。
判定模块320,用于将选定资源的特征信息与获取模块310获取的候选资源的特征信息进行对比,判断该选定资源是否与候选资源为同一资源。其中,上述特征信息包括资源的基本信息以及目录信息和内容信息中的至少一种。
生成模块330,用于根据选定资源以及判定模块320判断的选定资源的所有映射资源生成一个目标资源,生成的该目标资源的文本内容与选定资源的文本内容相同。
综上所述,本实施例提供的资源聚合装置,通过对于一个选定资源,获取与该选定资源对应的候选资源,将选定资源的特征信息与候选资源的特征信息进行对比,判断选定资源是否与候选资源为同一资源,在选定资源与候选资源为同一资源时,将候选资源确定为选定资源的映射资源,而后根据选定资源以及选定资源的所有映射资源生成一个目标资源,生成的目标资源的文本内容与选定资源的文本内容相同;由于在进行同资源判定时,除了考虑到了资源的基本信息,还考虑了资源的目录信息和内容信息中的至少一种,从而使得同资源的判定更为准确,因此解决了相关技术中由于书名可能会有差异,按照书名将不同资源站点提供的同一本书进行聚合显示的准确率比较低的问题;达到了提高资源聚合准确率的效果。
请参考图4,其示出了本发明一个实施例提供的资源聚合装置的框图,该资源聚合装置可以包括:获取模块310、判定模块320和生成模块330。
获取模块310,用于对于一个选定资源,获取与该选定资源对应的候选资源。
判定模块320,用于将选定资源的特征信息与获取模块310获取的候选资源的特征信息进行对比,判断该选定资源是否与候选资源为同一资源。其中,上述特征信息包括资源的基本信息以及目录信息和内容信息中的至少一种。
生成模块330,用于根据选定资源以及判定模块320判断的选定资源的所有映射资源生成一个目标资源,生成的该目标资源的文本内容与选定资源的文本内容相同。
可选地,获取模块310,包括:规整单元310a、查找单元310b和确定单元310c。
规整单元310a,用于对选定资源的资源名称进行规整,得到规整后的资源名称。
查找单元310b,用于查找资源库中与规整单元310a规整后的资源名称相似的资源。
确定单元310c,用于从查找单元310b查找的资源中,筛选出描述信息与选定资源相同的资源,将该资源确定为选定资源的候选资源,上述描述信息包括作者、简介中的至少一种。
可选地,判断模块320,用于当特征信息包括基本信息和目录信息时,在选定资源的基本信息与候选资源的基本信息不相同时,判断选定资源的目录信息是否与候选资源的目录信息相同。
判断模块320,还用于当特征信息包括基本信息和内容信息时,在选定资源的基本信息与候选资源的基本信息不相同时,判断选定资源的内容信息是否与候选资源的内容信息相同。
判断模块320,还用于当特征信息包括基本信息、目录信息和内容信息时,在选定资源的基本信息与候选资源的基本信息不相同时,判断选定资源的目录信息是否与候选资源的目录信息相同,在选定资源的目录信息与候选资源的目录信息不相同时,判断选定资源的内容信息是否与候选资源的内容信息相同。
可选地,上述特征信息包括目录信息,判断模块320,还包括:
剔除单元320a,用于当资源的目录信息中包含有用于描述章节排序的章节信息时,剔除该章节信息,上述资源为选定资源或候选资源。
可选地,当上述特征信息包括内容信息时,该装置还包括:
第二确定模块340,用于当资源的字数小于预定字数阈值时,将该资源的所有内容确定为该资源的内容信息。
第二确定模块340,还用于当该资源的字数大于预定字数阈值时,选取该资源中字数大于预定阈值的内容,或,选取字数为该资源总字数的预定比例的内容,将选取的内容确定为该资源的内容信息。
其中,上述资源为选定资源或候选资源。
可选地,生成模块330,包括:对比单元330a和添加单元330b。
对比单元330a,用于按照章节,依次对比选定资源和映射资源中章节的内容的质量。
添加单元330b,用于将质量最好的章节的内容添加至目标资源的对应章节。
可选地,该装置还包括:
检测模块350,用于在显示目标资源时,检测是否接收到资源选择指令。
第一显示模块360,用于在接收到检测模块350检测的资源选择指令后,显示与目标资源对应的映射资源、选定资源的文本链接。
第二显示模块370,用于在选定的文本链接被触发后,显示该文本链接所对应的资源。
可选地,第二显示模块370,包括:获取单元370a和显示单元370b。
获取单元370a,用于获取目标资源正在显示的章节。
显示单元370b,用于打开资源定位符对应的资源,显示该资源中此章节的内容。
可选地,该装置,还包括:
监控模块380,用于监控目标资源所对应的映射资源、选定资源是否存在更新章节。
更新模块390,用于若目标资源所对应的映射资源、选定资源存在更新章节且该目标资源尚未添加此更新章节,则将此更新章节添加至该目标资源中。
综上所述,本实施例提供的资源聚合装置,通过对于一个选定资源,获取与该选定资源对应的候选资源,将选定资源的特征信息与候选资源的特征信息进行对比,判断选定资源是否与候选资源为同一资源,在选定资源与候选资源为同一资源时,将候选资源确定为选定资源的映射资源,而后根据选定资源以及选定资源的所有映射资源生成一个目标资源,生成的目标资源的文本内容与选定资源的文本内容相同;由于在进行同资源判定时,除了考虑到了资源的基本信息,还考虑了资源的目录信息和内容信息中的至少一种,从而使得同资源的判定更为准确,因此解决了相关技术中由于书名可能会有差异,按照书名将不同资源站点提供的同一本书进行聚合显示的准确率比较低的问题;达到了提高资源聚合准确率的效果。
另外,在选取候选资源时,先对资源名称进行规整,根据规整后的资源名称选取候选资源,使得选取的候选资源均与选定资源相同或近似,保证了同一资源判定时的准确度。
通过对于每个章节,从选定资源和映射资源中选取中质量最好的章节添加至目标资源的对应章节中,从而可以保证目标资源中各个章节的质量均是最好的,保证了目标资源的质量。
需要说明的是:上述实施例中提供的资源聚合装置在资源聚合时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将电子设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的资源聚合装置与资源聚合方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种资源聚合方法,其特征在于,所述方法包括:
对于一个选定资源,获取与所述选定资源对应的候选资源;
将所述选定资源的特征信息与所述候选资源的特征信息进行对比,判断所述选定资源是否与所述候选资源为同一资源,所述特征信息包括资源的基本信息以及目录信息和内容信息中的至少一种;
在所述选定资源与所述候选资源为同一资源时,将所述候选资源确定为所述选定资源的映射资源;
根据所述选定资源以及所述选定资源的所有映射资源生成一个目标资源,生成的所述目标资源的文本内容与所述选定资源的文本内容相同。
2.根据权利要求1所述的方法,其特征在于,所述获取与所述选定资源对应的候选资源,包括:
对所述选定资源的资源名称进行规整,得到规整后的资源名称;
查找资源库中与所述资源名称相似的资源;
从查找的所述资源中,筛选出描述信息与所述选定资源相同的资源,将所述资源确定为所述选定资源的候选资源,所述描述信息包括作者、简介中的至少一种。
3.根据权利要求1所述的方法,其特征在于,所述将所述选定资源的特征信息与所述候选资源的特征信息进行对比,判断所述选定资源是否与所述候选资源为同一资源,包括:
当所述特征信息包括基本信息和目录信息时,在所述选定资源的基本信息与所述候选资源的基本信息不相同时,判断所述选定资源的目录信息是否与所述候选资源的目录信息相同;
当所述特征信息包括基本信息和内容信息时,在所述选定资源的基本信息与所述候选资源的基本信息不相同时,判断所述选定资源的内容信息是否与所述候选资源的内容信息相同;
当所述特征信息包括基本信息、目录信息和内容信息时,在所述选定资源的基本信息与所述候选资源的基本信息不相同时,判断所述选定资源的目录信息是否与所述候选资源的目录信息相同,在所述选定资源的目录信息与所述候选资源的目录信息不相同时,判断所述选定资源的内容信息是否与所述候选资源的内容信息相同。
4.根据权利要求1所述的方法,其特征在于,所述特征信息包括目录信息,所述方法还包括:
当资源的所述目录信息中包含有用于描述章节排序的章节信息时,剔除所述章节信息,所述资源为所述选定资源或所述候选资源。
5.根据权利要求1所述的方法,其特征在于,当所述特征信息包括内容信息时,所述方法还包括:
当资源的字数小于预定字数阈值时,将所述资源的所有内容确定为所述资源的所述内容信息;
当所述资源的字数大于所述预定字数阈值时,选取所述资源中字数大于预定阈值的内容,或,选取字数为所述资源总字数的预定比例的内容,将选取的所述内容确定为所述资源的内容信息;
其中,所述资源为所述选定资源或所述候选资源。
6.根据权利要求1所述的方法,其特征在于,所述根据所述选定资源以及所述选定资源的所有映射资源生成一个目标资源,包括:
按照章节,依次对比所述选定资源和所述映射资源中所述章节的内容的质量;
将质量最好的章节的内容添加至所述目标资源的对应章节。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在显示所述目标资源时,检测是否接收到资源选择指令;
在接收到所述资源选择指令后,显示与所述目标资源对应的所述映射资源、所述选定资源的文本链接;
在选定的文本链接被触发后,显示所述文本链接所对应的资源。
8.根据权利要求7所述的方法,其特征在于,所述显示所述文本链接所对应的资源,包括:
获取所述目标资源正在显示的章节;
打开所述资源定位符对应的资源,显示所述资源中所述章节的内容。
9.根据权利要求1至8中任一所述的方法,其特征在于,所述方法还包括:
监控所述目标资源所对应的所述映射资源、所述选定资源是否存在更新章节;
若所述目标资源所对应的所述映射资源、所述选定资源存在更新章节且所述目标资源尚未添加所述更新章节,则将所述更新章节添加至所述目标资源中。
10.一种资源聚合装置,其特征在于,所述装置包括:
获取模块,用于对于一个选定资源,获取与所述选定资源对应的候选资源;
判定模块,用于将所述选定资源的特征信息与所述候选资源的特征信息进行对比,判断所述选定资源是否与所述候选资源为同一资源,所述特征信息包括资源的基本信息以及目录信息和内容信息中的至少一种;第一确定模块,用于在所述选定资源与所述候选资源为同一资源时,将所述候选资源确定为所述选定资源的映射资源;
生成模块,用于根据所述选定资源以及所述选定资源的所有映射资源生成一个目标资源,生成的所述目标资源的文本内容与所述选定资源的文本内容相同。
11.根据权利要求10所述的装置,其特征在于,所述获取模块,包括:
规整单元,用于对所述选定资源的资源名称进行规整,得到规整后的资源名称;
查找单元,用于查找资源库中与所述资源名称相似的资源;
确定单元,用于从查找的所述资源中,筛选出描述信息与所述选定资源相同的资源,将所述资源确定为所述选定资源的候选资源,所述描述信息包括作者、简介中的至少一种。
12.根据权利要求10所述的装置,其特征在于,所述判定模块,还用于:
当所述特征信息包括基本信息和目录信息时,在所述选定资源的基本信息与所述候选资源的基本信息不相同时,判断所述选定资源的目录信息是否与所述候选资源的目录信息相同;
所述判断模块,还用于当所述特征信息包括基本信息和内容信息时,在所述选定资源的基本信息与所述候选资源的基本信息不相同时,判断所述选定资源的内容信息是否与所述候选资源的内容信息相同;
所述判断模块,还用于当所述特征信息包括基本信息、目录信息和内容信息时,在所述选定资源的基本信息与所述候选资源的基本信息不相同时,判断所述选定资源的目录信息是否与所述候选资源的目录信息相同,在所述选定资源的目录信息与所述候选资源的目录信息不相同时,判断所述选定资源的内容信息是否与所述候选资源的内容信息相同。
13.根据权利要求10所述的装置,其特征在于,所述特征信息包括目录信息,所述判断模块,还包括:
剔除单元,用于当资源的所述目录信息中包含有用于描述章节排序的章节信息时,剔除所述章节信息,所述资源为所述选定资源或所述候选资源。
14.根据权利要求10所述的装置,其特征在于,当所述特征信息包括内容信息时,所述装置还包括:
第二确定模块,用于当资源的字数小于预定字数阈值时,将所述资源的所有内容确定为所述资源的所述内容信息;
所述第二确定模块,还用于当所述资源的字数大于所述预定字数阈值时,选取所述资源中字数大于预定阈值的内容,或,选取字数为所述资源总字数的预定比例的内容,将选取的所述内容确定为所述资源的内容信息;
其中,所述资源为所述选定资源或所述候选资源。
15.根据权利要求10所述的装置,其特征在于,所述生成模块,包括:
对比单元,用于按照章节,依次对比所述选定资源和所述映射资源中所述章节的内容的质量;
添加单元,用于将质量最好的章节的内容添加至所述目标资源的对应章节。
16.根据权利要求10所述的装置,其特征在于,所述装置,还包括:
检测模块,用于在显示所述目标资源时,检测是否接收到资源选择指令;
第一显示模块,用于在接收到所述资源选择指令后,显示与所述目标资源对应的所述映射资源、所述选定资源的文本链接;
第二显示模块,用于在选定的文本链接被触发后,显示所述文本链接所对应的资源。
17.根据权利要求10所述的装置,其特征在于,所述第二显示模块,包括:
获取单元,用于获取所述目标资源正在显示的章节;
显示单元,用于打开所述资源定位符对应的资源,显示所述资源中所述章节的内容。
18.根据权利要求9至17中任一所述的装置,其特征在于,所述装置还包括:
监控模块,用于监控所述目标资源所对应的所述映射资源、所述选定资源是否存在更新章节;
更新模块,用于若所述目标资源所对应的所述映射资源、所述选定资源存在更新章节且所述目标资源尚未添加所述更新章节,则将所述更新章节添加至所述目标资源中。
CN201510846582.XA 2015-11-27 2015-11-27 资源聚合方法和装置 Active CN105335522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510846582.XA CN105335522B (zh) 2015-11-27 2015-11-27 资源聚合方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510846582.XA CN105335522B (zh) 2015-11-27 2015-11-27 资源聚合方法和装置

Publications (2)

Publication Number Publication Date
CN105335522A true CN105335522A (zh) 2016-02-17
CN105335522B CN105335522B (zh) 2020-05-12

Family

ID=55286049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510846582.XA Active CN105335522B (zh) 2015-11-27 2015-11-27 资源聚合方法和装置

Country Status (1)

Country Link
CN (1) CN105335522B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111552778A (zh) * 2020-04-26 2020-08-18 北京达佳互联信息技术有限公司 音频资源管理方法、装置、计算机可读存储介质及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101110077A (zh) * 2007-08-24 2008-01-23 新诺亚舟科技(深圳)有限公司 在手持学习终端上实现的联合搜索的方法
CN103020226A (zh) * 2012-12-12 2013-04-03 北京百度网讯科技有限公司 一种获取搜索结果的方法和装置
CN103167159A (zh) * 2012-09-25 2013-06-19 深圳市金立通信设备有限公司 一种手机中快速查找相同文件内容的方法
CN103544172A (zh) * 2012-07-13 2014-01-29 深圳市世纪光速信息技术有限公司 一种电子书的章节目录处理方法及装置
CN104965825A (zh) * 2014-04-16 2015-10-07 腾讯科技(深圳)有限公司 一种数据处理的方法及终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101110077A (zh) * 2007-08-24 2008-01-23 新诺亚舟科技(深圳)有限公司 在手持学习终端上实现的联合搜索的方法
CN103544172A (zh) * 2012-07-13 2014-01-29 深圳市世纪光速信息技术有限公司 一种电子书的章节目录处理方法及装置
CN103167159A (zh) * 2012-09-25 2013-06-19 深圳市金立通信设备有限公司 一种手机中快速查找相同文件内容的方法
CN103020226A (zh) * 2012-12-12 2013-04-03 北京百度网讯科技有限公司 一种获取搜索结果的方法和装置
CN104965825A (zh) * 2014-04-16 2015-10-07 腾讯科技(深圳)有限公司 一种数据处理的方法及终端

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111552778A (zh) * 2020-04-26 2020-08-18 北京达佳互联信息技术有限公司 音频资源管理方法、装置、计算机可读存储介质及设备
CN111552778B (zh) * 2020-04-26 2024-05-14 北京达佳互联信息技术有限公司 音频资源管理方法、装置、计算机可读存储介质及设备

Also Published As

Publication number Publication date
CN105335522B (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
US11455465B2 (en) Book analysis and recommendation
CN111143610A (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN101534306B (zh) 一种钓鱼网站的检测方法及装置
WO2015196910A1 (zh) 基于搜索引擎的摘要信息提取方法、装置以及搜索引擎
CN105786969B (zh) 信息展示方法和装置
US20190163714A1 (en) Search result aggregation method and apparatus based on artificial intelligence and search engine
US20210256216A1 (en) Creation of component templates based on semantically similar content
CN103699665A (zh) 一种网页广告过滤方法及装置
CN108021598B (zh) 页面抽取模板匹配方法、装置及服务器
US20150227276A1 (en) Method and system for providing an interactive user guide on a webpage
CN105589922A (zh) 页面显示方法、装置、系统以及页面显示辅助方法、装置
US20180217986A1 (en) Automated extraction tools and their use in social content tagging systems
US11714963B2 (en) Content modification using natural language processing to include features of interest to various groups
CN108681547A (zh) 一种基于小程序的网页内容转换方法及装置
US11665121B2 (en) Determining topic cohesion between posted and linked content
CN103399855A (zh) 基于多数据源的行为意图确定方法及装置
CN104462590A (zh) 信息搜索方法及装置
CN105335522A (zh) 资源聚合方法和装置
CN108460131B (zh) 一种分类标签处理方法及装置
CN107577667B (zh) 一种实体词处理方法和装置
CN114706948A (zh) 新闻处理方法、装置、存储介质以及电子设备
CN107943965B (zh) 相似文章检索方法及装置
CN111259259A (zh) 大学生新闻推荐方法、装置、设备及存储介质
Yue et al. Insights of Feature Fusion for Video Memorability Prediction
CN111050194A (zh) 视频序列处理方法、视频序列处理装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant