CN101976259A - 一种推荐系列文档的方法和装置 - Google Patents

一种推荐系列文档的方法和装置 Download PDF

Info

Publication number
CN101976259A
CN101976259A CN 201010529853 CN201010529853A CN101976259A CN 101976259 A CN101976259 A CN 101976259A CN 201010529853 CN201010529853 CN 201010529853 CN 201010529853 A CN201010529853 A CN 201010529853A CN 101976259 A CN101976259 A CN 101976259A
Authority
CN
China
Prior art keywords
document
series
title
user
document title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201010529853
Other languages
English (en)
Inventor
杨帆
高超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN 201010529853 priority Critical patent/CN101976259A/zh
Publication of CN101976259A publication Critical patent/CN101976259A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种推荐系列文档的方法和装置,应用于文档分享平台。其中方法包括:获取上传文档的文档标题,将获取的文档标题进行字符归一化处理;将进行字符归一化处理后的文档标题进行模式匹配处理,使得具有相同公共字符串和相同模式序号标识的文档标题所对应的文档被归入同一文档系列;将与用户当前阅读的文档属于同一文档系列的文档推荐给用户。本发明满足了用户想看同一系列其它文档的阅读需求,使得用户无需通过搜索引擎或分类列表花时间自行查找,提高了用户的阅读体验,也满足了用户的潜在阅读需求。

Description

一种推荐系列文档的方法和装置
【技术领域】
本发明涉及网络通信技术领域,特别涉及一种推荐系列文档的方法和装。
【背景技术】
随着网络技术的日益推广和普及,网络信息迅速增加,文档分享平台为用户上传分享文档以及阅读分享文档提供了便利,其在海量的分享文档中提供搜索引擎和分类索引以方便用户找到所需的文档。
在用户阅读文档时,文档分享平台可以通过已建立的文档分类推荐当前阅读文档的相关文档。现有技术中,在推荐相关文档时,通常按照与当前阅读文档的内容相关度推荐相关度最高的前几个文档,或者推荐与当前阅读文档属于同一上传用户的文档。
用户在上传文档时,对于内容很长的文档通常分为多个文件保存,即分成属于同一个系列的多个文档,并将它们统一上传,例如,将《三国演义》分成《三国演义》第一集、《三国演义》第二集和《三国演义》第三集等。或者,用户在上传文档时,对于已经属于同一系列的多个文档进行统一上传,例如:《大学英语第一册》、《大学英语第二册》、《大学英语第三册》和《大学英语第四册》。当用户阅读系列文档中的其中一个文档时,往往希望接下来阅读的是属于同一系列的其他文档并希望能够从推荐的相关文档中直接获取,例如,当用户当前阅读的是《三国演义》第一集时,希望文档分享平台能够显著地推荐《三国演义》第二集。
对于上述推荐需求,如果采用现有技术中相关文档的产生方式,无论是以相关度方式产生推荐的相关文档,还是以属于同一上传用户的方式产生推荐的相关文档,推荐的相关文档可能并不是与当前阅读的文档属于同一系列的文档。用户需要通过搜索引擎或分类列表花时间自行查找,这显然为用户带来不便,降低了阅读体验。
【发明内容】
本发明提供了一种推荐系列文档的方法和装置,以便于为用户推荐与当前阅读的文档属于同一系列的文档,提高用户的阅读体验。
具体技术方案如下:
一种推荐系列文档的方法,应用于文档分享平台,该方法包括:
A、获取上传文档的文档标题,将获取的文档标题进行字符归一化处理;
B、将进行字符归一化处理后的文档标题进行模式匹配处理,使得具有相同公共字符串和相同模式序号标识的文档标题所对应的文档被归入同一文档系列;
C、将与用户当前阅读的文档属于同一文档系列的文档推荐给用户。
其中,步骤A中所述获取上传文档的文档标题具体包括以下策略:
从存储上传文档的文档元数据库中,抓取同一用户上传文档的文档标题,或者,抓取与已经存在的文档系列中文档的文档标题具有相同公共字符串的文档标题,或者,抓取在一个时间区间内所上传文档的文档标题,或者以上几种策略的任意组合。
步骤A中所述将获取的文档标题进行字符归一化处理具体包括:
A1、将所述获取的文档标题去除与模式匹配处理无关的字符;
A2、将步骤A1处理后的各文档标题中序号部分采用预设的统一标识替代。
所述步骤B具体包括:
B1、对进行字符归一化处理后的各文档标题进行公共字符串识别,以判断各文档标题是否具有预设长度的公共字符串,并且确定进行字符归一化处理后的各文档标题中序号标识的模式;
B2、根据步骤B1的判断结果信息以及确定的模式信息,将具有预设长度的公共字符串且具有相同模式序号标识的文档标题所对应的文档归入同一文档系列。
所述步骤B2具体包括:
B21、根据步骤B1的判断结果信息以及确定的模式信息,如果连续M以上个文档标题具有预设长度的公共字符串且具有相同模式的序号标识,则将所述M以上个文档标题对应的文档归入同一个文档系列,以所述公共字符串为文档系列的系列名称;
B22、对于后续满足归入当前文档系列的条件的文档标题,如果该文档标题与上一个归入当前文档系列的文档标题间隔的文档标题在N个以内,则将该文档标题对应的文档归入当前文档系列;如果该文档标题与上一个归入当前文档系列的文档标题间隔的文档标题超过N个,则结束当前文档系列的归纳,转至执行步骤B21;所述满足归入当前文档系列的条件为:具有当前文档系列的系列名称的字符串且与当前文档系列中各文档的文档标题具有相同模式序号标识;
其中,M为2以上的整数,N为正整数。
更进一步地,所述步骤C还包括:将用户当前阅读的文档的相关文档推荐给用户。
较优地,在将相关文档推荐给用户之前还包括:对所述相关文档进行去重处理;
其中,所述去重处理具体为:将所述相关文档与用户当前阅读的文档属于同一文档系列的文档取交集,再从所述相关文档中去除所述交集。
所述将与用户当前阅读的文档属于同一文档系列的文档推荐给用户具体包括:
执行所述步骤A和步骤B的后台将步骤B之后获得的文档系列的信息加载至存储单元;
前台接收到包含用户当前阅读的文档信息的检索请求后,从所述存储单元获取与用户当前阅读的文档属于同一文档系列的文档并推荐给用户。
一种推荐系列文档的装置,应用于文档分享平台,该装置包括:归一化处理单元、模式匹配单元和系列文档推荐单元;
所述归一化处理单元,用于获取上传文档的文档标题,将获取的文档标题进行字符归一化处理后发送给所述模式匹配单元;
所述模式匹配单元,用于将接收到文档标题进行模式匹配处理,使得具有相同公共字符串和相同模式序号标识的文档标题所对应的文档被归入同一文档系列;
所述系列文档推荐单元,用于根据所述模式匹配单元的处理结果,将与用户当前阅读的文档属于同一文档系列的文档推荐给用户。
更进一步地,该装置还包括:标题抓取单元,用于从存储上传文档的文档元数据库中抓取文档标题,并将抓取的文档标题发送给所述归一化处理单元;
其中,抓取文档标题包括以下策略:抓取同一用户上传文档的文档标题,或者,抓取与已经存在的文档系列中文档的文档标题具有相同公共字符串的文档标题,或者,抓取在一个时间区间内所上传文档的文档标题,或者以上几种策略的任意组合。
所述归一化处理单元具体包括:字符清理模块和归一化处理模块;
所述字符清理模块,用于将获取的文档标题去除与模式匹配处理无关的字符后发送给所述归一化处理模块;
所述归一化处理模块,用于将接收到的各文档标题中序号部分采用预设的同一标识替代。
所述模式匹配单元具体包括:字符串识别模块、模式识别模块和系列归纳模块;
所述字符串识别模块,用于对所述归一化处理单元发送来的文档标题进行公共字符串识别,以判断各文档标题是否具有预设长度的公共字符串;
所述模式识别模块,用于确定所述归一化处理单元发送来的文档标题中序号标识的模式;
所述系列归纳模块,用于根据所述字符串识别模块的判断结果信息和所述模式识别模块确定的模式信息,将具有预设长度的公共字符串且具有相同模式序号标识的文档标题所对应的文档归入同一文档系列。
更进一步地,该装置还包括:相关文档推荐单元,用于将用户当前阅读的文档的相关文档推荐给用户。
具体地,所述相关文档推荐单元可以包括:相关文档获取模块和去重处理模块;
所述相关文档获取模块,用于获取用户当前阅读的文档的相关文档;
所述去重处理模块,用于将所述相关文档与用户当前阅读的文档属于同一文档系列的文档取交集,再从所述相关文档中去除所述交集。
所述归一化处理单元和模式匹配单元设置在后台,所述系列文档推荐单元设置在前台;
所述模式匹配单元将获得的文档系列的信息加载至存储单元;
所述系列文档推荐单元接收到包含用户当前阅读的文档信息的检索请求后,从所述存储单元获取与用户当前阅读的文档属于同一文档系列的文档并推荐给用户。
由以上技术方案可以看出,通过本发明能够将与用户当前阅读的文档属于同一系列的文档推荐给用户,使得用户无需通过搜索引擎或分类列表花时间自行查找,满足了用户想看同一系列其它文档的阅读需求,提高了用户的阅读体验,也满足了用户的潜在阅读需求。
【附图说明】
图1为本发明提供的主要方法流程图;
图2为本发明提供的对文档标题进行字符归一化处理的流程图;
图3为本发明提供的模式匹配处理的过程流程图;
图4为本发明提供的文档分享平台中前台和后台处理的示意图;以及,
图5为本发明提供的装置结构示意图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明提供的方法可以如图1所示,主要包括以下步骤:
步骤101:获取上传文档的文档标题,将文档标题进行字符归一化处理。本步骤中,可以使用自动机处理文档标题字符,实现文档标题的字符归一化处理。
步骤102:将进行字符归一化处理后的文档标题进行模式匹配处理,使得具有相同公共字符串和相同模式序号标识的文档标题所对应的文档被匹配至同一文档系列。
步骤103:将与用户当前阅读的文档属于同一文档系列的文档推荐给用户。
当用户正在阅读某一文档时,文档分享平台除了将该当前阅读文档的相关文档推荐给用户之外,还可以将与用户当前阅读的文档属于同一文档系列的文档推荐给用户,这样在用户界面上除了显示推荐的相关文档之外,还会显示推荐的系列文档(在此,将属于同一文档系列的文档称为系列文档),用户在有需求的时候就可以方便地选择与当前阅读的文档属于同一文档系列的文档。其中,相关文档仍可以按照现有技术中相关度或属于同一上传用户的方式产生,在此不再具体赘述。
下面通过具体的实施例对上述方法进行详细描述:
实施例一、
上述步骤101中,获取上传文档的文档标题可以从存储上传文档的文档(Meta)元数据库中抓取一个以上的文档标题。
在从文档元数据库中进行文档标题的抓取时,为了提高存在系列文档的几率,可以采用但不限于以下抓取策略:
1)抓取同一用户所上传文档的文档标题。
可以进一步具体包括:抓取同一用户在一个时间区间内所上传文档的文档标题;或者,抓取同一用户在两个以上具有间隔规律的时间区间内所上传文档。
对于同一系列的文档,用户通常在一个时间区间内上传,因此,抓取同一用户在一个时间区间内上传的文档,对于文档系列的整合具有较高的几率。另外,对于连载文档这种属于同一系列的文档,用户可能并不在一个时间区间内上传,而是在两个以上具有间隔规律的时间区间内上传,例如,对于以一个星期为间隔进行连载的文档,用户通常也会以一个星期为间隔进行上传,但上传的文档属于同一个系列,这种情况下采用抓取同一用户在两个以上具有间隔规律的时间区间内上传的文档,对于文档系列的整合具有较高的几率。
2)抓取与已经存在的文档系列中文档的文档标题具有相同公共字符串的文档标题。
在网络文档共享中,还可能存在这样的情况:不同用户或相同用户将同一系列的文档都上传至同一专辑,例如,对于同一歌手的所有歌曲文档都上传至同一专辑,对于同一作者的所有作品文档都上传至同一专辑,等等。对于这种情况,采用抓取与已经存在的文档系列中文档的文档标题具有相同公共字符串的文档标题是一种适合的方式。但采用这种方式时,通常需要预先对上传的所有文档标题进行字符的归一化处理,以便对公共字符串的识别。
3)抓取在一个时间区间内所上传文档的文档标题。
4)以上几种策略的任意组合。例如,与已经存在的文档系列中的文档标题具有相同公共字符串且属于同一用户上传的文档标题;或者,与已经存在的文档系列中的文档标题具有相同公共字符串且在一个以上间隔规律的时间区间内上传的文档标题等。
至于采用何种抓取策略,可以根据实际的网络需求或用户需求进行具体配置。
在抓取文档标题后,在步骤101中需要将抓取到的文档标题进行字符归一化处理,下面通过实施例二对字符归一化处理的过程进行详细描述。
实施例二、
对文档标题进行字符归一化处理的过程可以如图2所示,具体包括以下步骤:
步骤201:去除文档标题中与模式匹配处理无关的字符。
与模式匹配处理无关的字符可以预先进行设置,例如,可以将除了中文、英文和数字等文字符号以及书名号、括号等区域性标识符号之外的其它符号均设置为与模式匹配处理无关的符号。
这样,就可以将文档标题中诸如多余的空格符号、点号、无意义的符号等可能对模式匹配产生干扰的符号清除。其中,对于对文档标题的内容有意义的符号可以予以保留,例如表示序列号时可能会采用“3-4”这种方式,其中短划线的存在是对序列号有意义的,在此可以予以保留。
较优地,可以将进行步骤201处理后的各文档标题分别采用预设的标识符进行隔离后,形成各符号段落。例如,可以采用方括号将各文档标题分别围起来。
步骤202:将步骤201处理后的文档标题中序号部分采用预设的统一标识替代,并记录文档标题替代前后的内容。
假设抓取的文档标题在步骤201的处理之后分别为:《三国演义》第一集、《三国演义》第二集、《三国演义》第三集。则可以分别将其中序号部分采用统一标识“CNUM”替代,从而均形成《三国演义》第CNUM集,分别记录每个标题替代前后的内容。
其中,对于不同模式的序号部分,可以分别采用不同的统一标识进行序号替代,例如,对于阿拉伯数字采用统一标识“SNUM”替代,对于中文数字采用统一标识“CNUM”替代,对于英文数字采用统一标识“ENUM”替代,对于由数字和符号组成的序号采用统一表示“SSTY”替代,例如,将“3-4”替代为“SSTY”。
在本步骤中记录文档标题替代前后的内容,替代前文档标题的序号可以在后续确定出的文档系列中作为各文档的排序依据。
至此,图2所示对文档标题进行字符归一化处理的过程结束,该字符归一化的处理可以采用自动机来实现。
下面通过实施例三对模式匹配处理的流程进行详细描述,即步骤102的具体实现方式。
实施例三、
图3为本发明提供的模式匹配处理的过程流程图,在本发明中可以采用正则表达式(regular expression)匹配的方式进行模式匹配,如图3所示,主要包括以下步骤:
步骤301:确定进行字符归一化处理后各文档标题的序号标识的模式。
可以预先设置多种文档标题的模式,然后将进行字符归一化处理后的各文档标题与预先设置的文档标题的模式进行匹配,确定匹配的模式,并记录确定的模式ID。
例如,可以预先配置多种文档标题的模式,这些模式是根据归一化处理后序号标识设置的,可以如表1所示。需要说明的是,表1仅为一个实例,本发明并不限定模式的具体设置方式,可以如表1所示,将序号标识中数字符号也区分为不同模式,也可以不对数字符号进行模式上的区分,统一将“第XX集”作为一种模式,无论“XX”是CNUM、SNUM还是ENUM。
表1
Figure BSA00000330088300091
步骤302:对进行字符归一化处理后的各文档标题进行公共字符串识别,判断各文档标题是否具有预设长度的公共字符串。
本发明并不限定步骤301和步骤302的执行顺序,可以按照本实施例的顺序先执行步骤301再执行步骤302,也可以先执行步骤302再执行步骤301,也可以同时执行步骤301和步骤302。
在此,公共字符串的长度可以根据精度需求灵活配置,例如,如果需要较高的匹配精度,可以设置较长的公共字符串,例如对于《三国演义》第一集、《三国演义》第二集和《三国演义》第三集,可以设置公共字符串为“三国演义”,这样就能够将诸如《三国志》、《三国解说》等文档排除在同一个文档系列之外。
步骤303:根据步骤302的判断结果信息以及步骤301确定的模式信息,将具有预设长度的公共字符串且具有相同模式序号标识的文档标题所对应的文档归入同一文档系列。
本步骤的具体实现可以包括以下步骤:
步骤1):根据步骤302的判断结果信息以及步骤301的模式信息,如果连续M以上个文档标题具有预设长度的公共字符串且具有相同模式的序号标识,则将该M以上个文档标题对应的文档归入同一个文档系列,以公共字符串为该文档系列的系列名称。
其中,M的值可配置成2以上的任意整数,通常可以配置为2或3,例如配置成2时,只要存在2个具有预设长度的公共字符串且具有相同模式序号标识的文档标题,则可以建立一个文档系列。
步骤2):对于后续满足归入当前文档系列的条件的文档标题,如果该文档标题与上一个归入当前文档系列的文档标题间隔的文档标题在N个以内,则将该文档标题对应的文档归入当前文档系列;如果该文档标题与上一个归入当前文档系列的文档标题间隔的文档标题超过N个,则结束当前文档系列的归纳,转至执行步骤B21;所述满足归入当前文档系列的条件为:具有当前文档系列的系列名称的字符串且与当前文档系列中各文档的文档标题具有相同模式序号标识。
N值可以配置为正整数,举一个例子,假设N配置成1。
对于抓取的文档标题《三国演义》第一集、《三国演义》第二集、《三国志》第一集、《三国演义》第三集、《三国志》第二集、《三国志》第三集、《三国志》第四集……,由于《三国演义》第一集、《三国演义》第二集经过步骤301和步骤302后可以确定被归入一个文档系列,该文档系列的名称为“三国演义”;对于《三国演义》第三集与《三国演义》第二集之间间隔1个文档标题,仍可以将其归入名称为“三国演义”的文档系列。但后续的文档标题,与《三国演义》第三集之间间隔超过1个文档标题的文档标题仍不能归入当前文档系列,则结束名称为“三国演义”的文档系列的归纳。将《三国志》第二集、《三国志》第三集、《三国志》第四集可以归入一个新的文档系列,系列名称可以为“三国志”。
另外,在一个文档系列中,可以对各文档进行排序,排序准则可以按照文档标题进行替代之前的序号部分的大小进行排序。当然,也可以采用其它排序准则,例如用户上传文档的时间先后顺序、文档大小顺序,等。
至此,图3所示流程结束,经过模式匹配处理后,抓取的文档被聚类成文档系列,文档系列中的各文档的文档标题具有相同的公共字符串和相同模式的序号标识。
以上所描述的抓取、字符归一化和模式匹配处理均是在文档分享平台的后台运行的,系列文档的推荐以及相关文档的推荐是在文档分享平台的前台运行的。下面通过实施例四对前台和后台的处理衔接进行描述。
实施例四、
上述抓取、字符归一化和模式匹配处理在后台定期运行,各文档系列的信息被加载至存储单元,其中,各文档系列的信息可以包含系列文档的索引。当用户通过用户界面阅读某一文档时,会触发前台的文档检索处理流程。在文档检索处理流程中,前台接收到包含用户当前阅读的文档信息的检索请求,然后从加载了各文档系列的信息的存储单元获取与用户当前阅读的文档属于同一文档系列的文档,并推荐给用户。同样,前台也会按照现有技术的方式获取用户当前阅读的文档的相关文档,也推荐给用户。
更优地,在上述过程中,由于相关文档是按照相关度或者属于同一上传用户的方式形成的,因此,相关文档中可能会包含部分或全部系列文档的内容,在此,可以进一步将获取的相关文档进行去重处理,然后再推荐给用户。
其中,对相关文档进行的去重处理可以具体为:前台将获取的与用户当前阅读的文档属于同一文档系列的文档和相关文档取交集,再将相关文档中去除该交集。
图4为文档分享平台中前台和后台处理的示意图。需要说明的是,后台如果产生了新的文档系列需要更新对存储单元的加载,则执行该更新的操作;否则后台可以处于休眠状态,休眠的时长可配。
以上是对本发明所提供的方法进行的详细描述,下面对本发明所提供的装置进行详细描述。图5为本发明提供的装置结构示意图,该装置应用于文档分享平台,如图5所示,该装置可以包括:归一化处理单元500、模式匹配单元510和系列文档推荐单元520。
其中,归一化处理单元500,用于获取上传文档的文档标题,将获取的文档标题进行字符归一化处理后发送给模式匹配单元510。
模式匹配单元510,用于将接收到文档标题进行模式匹配处理,使得具有相同公共字符串和相同模式序号标识的文档标题所对应的文档被归入同一文档系列。
系列文档推荐单元520,用于根据模式匹配单元510的处理结果,将与用户当前阅读的文档属于同一文档系列的文档推荐给用户。
更进一步地,该装置还可以包括:标题抓取单元540,用于从存储上传文档的文档元数据库中抓取文档标题,并将抓取的文档标题发送给归一化处理单元500。
其中,标题抓取单元540抓取文档标题的策略可以包括:抓取同一用户上传文档的文档标题,或者,抓取与已经存在的文档系列中文档的文档标题具有相同公共字符串的文档标题,或者,抓取在一个时间区间内所上传文档的文档标题,或者以上几种策略的任意组合。
该装置中,上述归一化处理单元500可以具体包括:字符清理模块501和归一化处理模块502。
字符清理模块501,用于将获取的文档标题去除与模式匹配处理无关的字符后发送给归一化处理模块502。
归一化处理模块502,用于将接收到的各文档标题中序号部分采用预设的同一标识替代。
另外,上述模式匹配单元510可以具体包括:字符串识别模块511、模式识别模块512和系列归纳模块513。
字符串识别模块511,用于对归一化处理单元500发送来的文档标题进行公共字符串识别,以判断各文档标题是否具有预设长度的公共字符串。
模式识别模块512,用于确定归一化处理单元500发送来的文档标题中序号标识的模式。
系列归纳模块513,用于根据字符串识别模块512的判断结果信息和模式识别模块512确定的模式信息,将具有预设长度的公共字符串且具有相同模式序号标识的文档标题所对应的文档归入同一文档系列。
文档共享平台除了对系列文档进行推荐之外,还可以同时推荐相关文档,此时,该装置还可以包括:相关文档推荐单元530,用于将用户当前阅读的文档的相关文档推荐给用户。
其中,相关文档推荐单元530可以具体包括:相关文档获取模块531和去重处理模块532。
相关文档获取模块531,用于获取用户当前阅读的文档的相关文档。
去重处理模块532,用于将相关文档与用户当前阅读的文档属于同一文档系列的文档取交集,再从相关文档中去除交集。
在上述装置结构中,标题抓取单元510、归一化处理单元500和模式匹配单元510设置在后台,系列文档推荐单元520和相关文档推荐单元530设置在前台。
其中,在后台的模式匹配单元510可以将获得的文档系列的信息加载至存储单元。前台的系列文档推荐单元520在前台接收到包含用户当前阅读的文档信息的检索请求后,从存储单元中获取与用户当前阅读的文档属于同一文档系列的文档并推荐给用户。
由以上描述可以看出,本发明提供的方法和装置具备以下优点:
1)通过本发明能够将与用户当前阅读的文档属于同一系列的文档推荐给用户,使得用户无需通过搜索引擎或分类列表花时间自行查找,满足了用户想看同一系列其它文档的阅读需求,提高了用户的阅读体验,也满足了用户的潜在阅读需求。
2)本发明在推荐系列文档的同时,还可以同时推荐相关文档,从而满足用户的不同需求。另外,推荐的相关文档可以是进行去重处理后的文档,使得相关文档中不再包含与系列文档重复的内容。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (15)

1.一种推荐系列文档的方法,应用于文档分享平台,其特征在于,该方法包括:
A、获取上传文档的文档标题,将获取的文档标题进行字符归一化处理;
B、将进行字符归一化处理后的文档标题进行模式匹配处理,使得具有相同公共字符串和相同模式序号标识的文档标题所对应的文档被归入同一文档系列;
C、将与用户当前阅读的文档属于同一文档系列的文档推荐给用户。
2.根据权利要求1所述的方法,其特征在于,步骤A中所述获取上传文档的文档标题具体包括以下策略:
从存储上传文档的文档元数据库中,抓取同一用户上传文档的文档标题,或者,抓取与已经存在的文档系列中文档的文档标题具有相同公共字符串的文档标题,或者,抓取在一个时间区间内所上传文档的文档标题,或者以上几种策略的任意组合。
3.根据权利要求1所述的方法,其特征在于,步骤A中所述将获取的文档标题进行字符归一化处理具体包括:
A1、将所述获取的文档标题去除与模式匹配处理无关的字符;
A2、将步骤A1处理后的各文档标题中序号部分采用预设的统一标识替代。
4.根据权利要求1所述的方法,其特征在于,所述步骤B具体包括:
B1、对进行字符归一化处理后的各文档标题进行公共字符串识别,以判断各文档标题是否具有预设长度的公共字符串,并且确定进行字符归一化处理后的各文档标题中序号标识的模式;
B2、根据步骤B1的判断结果信息以及确定的模式信息,将具有预设长度的公共字符串且具有相同模式序号标识的文档标题所对应的文档归入同一文档系列。
5.根据权利要求4所述的方法,其特征在于,所述步骤B2具体包括:
B21、根据步骤B1的判断结果信息以及确定的模式信息,如果连续M以上个文档标题具有预设长度的公共字符串且具有相同模式的序号标识,则将所述M以上个文档标题对应的文档归入同一个文档系列,以所述公共字符串为文档系列的系列名称;
B22、对于后续满足归入当前文档系列的条件的文档标题,如果该文档标题与上一个归入当前文档系列的文档标题间隔的文档标题在N个以内,则将该文档标题对应的文档归入当前文档系列;如果该文档标题与上一个归入当前文档系列的文档标题间隔的文档标题超过N个,则结束当前文档系列的归纳,转至执行步骤B21;所述满足归入当前文档系列的条件为:具有当前文档系列的系列名称的字符串且与当前文档系列中各文档的文档标题具有相同模式序号标识;
其中,M为2以上的整数,N为正整数。
6.根据权利要求1所述的方法,其特征在于,所述步骤C还包括:将用户当前阅读的文档的相关文档推荐给用户。
7.根据权利要求6所述的方法,其特征在于,在将相关文档推荐给用户之前还包括:对所述相关文档进行去重处理;
其中,所述去重处理具体为:将所述相关文档与用户当前阅读的文档属于同一文档系列的文档取交集,再从所述相关文档中去除所述交集。
8.根据权利要求1至7任一权项所述的方法,其特征在于,所述将与用户当前阅读的文档属于同一文档系列的文档推荐给用户具体包括:
执行所述步骤A和步骤B的后台将步骤B之后获得的文档系列的信息加载至存储单元;
前台接收到包含用户当前阅读的文档信息的检索请求后,从所述存储单元获取与用户当前阅读的文档属于同一文档系列的文档并推荐给用户。
9.一种推荐系列文档的装置,应用于文档分享平台,其特征在于,该装置包括:归一化处理单元、模式匹配单元和系列文档推荐单元;
所述归一化处理单元,用于获取上传文档的文档标题,将获取的文档标题进行字符归一化处理后发送给所述模式匹配单元;
所述模式匹配单元,用于将接收到文档标题进行模式匹配处理,使得具有相同公共字符串和相同模式序号标识的文档标题所对应的文档被归入同一文档系列;
所述系列文档推荐单元,用于根据所述模式匹配单元的处理结果,将与用户当前阅读的文档属于同一文档系列的文档推荐给用户。
10.根据权利要求9所述的装置,其特征在于,该装置还包括:标题抓取单元,用于从存储上传文档的文档元数据库中抓取文档标题,并将抓取的文档标题发送给所述归一化处理单元;
其中,抓取文档标题包括以下策略:抓取同一用户上传文档的文档标题,或者,抓取与已经存在的文档系列中文档的文档标题具有相同公共字符串的文档标题,或者,抓取在一个时间区间内所上传文档的文档标题,或者以上几种策略的任意组合。
11.根据权利要求9所述的装置,其特征在于,所述归一化处理单元具体包括:字符清理模块和归一化处理模块;
所述字符清理模块,用于将获取的文档标题去除与模式匹配处理无关的字符后发送给所述归一化处理模块;
所述归一化处理模块,用于将接收到的各文档标题中序号部分采用预设的同一标识替代。
12.根据权利要求9所述的装置,其特征在于,所述模式匹配单元具体包括:字符串识别模块、模式识别模块和系列归纳模块;
所述字符串识别模块,用于对所述归一化处理单元发送来的文档标题进行公共字符串识别,以判断各文档标题是否具有预设长度的公共字符串;
所述模式识别模块,用于确定所述归一化处理单元发送来的文档标题中序号标识的模式;
所述系列归纳模块,用于根据所述字符串识别模块的判断结果信息和所述模式识别模块确定的模式信息,将具有预设长度的公共字符串且具有相同模式序号标识的文档标题所对应的文档归入同一文档系列。
13.根据权利要求9所述的装置,其特征在于,该装置还包括:相关文档推荐单元,用于将用户当前阅读的文档的相关文档推荐给用户。
14.根据权利要求13所述的装置,其特征在于,所述相关文档推荐单元具体包括:相关文档获取模块和去重处理模块;
所述相关文档获取模块,用于获取用户当前阅读的文档的相关文档;
所述去重处理模块,用于将所述相关文档与用户当前阅读的文档属于同一文档系列的文档取交集,再从所述相关文档中去除所述交集。
15.根据权利要求9至14任一权项所述的装置,其特征在于,所述归一化处理单元和模式匹配单元设置在后台,所述系列文档推荐单元设置在前台;
所述模式匹配单元将获得的文档系列的信息加载至存储单元;
所述系列文档推荐单元接收到包含用户当前阅读的文档信息的检索请求后,从所述存储单元获取与用户当前阅读的文档属于同一文档系列的文档并推荐给用户。
CN 201010529853 2010-11-03 2010-11-03 一种推荐系列文档的方法和装置 Pending CN101976259A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010529853 CN101976259A (zh) 2010-11-03 2010-11-03 一种推荐系列文档的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010529853 CN101976259A (zh) 2010-11-03 2010-11-03 一种推荐系列文档的方法和装置

Publications (1)

Publication Number Publication Date
CN101976259A true CN101976259A (zh) 2011-02-16

Family

ID=43576145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010529853 Pending CN101976259A (zh) 2010-11-03 2010-11-03 一种推荐系列文档的方法和装置

Country Status (1)

Country Link
CN (1) CN101976259A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855264A (zh) * 2011-07-01 2013-01-02 富士通株式会社 文档处理方法及其装置
CN102855282A (zh) * 2012-08-01 2013-01-02 北京百度网讯科技有限公司 一种文档推荐方法及装置
CN103049808A (zh) * 2011-10-12 2013-04-17 富士施乐株式会社 信息处理设备和信息处理方法
CN103678326A (zh) * 2012-09-03 2014-03-26 百度在线网络技术(北京)有限公司 一种用于基于搜索结果提供浏览信息的方法和设备
CN103729360A (zh) * 2012-10-12 2014-04-16 腾讯科技(深圳)有限公司 一种兴趣标签推荐方法及系统
CN104462301A (zh) * 2014-11-28 2015-03-25 北京奇虎科技有限公司 一种网络数据的处理方法和装置
CN104484440A (zh) * 2014-12-23 2015-04-01 小米科技有限责任公司 展示书籍信息的方法及装置
CN104536989A (zh) * 2014-12-10 2015-04-22 百度在线网络技术(北京)有限公司 电子出版物的推荐方法及装置
CN104885075A (zh) * 2013-12-26 2015-09-02 陶德龙 一种利用关键链接执行反向搜索的方法及装置
CN105373604A (zh) * 2015-11-09 2016-03-02 北京奇虎科技有限公司 书籍库中相似书的挖掘、净化方法和装置
WO2017096777A1 (zh) * 2015-12-07 2017-06-15 百度在线网络技术(北京)有限公司 文献归一方法、文献搜索方法及对应装置、设备和存储介质
CN108304425A (zh) * 2017-04-21 2018-07-20 腾讯科技(深圳)有限公司 一种图文信息推荐方法、装置及系统
CN111737218A (zh) * 2020-08-27 2020-10-02 北京联想协同科技有限公司 一种共享文件的方法及装置
CN112818111A (zh) * 2021-01-28 2021-05-18 北京百度网讯科技有限公司 文档推荐方法、装置、电子设备和介质
CN113221705A (zh) * 2021-04-30 2021-08-06 平安科技(深圳)有限公司 电子文献的自动分类方法、装置、设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040186824A1 (en) * 2003-03-17 2004-09-23 Kemal Delic Storing and/or retrieving a document within a knowledge base or document repository
CN1967533A (zh) * 2006-07-17 2007-05-23 北京航空航天大学 采用元推荐引擎的门户个性化推荐服务方法和系统
CN101546341A (zh) * 2008-03-28 2009-09-30 株式会社东芝 信息推荐装置和信息推荐方法
CN101727500A (zh) * 2010-01-15 2010-06-09 清华大学 一种基于流聚类的中文网页文本分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040186824A1 (en) * 2003-03-17 2004-09-23 Kemal Delic Storing and/or retrieving a document within a knowledge base or document repository
CN1967533A (zh) * 2006-07-17 2007-05-23 北京航空航天大学 采用元推荐引擎的门户个性化推荐服务方法和系统
CN101546341A (zh) * 2008-03-28 2009-09-30 株式会社东芝 信息推荐装置和信息推荐方法
CN101727500A (zh) * 2010-01-15 2010-06-09 清华大学 一种基于流聚类的中文网页文本分类方法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855264B (zh) * 2011-07-01 2015-11-25 富士通株式会社 文档处理方法及其装置
CN102855264A (zh) * 2011-07-01 2013-01-02 富士通株式会社 文档处理方法及其装置
CN103049808A (zh) * 2011-10-12 2013-04-17 富士施乐株式会社 信息处理设备和信息处理方法
CN102855282B (zh) * 2012-08-01 2018-10-16 北京百度网讯科技有限公司 一种文档推荐方法及装置
CN102855282A (zh) * 2012-08-01 2013-01-02 北京百度网讯科技有限公司 一种文档推荐方法及装置
CN103678326A (zh) * 2012-09-03 2014-03-26 百度在线网络技术(北京)有限公司 一种用于基于搜索结果提供浏览信息的方法和设备
CN103678326B (zh) * 2012-09-03 2019-03-26 百度在线网络技术(北京)有限公司 一种用于基于搜索结果提供浏览信息的方法和设备
CN103729360A (zh) * 2012-10-12 2014-04-16 腾讯科技(深圳)有限公司 一种兴趣标签推荐方法及系统
US10423648B2 (en) 2012-10-12 2019-09-24 Tencent Technology (Shenzhen) Company Limited Method, system, and computer readable medium for interest tag recommendation
CN104885075A (zh) * 2013-12-26 2015-09-02 陶德龙 一种利用关键链接执行反向搜索的方法及装置
CN104885075B (zh) * 2013-12-26 2019-05-31 陶德龙 一种利用关键链接执行反向搜索的方法及装置
CN104462301A (zh) * 2014-11-28 2015-03-25 北京奇虎科技有限公司 一种网络数据的处理方法和装置
CN104462301B (zh) * 2014-11-28 2018-05-04 北京奇虎科技有限公司 一种网络数据的处理方法和装置
CN104536989A (zh) * 2014-12-10 2015-04-22 百度在线网络技术(北京)有限公司 电子出版物的推荐方法及装置
CN104484440A (zh) * 2014-12-23 2015-04-01 小米科技有限责任公司 展示书籍信息的方法及装置
CN105373604A (zh) * 2015-11-09 2016-03-02 北京奇虎科技有限公司 书籍库中相似书的挖掘、净化方法和装置
WO2017096777A1 (zh) * 2015-12-07 2017-06-15 百度在线网络技术(北京)有限公司 文献归一方法、文献搜索方法及对应装置、设备和存储介质
CN108304425A (zh) * 2017-04-21 2018-07-20 腾讯科技(深圳)有限公司 一种图文信息推荐方法、装置及系统
CN108304425B (zh) * 2017-04-21 2021-01-08 腾讯科技(深圳)有限公司 一种图文信息推荐方法、装置及系统
CN111737218A (zh) * 2020-08-27 2020-10-02 北京联想协同科技有限公司 一种共享文件的方法及装置
CN112818111A (zh) * 2021-01-28 2021-05-18 北京百度网讯科技有限公司 文档推荐方法、装置、电子设备和介质
CN112818111B (zh) * 2021-01-28 2023-07-25 北京百度网讯科技有限公司 文档推荐方法、装置、电子设备和介质
CN113221705A (zh) * 2021-04-30 2021-08-06 平安科技(深圳)有限公司 电子文献的自动分类方法、装置、设备以及存储介质
CN113221705B (zh) * 2021-04-30 2024-01-09 平安科技(深圳)有限公司 电子文献的自动分类方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
CN101976259A (zh) 一种推荐系列文档的方法和装置
CN104572735B (zh) 一种图片标注词推荐方法及装置
CN103353821A (zh) 一种管理移动终端桌面应用程序图标的系统及方法
CN108804642A (zh) 检索方法、装置、计算机设备及存储介质
CN104035993B (zh) 电子书的存储检索方法、电子书管理系统、阅读系统
CN103164449A (zh) 一种搜索结果的展现方法与装置
CN101419614A (zh) 视频资源聚类方法和装置
CN101729520A (zh) 敏感信息的检测方法及装置
CN107844493B (zh) 一种文件关联方法及系统
CN101236550B (zh) 一种处理树型结构数据的方法及系统
CN108268438B (zh) 一种页面内容提取方法、装置以及客户端
CN108874956A (zh) 海量文件检索方法、装置、计算机设备及存储介质
CN106055539A (zh) 姓名消歧的方法和装置
CN102567423B (zh) 一种诗词关联搜索方法和系统
US20180276244A1 (en) Method and system for searching for similar images that is nearly independent of the scale of the collection of images
CN110222074A (zh) 索引查找方法、查找装置、电子设备及存储介质
CN110209659A (zh) 一种简历过滤方法、系统和计算机可读存储介质
CN103853797B (zh) 一种基于n元图片索引结构的图片检索方法与系统
CN103389976A (zh) 用于终端的搜索方法及系统
CN102955812A (zh) 一种构建索引库的方法、装置及查询方法和装置
CN107704520A (zh) 基于人脸识别的多文件检索方法和装置
US20140081982A1 (en) Method and Computer for Indexing and Searching Structures
CN104346151B (zh) 一种信息处理方法及电子设备
CN110245215B (zh) 一种文本检索方法和装置
CN112632264A (zh) 智能问答方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110216