CN105373604A - 书籍库中相似书的挖掘、净化方法和装置 - Google Patents
书籍库中相似书的挖掘、净化方法和装置 Download PDFInfo
- Publication number
- CN105373604A CN105373604A CN201510760110.2A CN201510760110A CN105373604A CN 105373604 A CN105373604 A CN 105373604A CN 201510760110 A CN201510760110 A CN 201510760110A CN 105373604 A CN105373604 A CN 105373604A
- Authority
- CN
- China
- Prior art keywords
- book
- grouping
- title
- books
- books storehouse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种书籍库中相似书的挖掘、净化方法和装置,该净化方法包括:根据书籍库中所有电子书的书名,确定出各电子书所属的分组;对于每个分组,根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度,若该分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为书籍库中的一对相似书;利用书籍库中所有分组内的相似书,构建书籍库的图模型,其中,每对相似书为图模型中相连的两个端点;对于图模型中的每个连通分量,从该连通分量中选择一本电子书保留,删除其他电子书。应用本发明,可以提高书籍库中相似书的挖掘速度,降低书籍库的规模。
Description
技术领域
本发明涉及信息处理技术领域,具体而言,本发明涉及一种书籍库中相似书的挖掘、净化方法和装置。
背景技术
随着互联网的快速发展,传统的书籍逐渐被电子书所代替。通过PC(PersonalComputer,个人计算机)、手机、阅读器等智能设备,用户可以上网搜索自己感兴趣的电子书,或者将自己喜欢的电子书存储到智能设备中。
目前,智能设备上可以支持各种阅读平台和阅读工具来满足用户的电子书阅读需求,比如,起点中文网、言情小说吧、360小说、书旗小说、ireader阅读器等等。而这些阅读平台和阅读工具通常会配有用于存储有大量的电子书的电子书数据库(本文中也可以称为书籍库)。
实际应用中,在大规模的书籍库(比如,百万级别)中,存在大量的书名、作者、章节列表及章节内容大致相同的相似书,这些相似书将占用大量的存储空间。而且,书籍库中电子书的信息不一定完整,例如,有的电子书的书名因为网页解析问题出现乱码或额外后缀,有的电子书缺少作者信息,有的电子书相对于完整的电子书来讲缺少一些章节列表,有的电子书的章节列表由于某些原因是错误的。
因此,有必要从书籍库中挖掘出这些相似书,并从中删除一些错误的或缺章少节的电子书,进行书籍库净化处理。现有可以针对相同书名的电子书,使用章节内容信息来进行匹配确定出相似书。虽然,通过章节内容信息进行匹配的方法来挖掘相似书的准确率高,但是,由于书籍库中电子书的章节内容存储量太大,会存在挖掘速度慢的问题。
因此,有必要提供一种快速挖掘出书籍库中相似书的方法,并对书籍库中的相似书进行净化处理,以此净化书籍库,降低书籍库的规模。
发明内容
针对上述现有技术存在的缺陷,本发明提供了一种书籍库中相似书的挖掘、净化方法和装置,用以提高书籍库中相似书的挖掘速度,并基于挖掘出的相似书净化书籍库,从而降低书籍库的规模。
本发明方案提供了一种书籍库中相似书的净化方法,包括:
根据所述书籍库中所有电子书的书名,确定出各电子书所属的分组;
对于每个分组,根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度,若该分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为所述书籍库中的一对相似书;
利用所述书籍库中所有分组内的相似书,构建所述书籍库的图模型,其中,每对相似书为所述图模型中相连的两个端点;
对于所述图模型中的每个连通分量,从该连通分量中选择一本电子书保留,删除其他电子书。
较佳地,所述根据所述书籍库中所有电子书的书名,确定出各书所属的分组之前,还包括:
利用预设的书名过滤规则,对所述书籍库中所有电子书的书名进行过滤处理,得到电子书的书名字符串;
利用预设的章节过滤规则,对所述书籍库中所有电子书的章节列表进行过滤处理,得到电子书的章节列表中的各章节标题。
较佳地,所述章节过滤规则包括如下至少之一:前缀过滤规则、后缀过滤规则。
较佳地,所述根据所述书籍库中所有电子书的书名,确定出各电子书所属的分组,具体包括:
针对书籍库中的每本电子书,利用预设的向量化规则拆分该电子书的书名字符串,由拆分得到的各子字符串构成该电子书对应的书名向量;
将拆分得到的所有子字符串进行合并去重,得到各分组的关键词;
针对书籍库中的每本电子书,对于每个分组,若该电子书的书名向量中包含该分组的关键词,则将该电子书划分到该分组中。
较佳地,所述根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度,具体包括:
针对该分组内的任意两本电子书,将该两本电子书各自的章节列表中章节标题进行比对,计算出该两本电子书之间的杰卡德jaccard系数,并作为两本电子书之间的相似度。
较佳地,所述从该连通分量中选择一本电子书保留,具体包括:
针对该连通分量中的每本电子书,将该连通分量中与该电子书相连的电子书的个数,作为该电子书的关联度;
选取关联度最高的电子书保留。
较佳地,所述从该连通分量中选择一本电子书保留,具体包括:
针对该连通分量中的每本电子书,将该连通分量中该电子书相连的各本电子书与该电子书之间的相似度进行累加,得到该电子书的关联度;
选取关联度最高的电子书保留。
根据本发明的另一方面,还提供了一种书籍库中相似书的净化装置,包括:
书籍分组单元,用于根据所述书籍库中所有电子书的书名,确定出各电子书所属的分组;
相似书挖掘单元,用于对于每个分组,根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度;若该分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为所述书籍库中的一对相似书;
相似书净化单元,用于利用所述书籍库中所有分组内的相似书,构建所述书籍库的图模型,其中,每对相似书为所述图模型中相连的两个端点;对于所述书籍库的图模型中的每个连通分量,从连通分量中选择一本电子书保留,删除其他电子书。
较佳地,该净化装置还包括:
预处理单元,用于利用预设的书名过滤规则,对所述书籍库中所有电子书的书名进行过滤处理,得到电子书的书名字符串;利用预设的章节过滤规则,对所述书籍库中所有电子书的章节列表进行过滤处理,得到电子书的章节列表中的各章节标题。
较佳地,所述章节过滤规则包括如下至少之一:前缀过滤规则、后缀过滤规则。
较佳地,所述书籍分组单元具体用于针对书籍库中的每本电子书,利用预设的向量化规则拆分该电子书的书名字符串,由拆分得到的各子字符串构成该电子书对应的书名向量;将拆分得到的所有子字符串进行合并去重,得到各分组的关键词;针对书籍库中的每本电子书,对于每个分组,若该电子书的书名向量中包含该分组的关键词,则将该电子书划分到该分组中。
较佳地,所述相似书挖掘单元具体用于对于每个分组,针对该分组内的任意两本电子书,将该两本电子书各自的章节列表中章节标题进行比对,计算出该两本电子书之间的杰卡德jaccard系数,并作为两本电子书之间的相似度;若该分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为所述书籍库中的一对相似书。
较佳地,所述相似书净化单元具体用于利用所述书籍库中所有分组内的相似书,构建所述书籍库的图模型;对于所述图模型中的每个连通分量,针对连通分量中的每本电子书,将连通分量中与该电子书相连的电子书的个数,作为该电子书的关联度;选取关联度最高的电子书保留,删除其他电子书。
较佳地,所述相似书净化单元具体用于利用所述书籍库中所有分组内的相似书,构建所述书籍库的图模型;对于所述图模型中的每个连通分量,针对连通分量中的每本电子书,将连通分量中该电子书相连的各本电子书与该电子书之间的相似度进行累加,得到该电子书的关联度;选取关联度最高的电子书保留,删除其他电子书。
本发明还提供了一种书籍库中相似书的挖掘方法,包括:
根据书籍库中所有电子书的书名,确定出各电子书所属的分组;
对于每个分组,根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度;
对于每个分组,若分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为所述书籍库中的一对相似书。
较佳地,所述若分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为所述书籍库中的一对相似书之后,还包括:
利用所述书籍库中所有分组内的相似书,构建所述书籍库的图模型,其中,每对相似书为所述图模型中相连的两个端点;
对于所述图模型中的每个连通分量,从该连通分量中选择一本电子书保留,删除其他电子书。
较佳地,所述从该连通分量中选择一本电子书保留,具体包括:
针对该连通分量中的每本电子书,将该连通分量中与该电子书相连的电子书的个数,作为该电子书的关联度;
选取关联度最高的电子书保留。
较佳地,所述从该连通分量中选择一本电子书保留,具体包括:
针对该连通分量中的每本电子书,将该连通分量中该电子书相连的各本电子书与该电子书之间的相似度进行累加,得到该电子书的关联度;
选取关联度最高的电子书保留。
较佳地,所述根据书籍库中所有电子书的书名,确定出各书所属的分组之前,还包括:
利用预设的书名过滤规则,对所述书籍库中所有电子书的书名进行过滤处理,得到电子书的书名字符串;
利用预设的章节过滤规则,对所述书籍库中所有电子书的章节列表进行过滤处理,得到电子书的章节列表中的各章节标题。
较佳地,所述章节过滤规则包括如下至少之一:前缀过滤规则、后缀过滤规则。
较佳地,所述根据书籍库中所有电子书的书名,确定出各电子书所属的分组,具体包括:
针对书籍库中的每本电子书,利用预设的向量化规则拆分该电子书的书名字符串,由拆分得到的各子字符串构成该电子书对应的书名向量;
将拆分得到的所有子字符串进行合并去重,得到各分组的关键词;
针对书籍库中的每本电子书,对于每个分组,若该电子书的书名向量中包含该分组的关键词,则将该电子书划分到该分组中。
较佳地,所述根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度,具体包括:
针对该分组内的任意两本电子书,将该两本电子书各自的章节列表中章节标题进行比对,计算出该两本电子书之间的杰卡德jaccard系数,并作为两本电子书之间的相似度。
本发明还提供了一种书籍库中相似书的挖掘装置,包括:
书籍分组单元,用于根据所述书籍库中所有电子书的书名,确定出各电子书所属的分组;
相似度计算单元,用于对于每个分组,根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度;
相似书挖掘单元,用于对于每个分组,若该分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为所述书籍库中的一对相似书。
较佳地,挖掘装置还包括:
书籍净化单元,用于利用所述相似书挖掘单元确定出的书籍库中所有分组内的相似书,构建所述书籍库的图模型;对于所述图模型中的每个连通分量,从连通分量中选择一本电子书保留,删除其他电子书;
其中,每对相似书为所述图模型中相连的两个端点。
较佳地,所述书籍净化单元具体用于利用所述书籍库中所有分组内的相似书,构建所述书籍库的图模型;对于所述图模型中的每个连通分量,针对连通分量中的每本电子书,将连通分量中与该电子书相连的电子书的个数,作为该电子书的关联度;选取关联度最高的电子书保留,删除其他电子书。
较佳地,所述书籍净化单元具体用于利用所述书籍库中所有分组内的相似书,构建所述书籍库的图模型;对于所述图模型中的每个连通分量,针对连通分量中的每本电子书,将连通分量中该电子书相连的各本电子书与该电子书之间的相似度进行累加,得到该电子书的关联度;选取关联度最高的电子书保留,删除其他电子书。
较佳地,挖掘装置还包括:
预处理单元,用于利用预设的书名过滤规则,对所述书籍库中所有电子书的书名进行过滤处理,得到电子书的书名字符串;利用预设的章节过滤规则,对所述书籍库中所有电子书的章节列表进行过滤处理,得到电子书的章节列表中的各章节标题。
较佳地,所述章节过滤规则包括如下至少之一:前缀过滤规则、后缀过滤规则。
较佳地,所述书籍分组单元具体用于针对书籍库中的每本电子书,利用预设的向量化规则拆分该电子书的书名字符串,由拆分得到的各子字符串构成该电子书对应的书名向量;将拆分得到的所有子字符串进行合并去重,得到各分组的关键词;针对书籍库中的每本电子书,对于每个分组,若该电子书的书名向量中包含该分组的关键词,则将该电子书划分到该分组中。
较佳地,所述相似度计算单元具体用于对于每个分组,针对该分组内的任意两本电子书,将该两本电子书各自的章节列表中章节标题进行比对,计算出该两本电子书之间的杰卡德jaccard系数,并作为两本电子书之间的相似度。
本发明还提供了一种基于净化的书籍库的电子书推送方法,包括:
接收包含电子书的书名的用户搜索请求;
从根据上述书籍库中相似书的净化方法所净化的书籍库中查询与所述书名相对应的电子书;
响应于所述用户搜索请求推送查询到的电子书的摘要信息页面。
本发明还提供了一种基于净化的书籍库的电子书推送装置,包括:
请求接收单元,用于接收包含电子书的书名的用户搜索请求;
电子书查询单元,用于获取所述用户搜索请求中的电子书的书名,从根据上述书籍库中相似书的净化方法所净化的书籍库中查询与所述书名相对应的电子书;
推送单元,用于响应于所述用户搜索请求推送查询到的电子书的摘要信息页面。
本发明的技术方案中,可以根据电子书的书名,将书籍库中的电子书进行分组,即将书名相似的电子书归为一个分组;继而,对于每个分组,可以根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度,将相似度超过设定阈值的两本电子书确定为书籍库的一对相似书。这样,通过书名和章节列表的两次比对来挖掘相似书,可以避免大量的章节内容的比对,在保障了相似书挖掘的准确率的同时,可以减少挖掘工作量,提高了书籍库中相似书的挖掘速度。
进一步地,在挖掘出书籍库中的相似书之后,还可以基于挖掘出所有分组内的相似书,对书籍库进行相似书的净化处理,删除一些重复的内容,以此降低书籍库的规模。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例的书籍库中相似书的挖掘方法的流程示意图;
图2a、2b、2c均为本发明实施例的书籍库中相似书的挖掘装置的内部结构示意图;
图3为本发明实施例的书籍库中相似书的净化方法的流程示意图;
图4为本发明实施例的书籍库中相似书的净化装置的内部结构示意图;
图5为本发明实施例的基于净化的书籍库的电子书推送方法的流程示意图;
图6为本发明实施例的基于净化的书籍库的电子书推送装置的内部结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunicationsService,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(PersonalDigitalAssistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(GlobalPositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(MobileInternetDevice,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本发明的发明人发现,实际应用中,在两本电子书的作者、书名和章节列表的相似度比较高的情况下,就可以判定该两本电子书针对的是同一本书,即该两本电子书为一对相似书。
因此,本发明的发明人考虑,可以基于书籍库中的电子书的书名、以及电子书的章节列表,确定出书籍库中的相似书。具体地,可以根据电子书的书名,将书籍库中的电子书进行分组,即将书名相似的电子书归为一个分组;继而,对于每个分组,可以根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度,将相似度超过设定阈值的两本电子书确定为书籍库的一对相似书。这样,通过书名和章节列表的两次比对来挖掘相似书,可以避免大量的章节内容的比对,在保障了相似书挖掘的准确率的同时,可以减少挖掘工作量,提高了挖掘速度。
进一步地,在挖掘出书籍库中的相似书之后,还可以基于挖掘出所有分组内的相似书,对书籍库进行相似书的净化处理,删除一些重复的内容,以此降低书籍库的规模。
本发明所称的电子书,是指适于人们阅读的数字化出版物,区别于以纸张为载体的传统出版物。电子书通过数码方式记录在以光、电、磁为介质的设备中,必须借助于特定的电子阅读设备来读取、复制和传输。简言之,电子书通常以计算机文件的形式存在,其主要格式有PDF、EXE、CHM、UMD、PDG、JAR、PDB、TXT、BRM、EPUB、MOBI等等,进一步的,还可以扩展到泛指一切利用电子阅读设备上的电子阅读软件提供给人们进行阅读的形式,例如,在APP中提供一个网页浏览插件,通过预设的链接访问指向某个书城网站的一本电子书的网页,也同样能提供给用户相同或相近的阅读体验。因而,本领域技术人员不应对本发明的电子书做局限性理解,应以本发明的各个步骤所实现的功能的视角来确定。
下面结合附图详细说明本发明的技术方案。
本发明的方案中,在进行书籍库中的相似书的挖掘之前,可以对书籍库中的电子书进行预处理。
具体地,针对电子书的书名可以通过如下方式进行预处理:利用预设的书名过滤规则,对书籍库中所有电子书的书名进行过滤处理,得到电子书的书名字符串。
实际应用中,书籍库中电子书的书名通常由中文字符、阿拉伯数字、英文字母以及一些空字符组成,空格、制表符等。因此,为了方便后续的书名的比对,本发明的方案中,可以通过预先设置的书名过滤规则,将电子书的书名中的一些非必要的空字符过滤掉,保留英文字母、阿拉伯数据和中文字符,并将保留的字符组成该电子书的书名字符串。
针对电子书的章节列表可以通过如下方式进行预处理:利用预设的章节过滤规则,对书籍库中所有电子书的章节列表进行过滤处理,得到电子书的章节列表中的各章节标题。
实际应用中,书籍库中电子书的章节列表中通常包括一些常用前缀内容,比如“第X章”、“第X节”等,还包括一些常用的后缀内容,比如,页码、完/上/中/下等标识。
因此,本发明的方案中,章节过滤规则可以包括如下至少之一:前缀过滤规则、后缀过滤规则。
实际应用中,电子书的章节列表中“第一章XXXX”中的“第一章”,“第一节XXXX”中的“第一节”、“第一XXXX”中的“第一”、“一XXXX”中的“一”等等,均可以通过前缀过滤规则进行过滤。其中,“一”只是一个实例,可以替换为对应的阿拉伯数字,也可以替换为其他的数字或数字对应的中文。具体地,可以预先针对上述预过滤的前缀内容的数据格式,设置相应的前缀过滤规则及其对应的正则表达式。这样,在对书籍库中所有电子书的章节列表进行过滤处理过程中,可以通过前缀过滤规则的正则表达式,将电子书的章节列表中的前缀内容提取出。
而电子书的章节列表中“XXXX(1)”中的“(1)”、“XXXX(一)”中的“(一)”、“XXXX1”中的“1”、“XXXX(完)”中的“(完)”、“XXXX(上)”中的“(上)”、“XXXX(下)”中的“(下)”等等,均可以通过后缀过滤规则进行过滤。其中,“一”只是一个实例,可以替换为对应的阿拉伯数字,也可以替换为其他的数字或数字对应的中文。具体地,可以预先针对上述预过滤的后缀内容的数据格式,设置相应的后缀过滤规则及其对应的正则表达式。这样,在对书籍库中所有电子书的章节列表进行后缀过滤处理过程中,可以通过后缀过滤规则的正则表达式,将电子书的章节列表中的后缀内容提取出。
更优地,考虑到章节列表中通常还包含了一些空字符,因此,在对电子书的章节列表进行预处理的过程中,还可以将章节列表中各章节标题的空字符删掉。其中,空字符可以包括:空格、制表符等。
进一步地,考虑到章节列表中通常还包含了标点符号,因此,在对电子书的章节列表进行预处理的过程中,还可以将章节列表中的标点符号去掉。
这样,通过上述空字符、标点符号、前缀过滤规则、后缀过滤规则对书籍库中电子书的章节列表进行过滤处理,将可以得到电子书的章节列表中的各章节标题。
基于上述预处理之后的电子书,本发明提供了一种书籍库中相似书的挖掘方法,如图1所示,其流程具体包括如下步骤:
S101:根据书籍库中所有电子书的书名,确定出各电子书所属的分组。
具体地,针对书籍库中的每本电子书,可以利用预设的向量化规则拆分该电子书的书名字符串,由拆分得到的各子字符串构成该电子书对应的书名向量。将拆分得到的所有子字符串进行合并去重,得到各分组的关键词。针对书籍库中的每本电子书,对于每个分组,若该电子书的书名向量中包含该分组的关键词,则将该电子书划分到该分组中。
其中,电子书的书名字符串可以通过预设的书名过滤规则对电子书的书名进行过滤处理得到。
实际应用中,通过向量化规则,可以将书名字符串中相邻的N个字符组成一个子字符串,之后将拆分得到的各子字符串构成该电子书对应的书名向量,其中,N为预设的拆分基数,可以具体为1、2、3……等正整数。
例如,以3作为拆分基数,电子书的书名字符串“异世之我是传奇”的书名向量为“异世之世之我之我是我是传是传奇”。其中,书名向量中的向量元素“异世之”、“世之我”、“之我是”、“我是传”、“是传奇”均是电子书的书名字符串拆分得到的子字符串。实际应用中,若电子书的书名字符串的书名长度小于拆分基数(比如3),则可以不进行拆分,而是将该书名字符串直接构成该电子书的书名向量。
本发明的方案中,在得到书籍库中所有电子书各自对应的书名向量之后,可以将所有电子书所对应的书名向量合并成一个向量。之后,根据合并成的向量中的向量元素进行分组,并确定各分组的关键词。
具体地,合并成的向量中的每个向量元素,可以对应一个分组,该分组的关键词即为该向量元素。例如,将三百万本书的所有书名向量合并成一个向量,合并成的向量中向量元素可能只有一百万,即合并成的向量的长度为一百万。
实际应用中,在对合并成的向量进行分组的过程中,分组的个数可以等于该合并成的向量的长度,也可以小于该合并成的向量的长度。
在完成合并成的向量的分组之后,可以将书籍库中所有的电子书进行分组划分。具体地,可以针对每本电子书,将该电子书的书名向量与各个分组的关键词进行比对,若该书名向量中包含了某个分组的关键词,则可以将该电子书划分到该分组中。实际应用中,若电子书的书名向量中包含了多个分组的关键词,因此,该电子书将被划分到多个分组中。
S102:对于每个分组,根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度。
本发明的方案中,两本电子书之间的相似度是通过两本书的章节列表之间的相似度来体现的。因此,对于每个分组,可以根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度。
实际应用中,可以以二次规划的最优化问题来计算两个章节列表之间的相似度,但是,由于二次规划的最优化问题计算过程中需要生成一个矩阵,而在大规模的书籍库中电子书的数量庞大,因此,矩阵的生成过程就会消耗很多时间,不利于挖掘速度的提高。
因此,本发明的方案中可以采用近似最优的方法,将分组内的电子书两两进行比对,得到比对的两本电子书之间的相似度,提高相似度的计算速度,从而提高相似书的挖掘速度。具体地,对于每个分组,可以针对该分组内的任意两本电子书,将该两本电子书各自的章节列表中章节标题进行比对,计算出该两本电子书之间的jaccard(杰卡德)系数,并作为两本电子书之间的相似度。
其中,章节列表的章节标题可以通过预设的章节过滤规则对电子书的章节列表进行过滤处理得到。关于jaccard系数的计算方法可以采用本领域技术人员常用的技术手段,在此不再赘述。
S103:若分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为书籍库中的一对相似书。
具体地,对于每个分组,通过步骤S102计算出该分组内各电子书之间的相似度之后,若分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为书籍库中的一对相似书。
其中,设定阈值是由本领域技术人员预先设置的,比如,该设定阈值可以设置为0.8。这样,在将分组内的电子书的章节列表进行两两比对之后,若比对的两本电子书之间的相似度超过0.8,则说明该两本电子书的章节列表相似,可以确定为该分组内的一对相似书。
本发明的方案中,在通过步骤103确定出各分组内相似度超过设定阈值的各对相似书之后,即可挖掘出了书籍库中所有的相似书。相比现有基于电子书的章节内容进行比对来挖掘相似书,本发明的方案中通过书名和章节列表的比对来挖掘相似书,在保障了相似书挖掘的准确率的同时,还可以减少挖掘工作量,提高了挖掘速度。
进一步地,本发明的方案中,在挖掘出书籍库中的相似书之后,可以基于挖掘出的相似书对书籍库进行净化处理。因此,本发明提供的书籍库中相似书的挖掘方法中,在完成步骤S103之后,还可以利用书籍库中所有分组内的相似书,构建书籍库的图模型。
其中,每对相似书为图模型中相连的两个端点。
为了便于描述,本发明的方案中,可以将书籍库中的一对相似书称为书籍库中的一个相似对。
实际应用中,在挖掘出书籍库中所有分组内的相似书之后,可以利用所有的相似对,构建图模型。在该图模型中,每个相似对将作为一条边的两个端点。这样,通过构建的图模型可以将书籍库中所有的相似对中相关联的相似对连接起来。
进而,对于构建的图模型中的每个连通分量,可以从该连通分量中选择一本电子书保留,删除其他电子书。
实际应用中,如果从一个端点到另一个端点有路径,则称这两个端点连通。而如果图中任意两个端点之间都连通,则可以称该图为连通图,否则,称该图为非连通图,则其中的极大连通子图称为连通分量,这里所谓的极大是指子图中包含的端点个数极大。
因此,本发明的方案中,在构建了图模型之后,可以确定出该图模型中存在的连通分量。实际应用中,每个连通分量其所包含的所有电子书,其针对的往往是同一本书。因此,为了降低书籍库的规模,对于图模型中确定出的每个连通分量,可以从该连通分量的内部寻找最好最完整的电子书进行保留而删除其他电子书。
例如,书籍库中挖掘出了1万个相似对,利用这1万个相似对构建出图模型之后,若从该图模型中寻找出了1000个连通分量,而每个连通分量中平均有10本可以互相成为一对相似书的电子书。为了降低书籍库的规模,可以从该10本电子书中寻找出最好的一本进行保留,而删除其他9本电子书。
具体地,对于每个连通分量,可以针对该连通分量中的每本电子书,将该连通分量中与该电子书相连的电子书的个数,作为该电子书的关联度;之后,选取关联度最高的电子书保留,而删除该连通分量中其他的电子书。
或者,对于每个连通分量,可以针对该连通分量中的每本电子书,将该连通分量中该电子书相连的各本电子书与该电子书之间的相似度进行累加,得到该电子书的关联度;选取关联度最高的电子书保留。
进一步地,针对该连通分量中的每本电子书,在确定出该连通分量中与该电子书相连的电子书之后,将各本电子书与该电子书之间的相似度进行累加,并将累加的相似度除以与该电子书相连的电子书的数量,得到该电子书的平均相似度,并作为该电子书的关联度;选取关联度最高的电子书保留。
本发明的方案中,在挖掘出书籍库中的相似书之后,还可以基于挖掘出所有分组内的相似书,构建图模型;进而针对图模型中每个连通分量,从该连通分量中选择一个电子书保留,而删除一些相似书,从而实现对书籍库进行相似书的净化处理,以此降低书籍库的规模。
基于上述书籍库中相似书的挖掘方法,本发明还提供了一种书籍库中相似书的挖掘装置,如图2a所示,该挖掘装置包括:书籍分组单元201、相似度计算单元202、以及相似书挖掘单元203。
其中,书籍分组单元201用于根据书籍库中所有电子书的书名,确定出各电子书所属的分组。
相似度计算单元202用于对于每个分组,根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度。
相似书挖掘单元203用于对于每个分组,若该分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为书籍库中的一对相似书。
进一步地,如图2b所示,本发明提供的书籍库中相似书的挖掘装置中除了包括:书籍分组单元201、相似度计算单元202、以及相似书挖掘单元203,还可以包括:预处理单元204。
预处理单元204用于利用预设的书名过滤规则,对书籍库中所有电子书的书名进行过滤处理,得到电子书的书名字符串;利用预设的章节过滤规则,对书籍库中所有电子书的章节列表进行过滤处理,得到电子书的章节列表中的各章节标题。
其中,章节过滤规则包括如下至少之一:前缀过滤规则、后缀过滤规则。
相应地,书籍分组单元201针对书籍库中的每本电子书,可以利用预设的向量化规则拆分该电子书的书名字符串,由拆分得到的各子字符串构成该电子书对应的书名向量;将拆分得到的所有子字符串进行合并去重,得到各分组的关键词;针对书籍库中的每本电子书,对于每个分组,若该电子书的书名向量中包含该分组的关键词,则将该电子书划分到该分组中。
相似度计算单元202对于每个分组,可以针对该分组内的任意两本电子书,将该两本电子书各自的章节列表中章节标题进行比对,计算出该两本电子书之间的jaccard系数,并作为两本电子书之间的相似度。
更优地,如图2c所示,本发明提供的书籍库中相似书的挖掘装置中除了包括:书籍分组单元201、相似度计算单元202、相似书挖掘单元203、以及预处理单元204,还可以进一步包括:书籍净化单元205。
书籍净化单元205用于利用相似书挖掘单元203确定出的书籍库中所有分组内的相似书,构建书籍库的图模型;对于图模型中的每个连通分量,从连通分量中选择一本电子书保留,删除其他电子书。其中,每对相似书为图模型中相连的两个端点。
具体地,书籍净化单元205可以利用书籍库中所有分组内的相似书,构建书籍库的图模型;对于图模型中的每个连通分量,针对连通分量中的每本电子书,将连通分量中与该电子书相连的电子书的个数,作为该电子书的关联度;选取关联度最高的电子书保留,删除其他电子书。
或者,书籍净化单元205可以利用书籍库中所有分组内的相似书,构建书籍库的图模型;对于图模型中的每个连通分量,针对连通分量中的每本电子书,将连通分量中该电子书相连的各本电子书与该电子书之间的相似度进行累加,得到该电子书的关联度;选取关联度最高的电子书保留,删除其他电子书。
进一步地,书籍净化单元205可以针对该连通分量中的每本电子书,在确定出该连通分量中与该电子书相连的电子书之后,将各本电子书与该电子书之间的相似度进行累加,并将累加的相似度除以与该电子书相连的电子书的数量,得到该电子书的平均相似度,并作为该电子书的关联度;选取关联度最高的电子书保留。
本发明的方案中,书籍库中相似书的挖掘装置中的各单元的具体实现可参照上述书籍库中相似书的挖掘方法中的各步骤,在此不再赘述。
基于上述书籍库中相似书的挖掘方法和挖掘装置,本发明还提供了一种书籍库中相似书的净化方法,如图3所示,其流程具体包括如下步骤:
S301:根据书籍库中所有电子书的书名,确定出各电子书所属的分组。
具体地,针对书籍库中的每本电子书,利用预设的向量化规则拆分该电子书的书名字符串,由拆分得到的各子字符串构成该电子书对应的书名向量。之后,将拆分得到的所有子字符串进行合并去重,得到各分组的关键词。针对书籍库中的每本电子书,对于每个分组,若该电子书的书名向量中包含该分组的关键词,则将该电子书划分到该分组中。
其中,电子书的书名字符串可以通过预设的书名过滤规则对电子书的书名进行过滤处理得到。实际应用中,书籍库中电子书的书名通常由中文字符、阿拉伯数字、英文字母以及一些空字符组成,空格、制表符等。因此,为了方便电子书的书名比对,本发明的方案中,在进行书籍库中相似书的净化之前,可以利用预设的书名过滤规则,对书籍库中所有电子书的书名进行过滤处理,得到电子书的书名字符串。例如,将电子书的书名中的一些非必要的空字符过滤掉,保留英文字母、阿拉伯数据和中文字符,并将保留的字符组成该电子书的书名字符串。
本发明的方案中,可以通过向量化规则,将书名字符串中相邻的N个字符组成一个子字符串,之后将拆分得到的各子字符串构成该电子书对应的书名向量,其中,N为预设的拆分基数,可以具体为1、2、3……等正整数。实际应用中,若电子书的书名字符串的书名长度小于拆分基数(比如3),则可以不进行拆分,而是将该书名字符串直接构成该电子书的书名向量。
在得到书籍库中所有电子书各自对应的书名向量之后,可以将所有电子书所对应的书名向量合并成一个向量;并根据合并成的向量中的向量元素进行分组,确定出各分组的关键词。
具体地,合并成的向量中的每个向量元素,可以对应一个分组,该分组的关键词即为该向量元素。例如,将三百万本书的所有书名向量合并成一个向量,合并成的向量中向量元素可能只有一百万,即合并成的向量的长度为一百万。
实际应用中,在对合并成的向量进行分组的过程中,分组的个数可以等于该合并成的向量的长度,也可以小于该合并成的向量的长度。
在完成合并成的向量的分组之后,可以将书籍库中所有的电子书进行分组划分。具体地,可以针对每本电子书,将该电子书的书名向量与各个分组的关键词进行比对,若该书名向量中包含了某个分组的关键词,则可以将该电子书划分到该分组中。实际应用中,若电子书的书名向量中包含了多个分组的关键词,因此,该电子书将被划分到多个分组中。
S302:对于每个分组,根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度。
本发明的方案中,两本电子书之间的相似度是通过两本书的章节列表之间的相似度来体现的。因此,对于每个分组,可以根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度。
实际应用中,可以以二次规划的最优化问题来计算两个章节列表之间的相似度,但是,由于二次规划的最优化问题计算过程中需要生成一个矩阵,而在大规模的书籍库中电子书的数量庞大,因此,矩阵的生成过程就会消耗很多时间,不利于挖掘速度的提高。
因此,本发明的方案中可以采用近似最优的方法,将分组内的电子书两两进行比对,得到比对的两本电子书之间的相似度,提高相似度的计算速度,从而提高相似书的挖掘速度。具体地,对于每个分组,可以针对该分组内的任意两本电子书,将该两本电子书各自的章节列表中章节标题进行比对,计算出该两本电子书之间的jaccard系数,并作为两本电子书之间的相似度。关于jaccard系数的计算方法可以采用本领域技术人员常用的技术手段,在此不再赘述。
其中,章节列表的章节标题可以通过预设的章节过滤规则对电子书的章节列表进行过滤处理得到。具体地,在进行书籍库中相似书的净化之前,可以利用预设的章节过滤规则,对书籍库中所有电子书的章节列表进行过滤处理,得到电子书的章节列表中的各章节标题。其中,章节过滤规则包括如下至少之一:前缀过滤规则、后缀过滤规则。
更优地,考虑到章节列表中通常还包含了一些空字符,因此,在对电子书的章节列表进行预处理的过程中,还可以将章节列表中各章节标题的空字符删掉。其中,空字符可以包括:空格、制表符等。
进一步地,考虑到章节列表中通常还包含了标点符号,因此,在对电子书的章节列表进行预处理的过程中,还可以将章节列表中的标点符号去掉。
这样,通过上述空字符、标点符号、前缀过滤规则、后缀过滤规则对书籍库中电子书的章节列表进行过滤处理,将可以得到电子书的章节列表中的各章节标题。
S303:对于每个分组,若该分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为书籍库中的一对相似书。
具体地,对于每个分组,通过步骤302计算出该分组内各电子书之间的相似度之后,若分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为书籍库中的一对相似书。
其中,设定阈值是由本领域技术人员预先设置的,比如,该设定阈值可以设置为0.8。这样,在将分组内的电子书的章节列表进行两两比对之后,若比对的两本电子书之间的相似度超过0.8,则说明该两本电子书的章节列表相似,可以确定为该分组内的一对相似书。
S304:利用书籍库中所有分组内的相似书,构建书籍库的图模型;其中,每对相似书为图模型中相连的两个端点。
为了便于描述,本发明的方案中,可以将书籍库中的一对相似书称为书籍库中的一个相似对。
实际应用中,在挖掘出书籍库中所有分组内的相似书之后,可以利用所有的相似对,构建图模型。在该图模型中,每个相似对将作为一条边的两个端点。这样,通过构建的图模型可以将书籍库中所有的相似对中相关联的相似对连接起来。
S305:对于图模型中的每个连通分量,从该连通分量中选择一本电子书保留,删除其他电子书。
实际应用中,如果从一个端点到另一个端点有路径,则称这两个端点连通。而如果图中任意两个端点之间都连通,则可以称该图为连通图,否则,称该图为非连通图,则其中的极大连通子图称为连通分量,这里所谓的极大是指子图中包含的端点个数极大。
因此,本发明的方案中,在构建了图模型之后,可以确定出该图模型中存在的连通分量。实际应用中,每个连通分量其所包含的所有电子书,其针对的往往是同一本书。因此,为了降低书籍库的规模,对于图模型中确定出的每个连通分量,可以从该连通分量的内部寻找最好最完整的电子书进行保留而删除其他电子书。
例如,书籍库中挖掘出了1万个相似对,利用这1万个相似对构建出图模型之后,若从该图模型中寻找出了1000个连通分量,而每个连通分量中平均有10本可以互相成为一对相似书的电子书。为了降低书籍库的规模,可以从该10本电子书中寻找出最好的一本进行保留,而删除其他9本电子书。
具体地,对于每个连通分量,可以针对该连通分量中的每本电子书,将该连通分量中与该电子书相连的电子书的个数,作为该电子书的关联度;之后,选取关联度最高的电子书保留,而删除该连通分量中其他的电子书。
或者,对于每个连通分量,可以针对该连通分量中的每本电子书,将该连通分量中该电子书相连的各本电子书与该电子书之间的相似度进行累加,得到该电子书的关联度;选取关联度最高的电子书保留。
进一步地,针对该连通分量中的每本电子书,在确定出该连通分量中与该电子书相连的电子书之后,将各本电子书与该电子书之间的相似度进行累加,并将累加的相似度除以与该电子书相连的电子书的数量,得到该电子书的平均相似度,并作为该电子书的关联度;选取关联度最高的电子书保留。
本发明的方案中,在挖掘出书籍库中的相似书之后,基于挖掘出所有分组内的相似书,构建图模型;进而针对图模型中每个连通分量,从该连通分量中选择一个电子书保留,而删除一些相似书,从而实现对书籍库进行相似书的净化处理,以此降低书籍库的规模。
基于上述书籍库中相似书的净化方法,本发明还提供了一种书籍库中相似书的净化装置,如图4所示,该净化装置可以包括:书籍分组单元401、相似书挖掘单元402、以及相似书净化单元403。
其中,书籍分组单元401用于根据书籍库中所有电子书的书名,确定出各电子书所属的分组。
相似书挖掘单元402用于对于每个分组,根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度;若该分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为书籍库中的一对相似书。
相似书净化单元403用于利用书籍库中所有分组内的相似书,构建书籍库的图模型,其中,每对相似书为图模型中相连的两个端点;对于书籍库的图模型中的每个连通分量,从连通分量中选择一本电子书保留,删除该连通分量中的其他电子书。
具体地,相似书净化单元403可以利用书籍库中所有分组内的相似书,构建书籍库的图模型;对于图模型中的每个连通分量,针对连通分量中的每本电子书,将连通分量中与该电子书相连的电子书的个数,作为该电子书的关联度;选取关联度最高的电子书保留,删除该连通分量中的其他电子书。
或者,相似书净化单元403可以利用书籍库中所有分组内的相似书,构建书籍库的图模型;对于图模型中的每个连通分量,针对连通分量中的每本电子书,将连通分量中该电子书相连的各本电子书与该电子书之间的相似度进行累加,得到该电子书的关联度;选取关联度最高的电子书保留,删除其他电子书。
进一步地,相似书净化单元403可以针对该连通分量中的每本电子书,在确定出该连通分量中与该电子书相连的电子书之后,将各本电子书与该电子书之间的相似度进行累加,并将累加的相似度除以与该电子书相连的电子书的数量,得到该电子书的平均相似度,并作为该电子书的关联度;选取关联度最高的电子书保留,删除其他电子书。
更优地,如图4所示,书籍库中相似书的净化装置还包括:预处理单元404。
预处理单元404用于利用预设的书名过滤规则,对书籍库中所有电子书的书名进行过滤处理,得到电子书的书名字符串;利用预设的章节过滤规则,对书籍库中所有电子书的章节列表进行过滤处理,得到电子书的章节列表中的各章节标题。
其中,章节过滤规则包括如下至少之一:前缀过滤规则、后缀过滤规则。
相应地,书籍分组单元401可以针对书籍库中的每本电子书,利用预设的向量化规则拆分该电子书的书名字符串,由拆分得到的各子字符串构成该电子书对应的书名向量;将拆分得到的所有子字符串进行合并去重,得到各分组的关键词;针对书籍库中的每本电子书,对于每个分组,若该电子书的书名向量中包含该分组的关键词,则将该电子书划分到该分组中。
相似书挖掘单元402可以对于每个分组,针对该分组内的任意两本电子书,将该两本电子书各自的章节列表中章节标题进行比对,计算出该两本电子书之间的jaccard系数,并作为两本电子书之间的相似度;若该分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为书籍库中的一对相似书。
本发明的方案中,书籍库中相似书的净化装置中的各单元的具体实现可参照上述书籍库中相似书的净化方法中的各步骤,在此不再赘述。
实际应用中,在通过上述书籍库中相似书的净化方法对书籍库中的相似书进行进化之后,若接收到用户针对某一电子书的搜索请求之后,可以将净化后的书籍库中对应的电子书推送给用户。
因此,本发明还提供了一种基于净化的书籍库的电子书推送方法,如图5所示,该方法包括如下步骤:
S501:接收包含电子书的书名的用户搜索请求。
S502:从净化后的书籍库中查询与书名相对应的电子书。
其中,净化后的书籍库具体是指根据上述书籍库中相似书的净化方法所净化的书籍库。
本发明的方案中,获取接收的用户搜索请求中包含的电子书的书名,根据获取的书名从净化后的书籍库中查询与该书名相对应的电子书。
S503:响应于该用户搜索请求推送查询到的电子书的摘要信息页面。
具体地,通过步骤S502查询到与用户搜索请求中包含的书名相对应的电子书之后,可以响应于该用户搜索请求,向用户推送该电子书的摘要信息页面。
基于上述基于净化的书籍库的电子书推送方法,本发明还提供了一种基于净化的书籍库的电子书推送装置,如图6所示,该推送装置可以包括:请求接收单元601、电子书查询单元602、以及推送单元603。
其中,请求接收单元601用于接收包含电子书的书名的用户搜索请求。
电子书查询单元602用于获取用户搜索请求中的电子书的书名,从净化后的书籍库中查询与该书名相对应的电子书。
其中,净化后的书籍库具体是指根据上述书籍库中相似书的净化方法所净化的书籍库。
推送单元603用于响应于用户搜索请求推送查询到的电子书的摘要信息页面。
本发明的方案中,基于净化的书籍库的电子书推送装置中的各单元的具体实现可参照上述基于净化的书籍库的电子书推送方法中的各步骤,在此不再赘述。
本发明的技术方案中,可以根据电子书的书名,将书籍库中的电子书进行分组,即将书名相似的电子书归为一个分组;继而,对于每个分组,可以根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度,将相似度超过设定阈值的两本电子书确定为书籍库的一对相似书。这样,通过书名和章节列表的两次比对来挖掘相似书,可以避免大量的章节内容的比对,在保障了相似书挖掘的准确率的同时,可以减少挖掘工作量,提高了书籍库中相似书的挖掘速度。
进一步地,在挖掘出书籍库中的相似书之后,还可以基于挖掘出所有分组内的相似书,对书籍库进行相似书的净化处理,删除一些重复的内容,以此降低书籍库的规模。
本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-OnlyMemory,只读存储器)、RAM(RandomAccessMemory,随即存储器)、EPROM(ErasableProgrammableRead-OnlyMemory,可擦写可编程只读存储器)、EEPROM(ElectricallyErasableProgrammableRead-OnlyMemory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种书籍库中相似书的净化方法,其特征在于,包括:
根据所述书籍库中所有电子书的书名,确定出各电子书所属的分组;
对于每个分组,根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度,若该分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为所述书籍库中的一对相似书;
利用所述书籍库中所有分组内的相似书,构建所述书籍库的图模型,其中,每对相似书为所述图模型中相连的两个端点;
对于所述图模型中的每个连通分量,从该连通分量中选择一本电子书保留,删除其他电子书。
2.根据权利要求1所述的方法,其特征在于,所述根据所述书籍库中所有电子书的书名,确定出各书所属的分组之前,还包括:
利用预设的书名过滤规则,对所述书籍库中所有电子书的书名进行过滤处理,得到电子书的书名字符串;
利用预设的章节过滤规则,对所述书籍库中所有电子书的章节列表进行过滤处理,得到电子书的章节列表中的各章节标题。
3.根据权利要求2所述的方法,其特征在于,所述根据所述书籍库中所有电子书的书名,确定出各电子书所属的分组,具体包括:
针对书籍库中的每本电子书,利用预设的向量化规则拆分该电子书的书名字符串,由拆分得到的各子字符串构成该电子书对应的书名向量;
将拆分得到的所有子字符串进行合并去重,得到各分组的关键词;
针对书籍库中的每本电子书,对于每个分组,若该电子书的书名向量中包含该分组的关键词,则将该电子书划分到该分组中。
4.一种书籍库中相似书的净化装置,其特征在于,包括:
书籍分组单元,用于根据所述书籍库中所有电子书的书名,确定出各电子书所属的分组;
相似书挖掘单元,用于对于每个分组,根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度;若该分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为所述书籍库中的一对相似书;
相似书净化单元,用于利用所述书籍库中所有分组内的相似书,构建所述书籍库的图模型,其中,每对相似书为所述图模型中相连的两个端点;对于所述书籍库的图模型中的每个连通分量,从连通分量中选择一本电子书保留,删除其他电子书。
5.一种书籍库中相似书的挖掘方法,其特征在于,包括:
根据书籍库中所有电子书的书名,确定出各电子书所属的分组;
对于每个分组,根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度;
对于每个分组,若分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为所述书籍库中的一对相似书。
6.根据权利要求5所述的方法,其特征在于,所述根据书籍库中所有电子书的书名,确定出各书所属的分组之前,还包括:
利用预设的书名过滤规则,对所述书籍库中所有电子书的书名进行过滤处理,得到电子书的书名字符串;
利用预设的章节过滤规则,对所述书籍库中所有电子书的章节列表进行过滤处理,得到电子书的章节列表中的各章节标题。
7.根据权利要求6所述的方法,其特征在于,所述根据书籍库中所有电子书的书名,确定出各电子书所属的分组,具体包括:
针对书籍库中的每本电子书,利用预设的向量化规则拆分该电子书的书名字符串,由拆分得到的各子字符串构成该电子书对应的书名向量;
将拆分得到的所有子字符串进行合并去重,得到各分组的关键词;
针对书籍库中的每本电子书,对于每个分组,若该电子书的书名向量中包含该分组的关键词,则将该电子书划分到该分组中。
8.一种书籍库中相似书的挖掘装置,其特征在于,包括:
书籍分组单元,用于根据所述书籍库中所有电子书的书名,确定出各电子书所属的分组;
相似度计算单元,用于对于每个分组,根据该分组内各电子书的章节列表,计算出该分组内各电子书之间的相似度;
相似书挖掘单元,用于对于每个分组,若该分组内两本电子书之间的相似度超过设定阈值,则将该两本电子书确定为所述书籍库中的一对相似书。
9.一种基于净化的书籍库的电子书推送方法,其特征在于,包括:
接收包含电子书的书名的用户搜索请求;
从根据如权利要求1至7任一所述的方法所净化的书籍库中查询与所述书名相对应的电子书;
响应于所述用户搜索请求推送查询到的电子书的摘要信息页面。
10.一种基于净化的书籍库的电子书推送装置,其特征在于,包括:
请求接收单元,用于接收包含电子书的书名的用户搜索请求;
电子书查询单元,用于获取所述用户搜索请求中的电子书的书名,从根据如权利要求1至7任一所述的方法所净化的书籍库中查询与所述书名相对应的电子书;
推送单元,用于响应于所述用户搜索请求推送查询到的电子书的摘要信息页面。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510760110.2A CN105373604A (zh) | 2015-11-09 | 2015-11-09 | 书籍库中相似书的挖掘、净化方法和装置 |
PCT/CN2016/099894 WO2017080320A1 (zh) | 2015-11-09 | 2016-09-23 | 书籍库中相似书的挖掘、净化方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510760110.2A CN105373604A (zh) | 2015-11-09 | 2015-11-09 | 书籍库中相似书的挖掘、净化方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105373604A true CN105373604A (zh) | 2016-03-02 |
Family
ID=55375803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510760110.2A Pending CN105373604A (zh) | 2015-11-09 | 2015-11-09 | 书籍库中相似书的挖掘、净化方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105373604A (zh) |
WO (1) | WO2017080320A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106611050A (zh) * | 2016-12-22 | 2017-05-03 | 掌阅科技股份有限公司 | 电子书推荐方法、装置和服务器 |
WO2017080320A1 (zh) * | 2015-11-09 | 2017-05-18 | 北京奇虎科技有限公司 | 书籍库中相似书的挖掘、净化方法和装置 |
CN111832304A (zh) * | 2020-06-29 | 2020-10-27 | 上海巧房信息科技有限公司 | 楼盘名称的查重方法、装置、电子设备及存储介质 |
CN113032695A (zh) * | 2019-12-25 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 更换数据来源的方法、装置、设备和存储介质 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368022A (zh) * | 2020-02-28 | 2020-07-03 | 山东汇贸电子口岸有限公司 | 一种使用反向索引实现书籍筛选的方法及工具 |
CN113269244B (zh) * | 2021-05-18 | 2024-07-23 | 上海睿翎法律咨询服务有限公司 | 针对工商登记信息中跨企业人员重名实现消歧处理方法 |
CN113836863B (zh) * | 2021-09-30 | 2024-05-28 | 安徽大学 | 一种Logisim电路图的查重方法及系统 |
CN116523546B (zh) * | 2023-06-29 | 2023-12-19 | 深圳市华图测控系统有限公司 | 智能读者行为分析预测系统数据采集分析的方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350032A (zh) * | 2008-09-23 | 2009-01-21 | 胡辉 | 判断网页内容是否相同的方法 |
CN101976259A (zh) * | 2010-11-03 | 2011-02-16 | 百度在线网络技术(北京)有限公司 | 一种推荐系列文档的方法和装置 |
US20140236951A1 (en) * | 2013-02-19 | 2014-08-21 | Leonid Taycher | Organizing books by series |
CN104699666A (zh) * | 2015-01-30 | 2015-06-10 | 浙江大学 | 基于近邻传播模型从图书目录中学习层次结构的方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102024065B (zh) * | 2011-01-18 | 2013-01-02 | 中南大学 | 基于simd优化的网页去重并行方法 |
US10229200B2 (en) * | 2012-06-08 | 2019-03-12 | International Business Machines Corporation | Linking data elements based on similarity data values and semantic annotations |
CN105373604A (zh) * | 2015-11-09 | 2016-03-02 | 北京奇虎科技有限公司 | 书籍库中相似书的挖掘、净化方法和装置 |
-
2015
- 2015-11-09 CN CN201510760110.2A patent/CN105373604A/zh active Pending
-
2016
- 2016-09-23 WO PCT/CN2016/099894 patent/WO2017080320A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350032A (zh) * | 2008-09-23 | 2009-01-21 | 胡辉 | 判断网页内容是否相同的方法 |
CN101976259A (zh) * | 2010-11-03 | 2011-02-16 | 百度在线网络技术(北京)有限公司 | 一种推荐系列文档的方法和装置 |
US20140236951A1 (en) * | 2013-02-19 | 2014-08-21 | Leonid Taycher | Organizing books by series |
CN104699666A (zh) * | 2015-01-30 | 2015-06-10 | 浙江大学 | 基于近邻传播模型从图书目录中学习层次结构的方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017080320A1 (zh) * | 2015-11-09 | 2017-05-18 | 北京奇虎科技有限公司 | 书籍库中相似书的挖掘、净化方法和装置 |
CN106611050A (zh) * | 2016-12-22 | 2017-05-03 | 掌阅科技股份有限公司 | 电子书推荐方法、装置和服务器 |
CN113032695A (zh) * | 2019-12-25 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 更换数据来源的方法、装置、设备和存储介质 |
CN113032695B (zh) * | 2019-12-25 | 2023-10-17 | 腾讯科技(深圳)有限公司 | 更换数据来源的方法、装置、设备和存储介质 |
CN111832304A (zh) * | 2020-06-29 | 2020-10-27 | 上海巧房信息科技有限公司 | 楼盘名称的查重方法、装置、电子设备及存储介质 |
CN111832304B (zh) * | 2020-06-29 | 2024-02-27 | 上海巧房信息科技有限公司 | 楼盘名称的查重方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2017080320A1 (zh) | 2017-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105373604A (zh) | 书籍库中相似书的挖掘、净化方法和装置 | |
JP5437557B2 (ja) | 検索処理方法及び検索システム | |
US20110209048A1 (en) | Interactive synchronization of web data and spreadsheets | |
US20080177731A1 (en) | Data processing apparatus, data processing method and search apparatus | |
CN102270048B (zh) | 一种名词输入的方法及系统 | |
CN102622450A (zh) | 用户的浏览器历史的相关性排序 | |
CN102722498A (zh) | 搜索引擎及其实现方法 | |
US20110208715A1 (en) | Automatically mining intents of a group of queries | |
CN104572679B (zh) | 舆情数据存储方法和装置 | |
CN103605758A (zh) | 一种移动终端文件查找的方法及装置 | |
CN102722499A (zh) | 搜索引擎及其实现方法 | |
CN107609192A (zh) | 一种搜索引擎的补充搜索方法和装置 | |
CN102737021A (zh) | 搜索引擎及其实现方法 | |
US8694512B1 (en) | Query suggestions | |
CN105989013A (zh) | 去除文字水印的方法及装置 | |
CN103309892A (zh) | 用于信息处理和Web浏览历史导航的方法和设备及电子装置 | |
CN105488198A (zh) | 一种应用程序的推荐方法及终端 | |
CN104281275A (zh) | 一种英文的输入方法和装置 | |
CN103218452A (zh) | 一种识别Hub页中有效链接的方法和装置 | |
US20090077031A1 (en) | System and method for creating full-text indexes of patent documents | |
CN103870501A (zh) | 一种自动匹配方法及装置 | |
WO2020245887A1 (ja) | 文章生成装置、文章生成方法、および文章生成プログラム | |
Liu et al. | deBWT: parallel construction of Burrows–Wheeler Transform for large collection of genomes with de Bruijn-branch encoding | |
JP2006155275A (ja) | 情報抽出方法及び情報抽出装置 | |
CN105630942A (zh) | 电子书更新章节的调度方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160302 |