CN112347239A

CN112347239A - 一种基于大数据的图书匹配方法、系统、服务器及存储介质

Info

Publication number: CN112347239A
Application number: CN202011263585.8A
Authority: CN
Inventors: 黄婷
Original assignee: Fangzheng Zhushi Wuhan Technology Development Co ltd
Current assignee: Fangzheng Zhushi Wuhan Technology Development Co ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-02-09

Abstract

本发明涉及一种基于大数据的图书匹配方法、系统、服务器及可读存储介质，本发明通过采集用户数据，获取用户的个人信息及历史阅读记录，而后通过历史阅读记录中计算阅读难度等级构建用户模型，得到用户的阅读能力及阅读喜好，再通过匹配与其阅读喜好相近，且阅读难度等级比阅读能力略高的书籍，解决了现有技术中阅读能力的增长只能通过大批量阅读的技术问题，达到了快速培养用户阅读能力的技术效果。

Description

一种基于大数据的图书匹配方法、系统、服务器及存储介质

技术领域

本发明涉及互联网技术领域，特别涉及一种基于大数据的图书匹配方法、系统、服务器及存储介质。

背景技术

随着互联网和移动技术的快速发展电子书由于其制造成本低廉，获取速度快、难度低、空间占用小便于携带且能够插入图片、声音及影像丰富阅读内容等优点已经取代传统的纸质书籍成为大部分人的选择。

然而，随着电子书行业的快速发展，可阅读的内容越来越多，而部分作者为了让自己的书籍被更多的人所接受，阅读门槛较低的书籍逐渐占据了行业的主流，这进一步增加了需要较高阅读能力书籍的获取难度，有需要、或有想法提升阅读能力的用户，例如学生用户只能通过教材或教师的推荐去获取阅读门槛较高的书籍，然而由于教材或教师为了保障大部分人都能够理解书籍中的内容，导致所推荐的书籍阅读难度往往较低且并不符合部分学生的阅读喜好，对这部分学生来说，所推荐的书籍往往并不合适。

发明内容

本发明提供一种基于大数据的图书匹配方法、系统、服务器及存储介质，以解决现有技术中存在的现有技术推荐的书籍阅读难度较低，而部分被推荐的阅读难度较高的书籍并不能符合所有人的阅读喜好，导致用户阅读能力的提升仅能依赖大量阅读的技术问题。

本发明解决上述技术问题，本发明提出一种基于大数据的图书匹配方法，所述基于大数据的图书匹配方法包括以下步骤：

采集用户数据，从所述用户数据中获取用户的个人信息及历史阅读记录；

根据所述历史阅读记录，结合所述个人信息及所述历史阅读记录中书籍的阅读难度等级构建用户模型，并从所述用户模型中获取所述用户的阅读能力及阅读喜好；

根据所述阅读能力及所述阅读喜好，匹配书籍类型与所述阅读喜好小于预设喜好阈值，书籍的阅读难度等级高于所述阅读能力且小于或等于预设能力阈值的书籍。

优选地，所述基于大数据的图书匹配方法还包括：

获取匹配书籍的阅读时间及阅读进度，并根据所述阅读时间及阅读进度调整所述阅读能力及所述阅读喜好。

优选地，所述书籍的阅读难度等级的获取方法具体包括：

获取全部书籍的词汇及词汇使用频率，分别统计所述词汇使用频率低于预设值的词汇作为生僻词汇，并根据目标书籍中所述生僻词汇的数量对所述目标书籍设定基础阅读难度等级；

获取全部书籍的已知成语、诗、词、歇后语及专业词汇的使用频率并计算平均使用频率，根据所述目标书籍的成语、诗、词、歇后语及专业词汇的使用频率及所述平均使用频率调整所述目标书籍的阅读难度等级。

优选地，所述基于大数据的图书匹配方法还包括：

根据所述阅读能力稳定的用户阅读所述目标书籍时的阅读时间及阅读进度数据，调整所述目标书籍的阅读难度等级。

优选地，所述根据所述历史阅读记录，结合所述个人信息及所述历史阅读记录中书籍的阅读难度等级构建用户模型，并从所述用户模型中获取所述用户的阅读能力及阅读喜好的步骤具体包括：

根据用户的年龄、性别、学历及工作环境建立初始用户模型；

获取所述用户的已阅读书籍，根据已阅读书籍的书籍内容、形式、体裁、题材、字数长短及用户用途几方面的属性得到用户阅读习惯数据，向所述初始用户模型增加所述阅读习惯数据并根据已阅读书籍的阅读次数调整所述阅读习惯数据中各个方面的权重得到包含阅读喜好的用户模型；

选择用户阅读次数大于1次的书籍第一次阅读时的阅读时间，将所述阅读时间与同一年龄段、同一性别、同一学历且工作环境相近的所有用户进行对比，得到所述用户模型的基准阅读能力，并通过对所有已阅读书籍的阅读时间及阅读进度数据进行计算，得到阅读速度，将其与所有用户的阅读速度进行对比，使用对比结果对所述基准阅读能力进行矫正，使得所述用户模型包含用户的阅读能力。

优选地，所述基于大数据的图书匹配方法还包括：

根据匹配书籍的阅读次数调整所述用户模型的阅读喜好，并根据所述匹配书籍的阅读速度在所述阅读喜好相近的用户中的排名调整所述用户模型的阅读能力。

本发明还提出一种基于大数据的图书匹配系统，所述基于大数据的图书匹配系统包括：

数据采集单元，用于采集用户数据，从所述用户数据中获取用户的个人信息及历史阅读记录；

模型构建单元，用于根据所述历史阅读记录，结合所述个人信息及历史阅读记录中书籍的阅读难度等级构建用户模型，得到用户的阅读能力及阅读喜好；

书籍匹配单元，用于根据所述阅读能力及所述阅读喜好，匹配书籍类型与所述阅读喜好小于预设喜好阈值，书籍的阅读难度等级高于所述阅读能力且小于或等于预设能力阈值的书籍。

本发明还提出一种基于大数据的图书匹配服务器，所述基于大数据的图书匹配服务器包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于大数据的图书匹配程序，所述基于大数据的图书匹配程序被所述处理器执行时实现如上所述的基于大数据的图书匹配方法的步骤。

本发明还提出一种可读存储介质，所述可读存储介质上存储有基于大数据的图书匹配程序，所述基于大数据的图书匹配程序被处理器执行时实现如上所述的基于大数据的图书匹配方法的步骤。

本发明通过获取用户的个人信息及历史阅读记录，将个人信息与大数据中的同类信息的人群比对，将历史阅读记录中的书籍与数据库中的书籍比对，即可大致得出用户与同类人群的阅读能力差异，并通过历史阅读记录获取用户的阅读喜好，从而匹配与用户阅读喜好相近，阅读难度略微高于其阅读能力的书籍，以帮助用户快速提高阅读能力解决现有技术中推荐的书籍阅读难度较低，而部分被推荐的阅读难度较高的书籍并不能符合所有人的阅读喜好，导致用户阅读能力的提升仅能依赖大量阅读的技术问题。

附图说明

图1是本发明基于大数据的图书匹配方法实施例方案涉及的硬件运行环境的服务器结构示意图；

图2为本发明基于大数据的图书匹配方法另一实施例的流程示意图；

图3为本发明基于大数据的图书匹配方法另一实施例的流程示意图；

图4为本发明基于大数据的图书匹配方法另一实施例的流程示意图；

图5为本发明基于大数据的图书匹配系统的功能模块图。

具体实施方式

以下结合具体实施方式对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

参照图1，图1是本发明实施例方案涉及的硬件运行环境的服务器结构示意图。

如图1所示，所述服务器可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储服务器。

本领域技术人员可以理解，图1中示出的结构并不构成对所述服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于大数据的图书匹配程序。

在图1所示的网络设备中，网络接口1004主要用于连接后台服务器，与所述后台服务器进行数据通信；用户接口1003主要用于连接外设；所述网络设备通过处理器1001调用存储器1005中存储的基于大数据的图书匹配程序，并执行以下操作：

进一步的，所述基于大数据的图书匹配方法还包括：

进一步的，所述书籍的阅读难度等级的获取方法具体包括：

进一步的，所述基于大数据的图书匹配方法还包括：

进一步的，所述根据所述历史阅读记录，结合所述个人信息及所述历史阅读记录中书籍的阅读难度等级构建用户模型，并从所述用户模型中获取所述用户的阅读能力及阅读喜好的步骤具体包括：

进一步的，所述基于大数据的图书匹配方法还包括：

本实施例通过大数据分析书籍的阅读难度等级，并通过对用户的数据采集获取用户的阅读能力，实现了为用户匹配难度等级略高于阅读能力的书籍，使得用户可以在不断的阅读当中提升自己的阅读能力，解决了现有技术中用户阅读能力的提升仅能依赖大量阅读的技术问题，达到了在阅读时间及阅读总量较少的情况下快速提升用户阅读能力的技术效果。

基于上述硬件结构，提出本发明基于大数据的图书匹配方法的实施例。

参照图2所述基于大数据的图书匹配方法包括以下步骤：

S10、采集用户数据，从所述用户数据中获取用户的个人信息及历史阅读记录；

易于理解的是，本实施例获取的用户个人信息不包括隐私信息，仅包括用户的年龄、性别、阅读年限以及工作岗位等公开信息，主要目的在于快速的初步判断该类用户的平均阅读能力，为用户模型的建立提供参考系数，而对于老用户来说，历史阅读记录可直接获取，新用户可以通过引导的方式获取其最喜欢的书籍、最近阅读的书籍以及相关书籍中阅读完成的书籍等，从而获取到基础信息，并通过用户后续的使用中完善历史阅读记录。

值得强调的是，除了上述基于事实标签的数据采集以外，还有通过业务数据的个人信息采集，业务数据部分的采集首先是通过业务服务器上的网页或软件的交互产生的数据，数据存储到MySQL(一种数据库管理系统)数据库，再利用Sqoop(一款开源的工具，主要用于不同数据库间进行数据的传递)组件从MySQL中抽取数据到Mongo(一种数据库管理系统)数据库；日志部分数据的采集是埋点的用户行为数据在日记中的记录，收集后全部存入MongoDB(一个介于关系数据库和非关系数据库之间的数据库)，同时部分写入Kafka(一个开源流处理平台)，对接Spark Streaming(Spark核心应用程序接口的一个扩展)做实时计算处理；本实施例使用Flume(日志收集系统)+Kafka架构完成实时的流式的日志数据的处理，后面再连接上Spark Streaming流式实时处理技术，从而完成实时解析的目标。

S20、根据所述历史阅读记录，结合所述个人信息及所述历史阅读记录中书籍的阅读难度等级构建用户模型，并从所述用户模型中获取所述用户的阅读能力及阅读喜好；

需要说明的是，由于不同书籍的词汇量、文章结构、以及隐含信息并不完全相同，这造成了不同书籍的阅读难度也不相同，当用户的历史阅读记录中存在大量同一阅读难度的书籍时，则认为用户的阅读能力至少高于该类书籍所能提供的阅读难度，而阅读喜好则可使用现有技术获得。

S30、根据所述阅读能力及所述阅读喜好，匹配书籍类型与所述阅读喜好小于预设喜好阈值，书籍的阅读难度等级高于所述阅读能力且小于或等于预设能力阈值的书籍。

值得强调的是，对于阅读能力强的人来说，书籍的词汇量越多，文章结构越复杂，隐含信息越深刻，越是能够激发用户的兴趣与共鸣，越是能够体会到阅读的乐趣，而阅读能力弱的人则会觉得书籍晦涩无趣，很容易放弃这本书籍因此需要选择用户感兴趣的书籍类型激发他阅读下去的兴趣，并通过一定的阅读难度提高他的阅读能力。

本实施例通过为用户匹配合适阅读难度的书籍，使得用户再阅读时能够通过仅阅读几遍就可以得到书读百遍其意自现的效果，提升了用户增长阅读能力的兴趣，并通过与用户匹配与其阅读喜好相近的内容，使得用户在阅读遇到难点的时候能够有坚持下去的动力，最终提高用户的阅读能力。

参照图3，所述基于大数据的图书匹配方法还包括：

S40、获取匹配书籍的阅读时间及阅读进度，并根据所述阅读时间及阅读进度调整所述阅读能力及所述阅读喜好；

易于理解的是，由于匹配书籍的阅读难度应当略高于用户的阅读能力，因此匹配书籍的阅读速度应当处于目标区间中，即相同阅读难度，相同字数的书籍，同样阅读能力的用户阅读速度应当是相近的，因此在书籍为已知书籍的情况下，通过阅读时间与阅读进度的变化详情可以知道用户的阅读速度，则可辅助调整用户模型中的阅读能力，而阅读进度与阅读时间的变化详情还可用于辅助判断用户的阅读喜好，即阅读时间连续，阅读进度较为流畅完整、且是否部分进度反复阅读等信息均可以辅助判断用户的阅读喜好。

具体地，所述书籍的阅读难度等级的获取方法具体包括：

需要说明的是，虽然书籍的阅读难度分为多个维度，然而通常情况下词汇量的区别能够一定程度上反映书籍的阅读难度，且词汇量的检测较为简单、快捷，能够有效降低计算书籍难度的计算量，因此本实施例将生僻词汇的数量作为书籍基础阅读难度的参考，易于理解的是，同一书籍中的同一生僻词汇出现多次时只计量一次。

值得强调的是，由于生僻词汇得到的基础阅读难度较为片面，本实施例通过对已知成语、诗、词、歇后语及专业词汇的使用频率的统计来调整目标书籍的阅读难度等级，还可通过机器学习及自然语言处理技术辅助判断生僻词汇、成语、诗、词、歇后语及专业词汇的使用是否正确，避免对用户产生误导；本实施例还通过爬虫系统及API(ApplicationProgramming Interface，应用程序接口)数据采集来采集书籍的标签信息，用于辅助提高书籍的阅读难度等级的判定准确程度。

具体地，所述基于大数据的图书匹配方法还包括：

需要说明的是，由于书籍的阅读难度等级并不完全正确，而用户的阅读能力相对较为稳定，因此，可以通过使用较为稳定的用于阅读能力辅助调整书籍的阅读难度，例如当一定数量的用户均在该书籍上发生阅读时间延长，阅读进度变化较慢的情况时，则判断该书籍的阅读难度等级被低估。

具体地，所述根据所述历史阅读记录，结合所述个人信息及所述历史阅读记录中书籍的阅读难度等级构建用户模型，并从所述用户模型中获取所述用户的阅读能力及阅读喜好的步骤具体包括：

S21、根据用户的年龄、性别、学历及工作环境建立初始用户模型；

易于理解的是，为了降低模型构建的计算量，本实施例按照用户的年龄范围、性别、学历范围及工作环境类型等事实标签预设有多个初始模型，因此上述初始用户模型的建立过程仅需以最接近的初始模型出发，对详细的年龄、学历及工作环境信息等事实标签进行进一步的补充计算即可得出初始用户模型。

S22、获取所述用户的已阅读书籍，根据已阅读书籍的书籍内容、形式、体裁、题材、字数长短及用户用途几方面的属性得到用户阅读习惯数据，向所述初始用户模型增加所述阅读习惯数据并根据已阅读书籍的阅读次数调整所述阅读习惯数据中各个方面的权重得到包含阅读喜好的用户模型；

需要说明的是，本实施例对书籍内容、形式、体裁、题材、字数长短及用户用途等几方面进行分类，通过阅读习惯数据获得上述类型的具体标签，并通过对已阅读书籍的阅读次数及是否读完等数据调整标签的覆盖率和准确率，以此对用户模型进行调整。

S23、选择用户阅读次数大于1次的书籍第一次阅读时的阅读时间，将所述阅读时间与同一年龄段、同一性别、同一学历且工作环境相近的所有用户进行对比，得到所述用户模型的基准阅读能力，并通过对所有已阅读书籍的阅读时间及阅读进度数据进行计算，得到阅读速度，将其与所有用户的阅读速度进行对比，使用对比结果对所述基准阅读能力进行矫正，使得所述用户模型包含用户的阅读能力。

值得强调的是，由于仅阅读一次的书籍可能由于用户喜好问题造成虽然阅读能力足够但是阅读进度进展缓慢，阅读时间耗费过长等问题，因此选取阅读次数大于1次的书籍对用户的阅读能力进行判断。

具体地，所述基于大数据的图书匹配方法还包括：

易于理解的是，对于阅读能力判断还不稳定的用户来说，本实施例技术方案对于用户的阅读能力并没有清晰的认知，需要采集更多的样本数据，因此此时需要匹配阅读难度较为稳定的书籍使得新产生的样本数据更加真实有效，而对于阅读能力判断较为稳定的用户来说，样本数量已经足够，则可匹配部分阅读难度还不稳定的书籍，以帮助提高书籍阅读难度的准确性。

本实施例通过公开书籍的阅读难度等级的判定方法以及用户阅读能力的判定方法，完善了技术方案，并通过阅读难度稳定的书籍辅助新用户稳定阅读能力等级的判定以及通过阅读能力稳定的用户帮助判定阅读难度较不稳定的书籍来提高书籍阅读难度以及用户阅读能力的判定准确程度，使得新用户越使用本实施例技术方案，本实施例技术方案对用户的阅读能力判定越来越准确，而越来越多的用户使用本实施例技术方案，本实施例技术方案对书籍的难度等级判定也越来越准确，进一步解决了现有技术中向用户推荐的书籍其阅读难度和/或阅读喜好与用户不匹配导致用户阅读能力的提升仅能依赖大量阅读的技术问题，达到了在有限的阅读时间及阅读数量的情况下，快速有效的提升用户阅读能力的技术效果。

数据采集单元10，用于采集用户数据，从所述用户数据中获取用户的个人信息及历史阅读记录；

模型构建单元20，用于根据所述历史阅读记录，结合所述个人信息及历史阅读记录中书籍的阅读难度等级构建用户模型，得到用户的阅读能力及阅读喜好；

书籍匹配单元30，用于根据所述阅读能力及所述阅读喜好，匹配书籍类型与所述阅读喜好小于预设喜好阈值，书籍的阅读难度等级高于所述阅读能力且小于或等于预设能力阈值的书籍。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的图书匹配方法，其特征在于，所述基于大数据的图书匹配方法包括以下步骤：

2.根据权利要求1所述的基于大数据的图书匹配方法，其特征在于，还包括：

3.根据权利要求1所述的基于大数据的图书匹配方法，其特征在于，所述书籍的阅读难度等级的获取方法具体包括：

4.根据权利要求3所述的基于大数据的图书匹配方法，其特征在于，还包括：

5.根据权利要求1所述的基于大数据的图书匹配方法，其特征在于，所述根据所述历史阅读记录，结合所述个人信息及所述历史阅读记录中书籍的阅读难度等级构建用户模型，并从所述用户模型中获取所述用户的阅读能力及阅读喜好的步骤具体包括：

6.根据权利要求5所述的基于大数据的图书匹配方法，其特征在于，还包括：

7.一种基于大数据的图书匹配系统，其特征在于，所述基于大数据的图书匹配系统包括：

8.一种服务器，其特征在于，所述服务器包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行基于大数据的图书匹配程序，所述基于大数据的图书匹配程序被所述处理器执行时实现如权利要求1至6中任一项所述的基于大数据的图书匹配方法的步骤。

9.一种可读存储介质，其特征在于，所述可读存储介质上存储有基于大数据的图书匹配程序，所述基于大数据的图书匹配程序被处理器执行时实现根据权利要求1至6中任一项所述的基于大数据的图书匹配方法的步骤。