CN112241785B

CN112241785B - 一种基于深度强化学习的图书采访方法

Info

Publication number: CN112241785B
Application number: CN202011083599.1A
Authority: CN
Inventors: 谭小彬; 秦川; 周国华; 杨坚; 郑烇
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2022-09-06
Anticipated expiration: 2040-10-12
Also published as: CN112241785A

Abstract

本发明提供了一种基于深度强化学习的图书采访方法，应用于图书馆的图书采访工作，提高图书采访效率和质量。首先，获取历史书单数据、历史订单数据和历史借阅数据；然后对这些数据进行预处理，包括格式转换和统一、空值填充、去除冗余和错误等，然后将对应数据进行匹配和标记；接下来构建应用于图书采访的深度强化学习模型，将历史书单中包含的图书的信息转化为向量的表示形式；再利用历史书单中图书的状态、动作及奖赏对预先构建的深度强化学习模型进行训练；最后将待处理图书的信息转换后，输入训练好的深度强化学习模型，得到针对待处理图书的图书采访结果。本发明的方法可以利用构建的深度强化学习模型对图书进行图书采访决策，可以提高图书采访效率和准确性。

Description

一种基于深度强化学习的图书采访方法

技术领域

本发明属于深度学习中推荐算法领域，尤其涉及一种基于深度强化学习的图书采访方法。

背景技术

图书馆的采访工作,是指图书书籍的采购与访视，是图书馆征集图书的工作，其中“采”是指通过各种渠道进行广泛采集，“访”是指广泛、系统地进行研究调查。图书馆的藏书建设的好坏,与图书采访工作有直接重大的关系。图书采访工作的好坏,决定了图书馆藏书质量的高低。

现有图书采访工作主要存在以下问题：

(1)经费有限，需要有效利用经费进行馆藏资源建设；

(2)现有的图书采访模式主要由学科专家荐购和采访人员凭经验选购相结合，人工方式的采访效率较低，并且具有较大的主观性；

(3)依赖人工的经验进行采集，对于采访人员的知识、经验、技能有较高要求，并且容易忽略一些信息，导致采集的信息不全面，进而影响制定采购计划的准确性。由此可知，现有技术中的方法存在效率较低和准确性不高的技术问题。

发明内容

为了解决上述技术问题，本发明提出了一种基于深度强化学习的图书采访方法。该方法使用历史数据训练出一个深度强化学习模型，训练得到的模型可用于模拟图书采访人员的图书采访工作，可以提高图书采访效率和准确性。

本发明旨在利用深度学习的方法完成图书采访的工作，使得到的模型可以达到图书馆图书采访人员的工作水平。

为达上述目的，本发明提出了一种基于深度强化学习的图书采访方法，其特征在于，所述方法包括：

步骤S1：获取图书馆历史书单数据、历史订单数据、历史借阅记录数据，并对上述数据进行预处理；

步骤S2：将历史书单数据与历史订单数据及历史借阅记录数据进行匹配，根据匹配结果将历史书单数据中的图书标记为未购买或购买n本后预定时间内总借阅的册次k；

步骤S3：将历史书单数据中图书的信息转化为向量的表示形式；

步骤S4：设计用于图书采访的深度强化学习模型，确定深度强化学习训练过程中的状态、动作、奖赏、惩罚及训练参数；

步骤S5：用步骤S3中处理好的数据对深度强化学习模型进行训练，更新、存储深度强化学习模型参数，得到训练好的深度强化学习模型；

步骤S6：将待处理书单中图书的信息转换后，输入训练好的深度强化学习模型，得到待处理图书的采购推荐结果。

在一种实施方式中，步骤S1具体包括：

步骤S1.1：获取图书馆历史书单数据、历史订单数据、历史借阅记录数据；

步骤S1.2：对上述数据进行预处理，包括格式转换和统一、空值填充、去除冗余和错误等。

在一种实施方式中，步骤S2具体包括：

步骤S2.1：将历史书单数据与历史订单数据及历史借阅记录数据进行匹配；

步骤S2.2：如果历史书单数据中包含的图书出现在历史订单数据中，则继续匹配历史借阅记录数据，将历史书单数据中包含的图书标记为购买n本后预定时间内总借阅册次k，否则，将历史书单数据中包含图书的类别标记为未购买。

在一种实施方式中，步骤S3具体包括：

步骤S3.1：将历史书单数据中图书的信息进行分词，再得到每个词向量；

步骤S3.2：将历史书单数据中每一本图书的信息转换为特征向量。

在一种实施方式中，步骤S4具体包括：

步骤S4.1：根据图书采访目标及输入和输出数据维度等信息，并结合控制端的计算能力，确定用于图书采访的深度强化学习的具体模型；

步骤S4.2：设计深度强化学习模型中神经网络的结构、尺寸、神经元激活函数、损失函数及训练方法等；

步骤S4.3：根据图书馆的特征、图书采访目标及深度强化学习模型，确定训练过程中的状态、动作、奖赏和惩罚，确定神经网络的初始权值、学习率和学习率衰减值等训练参数。

在一种实施方式中，步骤S5具体包括：

步骤S5.1：将历史书单数据中图书的特征向量及标记购买借阅情况转换为深度强化学习模型的状态、采取的动作及奖赏或惩罚；

步骤S5.2：使用采集到并处理好的数据对深度强化学习模型采用离线的方式进行训练，同时更新和存储深度强化学习模型参数。

在一种实施方式中，步骤S6具体包括：

步骤S6.1：将待处理书单中图书的信息转换为深度强化学习模型的状态，输入深度强化学习模型；

步骤S6.2：深度强化学习模型根据训练得到的策略对输入的状态选择对应的动作。

本发明的上述技术方案，至少具有以下一种或多种技术效果：

本发明提供的一种基于深度强化学习的图书采访方法，首先，获取历史书单数据、历史订单数据和历史借阅记录数据；然后将历史书单数据与历史订单数据、历史借阅记录数据进行匹配，根据匹配结果将历史书单数据中的图书标记为未购买和购买n本后一定时间内借阅册次为k册次；接下来将历史书单数据中包含的图书的信息转化为向量的表示形式；再利用处理好的数据对预先构建的深度强化学习模型进行训练；最后将待处理图书的信息转换后，传入训练好的深度强化学习模型，得到待处理图书的图书采访结果。

本发明将深度学习技术引入到图书采访技术中，提供了一种基于深度强化学习的图书采访方法，首先根据历史书单数据与历史订单数据、历史借阅记录数据的匹配情况，对历史书单数据进行标记，用于后续模型的训练，并将历史书单数据中包含的图书的信息转化为向量的表示形式，然后利用处理好的数据对预先构建的深度强化学习模型进行训练；最后则可以利用训练好的深度强化学习模型进行图书采访决策，一方面，本发明提供的方法中通过深度强化学习模型来进行图书采访决策，可以提高效率，另一方面，由于模型是根据历史书单数据与历史订单数据、历史借阅数据匹配后进行标记，并通过对标记后的数据进行训练而得到的，因此可以得到效果较好的深度强化学习模型，从而可以提高图书采访决策的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为深度强化学习模型图；

图2为实验流程框架图；

图3为数据处理过程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不违背本发明的精神下进行各种修饰与变更。

本实施例提供了一种基于深度强化学习的图书采访方法，流程如图2所示，本实施例包括下面步骤：

步骤S1：获取图书馆历史书单数据、历史订单数据、历史借阅记录数据，并对上述数据进行预处理。

具体来说，历史书单数据是指所有图书供应商提供过的书单信息，历史订单数据是指图书馆购买过的图书信息，历史借阅记录数据是指图书馆购入图书后每本图书的借阅记录，预处理的方式包括格式转换和统一、空值填充、去除冗余和错误等。

在一种实施方式中，步骤S1具体包括：

步骤S2：将历史书单数据与历史订单数据及历史借阅记录数据进行匹配，根据匹配结果将历史书单数据中的图书标记为未购买或购买n本后预定时间内总借阅的册次k。

具体来说，步骤S2是对历史书单数据中的图书进行标记，便于后续进行模型的训练。

在一种实施方式中，步骤S2具体包括：

步骤S2.2：如果历史书单数据中包含的图书出现在历史订单数据中，则继续匹配历史借阅记录数据，将历史书单数据中包含的图书标记为购买n本后预定时间内总借阅的册次k，否则，将历史书单数据中包含图书的类别标记为未购买。

具体来说，进行数据匹配后，得到历史书单数据中包含的图书的标记，即购买n本后预定时间内总借阅的册次k或者未购买，得到的带标记的历史书单数据。

步骤S3：将历史书单数据中图书的信息转化为向量的表示形式。

具体来说，为了更好地进行训练，需要将历史书单数据中图书的信息转化为向量的表示形式。

在一种实施方式中，步骤S3具体包括：

具体来说，对历史书单数据中图书的信息中的文本序列进行分词，然后得到对应的词向量，再通过添加其他非文本信息并处理，将图书的信息转换为特征向量。文本序列对应的词向量可以通过现有的工具生成，添加的非文本信息可以通过标准化处理得到特征向量。

步骤S4：设计用于图书采访的深度强化学习模型，确定深度强化学习训练过程中的状态、动作、奖赏、惩罚及训练参数。

在一种实施方式中，步骤S4具体包括：

具体来说，即根据图书采访目标及数据维度选择合适的深度强化学习模型，在设计用于图书采访的深度强化学习模型中，状态取决于书单中图书的信息，动作即是否购买该图书及购买的册数，奖赏和惩罚即对是否购买及购买后图书的借阅情况是否达到预期进行刻画，训练参数即根据训练目标及实际情况确定的参数。

步骤S5：用步骤S3中处理好的数据对深度强化学习模型进行训练，更新、存储深度强化学习模型参数，得到训练好的深度强化学习模型。

在一种实施方式中，步骤S5具体包括：

具体来说，即使用历史数据作为样本，训练深度强化学习模型使其达到此前图书采访人员处理书单的决策能力。

步骤S6：将待处理书单中图书的信息转换后，输入训练好的深度强化学习模型，得到待处理图书的图书采访结果。

具体来说，待处理图书的信息即新书单中的图书，例如书名、作者、出版社、内容简介、价格等。

在一种实施方式中，步骤S6具体包括：

具体来说，即使用训练好的模型模拟图书采访人员对新书单进行决策。

通过本发明的方法，只需要将图书书单传入深度强化学习模型，模型会自动输出每一本图书的决策情况，可以大大缓解图书馆图书采访人员的工作压力，也提高了效率。

下面通过一个具体示例，对本发明提供的图书采访方法进行详细介绍。

本示例中所用到的数据集是中国科学技术大学图书馆近几年的图书采购数据，包括三个部分，第一部分是各个书商提供的书单，第二部分是中国科学技术大学图书馆采购图书的订单，第三部分是中国科学技术大学图书馆图书的借阅记录。每个书商提供的图书信息格式大同小异，书籍信息均以Excel表格形式存储，本示例选取了大多数书商都遵循的信息格式作为标准。

深度强化学习模型如图1所示，整个实验流程框架如图2所示，数据处理过程如图3所示，每一本书的属性信息，即图书信息，同时也是Excel书单首行属性有ISBN、主题名、作者、定价、出版者、读者对象、内容简介等。

将历史书单数据与历史订单数据及历史借阅记录数据进行匹配，根据匹配结果将历史书单数据中的图书标记为未购买和购买n本后一定时间内借阅册次为k册次。本例中将时间定为1年，此时间可根据时间情况做改变，并不局限于1年。若购买图书n本后一年内借阅册次为k册次，则该图书的平均图书利用率α为k/n，表示一年内平均每册书被借阅的次数。

将历史书单数据中图书的信息转化为向量的表示形式，可以将书单中的文本信息进行分词，然后得到对应的词向量。本例中使用word2vec得到每个词向量，亦可以使用其他现有工具生成。此外再通过添加其他非文本信息并处理，将图书的信息转换为固定维数的特征向量，维数可以根据信息的情况灵活调整。本例中添加的信息有出版社的评级信息(由新闻出版总署公布)、评书网站评分(转化为[0,1]区间内的数值)、目前馆藏数目n₀及目前图书利用率α₀(馆藏无图书则均为0)，添加的信息亦不局限于上述信息，可根据图书采访目标进行调整。

结合得到的特征向量，设计深度强化学习模型，本例中可以选取最简单的深度强化学习模型DQN(Deep Q-Learning)，此处选择不限于DQN，亦可选用其它的深度强化学习模型。如得到的特征向量为128维，则深度强化学习的神经网络输入维度即确定为128。为了简化说明，这里简单选取不购买、购买1本、购买2本、购买3本、购买4本、购买5本、购买6本和购买7本这8种输出状态，即深度强化学习的输出维度为8。深度强化学习模型中使用的神经网络及层数亦可根据情况设计，本例中使用CNN网络，层数设计为7层，即输入层、输出层和5个隐含层。输入层的维度为128，输出层的维度为8，中间隐含层的尺寸设定为128个节点。

根据图书馆的特征、图书采访目标及深度强化学习模型，确定奖励、惩罚及训练参数。在一批数据训练结束后，计算该批数据的总平均图书利用率

根据图书采访目标确定一个参数β，则某图书一年内平均利用率α在区间[α′-β，α′+β]时，奖赏记为0；α>α′+β时，奖赏记为1；α＜α′-β时，惩罚记为-1；若不购买某图书，则记其平均利用率α＝kα′，其中k为正参数，可以视图书采访目标设定为大于1、小于1或等于1，并使用上述方式记录奖赏或惩罚。上述奖赏及惩罚亦可根据实际情况进行调整，不限于上述方式。

用处理好的数据对深度强化学习模型进行训练，更新、存储深度强化学习模型参数。将历史书单中图书信息对应的状态、动作及奖赏和惩罚输入深度强化学习模型中进行训练，并更新存储深度强化学习模型参数。

训练完成后，将待处理书单中图书的信息转换后，输入训练好的深度强化学习模型，得到待处理图书的图书采访结果，即可处理新书单。亦可将本次决策后实际得到的借阅信息作为新的延迟奖赏，用于继续更新深度强化学习模型。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于深度强化学习的图书采访方法，其特征在于，包括：

步骤S4：设计用于图书采访的深度强化学习模型，确定深度强化学习训练过程中的状态、动作、奖赏、惩罚及训练参数；步骤S4具体包括：

步骤S4.1：根据图书采访目标及输入和输出数据维度信息，确定用于图书采访的深度强化学习的具体模型；

步骤S4.2：设计深度强化学习模型中神经网络的结构、尺寸、神经元激活函数、损失函数及训练方法；

步骤S4.3：根据图书馆的特征、图书采访目标及深度强化学习模型，确定训练过程中的状态、动作、奖赏和惩罚，确定神经网络的初始权值、学习率和学习率衰减值；

步骤S4.3具体包括：

根据图书采访目标及数据维度选择合适的深度强化学习模型，在设计用于图书采访的深度强化学习模型中，状态取决于书单中图书的信息，动作即是否购买该图书及购买的册数，奖赏和惩罚即对是否购买及购买后图书的借阅情况是否达到预期进行刻画，训练参数即根据训练目标及实际情况确定的参数；

2.如权利要求1所述的一种基于深度强化学习的图书采访方法，其特征在于，步骤S1具体包括：

步骤S1.2：对上述数据进行预处理，包括格式转换和统一、空值填充、去除冗余和错误。

3.如权利要求1所述的一种基于深度强化学习的图书采访方法，其特征在于，步骤S2具体包括：

4.如权利要求1所述的一种基于深度强化学习的图书采访方法，其特征在于，步骤S3具体包括：

5.如权利要求1所述的一种基于深度强化学习的图书采访方法，其特征在于，步骤S5具体包括：

6.如权利要求1所述的一种基于深度强化学习的图书采访方法，其特征在于，步骤S6具体包括：

7.如权利要求4所述的一种基于深度强化学习的图书采访方法，其特征在于，步骤S3.1中，历史书单数据中图书的信息包括图书的题目、作者、出版社、主题、简介。

8.如权利要求4所述的一种基于深度强化学习的图书采访方法，其特征在于，步骤S3.1中，对历史书单数据中图书信息进行分词并得到词向量的方法为：

将全部图书信息使用分词工具进行分词后作为词向量生成工具的语料库，再使用词向量生成工具将图书信息转换为预定维度的词向量。