CN117033733B

CN117033733B - 图书馆资源的智能自动分类与标签生成系统及方法

Info

Publication number: CN117033733B
Application number: CN202311294105.8A
Authority: CN
Inventors: 张万辉
Original assignee: Beijing Minxie Culture Communication Co ltd
Current assignee: Beijing Minxie Culture Communication Co ltd
Priority date: 2023-10-09
Filing date: 2023-10-09
Publication date: 2023-12-22
Anticipated expiration: 2043-10-09
Also published as: CN117033733A

Abstract

本发明涉及数据处理领域，尤其涉及图书馆资源的智能自动分类与标签生成系统及方法。首先，基于深度学习的图书内容向量化算法将图书的内容转化为向量，对图书内容进行分析，捕捉图书的主题、风格和情感，针对每个图书生成标签并自动分类；然后，基于深度学习的分层自适应学习算法使用样本数据进行交叉验证；最后，构建动态结构神经网络，通过自适应模块化学习算法进行任务拆分，实现并行学习。解决了传统的图书馆资源管理方法主要依赖于人工进行图书分类和标签生成，效率低且容易出错，难以应对大量的图书资源，以及现有技术往往只能捕捉图书的表面信息，缺乏对不同类型和风格图书的自适应处理能力，导致分类和标签生成的准确性不高的问题。

Description

图书馆资源的智能自动分类与标签生成系统及方法

技术领域

本发明涉及数据处理领域，尤其涉及图书馆资源的智能自动分类与标签生成系统及方法。

背景技术

随着时代的发展，图书馆的资源不仅仅局限于纸质书籍，还包括电子书、期刊、音频、视频和其他多媒体资料。这些资源的数量和种类都在不断增长，给图书馆的资源管理带来了巨大的挑战。

在数字化之前，图书馆主要依赖卡片目录系统进行资源管理。这种方法虽然简单，但效率低下，且难以应对大量的图书资源。随着计算机技术的发展，图书馆开始采用计算机化的管理系统，但这些系统往往还是基于传统的分类方法，如杜威十进制分类法或国会图书馆分类法。

近年来，深度学习和自然语言处理技术在许多领域都取得了突破性的进展，如图像识别、语音识别和机器翻译等。这些技术为图书馆资源的智能自动分类与标签生成提供了新的可能性。通过深度神经网络，可以更深入地分析图书的内容，捕捉图书的主题、风格和情感等信息。此外，自然语言处理技术可以自动提取图书的关键词和摘要，为图书生成更准确的标签。

我国专利申请号：CN202210538427.1，公开日：2022.09.16，公开了一种基于内容关键词和神经网络的图书馆书籍分类方法，包括：步骤一、建立8层基于双向长短期记忆神经网络的模型，包括依次连接的嵌入层、空间随机失活层、长短期记忆层、第一随机失活层、全连接层、第二随机失活层、全连接层和激活函数层；步骤二、将待分类的图书随机抽取一页进行文本识别，将识别后的文本进行数据预处理获得向量数据；步骤三、将所述向量数据输入所述模型中，获得预测分类结果。该发明结合循环神经网络对自然语言处理的准确性，同时通过长短期记忆神经网络在很大程度上解决循环神经网络在较长时间步存在的梯度爆炸和梯度消失问题，实现准确的中文图书分类功能。

但上述技术至少存在如下技术问题：传统的图书馆资源管理方法主要依赖于人工进行图书分类和标签生成，不仅效率低下，而且容易出错，且难以应对大量的图书资源；现有技术往往只能捕捉图书的表面信息，采用固定的算法和模型，难以深入分析图书的内容，缺乏对不同类型和风格图书的自适应处理能力，导致分类和标签生成的准确性不高，且需要大量的计算资源，尤其是在处理大量图书资源时，可能导致系统响应缓慢或崩溃。

发明内容

本申请实施例通过提供图书馆资源的智能自动分类与标签生成系统及方法，解决了传统的图书馆资源管理方法主要依赖于人工进行图书分类和标签生成，不仅效率低下，而且容易出错，且难以应对大量的图书资源的问题，以及现有技术往往只能捕捉图书的表面信息，采用固定的算法和模型，难以深入分析图书的内容，缺乏对不同类型和风格图书的自适应处理能力，导致分类和标签生成的准确性不高；且需要大量的计算资源，尤其是在处理大量图书资源时，可能导致系统响应缓慢或崩溃的问题。实现图书馆资源的智能自动分类与标签生成，大幅提升资源管理效率并节省人力成本。

本申请提供了图书馆资源的智能自动分类与标签生成系统及方法，具体包括以下技术方案：

图书馆资源的智能自动分类与标签生成系统，包括以下部分：

资源获取模块、图书内容分析模块、分层自适应学习模块、动态调整模块、任务拆分模块和数据库；

所述图书内容分析模块，用于设计并实现基于深度学习的图书内容向量化算法，将图书内容转化为向量，捕捉图书的主题、风格和情感；对图书内容进行情感分析和主题聚类，生成标签并自动分类；图书内容分析模块通过数据传输的方式与分层自适应学习模块和动态调整模块相连；

所述分层自适应学习模块，用于采用基于深度学习的分层自适应学习算法，将神经网络的每一层视为一个独立的学习实体，每一层都有自己的学习率和优化策略，从而使得网络在不同的深度上具有不同的学习能力，分层自适应学习模块通过数据传输的方式与动态调整模块相连；

所述动态调整模块，用于构建动态结构神经网络，在训练过程中增加或删除神经元或连接，从而适应不同的任务和数据，动态调整模块通过数据传输的方式与任务拆分模块相连；

所述任务拆分模块，用于构建自适应模块化学习算法，将大型任务分解为两个及以上小任务，并为每个小任务分配一个模块，这些模块能够并行学习，并在需要时进行组合，任务拆分模块通过数据传输的方式与数据库相连。

图书馆资源的智能自动分类与标签生成方法，包括以下步骤：

S100：基于深度学习的图书内容向量化算法将图书的内容转化为向量，对图书内容进行分析，捕捉图书的主题、风格和情感，针对每个图书生成标签并自动分类；

S200：基于深度学习的分层自适应学习算法使用样本数据进行交叉验证；

S300：构建动态结构神经网络，通过自适应模块化学习算法进行任务拆分，实现并行学习。

优选的，所述S100，具体包括：

所述基于深度学习的图书内容向量化算法，将图书内容分为两个及以上句子，每个句子通过深度神经网络模型被转化为一个向量；对所有句子的向量进行加权平均，实现图书内容向量化，并确保所有句子的权重之和为1。

优选的，所述S100，还包括：

通过图书内容向量化算法得到图书的向量后，构建神经网络模型，预测图书的情感得分；使用图书内容向量化算法得到每本图书内容的向量，采用主题聚类算法对图书内容向量进行聚类。

优选的，所述S200，具体包括：

定义基于深度学习的分层自适应学习算法的结构，所述基于深度学习的分层自适应学习算法共有5层，分别是：输入层、卷积层、循环层、全连接层和输出层。

优选的，所述S200，还包括：

初始化每一层的权重和偏置，在每次迭代中，为每一层选择一个学习率和优化策略。使用前向传播计算每一层的输出，使用反向传播更新每一层的权重和偏置。

优选的，所述S300，具体包括：

构建动态结构神经网络，所述动态结构神经网络通过在训练过程中增加或删除神经元或连接，适应不同的任务和数据，所述动态结构使得网络根据数据的复杂性自动调整其结构。

优选的，所述S300，还包括：

使用所述基于深度学习的分层自适应学习算法的输出作为所述动态结构神经网络的输入，在每次迭代中，评估每个神经元或连接的重要性。

优选的，所述S300，还包括：

根据重要性评估结果，基于神经元或连接的重要性和所有神经元或连接的重要性的标准差，增加或删除神经元或连接；设立用于判定是否增加或删除神经元或连接的条件：

当重要性的值大于阈值加上所有神经元或连接重要性的标准差的乘积时，增加该神经元或连接，这表示该神经元或连接对网络性能的贡献超出了平均水平；

当重要性的值小于阈值的负值时，删除该神经元或连接，这表示该神经元或连接对网络性能的贡献低于平均水平。

优选的，所述S300，还包括：

使用动态结构神经网络的输出作为自适应模块化学习算法的输入，将大型任务分解为两个及以上小任务，为每个小任务初始化一个模块，然后并行训练每个模块，并通过组合两个及以上模块来解决大型任务；为每个模块引入输出公式。

有益效果：

本申请实施例中提供的多个技术方案，至少具有如下技术效果或优点：

1、本申请通过采用基于深度学习的图书内容向量化算法，能够有效地将整本图书的内容转化为一个固定长度的向量，从而捕捉图书的主题、风格和情感；不仅提高了图书内容分析的准确性，而且大大提高了处理速度；

2、动态结构神经网络能够根据数据的复杂性自动调整其结构，从而提高学习的效率和准确性，为处理不同类型和复杂性的图书内容提供了强大的支持；自适应模块化学习算法将大型任务分解为多个小任务，并为每个小任务分配一个模块，这些模块可以并行学习，并在需要时进行组合；这种模块化的方法可以更高效地处理大型任务，从而提高学习的速度和准确性；

3、通过基于图书内容向量的情感分析方法，能够准确地预测图书的情感得分，从而为读者提供更为准确的图书推荐；能够自动为每本图书生成标签并进行分类，大大提高了图书馆资源管理的效率和准确性。

4、本申请的技术方案能够有效解决传统的图书馆资源管理方法主要依赖于人工进行图书分类和标签生成，不仅效率低下，而且容易出错，且难以应对大量的图书资源的问题，以及现有技术往往只能捕捉图书的表面信息，采用固定的算法和模型，难以深入分析图书的内容，缺乏对不同类型和风格图书的自适应处理能力，导致分类和标签生成的准确性不高；且需要大量的计算资源，尤其是在处理大量图书资源时，可能导致系统响应缓慢或崩溃的问题。能够实现图书馆资源的智能自动分类与标签生成，大幅提升资源管理效率并节省人力成本。

附图说明

图1为本申请所述的图书馆资源的智能自动分类与标签生成系统结构图；

图2为本申请所述的图书馆资源的智能自动分类与标签生成方法流程图；

具体实施方式

本申请实施例通过提供图书馆资源的智能自动分类与标签生成系统及方法，解决了传统的图书馆资源管理方法主要依赖于人工进行图书分类和标签生成，不仅效率低下，而且容易出错，且难以应对大量的图书资源的问题，以及现有技术往往只能捕捉图书的表面信息，采用固定的算法和模型，难以深入分析图书的内容，缺乏对不同类型和风格图书的自适应处理能力，导致分类和标签生成的准确性不高；且需要大量的计算资源，尤其是在处理大量图书资源时，可能导致系统响应缓慢或崩溃的问题。

本申请实施例中的技术方案为解决上述问题，总体思路如下：

本申请通过采用基于深度学习的图书内容向量化算法，能够有效地将整本图书的内容转化为一个固定长度的向量，从而捕捉图书的主题、风格和情感；不仅提高了图书内容分析的准确性，而且大大提高了处理速度；动态结构神经网络能够根据数据的复杂性自动调整其结构，从而提高学习的效率和准确性，为处理不同类型和复杂性的图书内容提供了强大的支持；自适应模块化学习算法将大型任务分解为多个小任务，并为每个小任务分配一个模块，这些模块可以并行学习，并在需要时进行组合；这种模块化的方法可以更高效地处理大型任务，从而提高学习的速度和准确性；通过基于图书内容向量的情感分析方法，能够准确地预测图书的情感得分，从而为读者提供更为准确的图书推荐；能够自动为每本图书生成标签并进行分类，大大提高了图书馆资源管理的效率和准确性。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

参照附图1，本申请所述的图书馆资源的智能自动分类与标签生成系统，包括以下部分：

资源获取模块10、图书内容分析模块20、分层自适应学习模块30、动态调整模块40、任务拆分模块50和数据库60；

所述资源获取模块10，用于从图书馆的数据库60中收集大量的图书资源数据，并进行数据预处理，以确保数据的质量和准确性，资源获取模块10通过数据传输的方式与图书内容分析模块20相连；

所述图书内容分析模块20，用于设计并实现基于深度学习的图书内容向量化算法，将图书内容转化为向量，捕捉图书的主题、风格和情感；进一步对图书内容进行情感分析和主题聚类，生成标签并自动分类；图书内容分析模块20通过数据传输的方式与分层自适应学习模块30和动态调整模块40相连；

所述分层自适应学习模块30，用于采用基于深度学习的分层自适应学习算法，将神经网络的每一层视为一个独立的学习实体，每一层都有自己的学习率和优化策略，从而使得网络在不同的深度上具有不同的学习能力，分层自适应学习模块30通过数据传输的方式与动态调整模块40相连；

所述动态调整模块40，用于构建动态结构神经网络，可以在训练过程中增加或删除神经元或连接，从而适应不同的任务和数据，动态调整模块40通过数据传输的方式与任务拆分模块50相连；

所述任务拆分模块50，用于构建自适应模块化学习算法，将大型任务分解为多个小任务，并为每个小任务分配一个模块，这些模块可以并行学习，并在需要时进行组合，任务拆分模块50通过数据传输的方式与数据库60相连；

所述数据库60，用于存储和管理图书馆的所有图书资源数据，以及生成的图书标签和分类结果；数据库60通过数据传输的方式与资源获取模块10相连。

参照附图2，本申请所述的图书馆资源的智能自动分类与标签生成方法包括以下步骤：

资源获取模块从图书馆的数据库中收集大量的图书资源数据，包括但不限于书名、作者、出版日期、摘要、目录、关键词等。并对收集到的图书资源数据进行预处理，包括文本清洗、去除停用词、词干提取等步骤，以确保数据的质量和准确性。

为了实现图书资源的智能自动分类，图书内容分析模块设计了一种基于深度学习的图书内容向量化算法，将整本图书的内容转化为一个固定长度的向量，该向量可以捕捉图书的主题、风格和情感，对图书内容进行分析。

具体地，将图书内容分为多个句子，每个句子通过一个深度神经网络模型被转化为一个向量。具体地，

，

其中，是通过深度神经网络模型得到的句子的向量，/>是通过词嵌入模型得到的句子的嵌入矩阵，/>和/>是权重和偏置，/>是一个可学习的参数向量，/>和/>分别表示点乘和哈达玛积，通过加入哈达玛积来增加模型的非线性。

为了得到整本图书的向量表示，对所有句子的向量进行加权平均，实现图书内容向量化：

，

其中，是图书的向量，/>是第i个句子的向量，/>是句子的数量，/>是第i个句子的权重，/>，/>是通过SoftMax函数得到的句子的权重，确保所有句子的权重之和为1，具体计算方式为：

，

其中，U是句子权重的参数向量，是句子权重的调节参数，/>，/>。

为了对图书的情感进行分析，提出了一个基于图书内容向量的情感分析方法。通过图书内容向量化算法得到图书的向量后，构建一个神经网络模型，预测图书的情感得分。具体地，情感得分S可以表示为：

，

其中，是Sigmoid函数，/>和/>是权重和偏置，/>是一个可学习的调节参数。

为了将相似主题的图书聚集在一起，采用了一个基于图书内容向量的主题聚类算法。使用图书内容向量化算法得到每本图书内容的向量，采用一个主题聚类算法对图书内容向量进行聚类。具体地，

，

其中，是第r个聚类中的图书数量，/>是第m本图书内容的向量，/>是调节参数。通过上述过程，图书内容分析模块实现对图书的内容进行向量化、情感分析和主题聚类，针对每个图书生成标签并自动分类。

为了确保图书馆资源的智能自动分类与标签生成的准确性，使用样本数据进行交叉验证，确保分类结果的准确性。在图书内容分析模块实现过程中，分层自适应学习模块采用了基于深度学习的分层自适应学习算法，所述基于深度学习的分层自适应学习算法是一个深度学习算法，它将神经网络的每一层视为一个独立的学习实体，每一层都有自己的学习率和优化策略，从而使得网络在不同的深度上具有不同的学习能力。这种分层的方法能够更精细地控制每一层的学习过程，从而提高整体的学习效率。

具体地，定义一个具体的基于深度学习的分层自适应学习算法的结构，设立基于深度学习的分层自适应学习算法共有5层，分别是：输入层、卷积层、循环层、全连接层和输出层。初始化每一层的权重和偏置，在每次迭代中，为每一层选择一个学习率和优化策略。使用前向传播计算每一层的输出，作为一个通用的计算公式，具体公式为：

，

其中，表示当前层的输出，i用来代表任意层数，/>和/>是当前层的权重和偏置，/>表示当前层的输入，/>是一个权重衰减参数，用于正则化，它的目的是防止模型过度拟合训练数据，确保权重不会变得太大，从而使模型更加平滑；/>是一个动量参数，用于加速梯度下降，在优化过程中，动量考虑了前几步的方向，从而加速收敛并克服任何小的局部最小值或鞍点，/>是层数。前向传播公式是基于标准的神经网络前向传播公式，但添加了额外的项来考虑前一层的输出和当前层的输入的交互。

使用反向传播更新每一层的权重和偏置，具体公式为：

，

其中，是当前层更新后的权重，/>表示损失函数，/>是当前层的学习率，所述学习率决定了在每次迭代中更新权重的幅度；/>是一个权重衰减参数，与/>类似，但通常用于不同的正则化策略，如L1正则化；/>是一个动量参数，与/>类似，但可以应用于不同的优化策略，如RMSProp或Adam；/>是模型复杂性参数，用于控制模型的容量，决定添加或删除神经元的数量。

为了进一步优化网络结构，动态调整模块构建了动态结构神经网络，所述动态结构神经网络可以在训练过程中增加或删除神经元或连接，从而适应不同的任务和数据。这种动态结构使得网络可以根据数据的复杂性自动调整其结构，提高学习的效率和准确性。

具体地，使用基于深度学习的分层自适应学习算法的输出作为动态结构神经网络的输入。在每次迭代中，评估每个神经元或连接的重要性，具体公式为：

，

其中，表示第j个神经元或连接的重要性；/>是一个权重参数，用于衡量神经元或连接对损失函数的影响的重要性；/>表示第j个神经元的输出；/>是一个正则化参数，用于衡量节点输出的幂的重要性。考虑到网络的动态结构，为每个神经元或连接引入了一个重要性度量，所述重要性度量是基于神经元或连接对损失函数的影响和神经元的输出的幂。

根据上述重要性评估结果，基于神经元或连接的重要性和所有神经元或连接的重要性的标准差，增加或删除神经元或连接，用以下公式表达：

，

其中，是一个阈值参数，用于确定增加或删除神经元或连接的条件；/>是一个标准化参数，用于考虑所有神经元或连接的重要性的标准差。上述条件用于确定是否应该增加或删除第j个神经元或连接：

如果的值大于一个阈值/>加上所有神经元或连接重要性的标准差的乘积，那么增加该神经元或连接，这意味着该神经元或连接对网络性能的贡献很大，并且它的贡献超出了平均水平；

如果的值小于/>，那么删除该神经元或连接，这意味着该神经元或连接对网络性能的贡献很小或负面，并且它的贡献低于平均水平。

为了更高效地处理大型任务，任务拆分模块构建了自适应模块化学习算法，它将大型任务分解为多个小任务，并为每个小任务分配一个模块。这些模块可以并行学习，并在需要时进行组合。这种模块化的方法可以更高效地处理大型任务，从而提高学习的速度和准确性。

使用动态结构神经网络的输出作为自适应模块化学习算法的输入，将大型任务分解为多个小任务，为每个小任务初始化一个模块，然后并行训练每个模块，并在需要时，组合多个模块来解决大型任务。考虑到模块化的学习方法，为每个模块引入了一个输出公式：

，

其中，表示第k个模块的输出，/>是一个激活函数的缩放因子，控制了激活函数输出的幅度或范围，从而影响神经元的激活强度；/>是第k个模块的任务，/>是第k个模块的偏置，/>是一个正则化参数，用于控制模型的复杂性；/>是偏置调整因子，用于控制神经元的激活阈值。

组合模块的公式是基于每个模块的输出和所有模块的输出的对数，具体为：

，

其中，是组合模块的公式，/>是第k个模块的权重系数，用于控制该模块在组合输出时的重要性，/>是组合因子，用于控制模块输出的组合方式。

综上所述，便完成了本申请所述的图书馆资源的智能自动分类与标签生成系统及方法。

上述本申请实施例中的技术方案，至少具有如下的技术效果或优点：

效果调研：

本申请的技术方案能够有效解决传统的图书馆资源管理方法主要依赖于人工进行图书分类和标签生成，不仅效率低下，而且容易出错，且难以应对大量的图书资源的问题，以及现有技术往往只能捕捉图书的表面信息，采用固定的算法和模型，难以深入分析图书的内容，缺乏对不同类型和风格图书的自适应处理能力，导致分类和标签生成的准确性不高；且需要大量的计算资源，尤其是在处理大量图书资源时，可能导致系统响应缓慢或崩溃的问题。并且，上述系统或方法经过了一系列的效果调研，通过验证，最终能够实现图书馆资源的智能自动分类与标签生成，大幅提升资源管理效率并节省人力成本。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.图书馆资源的智能自动分类与标签生成系统，其特征在于，包括以下部分：

2.图书馆资源的智能自动分类与标签生成方法，其特征在于，包括以下步骤：

S300：构建动态结构神经网络，通过自适应模块化学习算法进行任务拆分，实现并行学习；所述动态结构神经网络通过在训练过程中增加或删除神经元或连接，适应不同的任务和数据，动态结构使得网络根据数据的复杂性自动调整其结构；使用基于深度学习的分层自适应学习算法的输出作为所述动态结构神经网络的输入，在每次迭代中，评估每个神经元或连接的重要性；根据重要性评估结果，基于神经元或连接的重要性和所有神经元或连接的重要性的标准差，增加或删除神经元或连接；设立用于判定是否增加或删除神经元或连接的条件：

3.根据权利要求2所述的图书馆资源的智能自动分类与标签生成方法，其特征在于，所述S100，具体包括：

4.根据权利要求3所述的图书馆资源的智能自动分类与标签生成方法，其特征在于，所述S100，还包括：

5.根据权利要求2所述的图书馆资源的智能自动分类与标签生成方法，其特征在于，所述S200，具体包括：

6.根据权利要求5所述的图书馆资源的智能自动分类与标签生成方法，其特征在于，所述S200，还包括：

初始化每一层的权重和偏置，在每次迭代中，为每一层选择一个学习率和优化策略；使用前向传播计算每一层的输出，使用反向传播更新每一层的权重和偏置。

7.根据权利要求2所述的图书馆资源的智能自动分类与标签生成方法，其特征在于，所述S300，还包括：