CN116541480B

CN116541480B - 一种基于多标签驱动的专题数据构建方法及系统

Info

Publication number: CN116541480B
Application number: CN202310814079.0A
Authority: CN
Inventors: 钱力; 张彧; 谢靖; 王颖; 贾海清; 徐浩亮; 张茹敏; 常志军; 霍诗漫; 许丽媛
Original assignee: National Science Library Chinese Academy Of Sciences
Current assignee: National Science Library Chinese Academy Of Sciences
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-09-01
Anticipated expiration: 2043-07-05
Also published as: CN116541480A

Abstract

本发明公开了一种基于多标签驱动的专题数据构建方法及系统，属于知识工程领域，所述方法包括：基于初始专题集，构建专题知识结构树；当满足预设更新周期，根据专题数据自动遴选规则，遍历专题知识结构树进行专题数据遴选，采集专题数据集；对专题数据集进行多标签配置，生成多标签标识结果；根据多标签标识结果和专题数据集对初始专题数据集进行更新，生成专题数据库。本申请解决了现有技术中构建专题数据库效率低、效果差、实时性差的技术问题，实现了专题数据库构建的自动化和智能化，达到了自动智能地获取、分类、标注、添加、更新数据，从而高效、精准、动态地构建专题数据库的技术效果。

Description

一种基于多标签驱动的专题数据构建方法及系统

技术领域

本发明涉及知识工程领域，具体涉及一种基于多标签驱动的专题数据构建方法及系统。

背景技术

随着信息技术的发展，大数据时代的来临，海量专题数据的构建与管理变得尤为重要，然而，现有的专题数据构建方法主要依赖人工进行数据搜索、分类和标注，难以实现大规模专题的快速构建，且无法保证数据的持续更新。

发明内容

本申请通过提供了一种基于多标签驱动的专题数据构建方法及系统，旨在解决现有技术中构建专题数据库效率低、效果差、实时性差的技术问题。

鉴于上述问题，本申请提供了一种基于多标签驱动的专题数据构建方法及系统。

本申请公开的第一个方面，提供了一种基于多标签驱动的专题数据构建方法，该方法包括：基于初始专题集，构建专题知识结构树；当满足预设更新周期，根据专题数据自动遴选规则，遍历专题知识结构树进行专题数据遴选，采集专题数据集；对专题数据集进行多标签配置，生成多标签标识结果；根据多标签标识结果和专题数据集对初始专题数据集进行更新，生成专题数据库。

本申请公开的另一个方面，提供了一种基于多标签驱动的专题数据构建系统，该系统包括：知识结构树构建模块，基于初始专题集，构建专题知识结构树；专题数据遴选模块，用于当满足预设更新周期，根据专题数据自动遴选规则，遍历专题知识结构树进行专题数据遴选，采集专题数据集；多标签配置模块，用于对专题数据集进行多标签配置，生成多标签标识结果；专题数据库模块，用于根据多标签标识结果和专题数据集对初始专题数据集进行更新，生成专题数据库。

本申请中提供的一个或多个技术方案，至少具有如下技术效果或优点：

由于采用了基于初始专题集，构建专题知识结构树，以组织和表示专题之间的关系；当满足预设更新周期，根据专题数据自动遴选规则，遍历专题知识结构树进行专题数据遴选，采集专题数据集，实现对数据的自动获取；对专题数据集进行多标签配置，生成多标签标识结果，实现了对数据标注、分类的自动化处理；根据多标签标识结果和专题数据集对初始专题数据集进行更新，生成专题数据库，并实现了对专题数据的持续更新的技术方案，本申请解决了现有技术中构建专题数据库效率低、效果差、实时性差的技术问题，实现了专题数据库构建的自动化和智能化，达到了自动智能地获取、分类、标注、添加、更新数据，从而高效、精准、动态地构建专题数据库的技术效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

图1为本申请实施例提供了一种基于多标签驱动的专题数据构建方法可能的流程示意图；

图2为本申请实施例提供了一种基于多标签驱动的专题数据构建方法中构建专题知识结构树可能的流程示意图；

图3为本申请实施例提供了一种基于多标签驱动的专题数据构建方法中生成多标签标识结果可能的流程示意图；

图4为本申请实施例提供了一种基于多标签驱动的专题数据构建系统可能的结构示意图。

附图标记说明：知识结构树构建模块11，专题数据遴选模块12，多标签配置模块13，专题数据库模块14。

具体实施方式

本申请提供的技术方案总体思路如下：

本申请实施例提供了一种基于多标签驱动的专题数据构建方法及系统，通过构建专题知识结构树组织专题知识，并定期自动采集新的数据，利用多标签技术实现数据的分类与标注，以更新和完善专题数据库，实现专题数据的自动采集与更新。

首先，根据初始的专题集，构建专题知识结构树，以组织和表示专题之间的关系。其次，设定数据更新周期，定期自动采集新的数据作为数据集，这实现了数据的自动获取，解决现有方法依赖人工采集数据的问题。接着，对采集的数据集采用多标签技术实现分类与标注，生成多标签标识结果，实现了数据处理的智能化，解决现有方法依赖人工进行的数据分类与标注的问题。然后，根据多标签标识结果和新采集的数据集，更新和完善现有的专题数据库。这实现了专题数据的持续更新，解决现有方法难以保证数据实时性的问题。

在介绍了本申请基本原理后，下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。

实施例一

如图1所示，本申请实施例提供了一种基于多标签驱动的专题数据构建方法，该方法应用于基于多标签驱动的专题数据构建系统，该方法包括：

步骤S100：基于初始专题集，构建专题知识结构树；

具体而言，采用专题标签解析、关系抽取等技术解析初始专题集，识别各专题之间的父子关系、同级关系，以及专题类属信息。根据识别出的关系，将专题按层次结构组织起来，父专题在树的高层，子专题在低层。同级专题在同一层。在树的每一层，采用自动分类技术将同级专题根据其类属特征进行分类，并添加指示标签，实现专题的分类聚合，实现专题知识结构树的构建。其中，专题知识结构树是一种树形数据结构，标签是对专题数据进行标注和归类的一组预定义词汇，每个节点对应一个专题标签。树根节点对应广义的专题分类，树枝节点对应更加具体的专题子分类，为后续的专题数据提取和归类提供分类依据。

专题数据构建系统通过专家知识或统计学习方法对专题标签集进行层次聚类，得到从广义到具体的专题分类体系，并据此构建专题知识结构树。例如，如果专题标签集中包含“经济”“金融”“证券”“股票”等词汇，可以将“经济”作为树根节点，将“金融”和“证券”作为树枝节点归入“经济”，再将“股票”归入“证券”节点，最终构建的专题知识结构树呈现为金字塔状的层次结构。

步骤S200：当满足预设更新周期，根据专题数据自动遴选规则，遍历所述专题知识结构树进行专题数据遴选，采集专题数据集；

具体而言，系统将根据预设的时间间隔周期，自动对专题知识结构树进行遍历，遴选与各专题节点相关的专题数据，采集一组专题数据集。

其中，更新周期是系统进行新一轮专题数据采集的时间间隔，根据专题类型的新增数据频率进行设置，如一日、一周等。专题类型包括论文、标准、报告、快报、期刊等。自动遴选规则是专题数据构建系统用于判断某条数据是否与专题知识结构树中的专题节点相关的一组规则，该规则基于数据内容与节点关键词的匹配度、数据被用户标注的专题标签、数据被浏览或使用的频率等因素进行制定。

根据设置的预设更新周期进行定期监测，当达到更新周期后，专题数据构建系统自动启动专题数据集的更新过程。根据用户设置的专题数据自动遴选规则，遍历构建的专题知识结构树。在遍历树的每个节点时，系统定位到对应节点的数据集，根据节点的数据类型选择对应的遴选规则进行数据过滤。过滤通过的数据被采集进入专题数据集，未通过的数据被过滤掉。通过重复节点遍历和数据过滤的过程，系统最终得到更新后的专题数据集。更新后的专题数据集同时满足最新的数据和用户设置的遴选规则，可为专题服务提供更加的可靠的数据支持。

通过预设周期启动规则引擎和自动遴选流程，实现对专题数据集的定期更新和维护，减轻了人工专题数据集的工作量，达到了自动智能地分类数据的技术效果，支持高效构建专题数据库，提高专题数据构建的高效性和实时性。

步骤S300：对所述专题数据集进行多标签配置，生成多标签标识结果；

具体而言，首先根据数据类型和用户的需要设置多个数据描述维度，每个维度对应一组用于表示数据特征的标签。然后遍历专题数据集中的每条数据，在每个数据描述维度下选择与该数据最匹配的标签。通过在各个维度下选择的标签，系统为该数据生成一组多标签，作为其多标签标识结果。重复对专题集中的所有专题数据进行多标签配置过程，最终为专题数据集中的每条数据生成一组多标签标识结果。这些多标签标识结果从多个视角全面地表达了各条数据的特征与内涵，为后续的数据检索与筛选提供详尽的数据依据。

通过对专题数据集进行多标签配置，实现了对专题数据集的自动多标签配置。与人工标注相比，有效减少人工工作量，实现数据集的快速多标签标识，提高专题数据库的构建效率和准确性，达到了自动智能地分类、标注数据的技术效果。

步骤S400：根据所述多标签标识结果和所述专题数据集对初始专题数据集进行更新，生成专题数据库。

具体而言，专题知识构建系统首先检索多标签标识结果，提取每个数据对应的多标签，然后判断每个多标签中包含的标签是否存在于当前专题数据集的标签集中。如果不存在，则将对应的新标签添加到标签集，同时更新专题数据集中该数据的标签。通过对每条数据进行标签提取和判断，实现对所有新标签的吸收和专题数据集的更新。更新后的专题数据集中的每个数据均对应最新的多标签，同时专题数据集的标签集也完成了扩充。添加新标签和更新数据集的过程，使得专题数据集随时保持最新状态和最大化覆盖，进而实现数据库的实时更新，满足数据库要保持实时性的需求。

通过根据生成的多标签标识结果和专题数据集，对初始构建的专题数据集进行更新，形成专题数据库，实现对初始专题数据集的维护与升级，使生成的专题数据库在保留初始数据集基础的同时，实现了数据库的自动扩充和数据更新，减轻了人工更新带来的工作量，降低了人工更新的误差。实现了专题数据库构建的自动化和智能化，达到了自动智能地添加、更新数据，从而高效、动态地构建专题数据库的技术效果。

进一步的，如图2所示，本申请实施例还包括：

步骤S110：对所述初始专题集进行语义分类，获取多个专题类别；

步骤S120：设定丰富化指标，激活内嵌于基于多标签驱动的专题数据构建系统的专家智慧模型的多个丰富节点对所述多个专题类别进行丰富化，生成多个专题类别丰富标定结果；

步骤S130：根据专题知识图谱对所述多个专题类别丰富标定结果进行层次划分，生成专题知识结构树。

具体而言，采用语义特征提取技术对初始专题集进行处理，获取专题之间的语义相关性，并根据相关性将专题划分为多个类别。首先，构建语义特征提取模型，如词向量模型，对初始专题集中的每个专题生成词向量表示其语义特征。然后，计算任意两个专题的词向量之间的相似度，判断相似度是否达到预设阈值，如果达到阈值，则将这两个专题归入同一类别；否则，将它们归入不同类别。计算所有词向量特征两两之间的相似度并进行比较，得到多个专题类别。

设置丰富化指标，如专题数据集的基础信息的时间范畴、数据类型、重要度或专题核心主题信息的标签字段、核心主题词、知识结构、禁止主题词等，以指导后续的专题类别丰富化过程，激活嵌入在专题数据构建系统中的专家智慧模型，专家智慧模型包含多个丰富节点，每个节点负责一项丰富化任务。根据设置的丰富化指标，专题数据构建系统选择激活与指标匹配的丰富节点，对专题类别进行丰富化，得到多个专题类别丰富标定结果。

利用构建的专题知识图谱对丰富标定后的专题类别进行分析，识别类别之间的上下级、同级等层次关系。然后根据层次关系构建专题知识结构树，其中，结构树的根节点代表最高一级的类别，同级节点表示同属一个大类的类别，树枝表示上下级关系。

通过语义计算获取初始专题的类别划分，然后利用专家智慧模型对类别进行丰富化，最后根据知识图谱构建层次化的知识结构树，以结构化的方式组织和表示专题知识，为高效动态生成专题数据库提供支持。

进一步的，本申请实施例还包括：

步骤S111：在所述初始专题集中随机抽取，获取第一初始专题和第二初始专题；

步骤S112：将所述第一初始专题输入语义特征提取模型进行语义特征抽取，获取第一特征词向量；

步骤S113：将所述第二初始专题输入语义特征提取模型进行语义特征抽取，获取第二特征词向量；

步骤S114：对所述第一特征词向量和所述第二特征词向量进行相似度评估，获取主题相似度；

步骤S115：当所述主题相似度大于或等于相似度阈值，将所述第一初始专题和所述第二初始专题合并为同类主题，并选用所述第一初始专题或所述第二初始专题作为代表主题，添加进第i个专题类别，添加进所述多个专题类别。

具体而言，从初始专题集中随机抽取两个初始专题，作为第一初始专题和第二初始专题，将选择的第一初始专题输入构建的语义特征提取模型，如词向量模型，对第一初始专题抽取语义特征，生成第一特征词向量表示其语义特征。将选择的第二初始专题也输入语义特征提取模型，对第二初始专题抽取语义特征，生成第二特征词向量表示其语义特征。

采用向量相似度评估技术，如计算通过语义特征提取模型所得的第一特征词向量和第二特征词向量的余弦相似度，得到两专题之间的主题相似度。如果计算得到的主题相似度大于或等于预设的相似度阈值，系统将第一初始专题和第二初始专题判定为同类专题，归入同一类别；同时，专题数据构建系统将选取第一初始专题或第二初始专题中的一个作为代表主题，添加到对应的专题类别中，然后将更新后的专题类别添加至多个专题类别中。如果主题相似度未达到阈值，则第一专题和第二专题归入不同类别。继续从初始专题集中随机选择其他两个专题进行语义特征提取、相似度评估，相似度比较等，直到所有专题处理完成，得到多个专题类别。

通过词向量表示专题语义，采用相似度评估判断专题相关性，并以相关性构建类别划分，利用特征词向量技术对非结构化文本进行表示，实现对初始专题集的快速聚类与分类，从而高效准确地构建专题数据库。

进一步的，本申请实施例还包括：

步骤S210：获取全局遴选指标，其中，所述全局遴选指标包括数据类型、时间范围、数据量和区域中的一个或多个；

步骤S220：获取类型遴选指标，其中，所述类型遴选指标包括来源类型、论文类型、区域类型、时间类型和数据量类型中的一个或多个；

步骤S230：遍历所述全局遴选指标，设定全局遴选约束条件；

步骤S240：根据所述类型遴选指标，设定类型遴选约束条件；

步骤S250：根据所述全局遴选约束条件和/或所述类型遴选约束条件，生成所述专题数据自动遴选规则，遍历所述专题知识结构树进行专题数据遴选，采集所述专题数据集。

具体而言，专题数据构建系统获取用户设置的全局遴选指标，指标涉及数据类型、时间范围、数据量或地区选择等，用于指导全局数据遴选。专题数据构建系统获取用户设置的类型遴选指标，指标涉及来源类型、论文类型、地区类型、时间类型或数据量类型等，用于指导某种数据类型的数据遴选。

根据获取的全局遴选指标设置全局遴选约束条件，用于后续在全局范围内遴选数据。如数据类型：论文、时间范围：2010-2020、地区：中国等。根据获取的类型遴选指标设置类型遴选约束条件，用于后续在某种数据类型范围内遴选数据。如来源类型：SCI期刊、论文类型：期刊论文、数据量：小于或等于100等，对类型遴选指标未设置的默认继承全局遴选指标。根据设置的全局约束条件和/或类型约束条件生成数据自动遴选规则。然后利用构建的专题知识结构树，遍历树中各节点对应的数据，根据生成的自动遴选规则对专题知识结构树进行数据过滤和采集，得到与用户设置的全局遴选指标和/或类型遴选指标对应的专题数据集。

通过获取用户设置的遴选指标和根据指标生成的约束条件构建数据自动遴选规则，实现对大规模数据集的自动过滤采集，获得满足用户的遴选要求的专题数据集，对用户需求实现定制化，并智能化实现专题数据库的高效性和准确性。

进一步的，如图3所示，本申请实施例还包括：

步骤S310：设定多个数据描述维度；

步骤S320：根据所述多个数据描述维度，遍历所述专题数据集进行标签匹配，获取多组标签特征匹配结果；

步骤S330：根据所述多组标签特征匹配结果对所述专题数据集进行多标签配置，生成所述多标签标识结果。

具体而言，在对专题数据进行标识的时，通过设定多个数据描述维度，以对数据集进行特征描述。数据描述维度包括时间维度、空间维度、研究对象维度、作者维度、来源维度等，每个维度对应一组标签，用于表示数据集在该维度下的特征。根据设定多个数据描述维度，专题知识构建系统遍历专题数据集中的每条数据。对于每条数据，在每个维度下的标签集中选取最匹配的数据特征进行标识，得到该数据的多组标签特征匹配结果，其中，每个匹配结果对应一个数据描述维度。

根据得到的多组标签特征匹配结果，为数据集中的每条数据进行多标签配置。选取每条数据在各个维度下的标签，组合为一个多标签，用于标识该数据的特征。经过对专题数据集中所有数据的进行多标签匹配，得到专题数据集的多标签标识结果。

通过设定数据描述维度和根据不同维度获取专题数据的多标签，实现对数据集的多维度语义描述。系统自动提取每条数据在各个维度的特征，并将特征标签组合生成数据的多标签标识。可以更加全面、准确地表示数据的特征与内涵，为实现专题数据库的高效和准确提供支持。

进一步的，本申请实施例还包括：

步骤S321：根据所述多个数据描述维度，遍历所述专题数据集的第一专题数据进行特征值匹配，获取标签特征初始匹配结果；

步骤S322：遍历所述标签特征初始匹配结果进行数据回归挖掘，获取应用专题数据集；

步骤S323：对属于所述专题知识结构树的所述应用专题数据集，结合所述第一专题数据，统计第一数据量；

步骤S324：对不属于所述专题知识结构树的所述应用专题数据集，统计第二数据量；

步骤S325：根据所述第二数据量和所述第一数据量，计算所述标签特征初始匹配结果的第一支持度；

步骤S326：当所述第一支持度大于或等于支持度阈值，将所述标签特征初始匹配结果添加进所述第一专题数据的标签特征匹配结果，添加进所述多组标签特征匹配结果。

具体而言，第一专题数据为专题数据集中的任意专题数据，根据设置的多个数据描述维度，遍历所述专题数据集，对专题数据集中的每个专题数据进行特征值匹配。在每个数据描述维度下，选取与第一专题数据最匹配的标签，得到该数据的标签特征初始匹配结果。然后，利用数据回归技术，根据得到的标签特征初始匹配结果，对标签特征初始匹配结果中的每个标签，在专题数据集中查找所有包含该标签的数据，得到相关的数据集。

对相关的数据集进行聚类分析，过滤噪声数据，得到应用专题数据集。

判断获取的应用专题数据集中属于专题知识结构树的部分，结合第一专题数据，统计在专题知识结构树中与第一专题数据相匹配的应用专题数据集的数据条数，得到第一数据量。判断获取的应用专题数据集中不属于专题知识结构树的部分的条数，得到第二数据量。

根据第一数据量和第二数据量的比值计算得到的标签特征初始匹配结果的第一支持度，第一支持度用于判断标签特征初始匹配结果的准确性。当第一支持度越大，说明匹配结果所获取的应用专题数据集中属于专题知识结果树的数据越多，匹配效果越好；当第一支持度越小，则匹配效果越差。如果计算得到的第一支持度大于或等于预设的支持度阈值，说明标签特征初始匹配结果准确匹配了第一专题数据的特征。此时，将该匹配结果添加到第一专题数据的标签特征匹配结果和多组标签特征匹配结果中。否则，标签特征初始匹配结果被过滤。其中，支持度阈值由专家组根据专题数据库需求进行提前预设。然后获取下一条数据的标签特征匹配结果，直至所有数据完成特征匹配，获得数据集的多组标签特征匹配结果。

通过指定数据描述维度获取初步的标签匹配，然后利用数据回归和支持度评估进一步优化标签匹配结果，提高多标签配置的精确性，进而提高专题数据库构建的精准性。并且在自动标注的基础上融入一定的人工干预，实现人机协同，避免纯机器生成标签的局限性。

进一步的，本申请实施例还包括：

步骤S510：遍历所述专题数据的数据类型进行关键字段匹配，获取多个数据类型和多组关键字段；

步骤S520：根据所述多个数据类型和所述多组关键字段，确定所述多个数据类型的多组独立关键字段和多组共有关键字段，其中，多组独立关键字段的任意一组具有唯一对应的数据类型，多组共有关键字段的任意一组具有使用该组关键字段的多个数据类型；

步骤S530：将所述多组共有关键字段和所述多组独立关键字段和对应的数据类型关联存储，生成检索数据类型配置结果；

步骤S540：根据所述检索数据类型配置结果，构建检索框架式；

步骤S550：将所述检索框架式发送至检索用户客户端，获取专题数据检索式；

步骤S560：根据所述专题数据检索式在所述专题数据库进行检索，获取专题数据检索结果发送至所述检索用户客户端。

具体而言，专题知识构建系统遍历专题数据库中的所有数据，对每个数据类型的数据进行关键字段匹配，得到多个数据类型及对应数据的多组关键字段。然后，遍历多组关键字段，对每个关键字段统计包含该字段的所有数据类型，得到关键字段－数据类型映射关系；根据映射关系，判断关键字段是否仅对应唯一的数据类型，如果是，则该关键字段为独立关键字段，如专利号、期刊号等；否则，该关键字段为共有关键字段，并统计包含该字段的所有数据类型，如作者、来源、机构等。其中，独立关键字段用于唯一对应一个数据类型；共有关键字段可对应多个数据类型。重复对所有关键字段建立关键字段－数据类型映射关系并进行判断，得到各数据类型的多组独立关键字段和多组共有关键字段。

将多组共有关键字段、多组独立关键字段及其对应的数据类型进行关联存储，生成检索数据类型配置结果，其中包括AND（是）、OR（或）、NOT（非是）等检索关系，为后续构建检索框架提供依据。接着，根据检索数据类型配置结果中得到的多个数据类型，创建对应数量的检索条目，每个检索条目对应一个数据类型。对每个检索条目，在该条目下添加对应的数据类型的所有关键字段作为可选检索条件。对每个共有关键字段，在其出现的所有检索条目下重复添加。同时使用关键字段－数据类型映射关系，标注关键字段对应的全部数据类型，从而实现检索框架式的构建。将构建的检索框架发送至检索用户客户端，供用户参考编辑检索式，获取专题数据检索式。当用户提交检索式时，系统根据用户自主生成的检索式在专题数据库中进行检索，获取满足要求的数据作为检索结果，并发送至用户客户端。

通过自动分析专题数据库，识别各数据类型的关键字段，并构建检索框架与用户进行交互，使用户编辑检索式变得简单高效，有效提高数据检索的成功率和效率，提高专题数据库的高效性。同时通过识别共有关键字段，还可以实现跨数据类型的检索，扩大检索范围。通过结合计算机分析与用户判断，相比纯机器检索实现了更高效、更准确的人机协同检索。

进一步的，本申请实施例还包括：

步骤S561：根据所述专题数据检索式在所述专题数据库进行精准检索，获取专题数据第一检索结果；

步骤S562：根据所述专题数据检索式在所述专题数据库进行模糊检索，获取专题数据第二检索结果，包括，

获取所述专题数据检索式的关键字段信息；

对所述关键字段信息进行语义匹配，获取近义替换词和同义替换词；

根据所述近义替换词和/或所述同义替换词对所述专题数据检索式进行调整进行模糊检索，获取所述专题数据第二检索结果；

步骤S563：将所述专题数据第一检索结果排序在所述专题数据第二检索结果之前，生成所述专题数据检索结果发送至所述检索用户客户端。

具体而言，专题知识构建系统首先根据用户提交的检索式在专题数据库中进行精准检索，得到专题数据的第一检索结果。其中，精准检索是指按照检索式中指定的关键字段和关键词进行严格匹配得到的结果。然后，专题知识构建系统进一步在专题数据库中进行模糊检索，得到专题数据的第二检索结果。具体地，先分析检索式获取其包含的关键字段信息，然后系统对每个关键字段进行语义匹配，得到近义词和同义词，使用这些词扩展检索式中对应的关键词，扩展后的检索式用于在专题数据库中进行模糊检索，得到更多匹配结果作为第二检索结果。将第一检索结果和第二检索结果进行整合，并让第一检索结果排在第二检索结果之前，将得到的检索结果发送给用户客户端。

相比单一的精准检索，通过结合模糊检索，使用语义匹配技术扩展了检索关键词的范围，得到更全面准确的检索结果，避免了机器处理可能产生的局限，提高了检索结果的准确性和全面性。

进一步的，本申请实施例还包括：

步骤S610：判断所述专题数据库的数据量是否满足数据量清洗阈值；

步骤S620：满足所述数据量清洗阈值，获取多组同类专题数据；

步骤S630：获取数据来源清洗顺序；

步骤S640：对引用次数小于或等于第一数值的所述多组同类专题数据的进行清洗，获取第一清洗结果；

步骤S650：判断所述第一清洗结果是否满足所述数据量清洗阈值；

步骤S660：若满足，对查阅次数小于或等于第二数值的所述第一清洗结果按照进行清洗，获取第二清洗结果；

步骤S670：判断所述第二清洗结果是否满足所述数据量清洗阈值；

步骤S680：若满足，按照所述数据来源清洗顺序对所述第二清洗结果进行清洗，直到不满足所述数据量清洗阈值时停止。

具体而言，专题知识构建系统判断专题数据库中的数据量是否达到预定的清洗阈值。如果达到，则进行数据清洗，否则结束清洗流程。当专题数据库中的数据量达到预定的清洗阈值，获取专题数据库中多组同类专题数据，其中，同类专题数据是指具有相同主题或属性的专题数据。获取用于指导数据清洗顺序的数据来源清洗顺序信息，该信息可以由人工配置，或系统自动生成。

根据多组同类专题数据和数据来源清洗顺序采用信息互斥检测技术对引用次数小于预定引用次数的同类专题数据进行清洗，得到第一清洗结果。判断第一清洗结果是否达到预定的清洗阈值。如果达到，则进入根据查阅次数进行数据清洗；否则结束清洗流程。

当第一清洗结果达到预定的清洗阈值，说明数据量需要继续进行清洗，则对查阅次数小于预定查阅次数的第一清洗结果进行再次清洗，得到第二清洗结果。判断第二清洗结果是否达到预定的数据量。如果高于预定的清洗阈值，则进入根据数据来源进行数据清洗；否则结束清洗流程。

当第二清洗结果高于预定的清洗阈值，说明数据量需要继续进行清洗，则按照数据来源清洗顺序对第二清洗结果进行再次清洗，直到清洗结果中的数据量低于预定的数据量，不再达到清洗阈值时，结束清洗流程。

例如，某专题数据库包含大量医学专题数据，数据量清洗阈值设为5000条数据，第一预定数值（引用次数阈值）设为2，第二预定数值（查阅次数阈值）设为5，数据来源清洗顺序为：未知来源的数据、个人博客类数据、低影响力期刊与网站的数据。那么数据清洗的过程为：判断该专题数据库数据总量超过5000条，如果满足清洗阈值，则进入数据清洗流程。获取数据库中同属医学专题的数据，作为多组同类专题数据。清洗引用次数小于2的同类专题数据，得到第一清洗结果。判断第一清洗结的数据量是否大于5000条，如果仍满足清洗阈值，则清洗查阅次数小于5的第一清洗结果，得到第二清洗结果。判断第一清洗结的数据量是否大于5000条，如果仍满足清洗阈值，则按照数据来源清洗顺序，先清洗未知来源的数据，再清洗个人博客类数据；再清洗低影响力期刊与网站的数据；直至清洗所得到的专题数据库中的数据量小于5000条为止。

通过基于专题数据的同类型、引用次数、查阅次数、数据来源等信息，采用信息互斥检测等技术对数据库中的低质量数据进行多轮清洗，达到减少冗杂信息，有效提高数据的精度与质量的目的，为数据库应用和服务提供质量高、可靠强的数据基础。

综上所述，本申请实施例所提供的一种基于多标签驱动的专题数据构建方法具有如下技术效果：

基于初始专题集，构建专题知识结构树，组织和表示专题之间的关系，为后续的数据采集和标注提供参考，也为表示专题之间的关联性提供便利；当满足预设更新周期，根据专题数据自动遴选规则，遍历专题知识结构树进行专题数据遴选，采集专题数据集，实现数据的自动获取；对专题数据集进行多标签配置，生成多标签标识结果，利用多标签技术自动实现对新采集数据集的分类、标注和加入现有专题数据库的过程，实现数据的智能化处理；根据多标签标识结果和专题数据集对初始专题数据集进行更新，生成专题数据库，实现专题数据的持续更新。解决了现有技术中构建专题数据库效率低、效果差、实时性差的技术问题，实现了专题数据库构建的自动化和智能化，达到了高效、精准、动态地构建专题数据库的技术效果。

实施例二

基于与前述实施例中一种基于多标签驱动的专题数据构建方法相同的发明构思，如图4所示，本申请实施例提供了一种基于多标签驱动的专题数据构建系统，该系统包括：

知识结构树构建模块11，基于初始专题集，构建专题知识结构树；

专题数据遴选模块12，用于当满足预设更新周期，根据专题数据自动遴选规则，遍历所述专题知识结构树进行专题数据遴选，采集专题数据集；

多标签配置模块13，用于对所述专题数据集进行多标签配置，生成多标签标识结果；

专题数据库模块14，用于根据所述多标签标识结果和所述专题数据集对初始专题数据集进行更新，生成专题数据库。

进一步的，本申请实施例还包括：

专题类别获取模块，用于对所述初始专题集进行语义分类，获取多个专题类别；

专题类别丰富模块，用于设定丰富化指标，激活内嵌于基于多标签驱动的专题数据构建系统的专家智慧模型的多个丰富节点对所述多个专题类别进行丰富化，生成多个专题类别丰富标定结果；

知识结果树生成模块，用于根据专题知识图谱对所述多个专题类别丰富标定结果进行层次划分，生成专题知识结构树。

进一步的，本申请实施例还包括：

初始专题获取模块，用于在所述初始专题集中随机抽取，获取第一初始专题和第二初始专题；

第一特征词向量模块，用于将所述第一初始专题输入语义特征提取模型进行语义特征抽取，获取第一特征词向量；

第二特征词向量模块，用于将所述第二初始专题输入语义特征提取模型进行语义特征抽取，获取第二特征词向量；

主题相似度模块，用于对所述第一特征词向量和所述第二特征词向量进行相似度评估，获取主题相似度；

专题类别添加模块，用于当所述主题相似度大于或等于相似度阈值，将所述第一初始专题和所述第二初始专题合并为同类主题，并选用所述第一初始专题或所述第二初始专题作为代表主题，添加进第i个专题类别，添加进所述多个专题类别。

进一步的，本申请实施例还包括：

全局遴选指标模块，用于获取全局遴选指标，其中，所述全局遴选指标包括数据类型、时间范围、数据量和区域中的一个或多个；

类型遴选指标模块，用于获取类型遴选指标，其中，所述类型遴选指标包括来源类型、论文类型、区域类型、时间类型和数据量类型中的一个或多个；

全局遴选约束模块，用于遍历所述全局遴选指标，设定全局遴选约束条件；

类型遴选约束模块，用于根据所述类型遴选指标，设定类型遴选约束条件；

遴选规则生成模块，用于根据所述全局遴选约束条件和/或所述类型遴选约束条件，生成所述专题数据自动遴选规则，遍历所述专题知识结构树进行专题数据遴选，采集所述专题数据集。

进一步的，本申请实施例还包括：

描述维度设定模块，用于设定多个数据描述维度；

标签特征匹配模块，用于根据所述多个数据描述维度，遍历所述专题数据集进行标签匹配，获取多组标签特征匹配结果；

标识结果生成模块，用于根据所述多组标签特征匹配结果对所述专题数据集进行多标签配置，生成所述多标签标识结果。

进一步的，本申请实施例还包括：

特征值匹配模块，用于根据所述多个数据描述维度，遍历所述专题数据集的第一专题数据进行特征值匹配，获取标签特征初始匹配结果；

专题数据集模块，用于遍历所述标签特征初始匹配结果进行数据回归挖掘，获取应用专题数据集；

第一数据量统计模块，用于对属于所述专题知识结构树的所述应用专题数据集，结合所述第一专题数据，统计第一数据量；

第二数据量统计模块，用于对不属于所述专题知识结构树的所述应用专题数据集，统计第二数据量；

第一支持度模块，用于根据所述第二数据量和所述第一数据量，计算所述标签特征初始匹配结果的第一支持度；

匹配结果添加模块，用于当所述第一支持度大于或等于支持度阈值，将所述标签特征初始匹配结果添加进所述第一专题数据的标签特征匹配结果，添加进所述多组标签特征匹配结果。

进一步的，本申请实施例还包括：

关键字段匹配模块，用于遍历所述专题数据的数据类型进行关键字段匹配，获取多个数据类型和多组关键字段；

关键字段确定模块，用于根据所述多个数据类型和所述多组关键字段，确定所述多个数据类型的多组独立关键字段和多组共有关键字段，其中，多组独立关键字段的任意一组具有唯一对应的数据类型，多组共有关键字段的任意一组具有使用该组关键字段的多个数据类型；

关联存储模块，用于将所述多组共有关键字段和所述多组独立关键字段和对应的数据类型关联存储，生成检索数据类型配置结果；

检索框架式模块，用于根据所述检索数据类型配置结果，构建检索框架式；

检索式获取模块，用于将所述检索框架式发送至检索用户客户端，获取专题数据检索式；

数据库检索模块，用于根据所述专题数据检索式在所述专题数据库进行检索，获取专题数据检索结果发送至所述检索用户客户端。

进一步的，本申请实施例还包括：

第一检索结果模块，用于根据所述专题数据检索式在所述专题数据库进行精准检索，获取专题数据第一检索结果；

第二检索结果模块，用于根据所述专题数据检索式在所述专题数据库进行模糊检索，获取专题数据第二检索结果，包括，

关键字段信息模块，用于获取所述专题数据检索式的关键字段信息；

语义匹配模块，用于对所述关键字段信息进行语义匹配，获取近义替换词和同义替换词；

模糊检索模块，用于根据所述近义替换词和/或所述同义替换词对所述专题数据检索式进行调整进行模糊检索，获取所述专题数据第二检索结果；

检索结果发送模块，用于将所述专题数据第一检索结果排序在所述专题数据第二检索结果之前，生成所述专题数据检索结果发送至所述检索用户客户端。

进一步的，本申请实施例还包括：

数据量判断模块，用于判断所述专题数据库的数据量是否满足数据量清洗阈值；

专题数据获取模块，用于若满足所述数据量清洗阈值，获取多组同类专题数据；

清洗顺序获取模块，用于获取数据来源清洗顺序；

第一清洗结果模块，用于对引用次数小于或等于第一数值的所述多组同类专题数据的进行清洗，获取第一清洗结果；

第一清洗结果判断模块，用于判断所述第一清洗结果是否满足所述数据量清洗阈值；

第二清洗结果模块，用于若第一清洗结果满足数据量清洗阈值，对查阅次数小于或等于第二数值的所述第一清洗结果按照进行清洗，获取第二清洗结果；

第二清洗结果判断模块，用于判断所述第二清洗结果是否满足所述数据量清洗阈值；

结果清洗模块，用于若第二清洗结果满足所述数据量清洗阈值，按照所述数据来源清洗顺序对所述第二清洗结果进行清洗，直到不满足所述数据量清洗阈值时停止。

综上所述的方法的任意步骤都可作为计算机指令或者程序存储在不设限制的计算机存储器中，并可以被不设限制的计算机处理器调用识别用以实现本申请实施例中的任一项方法，在此不做多余限制。

进一步的，综上所述的第一或第二可能不止代表次序关系，也可能代表某项特指概念，和/或指的是多个元素之间可单独或全部选择。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若本申请的这些修改和变型属于本申请及其等同技术的范围之内，则本申请意图包括这些改动和变型在内。

Claims

1.一种基于多标签驱动的专题数据构建方法，其特征在于，应用于基于多标签驱动的专题数据构建系统，包括：

基于初始专题集，构建专题知识结构树，包括：

对所述初始专题集进行语义分类，获取多个专题类别；

设定丰富化指标，激活内嵌于基于多标签驱动的专题数据构建系统的专家智慧模型的多个丰富节点对所述多个专题类别进行丰富化，生成多个专题类别丰富标定结果；

根据专题知识图谱对所述多个专题类别丰富标定结果进行层次划分，生成专题知识结构树；

当满足预设更新周期，根据专题数据自动遴选规则，遍历所述专题知识结构树进行专题数据遴选，采集专题数据集；

对所述专题数据集进行多标签配置，生成多标签标识结果，包括：

设定多个数据描述维度；

根据所述多个数据描述维度，遍历所述专题数据集进行标签匹配，获取多组标签特征匹配结果；

根据所述多组标签特征匹配结果对所述专题数据集进行多标签配置，生成所述多标签标识结果；

根据所述多标签标识结果和所述专题数据集对初始专题数据集进行更新，生成专题数据库，包括：

检索所述多标签标识结果，提取每个专题数据对应的多标签；

判断每个多标签中包含的标签是否存在于初始专题数据集的标签集中；

如果不存在，则将对应的新标签添加到标签集，更新标签集，根据标签集更新结果进行专题数据库的检索更新。

2.如权利要求1所述的方法，其特征在于，对所述初始专题集进行语义分类，获取多个专题类别，包括：

在所述初始专题集中随机抽取，获取第一初始专题和第二初始专题；

将所述第一初始专题输入语义特征提取模型进行语义特征抽取，获取第一特征词向量；

将所述第二初始专题输入语义特征提取模型进行语义特征抽取，获取第二特征词向量；

对所述第一特征词向量和所述第二特征词向量进行相似度评估，获取主题相似度；

当所述主题相似度大于或等于相似度阈值，将所述第一初始专题和所述第二初始专题合并为同类主题，并选用所述第一初始专题或所述第二初始专题作为代表主题，添加进第i个专题类别，添加进所述多个专题类别。

3.如权利要求1所述的方法，其特征在于，当满足预设更新周期，根据专题数据自动遴选规则，遍历所述专题知识结构树进行专题数据遴选，采集专题数据集，包括：

获取全局遴选指标，其中，所述全局遴选指标包括数据类型、时间范围、数据量和区域中的一个或多个；

获取类型遴选指标，其中，所述类型遴选指标包括来源类型、论文类型、区域类型、时间类型和数据量类型中的一个或多个；

遍历所述全局遴选指标，设定全局遴选约束条件；

根据所述类型遴选指标，设定类型遴选约束条件；

根据所述全局遴选约束条件和/或所述类型遴选约束条件，生成所述专题数据自动遴选规则，遍历所述专题知识结构树进行专题数据遴选，采集所述专题数据集。

4.如权利要求1所述的方法，其特征在于，根据所述多个数据描述维度，遍历所述专题数据集进行标签匹配，获取多组标签特征匹配结果，包括：

根据所述多个数据描述维度，遍历所述专题数据集的第一专题数据进行特征值匹配，获取标签特征初始匹配结果；

遍历所述标签特征初始匹配结果进行数据回归挖掘，获取应用专题数据集；

对属于所述专题知识结构树的所述应用专题数据集，结合所述第一专题数据，统计第一数据量；

对不属于所述专题知识结构树的所述应用专题数据集，统计第二数据量；

根据所述第二数据量和所述第一数据量，计算所述标签特征初始匹配结果的第一支持度；

当所述第一支持度大于或等于支持度阈值，将所述标签特征初始匹配结果添加进所述第一专题数据的标签特征匹配结果，添加进所述多组标签特征匹配结果。

5.如权利要求1所述的方法，其特征在于，还包括：

遍历所述专题数据的数据类型进行关键字段匹配，获取多个数据类型和多组关键字段；

根据所述多个数据类型和所述多组关键字段，确定所述多个数据类型的多组独立关键字段和多组共有关键字段，其中，多组独立关键字段的任意一组具有唯一对应的数据类型，多组共有关键字段的任意一组具有使用该组关键字段的多个数据类型；

将所述多组共有关键字段和所述多组独立关键字段和对应的数据类型关联存储，生成检索数据类型配置结果；

根据所述检索数据类型配置结果，构建检索框架式；

将所述检索框架式发送至检索用户客户端，获取专题数据检索式；

根据所述专题数据检索式在所述专题数据库进行检索，获取专题数据检索结果发送至所述检索用户客户端。

6.如权利要求5所述的方法，其特征在于，根据所述专题数据检索式在所述专题数据库进行检索，获取专题数据检索结果发送至所述检索用户客户端，还包括：

根据所述专题数据检索式在所述专题数据库进行精准检索，获取专题数据第一检索结果；

根据所述专题数据检索式在所述专题数据库进行模糊检索，获取专题数据第二检索结果，包括，

获取所述专题数据检索式的关键字段信息；

将所述专题数据第一检索结果排序在所述专题数据第二检索结果之前，生成所述专题数据检索结果发送至所述检索用户客户端。

7.如权利要求1所述的方法，其特征在于，还包括：

判断所述专题数据库的数据量是否满足数据量清洗阈值；

若满足所述数据量清洗阈值，获取多组同类专题数据；

获取数据来源清洗顺序；

对引用次数小于或等于第一数值的所述多组同类专题数据的进行清洗，获取第一清洗结果；

判断所述第一清洗结果是否满足所述数据量清洗阈值；

若满足，对查阅次数小于或等于第二数值的所述第一清洗结果按照进行清洗，获取第二清洗结果；

判断所述第二清洗结果是否满足所述数据量清洗阈值；

若满足，按照所述数据来源清洗顺序对所述第二清洗结果进行清洗，直到不满足所述数据量清洗阈值时停止。

8.一种基于多标签驱动的专题数据构建系统，其特征在于，所述系统包括：

知识结构树构建模块，所述知识结构树构建模块基于初始专题集，构建专题知识结构树，包括：

对所述初始专题集进行语义分类，获取多个专题类别；

专题数据遴选模块，所述专题数据遴选模块用于当满足预设更新周期，根据专题数据自动遴选规则，遍历所述专题知识结构树进行专题数据遴选，采集专题数据集；

多标签配置模块，所述多标签配置模块用于对所述专题数据集进行多标签配置，生成多标签标识结果，包括：

设定多个数据描述维度；

专题数据库模块，所述专题数据库模块用于根据所述多标签标识结果和所述专题数据集对初始专题数据集进行更新，生成专题数据库，包括：

检索所述多标签标识结果，提取每个专题数据对应的多标签；判断每个多标签中包含的标签是否存在于初始专题数据集的标签集中；