CN117251605A

CN117251605A - 基于深度学习的多源数据查询方法及系统

Info

Publication number: CN117251605A
Application number: CN202311273382.0A
Authority: CN
Inventors: 武跃军; 张骐; 周伟强
Original assignee: Wuhan Beta Century Technology Co ltd
Current assignee: Wuhan Beta Century Technology Co ltd
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2023-12-19
Anticipated expiration: 2043-09-28
Also published as: CN117251605B

Abstract

本发明提出了一种基于深度学习的多源数据查询方法，包括以下步骤：获取组成业务报表的多条业务的基本数据，所述基本数据包括业务类型、部门归属、权限等级和关联关系；通过图神经网络模型对所述基本数据进行质量检测，根据检测结果将业务划分深层业务、常规业务和浅层业务，并标注分类标签；通过分类标签分别存储深层业务、常规业务和浅层业务的基本数据，并将所述基本数据中的业务类型、部门归属、权限等级和关联关系分别存储；通过深层业务、常规业务和浅层业务的层级关系构建节点树，并通过分类标签和节点树查询业务及业务的基本数据。

Description

基于深度学习的多源数据查询方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及基于深度学习的多源数据查询方法及系统。

背景技术

系统平台页面会涉及大量的数据及报表展示，每项数据展示基本都伴有人员、部门、角色的数据过滤(例如当前人只能看到自己的，部门管理者可以看到部门所有人员的，某某部门管理者可以看到所有部门人员的等)，在传统方法中，对于数据的过滤和权限控制往往需要编写复杂的SQL查询语句，并且对于复杂的业务需求，频繁调整和核查SQL语句会带来繁琐的工作和易出错的风险。此外，当开发人员发生变动时，对于维护现有SQL查询逻辑也带来困难。

中国专利CN116775667A《一种关联数据的处理方法及装置》公开了一种关联数据的处理方法，通过日期将业务数据进行切分处理，来简化业务数据处理的复杂度，然而该方法适用于数据量并不是特别繁杂的业务数据，一旦业务数据种类繁多且需要分级逐次管理，该方法则无法处理，会进入宕机状态，因此需要一种复杂业务数据处理能力较高的数据查询方法。

发明内容

有鉴于此，本发明提出了基于深度学习的多源数据查询方法及系统，通过图神经网络模型对数据进行质量检测，并分类，根据分类标签将数据存储到相应的数据库中，构建节点树表示业务层级关系，通过查询分类标签和节点树来获取业务及其基本数据，解决了现有数据查询方法的数据处理能力较差的问题。

本发明的技术方案是这样实现的：本发明提供了一种基于深度学习的多源数据查询方法，包括以下步骤：

S1，获取组成业务报表的多条业务的基本数据，所述基本数据包括业务类型、部门归属、权限等级和关联关系；

S2，通过图神经网络模型对所述基本数据进行质量检测，根据检测结果将业务划分深层业务、常规业务和浅层业务，并标注分类标签；

S3，通过分类标签分别存储深层业务、常规业务和浅层业务的基本数据，并将所述基本数据中的业务类型、部门归属、权限等级和关联关系分别存储；

S4，通过深层业务、常规业务和浅层业务的层级关系构建节点树，并通过分类标签和节点树查询业务及业务的基本数据。

优选的，步骤S2包括：

S21，将基本数据转换为图结构，以业务类型、部门归属、权限等级和关联关系作为图结构的节点，得到节点的注意力权重，根据注意力权重计算各节点的特征值；

S22，根据所述各节点的特征值计算所述多条业务的层级价值，根据层级价值的大小将所述多条业务划分为深层业务、常规业务和浅层业务；

S23，提取所述多条业务的基本数据中的业务类型、部门归属、权限等级和关联关系的语义特征词，根据所述语义特征词为所述多条业务标注分类标签。

优选的，步骤S21包括：

以业务类型、部门归属、权限等级和关联关系作为节点i、j、k和l，聚合节点i、j、k和l之间的信息，将节点i、j、k和l之间的注意力权重进行归一化，得到注意力权重α_{i，j，k，l}，由注意力权重α_{i，j，k，l}得到各节点的特征值：

其中，h_x为节点x的特征值，σ为非线性激活函数，n为节点数，h_i，h_j，h_k，h_l分别为节点i、j、k和l的特征值；

所述注意力权重α_{i，j，k，l}的计算公式为：

其中，softmax为激活函数，ParametricReLU为变体激活函数，为节点i、j、k和l之间的注意力值，h_i||h_j||h_k||h_l为h_i，h_j，h_k和h_l的拼接值。

优选的，步骤S22包括：

通过业务类型和部门归属的特征值计算所述多条业务的类型层级价值，通过权限等级和关联关系的特征值计算所述多条业务的关联层级价值，由类型层级价值和关联层级价值加权计算得到所述多条业务的层级价值P：

P＝σ₁P₁+σ₂P₂；

其中，σ₁为类型层级价值的权重系数，σ₂为关联层级价值的权重系数，P₁为类型层级价值，P₂为关联层级价值；

所述类型层级价值P₁的计算公式为：

其中，所述业务类型的重要程度包括重要、常规和一般，根据牵涉金额、客户等级以及时间期限确定；

所述关联层级价值P₂的计算公式为：

其中，权限等级包括高和低；关联关系包括多和少，通过所述多个业务关联的其他业务的数量确定；

根据P值的大小排序将所述多条业务平均依次分为深层业务、常规业务和浅层业务，深层业务、常规业务和浅层业务各包括1/3的所述多条业务，P值最大的部分为深层业务，P值其次的为常规业务，P值最小的为浅层业务。

优选的，步骤S23包括：

使用自然语言处理工具提取所述多条业务的基本数据中的业务类型、部门归属、权限等级和关联关系的语义特征词，根据所述语义特征词为所述多条业务标注分类标签。

优选的，步骤S3包括：

根据不同的分类标签将深层业务、常规业务和浅层业务分别存储到不同的一级关系型数据库中，根据特征值h_i，h_j，h_k和h_l的大小依次将业务类型、部门归属、权限等级和关联关系四种基本数据分别存储到不同的二级关系型数据库中。

优选的，步骤S4包括以下步骤：

S41，定义深层业务、常规业务和浅层业务的层级关系，根据所述层级关系构建节点树；

S42，通过分类标签查询标注所述分类标签的业务以及对应基本数据，通过遍历节点树查询不同层级的业务以及对应基本数据。

优选的，步骤S41包括：

S411，将深层业务作为根节点，常规业务作为子节点，浅层业务作为叶子节点，将每个深层业务的业务名作为根分类标签，每个常规业务的业务名作为子分类标签，每个浅层业务的业务名作为叶子分类标签，并将根分类标签、子分类标签和叶子分类标签添加到分类标签中，每个根分类标签包括根节点对应的深层业务下的所有分类标签，每个子分类标签包括子节点对应的常规业务下的所有分类标签；

S412，根据用户输入的查询文本，通过搜索推荐模型计算用户需要查询的其他文本的推荐值，根据推荐值大小进行排序并推送至查询界面；

所述搜索推荐模型为：

其中，Q为其他文本的推荐值，Y_a为其他文本的第a个语义相似度，N为预设的语义相似度的数量的阈值，M为全部的语义相似度的数量。

优选的，步骤S42包括：

通过分类标签作为查询条件，根据分类标签，在一级关系型数据库中过滤出所有标注了该分类标签的业务；获取节点树的根节点，作为初始节点，通过迭代或递归的方式遍历节点树，从初始节点开始依次遍历每个节点，对于每个节点，检查其是否与查询到的业务关联，关联则将该业务及其对应的基本数据加入查询结果中。

另一方面，本发明还提供了一种基于深度学习的多源数据查询系统，所述系统包括：

数据收集模块，用于获取组成业务报表的多条业务的基本数据，所述基本数据包括业务类型、部门归属、权限等级和关联关系；

质量检测模块，用于通过图神经网络模型对所述基本数据进行质量检测，根据检测结果将业务划分深层业务、常规业务和浅层业务，并标注分类标签；

数据存储模块，用于通过分类标签分别存储深层业务、常规业务和浅层业务的基本数据，并将所述基本数据中的业务类型、部门归属、权限等级和关联关系分别存储；

数据查询模块，用于通过深层业务、常规业务和浅层业务的层级关系构建节点树，并通过分类标签和节点树查询业务及业务的基本数据。

本发明的基于深度学习的多源数据查询方法及系统相对于现有技术具有以下有益效果：

(1)通过数据质量检测、自动分类和标注、查询效率提升、数据整合和高级特征学习等方面的优势，能够提供更精确、高效和智能的多源数据查询体验，帮助用户快速获取所需的业务信息，并在决策和分析方面提供有力的支持；

(2)对业务进行分类和标注，根据数据的特征和语义信息，将业务划分为不同的层级或类别，并为其提供分类标签，提高了数据的组织和管理效率，减少了手动分类和标注的工作量；

(3)通过构建节点树，建立数据的良好组织和索引，加快数据的查询和检索速度，提供更准确和智能的查询功能，帮助用户快速定位所需的业务及基本数据；

(4)通过多层次的非线性变换，对数据进行特征学习和表示学习，提取数据的更高级别的特征信息，从而更好地捕捉数据的内在规律和特征表示，提高查询和检索的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的基于深度学习的多源数据查询方法流程图；

图2为本发明的基于深度学习的多源数据查询系统结构图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

提供一种基于深度学习的多源数据查询方法，如图1所示，包括以下步骤：

应说明的是：通过图神经网络对基本数据进行质量检测，通过质量检测结果，将业务划分为深层业务、常规业务和浅层业务，通过深层业务、常规业务和浅层业务的层级关系构建节点树；

基于深度学习的多源数据查询方法可以有效提高多源数据的管理和查询效率，减少数据错误和冗余，提供更准确和全面的业务数据服务。

步骤S2包括：

应说明的是：首先，通过将基本数据转换为图结构，并计算节点的特征值和注意力权重，可以获得每个节点的重要性或相关性指数，有助于更好地理解和管理不同节点之间的关系，从而更好地进行业务管理和决策；

其次，通过计算节点特征值，可以对多条业务进行层级分类，有助于更好地理解和管理不同层次的业务；

最后，通过提取基本数据中的语义特征词并为多条业务标注分类标签，可以对业务进行更具体和准确的分类，以便更好地进行各种分析和决策。

步骤S21包括：

所述注意力权重α_{i，j，k，l}的计算公式为：

应说明的是：以业务类型、部门归属、权限等级和关联关系这四个节点来获取各自的特征值，通过归一化注意力权重来聚合这些节点之间的信息；计算注意力权重时，使用了softmax激活函数和ParametricReLU变体激活函数，softmax函数是一种常用的激活函数，用于多分类任务中，将输出的实数向量转化为表示概率分布的向量，softmax函数可以将每个输入元素映射到0到1的范围内，并且所有元素的和为1，从而使其可以表示各个类别的概率，而一般会采用LeakyRELU函数与softmax函数来结合计算，LeakyReLU(RectifiedLinear Unit)是一种修正线性单元的变体激活函数，用于神经网络中的非线性映射，但是主要用于修复ReLU函数中负数区域的问题，但是对于业务的基本数据，如业务类型、部门归属、权限等级和关联关系等，并不存在需要修复负数区域的问题，因此本方案采用ParametricReLU变体激活函数，ParametricReLU变体激活函数可以自适应地学习修正线性单元的参数，没有固定斜率，可以更好地适应不同的数据分布和模型复杂度，提高了模型的灵活性和泛化能力，而且ParametricReLU变体激活函数集成了注意力机制，可以通过注意力机制来设置ParametricReLU中的权重系数。这使得模型可以更加关注输入中的重要信息，提高模型的准确率和鲁棒性，弥补了softmax函数对输入值敏感度不一致，即较大的输入值会放大，而较小的输入值会被压缩以及存在饱和性梯度消失的问题。

步骤S22包括：

P＝σ₁P₁+σ₂P₂；

所述类型层级价值P₁的计算公式为：

所述关联层级价值P₂的计算公式为：

应说明的是：根据层级价值P的大小来对全部业务进行排序，P值大小前1/3的作为深层业务，排在中间1/3的作为常规业务，排在后1/3的作为浅层业务；

P值计算分为两个部分，一部分是由业务类型和部门归属组成的类型层级价值P₁，一部分是由权限等级和关联关系组成的关联层级价值P₂；

由业务类型和部门归属组成的类型层级价值P₁代表着业务对应的“名词”属性，意味着业务独立定义的属性，而其中部分归属相对业务类型来说没那么重要，因此所述类型层级价值P₁的计算公式为：

关于牵涉金额，重要程度高的业务通常涉及较大的金额，而属于一般或常规的业务则涉及较小的金额，高金额的业务可能会对企业的财务状况产生较大的影响，因此其重要程度较高；

关于客户等级，与重要客户或高价值客户相关的业务通常被认为是重要的，因为这些客户对企业的价值最大，而与一般或普通客户相关的业务则被视为常规或一般的业务；

关于时间期限，一些业务可能在较短的时间内完成，而另一些业务可能需要较长的时间才能完成，通常情况下，对于重要程度高的业务，企业会更加关注其执行进度和完成时间；

因此在某项业务满足牵涉金额较大、客户等级较高、时间期限较短之中的至少两项时，该项业务的业务类型被定义为重要；在满足一项时，该项业务的业务类型被定义为常规；一项都不满足时，该项业务的业务类型被定义为一般；

部门归属则是看业务处理的分管部门，由于业务领域的不同，会分发给各个不同的部门，尽管部门之间有层级排序，但并非重要性较高的部门处理的所有业务都比重要性较低的部门处理的所有业务的重要性低，因此部门归属在类型层级价值中的占比较低；

由权限等级和关联关系组成的关联层级价值P₂代表对应的“动词”属性，意味着业务与其他对象互动的属性，因此所述关联层级价值P₂的计算公式为：

其中，权限等级的定义为，完成该业务所需要的其他业务的数量和权限等级；当一项业务的完成仅需要通过它自身而不需要在上一级业务完成的基础上进一步完成时，该项业务为基础的一级业务，即权限等级为一级；而在一项业务需要在一项或多项一级业务的完成的基础上再进一步完成时，该项业务为二级业务，以此类推；

将一级和二级的业务定义为权限等级低的业务，将二级以上的业务定义为权限等级高的业务；

关联关系的定义为，业务之间存在协同合作的关系，当一项业务所关联的其他业务越多时，他的重要程度也就越高，反之则重要程度越低，往往那种独立的业务在完成之后便没有了下文，或者是持续关系并不牢靠，很可能随着时间推移而慢慢无法开展；而关联关系多的业务则会多个业务之间相互依存，“抱团取暖”，往往在互相关联的多个业务群中，如果有相对较为冷清的业务，则会被其他业务所带动，从而焕发活力，而如果有相对较为热门的业务，则也会带动其他业务，实现共同激活；

综合考虑业务类型、部门归属、权限等级和关联关系的特征值，并加以加权计算和分层排序，能够更准确地评估和管理业务，提升业务管理效率和优化业务流程，从而达到更好的企业管理效果。

步骤S23包括：

应说明的是：使用自然语言处理工具提取多条业务的基本数据，并从中识别业务类型、部门归属、权限等级和关联关系的语义特征词，通过标注分类标签，组织和管理这些业务数据，提高数据的可用性和可理解性，这样可以帮助企业或组织更好地了解和分析业务情况，进行决策和规划，提升工作效率和管理水平；

使用自然语言处理工具自动化这个过程，减少手动的工作量，提高处理效率和准确性，同时，通过对业务数据的语义分析，发现其中的关联关系和潜在规律，为进一步的数据挖掘和分析提供基础，提高业务数据的利用价值，加快业务处理和决策的速度，并且提供更深入的业务洞察。

步骤S3包括：

应说明的是：通过将不同层次的业务和数据分类存储在不同的数据库中，可以使数据组织结构更加清晰，降低数据冗余和数据组织混乱的风险；

由于不同的业务和数据被存储在不同的数据库中，可以针对不同的业务需求进行优化和索引，从而提高数据查询和维护的效率；

对于重要的业务和敏感数据，可以将其存储在更高安全级别的数据库中，加强对数据的保护和权限控制，提高数据的安全性；

由于不同级别的数据存储在不同的数据库中，可以根据数据库的特性和数据量进行合理分配和管理，从而提升系统的整体性能和响应速度。

步骤S4包括以下步骤：

步骤S41包括：

所述搜索推荐模型为：

应说明的是：根据以上搜索推荐模型，在用户输入查询文本时，自动按照推荐值大小为用户推送用户可能需要查询的其他文本，所述搜索推荐模型中的语义相似度Y_a，通过BERT模型对输入的查询文本进行建模，并通过pooling层获取词向量得到；

BERT模型简单易懂，功能强大，是可以使用一个额外的输出层来创建广泛的任务的最先进模型，无需进行大量的任务特定架构修改，能够捕捉上下文语境中单词之间的联系，提高准确性和理解能力；

通过其他文本和查询文本的N个语义相似度计算出其他文本的推荐值，一般不取尽全部的语义相似度，例如，仅从全部M个语义相似度中取N个。

步骤S42包括：

应说明的是：通过使用分类标签作为查询条件，可以在一级关系型数据库中过滤出所有标注了该分类标签的业务，从而实现精确的业务筛选，这种筛选方法可以提高查询效率，避免了遍历整个数据库的开销；

获取节点树的根节点作为初始节点，并通过迭代或递归的方式遍历节点树。这样可以逐级遍历节点，对每个节点进行与查询到的业务的关联判断，如果节点与查询到的业务有关联，就将该业务及其对应的基本数据加入查询结果中；

将相关的业务和基本数据进行关联，从而得到更全面和准确的查询结果，同时，通过使用节点树的遍历方式，可以保证对所有节点进行遍历，不会漏掉任何可能的关联；

通过分类标签作为查询条件并通过迭代或递归遍历节点树的方式进行业务关联判断，可以实现更精确和全面的查询结果，从而提高查询效率和准确性。

另一方面，本发明还提供了一种基于深度学习的多源数据查询系统，如图2所示，所述系统包括：

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的多源数据查询方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于深度学习的多源数据查询方法，其特征在于，步骤S2包括：

3.如权利要求2所述的基于深度学习的多源数据查询方法，其特征在于，步骤S21包括：

其中，h_x为节点x的特征值，σ为非线性激活函数，n为节点数，h_i，h_j，h_k，h_i分别为节点i、j、k和l的特征值；

所述注意力权重α_{i，j，k，l}的计算公式为：

4.如权利要求2所述的基于深度学习的多源数据查询方法，其特征在于，步骤S22包括：

P＝σ₁P₁+σ₂P₂：

所述类型层级价值P₁的计算公式为：

所述关联层级价值P₂的计算公式为：

5.如权利要求2所述的基于深度学习的多源数据查询方法，其特征在于，步骤S23包括：

6.如权利要求1所述的基于深度学习的多源数据查询方法，其特征在于，步骤S3包括：

7.如权利要求1所述的基于深度学习的多源数据查询方法，其特征在于，步骤S4包括以下步骤：

8.如权利要求7所述的基于深度学习的多源数据查询方法，其特征在于，步骤S41包括：

所述搜索推荐模型为：

9.如权利要求8所述的基于深度学习的多源数据查询方法，其特征在于，步骤S42包括：

10.一种基于深度学习的多源数据查询系统，其特征在于，所述系统包括：