CN113420161A

CN113420161A - 一种节点文本融合方法、装置、计算机设备及存储介质

Info

Publication number: CN113420161A
Application number: CN202110705528.9A
Authority: CN
Inventors: 孙梓淇; 白祚; 莫洋
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-09-21
Anticipated expiration: 2041-06-24
Also published as: CN113420161B

Abstract

本申请实施例属于大数据中的数据分析领域，涉及一种基于图传播算法的节点文本融合方法、装置、计算机设备及存储介质。此外，本申请还涉及区块链技术，用户的待处理节点文本以及所述节点数据集合可存储于区块链中。本申请通过采用训练好的语言模型对待处理的待处理节点文本进行语义表示得到节点语义向量，使得后续计算文本相似度更精确，找到相近语义的概念节点；通过图传播算法迭代收敛得到更可靠的相近概念数据，有效增强融合后的概念数据的解析性。

Description

一种节点文本融合方法、装置、计算机设备及存储介质

技术领域

本申请涉及大数据中的数据分析领域，尤其涉及一种基于图传播算法的节点文本融合方法、装置、计算机设备及存储介质。

背景技术

知识图谱(Knowledge Graph)，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

现有一种概念融合方法，即基于文本相似度计算概念本体之间的相似度进而实现相同或者相近节点的融合。

然而，申请人发现传统的概念融合方法普遍不智能，由于不同词组的含义不同，导致本身相似的词组存在较大歧义，从而使得上述仅基于文本相似度计算的概念融合方法会不可避免地产生许多干扰性文本，在后续的机器学习中引入了不少杂质，影响了学习的效果，进而影响了最后的实体关系预测以及知识图谱构建，由此可见，传统的概念融合方法存在噪声过多的问题。

发明内容

本申请实施例的目的在于提出一种基于图传播算法的节点文本融合方法、装置、计算机设备及存储介质，以解决传统的概念融合方法存在噪声过多的问题。

为了解决上述技术问题，本申请实施例提供一种基于图传播算法的节点文本融合方法，采用了如下所述的技术方案：

接收用户终端发送的携带有待处理节点文本的节点融合请求；

根据训练好的语言模型对所述待处理节点文本进行语义表示操作，得到节点语义向量；

根据所述节点语义向量计算所述每两个待处理节点文本之间的文本相似度；

对所述文本相似度大于所述关联阈值的所述待处理节点文本建立关联关系，得到节点数据集合；

根据所述节点数据集合构建与所述待处理节点文本相对应的原始知识图谱；

根据图传播算法对所述原始知识图谱进行筛选操作，得到同标签节点数据；

根据预设的主节点确认策略在所述同标签节点数据中确认主节点概念以及融合节点概念，得到语义融合后的节点数据集合。

为了解决上述技术问题，本申请实施例还提供一种基于图传播算法的节点文本融合装置，采用了如下所述的技术方案：

请求接收模块，用于接收用户终端发送的携带有待处理节点文本的节点融合请求；

语义表示模块，用于根据训练好的语言模型对所述待处理节点文本进行语义表示操作，得到节点语义向量；

相似度计算模块，用于根据所述节点语义向量计算所述每两个待处理节点文本之间的文本相似度；

关联关系建立模块，用于对所述文本相似度大于所述关联阈值的所述待处理节点文本建立关联关系，得到节点数据集合；

图谱构建模块，用于根据所述节点数据集合构建与所述待处理节点文本相对应的原始知识图谱；

筛选操作模块，用于根据图传播算法对所述原始知识图谱进行筛选操作，得到同标签节点数据；

节点确认模块，用于根据预设的主节点确认策略在所述同标签节点数据中确认主节点概念以及融合节点概念，得到语义融合后的节点数据集合。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上所述的基于图传播算法的节点文本融合方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述的基于图传播算法的节点文本融合方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请提供了一种基于图传播算法的节点文本融合方法，包括：接收用户终端发送的携带有待处理节点文本的节点融合请求；根据训练好的语言模型对所述待处理节点文本进行语义表示操作，得到节点语义向量；根据所述节点语义向量计算所述每两个待处理节点文本之间的文本相似度；将所述文本相似度大于所述关联阈值的所述待处理节点文本建立关联关系，得到节点数据集合；根据所述节点数据集合构建与所述待处理节点文本相对应的原始知识图谱；根据图传播算法对所述原始知识图谱进行筛选操作，得到同标签节点数据；根据预设的主节点确认策略在所述同标签节点数据中确认主节点概念以及融合节点概念，得到语义融合后的节点数据集合。本申请通过采用训练好的语言模型对待处理的待处理节点文本进行语义表示得到节点语义向量，使得后续计算文本相似度更精确，找到相近语义的概念节点；通过图传播算法迭代收敛得到更可靠的相近概念数据，有效增强融合后的概念数据的解析性。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的基于图传播算法的节点文本融合方法的实现流程图；

图2是本申请实施例一提供的基于KMeans聚类的概念融合方法的实现流程图；

图3是图1中步骤S103的一种具体实施方式的流程图；

图4是本申请实施例一提供的基于图传播算法的节点文本融合装置的结构示意图：

图5是本申请实施例二提供的基于KMeans聚类的概念融合装置的结构示意图；

图6是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，示出了本申请实施例一提供的基于图传播算法的节点文本融合方法的实现流程图，为了便于说明，仅示出与本申请相关的部分。

上述的基于图传播算法的节点文本融合方法，包括以下步骤：步骤S101、步骤S102、步骤S103、步骤S104、步骤S105、步骤S106以及步骤S107。

步骤S101：接收用户终端发送的携带有待处理节点文本的节点融合请求。

在本申请实施例中，用户终端指的是用于执行本申请提供的预防证件滥用的图像处理方法的终端设备，该用户终端可以是诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端，应当理解，此处对用户终端的举例仅为方便理解，不用于限定本申请。

在本申请实施例中，由于不同数据库对不同知识、概念的定义、表达不同，从而导致不同的数据库中会存在相同的知识，因此需要对上述不同的数据库中的知识、概念进行重新融合，从而将存在相同的知识、概念进行融合，对于半自动化或者半自动化构建本体或者分类树有着非常重要的意义，待处理节点文本指的时上述不同数据库中定义、表达的知识或者概念。

步骤S102：根据训练好的语言模型对待处理节点文本进行语义表示操作，得到节点语义向量。

在本申请实施例中，训练好的语言模型主要用于通过丰富的语义信息表示上述待处理节点文本，作为示例，该训练好的语言模型可以是Word2vec、GLOVE或者BERT等大规模预训练开源语言模型，应当理解的是，此处对训练好的语言模型进行举例仅为方便理解，不用于限定本申请。

在本申请实施例中，Word2Vector是一种依据上下文关系的词语语义(词义)特征提取方法，最先由Mikolov等于2013年初在谷歌公司的开源项目中提出。当文档作为信息检索的样本时，针对在不同文档中的每个词语，Word2Vector可以依据其上下文关系有效地提取其语义(即词义特征)，并以节点语义向量的形式进行表示。

在本申请实施例中，上述节点语义向量指的是将每个词根据其语义表示为一个由数字表示的向量。节点语义向量的距离可以用最传统的欧氏距离来衡量，也可以用cos夹角来衡量等，均属于本发明的保护范围之内。

在本申请实施例中，上述节点语义向量表示为：

其中，x_i表示概念X的第i个词的组成部分。

步骤S103：根据节点语义向量计算每两个待处理节点文本之间的文本相似度。

在本申请实施例中，由于节点语义向量可以表示待处理节点文本的语义，因此可以通过待处理节点文本的节点语义向量判断该待处理节点文本的语义相似度，而不必依赖外部数据库现有的定义。

步骤S104：将文本相似度大于关联阈值的待处理节点文本建立关联关系，得到节点数据集合。

在本申请实施例中，用户预先设定用于唯一确定概念数据相近、相似或者相同的关联阈值，只有两个待处理节点文本、节点数据之间的文本相似度大于该关联阈值时才能建立关联关系，进而确保相近的概念才能够融合到一起。

在本申请实施例中，节点数据集合指的是能够融合到一起的两个待处理节点文本，该节点数据集合由两个待处理节点文本以及该两个待处理节点文本的文本相似度组成。

步骤S105：根据节点数据集合构建与待处理节点文本相对应的原始知识图谱。

在本申请实施例中，将融合到一起的节点数据集合载入图算法中，根据该节点数据集合中的两个待处理节点文本的文本相似度作为边的权重，使得上述原始知识图谱的构建充分利用结构化的语义关系，使得数据融合更加精准。

步骤S106：根据图传播算法对原始知识图谱进行筛选操作，得到同标签节点数据。

在本申请实施例中，同标签节点数据指的是相同的知识定义或者表达的知识、概念，后续概念融合的过程中可基于该同标签节点数据进行标签传播，使得相同标签的节点数据能够标注同一个标签。

在本申请实施例中，在建立知识图谱之后，通过社会化网络的图传播算法来确定最相近的概念，其中，包括但不限于全联通分量、标签传播等算法。我们上一步构建的图中已经含有节点和边的信息，等到图传播算法收敛以后，输出同一标签的概念。

步骤S107：根据预设的主节点确认策略在同标签节点数据中确认主节点概念以及融合节点概念，得到语义融合后的节点数据集合。

在本申请实施例中，同一标签下的概念，我们需要选择一个作为主节点，其余为融合节点。常见策略有TF-IDF、Frequency等。

在本申请实施例中，提供了一种基于图传播算法的节点文本融合方法，包括：接收用户终端发送的携带有待处理节点文本的节点融合请求；根据训练好的语言模型对待处理节点文本进行语义表示操作，得到节点语义向量；根据节点语义向量计算每两个待处理节点文本之间的文本相似度；将文本相似度大于关联阈值的待处理节点文本建立关联关系，得到节点数据集合；根据节点数据集合构建与待处理节点文本相对应的原始知识图谱；根据图传播算法对原始知识图谱进行筛选操作，得到同标签节点数据；根据预设的主节点确认策略在同标签节点数据中确认主节点概念以及融合节点概念，得到语义融合后的节点数据集合。本申请通过采用训练好的语言模型对待处理的待处理节点文本进行语义表示得到节点语义向量，使得后续计算文本相似度更精确，找到相近语义的概念节点；通过图传播算法迭代收敛得到更可靠的相近概念数据，有效增强融合后的概念数据的解析性。

继续参阅图2，示出了本申请实施例一提供的基于KMeans聚类的概念融合方法的实现流程图，为了便于说明，仅示出与本申请相关的部分。

在本实施例的一些可选的实现方式中，在步骤S103之前，还包括：步骤S201；步骤S103具体包括：步骤S202。

步骤S201：采用Mini Batch KMeans算法对待处理节点文本进行分解操作，得到若干原始概念簇类。

在本申请实施例中，通常情况下，我们将所有节点放置在一张图上，通过节点两两之间的文本相似度作为边的权重构建边。然而，在大数据的情况下，建图所需要的内存可能过大，对于这种情况，我们使用Mini Batch KMeans算法提前将一个大图上的节点分解成几个甚至几十个簇类。Mini Batch KMeans采用mini batch的思想，从所有数据中采样一部分进行KMeans聚类，降低数据规模，提高迭代速度。这种方法不仅可以大幅降低了计算时间而且尽量保持了聚类的准确性。聚类以后，对同一个簇类的节点计算两两之间的文本相似度，不同簇类的节点不相通。

步骤S202：在同一原始概念簇类中根据节点语义向量计算每两个待处理节点文本之间的文本相似度。

在本申请实施例中，在大数据的情况下，建图所需要的内存可能过大，对于这种情况，我们使用Mini Batch KMeans算法提前将一个大图上的节点分解成几个甚至几十个簇类，从而一定程度解决规模量大的问题，减少运算内存，提高运算速度，同时尽量保证了聚类的准确率，不对后面的图传播算法造成显著影响。

在本实施例的一些可选的实现方式中，文本相似度表示为：

其中，X、Y表示待处理节点文本；Dist(X,Y)为待处理节点文本X和待处理节点文本Y之间的相似度；x_i表示在待处理节点文本X中的第i个节点语义向量，且i∈(1,n)；y_max(x_i)表示为在待处理节点文本Y中与节点语义向量x_i的相似度最高的节点语义向量；dist(x_i,y_max(x_i)表示节点语义向量x_i与节点语义向量y_max(x_i)的词向量距离。

在本实施例的一些可选的实现方式中，文本相似度还表示为：

其中，α表示自定义的放大系数，c表示概念X和概念Y相同的文本，len()表示文本长度。

在本申请实施例中，由于相同文本的数据容易被原概念长度影响，因此，通过设计

以减少原概念长度的影响。

继续参阅图3，示出了图1中步骤S103的实现流程图，为了便于说明，仅示出与本申请相关的部分。

在本实施例的一些可选的实现方式中，步骤S103具体包括：步骤S301、步骤S302以及步骤S303。

步骤S301：判断每两个待处理节点文本中是否存在相同文本；

在本申请实施例中，相同文本指的是以单个字为单位，对两个待判断的概念数据进行正则化匹配，从而确认是否存在相同的文本内容。

作为本申请的一种优化实施例，判断是否存在相同文本还可以是通过结合语义分析模型，对待判断的概念数据进行语义分析，获取该待判断的概念数据的真实语义信息，并基于该真实语义信息进行上述正则化匹配，从而确认是否存在相同的文本内容。

步骤S302：若每两个待处理节点文本中不存在相同文本，则基于文本相似度表达公式计算文本相似度；

在本申请实施例中，若不存在相同文本，则说明待判断的两个概念数据之间的紧密程度不需要进一步拉近。

步骤S303：若每两个待处理节点文本中存在相同文本，则根据增大规则增大放大系数α，并基于增大的文本相似度表达公式计算文本相似度。

在本申请实施例中，增大规则主要用于提供拉近存在相同文本的两个概念数据其关联关系的依据，该增大规则可以是按照相同文本字数的量进行增大，作为示例，例如，待判断的两个概念数据之间的关联关系的放大系数α默认为1，若待判断的两个概念数据之间存在两个相同的文本字数，则该放大系数α增大0.2，即增大后的放大系数α为1.2；该增大规则还可以是按照相同文本字数所占总文本字数的比例进行增大，作为示例，例如，待判断的两个概念数据之间的关联关系的放大系数α默认为1，若待判断的两个概念数据之间存在相同文本字数所占总文本字数的比例为1/2，那么增大后的放大系数α为(1+1/2)α即1.5α，应当理解，此处对增大规则的举例仅为方便理解，不用于限定本申请。

在本申请实施例中，若存在相同文本，则说明待判断的两个概念数据之间的关联关系更加紧密，通过放大系数α使得该两个概念数据更容易被图传播算法分配到同一标签中进行融合。

在本申请实施例中，当计算文本相似度的两个待处理节点文本中存在相同的字，则成比例放大该权重，使得两节点的联系更加紧密，更容易被图传播算法分配到同一标签中进行融合。

综上，本申请提供了一种基于图传播算法的节点文本融合方法，包括：接收用户终端发送的携带有待处理节点文本的节点融合请求；根据训练好的语言模型对待处理节点文本进行语义表示操作，得到节点语义向量；根据节点语义向量计算每两个待处理节点文本之间的文本相似度；将文本相似度大于关联阈值的待处理节点文本建立关联关系，得到节点数据集合；根据节点数据集合构建与待处理节点文本相对应的原始知识图谱；根据图传播算法对原始知识图谱进行筛选操作，得到同标签节点数据；根据预设的主节点确认策略在同标签节点数据中确认主节点概念以及融合节点概念，得到语义融合后的节点数据集合。本申请通过采用训练好的语言模型对待处理的待处理节点文本进行语义表示得到节点语义向量，使得后续计算文本相似度更精确，找到相近语义的概念节点；通过图传播算法迭代收敛得到更可靠的相近概念数据，有效增强融合后的概念数据的解析性。同时，使用MiniBatch KMeans算法提前将一个大图上的节点分解成几个甚至几十个簇类，从而一定程度解决规模量大的问题，减少运算内存，提高运算速度，同时尽量保证了聚类的准确率，不对后面的图传播算法造成显著影响。同时，通过设计

以减少原概念长度的影响。

需要强调的是，为进一步保证上述待处理节点文本以及节点数据集合的私密和安全性，上述待处理节点文本以及节点数据集合还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

实施例二

进一步参考图4，作为对上述图1所示方法的实现，本申请提供了一种基于图传播算法的节点文本融合装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例的基于图传播算法的节点文本融合装置100包括：请求接收模块110、语义表示模块120、相似度计算模块130、关联关系建立模块140、图谱构建模块150、筛选操作模块160以及节点确认模块170。其中：

请求接收模块110，用于接收用户终端发送的携带有待处理节点文本的节点融合请求；

语义表示模块120，用于根据训练好的语言模型对待处理节点文本进行语义表示操作，得到节点语义向量；

相似度计算模块130，用于根据节点语义向量计算每两个待处理节点文本之间的文本相似度；

关联关系建立模块140，用于将文本相似度大于关联阈值的待处理节点文本建立关联关系，得到节点数据集合；

图谱构建模块150，用于根据节点数据集合构建与待处理节点文本相对应的原始知识图谱；

筛选操作模块160，用于根据图传播算法对原始知识图谱进行筛选操作，得到同标签节点数据；

节点确认模块170，用于根据预设的主节点确认策略在同标签节点数据中确认主节点概念以及融合节点概念，得到语义融合后的节点数据集合。

在本申请实施例中，上述节点语义向量表示为：

其中，x_i表示概念X的第i个词的组成部分。

在本申请实施例中，提供了一种基于图传播算法的节点文本融合装置，包括：请求接收模块110，用于接收用户终端发送的携带有待处理节点文本的节点融合请求；语义表示模块120，用于根据训练好的语言模型对待处理节点文本进行语义表示操作，得到节点语义向量；相似度计算模块130，用于根据节点语义向量计算每两个待处理节点文本之间的文本相似度；关联关系建立模块140，用于将文本相似度大于关联阈值的待处理节点文本建立关联关系，得到节点数据集合；图谱构建模块150，用于根据节点数据集合构建与待处理节点文本相对应的原始知识图谱；筛选操作模块160，用于根据图传播算法对原始知识图谱进行筛选操作，得到同标签节点数据；节点确认模块170，用于根据预设的主节点确认策略在同标签节点数据中确认主节点概念以及融合节点概念，得到语义融合后的节点数据集合。本申请通过采用训练好的语言模型对待处理的待处理节点文本进行语义表示得到节点语义向量，使得后续计算文本相似度更精确，找到相近语义的概念节点；通过图传播算法迭代收敛得到更可靠的相近概念数据，有效增强融合后的概念数据的解析性。

继续参阅图5，示出了本申请实施例二提供的基于KMeans聚类的概念融合装置的结构示意图，为了便于说明，仅示出与本申请相关的部分。

在本实施例的一些可选的实现方式中，上述基于图传播算法的节点文本融合装置100还包括：分解操作子模块180；上述相似度计算模块130具体包括：相似度计算子模块131。其中：

分解操作子模块，用于采用Mini Batch KMeans算法对待处理节点文本进行进行分解操作，得到若干原始概念簇类；

相似度计算子模块，用于在同一原始概念簇类中根据节点语义向量计算每两个待处理节点文本之间的文本相似度。

在本实施例的一些可选的实现方式中，文本相似度表示为：

以减少原概念长度的影响。

在本实施例的一些可选的实现方式中，上述相似度计算模块还包括：文本判断子模块、第一结果子模块以及第二结果子模块。其中：

文本判断子模块，用于判断每两个待处理节点文本中是否存在相同文本；

第一结果子模块，用于若每两个待处理节点文本中不存在相同文本，则基于文本相似度表达公式计算文本相似度；

第二结果子模块，用于若每两个待处理节点文本中存在相同文本，则根据增大规则增大放大系数α，并基于增大的文本相似度表达公式计算文本相似度。

综上，本申请提供了一种基于图传播算法的节点文本融合装置，包括：请求接收模块110，用于接收用户终端发送的携带有待处理节点文本的节点融合请求；语义表示模块120，用于根据训练好的语言模型对待处理节点文本进行语义表示操作，得到节点语义向量；相似度计算模块130，用于根据节点语义向量计算每两个待处理节点文本之间的文本相似度；关联关系建立模块140，用于将文本相似度大于关联阈值的待处理节点文本建立关联关系，得到节点数据集合；图谱构建模块150，用于根据节点数据集合构建与待处理节点文本相对应的原始知识图谱；筛选操作模块160，用于根据图传播算法对原始知识图谱进行筛选操作，得到同标签节点数据；节点确认模块170，用于根据预设的主节点确认策略在同标签节点数据中确认主节点概念以及融合节点概念，得到语义融合后的节点数据集合。本申请通过采用训练好的语言模型对待处理的待处理节点文本进行语义表示得到节点语义向量，使得后续计算文本相似度更精确，找到相近语义的概念节点；通过图传播算法迭代收敛得到更可靠的相近概念数据，有效增强融合后的概念数据的解析性。同时，使用Mini BatchKMeans算法提前将一个大图上的节点分解成几个甚至几十个簇类，从而一定程度解决规模量大的问题，减少运算内存，提高运算速度，同时尽量保证了聚类的准确率，不对后面的图传播算法造成显著影响。同时，通过设计

以减少原概念长度的影响。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图6，图6为本实施例计算机设备基本结构框图。

所述计算机设备200包括通过系统总线相互通信连接存储器210、处理器220、网络接口230。需要指出的是，图中仅示出了具有组件210-230的计算机设备200，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器210至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器210可以是所述计算机设备200的内部存储单元，例如该计算机设备200的硬盘或内存。在另一些实施例中，所述存储器210也可以是所述计算机设备200的外部存储设备，例如该计算机设备200上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器210还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中，所述存储器210通常用于存储安装于所述计算机设备200的操作系统和各类应用软件，例如基于图传播算法的节点文本融合方法的计算机可读指令等。此外，所述存储器210还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器220在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器220通常用于控制所述计算机设备200的总体操作。本实施例中，所述处理器220用于运行所述存储器210中存储的计算机可读指令或者处理数据，例如运行所述基于图传播算法的节点文本融合方法的计算机可读指令。

所述网络接口230可包括无线网络接口或有线网络接口，该网络接口230通常用于在所述计算机设备200与其他电子设备之间建立通信连接。

本申请提供的计算机设备，通过采用训练好的语言模型对待处理的待处理节点文本进行语义表示得到节点语义向量，使得后续计算文本相似度更精确，找到相近语义的概念节点；通过图传播算法迭代收敛得到更可靠的相近概念数据，有效增强融合后的概念数据的解析性。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于图传播算法的节点文本融合方法的步骤。

本申请提供的计算机可读存储介质，通过采用训练好的语言模型对待处理的待处理节点文本进行语义表示得到节点语义向量，使得后续计算文本相似度更精确，找到相近语义的概念节点；通过图传播算法迭代收敛得到更可靠的相近概念数据，有效增强融合后的概念数据的解析性。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于图传播算法的节点文本融合方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于图传播算法的节点文本融合方法，其特征在于，在所述根据所述节点语义向量计算所述每两个待处理节点文本之间的文本相似度的步骤之前，还包括下述步骤：

采用MiniBatch KMeans算法对所述待处理节点文本进行分解操作，得到若干原始概念簇类；

所述根据所述节点语义向量计算所述每两个待处理节点文本之间的文本相似度的步骤，具体包括下述步骤：

在同一所述原始概念簇类中根据所述节点语义向量计算所述每两个待处理节点文本之间的所述文本相似度。

3.根据权利要求1所述的基于图传播算法的节点文本融合方法，其特征在于，所述文本相似度表示为：

其中，X、Y表示所述待处理节点文本；Dist(X,Y)为待处理节点文本X和待处理节点文本Y之间的相似度；x_i表示在待处理节点文本X中的第i个节点语义向量，且i∈(1,n)；y_max(x_i)表示为在待处理节点文本Y中与节点语义向量x_i的相似度最高的节点语义向量；dist(x_i,y_max(x_i)表示节点语义向量x_i与节点语义向量y_max(x_i)的词向量距离。

4.根据权利要求3所述的基于图传播算法的节点文本融合方法，其特征在于，所述文本相似度还表示为：

5.根据权利要求1所述的基于图传播算法的节点文本融合方法，其特征在于，所述根据所述节点语义向量计算所述每两个待处理节点文本之间的文本相似度的步骤，具体包括：

判断所述每两个待处理节点文本中是否存在相同文本；

若所述每两个待处理节点文本中不存在相同文本，则基于所述文本相似度表达公式计算所述文本相似度；

若所述每两个待处理节点文本中存在相同文本，则根据增大规则增大所述放大系数α，并基于增大的所述文本相似度表达公式计算所述文本相似度。

6.根据权利要求5所述的基于图传播算法的节点文本融合方法，其特征在于，在所述根据预设的主节点确认策略在所述同标签节点数据中确认主节点概念以及融合节点概念，得到语义融合后的节点数据集合的步骤之后还包括：

将所述待处理节点文本以及所述节点数据集合存储至区块链中。

7.一种基于图传播算法的节点文本融合装置，其特征在于，包括：

8.根据权利要求7所述的基于图传播算法的节点文本融合装置，其特征在于，所述装置还包括：

分解操作子模块，用于采用Mini Batch KMeans算法对所述待处理节点文本进行进行分解操作，得到若干原始概念簇类；

所述相似度计算模块具体包括：

相似度计算子模块，用于在同一所述原始概念簇类中根据所述节点语义向量计算所述每两个待处理节点文本之间的所述文本相似度。

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述的基于图传播算法的节点文本融合方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至6中任一项所述的基于图传播算法的节点文本融合方法的步骤。