CN117131932A

CN117131932A - 基于主题模型的领域知识图谱本体半自动构建方法及系统

Info

Publication number: CN117131932A
Application number: CN202311069943.5A
Authority: CN
Inventors: 郭艳; 冯诗祥; 林伟华; 刘福江; 刘虹辰; 邵泉森; 梁伟超; 高千凯; 苏军顺; 王宪彬
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2023-11-28

Abstract

本发明提供一种基于主题模型的领域知识图谱本体半自动构建方法，包括：S1：获取领域语料库Corpus，对领域语料库Corpus进行降维和聚类，获得主题聚类分布；S2：对主题聚类分布进行领域术语提取，获得领域术语词表Terms；S3：构建词嵌入模型word2vec，通过词嵌入模型word2vec对领域术语词表Terms进行特征提取和融合，获得融合词嵌入表示矩阵Keywords Embeddings；S4：对融合词嵌入表示矩阵Keywords Embeddings进行降维和聚类，获得领域术语聚类分布；S5：通过领域术语聚类分布构建领域知识图谱本体。本发明通过对融合词嵌入表示矩阵进行降维和聚类构建领域知识图谱本体，仅需要少量的领域专家参与本体构建工作，能提高领域本体构建的效率，加速领域知识图谱的构建进程。

Description

基于主题模型的领域知识图谱本体半自动构建方法及系统

技术领域

本发明涉及知识图谱构建领域，尤其涉及一种基于主题模型的领域知识图谱本体半自动构建方法及系统。

背景技术

知识图谱分为模式层和数据层两部分：其中模式层是是知识图谱的核心，在模式层存储的是经过提炼的知识；数据层存储的是具体数据信息。Schema属于模式层，用来规范知识图谱的领域与描述对象，为知识图谱设计Schema相当于为其本体构建(OntologyConstruction)，文中提到的本体构建等价于设计Schema。

本体构建是构建知识图谱中的一个关键步骤,本体构建是指在某个特定领域中对概念、实体、属性和关系进行定义和建模的过程。本体通常用于描述领域中的概念体系，将实体和概念组织成一个层次结构，并定义它们之间的属性和关系。在垂直领域的知识图谱，通常只需要定义实体类型，关系类型，属性类型。通过定义和构建本体，可以明确知识图谱中的实体、属性和关系，使得知识图谱具有更好的结构化和标准化特性，能够更准确地表达和表示领域内的知识。

引入主题模型和聚类方法后提高了领域术语抽取的效率，可以根据语料文本相似度进行聚类和分析。但基于有监督的主题模型和聚类方法也需要依赖大量数据集的支持去进行特征学习，才能保证学习结果的准确性和可靠性。因此现有的本体构建通常需要大量领域专家参与来完成，效率低、耗时长且标准不统一。

发明内容

为解决上述技术问题，本发明提供一种基于主题模型的领域知识图谱本体半自动构建方法，包括：

S1：获取领域语料库Corpus，对领域语料库Corpus进行降维和聚类，获得主题聚类分布；

S2：对主题聚类分布进行领域术语提取，获得领域术语词表Terms；

S3：构建词嵌入模型word2vec，通过词嵌入模型word2vec对领域术语词表Terms进行特征提取和融合，获得融合词嵌入表示矩阵Keywords Embeddings；

S4：对融合词嵌入表示矩阵Keywords Embeddings进行降维和聚类，获得领域术语聚类分布；

S5：通过领域术语聚类分布构建领域知识图谱本体。

优选的，步骤S1具体为：

S11：获取领域文档，通过分句和拼接使领域文档中的单个文档的字符长度在512个字符以内，获得领域语料库Corpus；

S12：将领域语料库Corpus中的句子和段落映射到512维密集向量空间，获得词嵌入表示矩阵Corpus Embeddings；

S13：通过UMAP降维算法对词嵌入表示矩阵Corpus Embeddings进行降维，获得词嵌入降维表示矩阵UMAP Embeddings；

S14：通过HDBSACN聚类算法对词嵌入降维表示矩阵UMAP Embeddings进行主题聚类，获得主题聚类分布。

优选的，步骤S2具体为：

S21：将主题聚类分布中的单个聚类簇视为一个文档，提取获得各文档中的候选术语；

S22：通过TF-IDF算法计算获得各候选术语的TF-IDF值，通过各候选术语的TF-IDF值构建术语矩阵；

S23：设置主题聚类分布中每个聚类簇的阈值，将TF-IDF值高于对应聚类簇的阈值的候选术语作为领域术语，获取所有的领域术语构建领域术语词表Terms。

优选的，步骤S3具体为：

S31：获取初始词嵌入模型，通过领域语料库Corpus和领域术语词表Terms对初始词嵌入模型进行参数调整，获得词嵌入模型word2vec；

S32：通过词嵌入模型word2vec将领域术语词表Terms映射到多维密集向量空间，获得领域术语词嵌入表示矩阵Terms Embeddings；

S33：通过词嵌入模型word2vec对领域术语词表Terms分别进行词性提取和长度提取，获得词性嵌入表示矩阵POS Embeddings和长度嵌入表示矩阵Size Embeddings；

S34：将领域术语词嵌入表示矩阵Terms Embeddings、词性嵌入表示矩阵POSEmbeddings和长度嵌入表示矩阵Size Embeddings进行特征融合，获得融合词嵌入表示矩阵Keywords Embeddings。

优选的，步骤S4具体为：

S41：通过UMAP降维算法对融合词嵌入表示矩阵Keywords Embeddings进行降维，获得融合词嵌入降维表示矩阵UMAP Keywords Embeddings；

S42：通过HDBSACN聚类算法对融合词嵌入降维表示矩阵UMAP KeywordsEmbeddings进行术语聚类，获得领域术语聚类分布。

优选的，步骤S5具体为：

S51：将领域术语聚类分布中的每一个聚类簇视为一个类Class，获得领域术语的分类表示矩阵Clusters；

S52：设置每个分类表示矩阵Clusters中各分类的实体类型和属性类型，通过实体类型、属性类型、实体类型之间的关系类型以及实体类型和属性类型之间的关系类型构建领域知识图谱本体。

一种基于主题模型的领域知识图谱本体半自动构建系统，包括：

主题聚类分布获取模块，用于获取领域语料库Corpus，对领域语料库Corpus进行降维和聚类，获得主题聚类分布；

领域术语词表获取模块，用于对主题聚类分布进行领域术语提取，获得领域术语词表Terms；

融合词嵌入表示矩阵获取模块，用于构建词嵌入模型word2vec，通过词嵌入模型word2vec对领域术语词表Terms进行特征提取和融合，获得融合词嵌入表示矩阵KeywordsEmbeddings；

领域术语聚类分布获取模块，用于对融合词嵌入表示矩阵Keywords Embeddings进行降维和聚类，获得领域术语聚类分布；

领域知识图谱本体构建模块，用于通过领域术语聚类分布构建领域知识图谱本体。

本发明具有以下有益效果：

通过对领域语料库进行降维和聚类获得主题聚类分布，主题聚类能显著地提高领域候选术语提取的准确率；通过TF-IDF算法获取领域术语词表，减少了专家的参与程度，能有效地节省人力和物力；通过词嵌入模型对领域术语词表进行特征提取和融合，优化了异构数据对特征提取的影响；通过对融合词嵌入表示矩阵进行降维和聚类构建领域知识图谱本体，仅需要少量的领域专家参与本体构建工作，能提高领域本体构建的效率，加速领域知识图谱的构建进程。

附图说明

图1为本发明实施例方法流程图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，本发明提供一种基于主题模型的领域知识图谱本体半自动构建方法，包括：

S5：通过领域术语聚类分布构建领域知识图谱本体。

进一步的，步骤S1具体为：

具体的，在特定领域内，利用爬虫、OCR等技术获取该领域的文档，经过处理后得到领域语料库，|Corpus|为语料的总数量(下同)；

具体的，以领域语料库为数据源，使用SentenceTransformer的distiluse-base-multilingual-cased预训练模型，该模型将句子和段落映射到512维密集向量空间，并支持中文语料，可用于聚类或语义搜索等任务；该步骤得到Corpus的词嵌入表示矩阵CorpusEmbeddings，Corpus Embeddings的维度为(|Corpus|，512)；

具体的，首先初始化UMAP降维算法，需要根据具体任务提供参数：n_components为降维的维数大小，建议n_components∈[2,100]∩Z，Z为整数集(下同)；n_epochs：模型训练迭代次数，该参数取值随|Corpus|增大而减小；使用Corpus Embeddings训练UMAP；该步骤得到词嵌入降维表示矩阵UMAP Embeddings，UMAP Embeddings的维度为(|Corpus|，n_components)；

S14：通过HDBSACN聚类算法对词嵌入降维表示矩阵UMAP Embeddings进行主题聚类，获得主题聚类分布；

具体的，首先初始化HDBSACN聚类算法，需要根据具体任务提供参数：min_cluster_size为单个聚类簇包含的数据最小数量，即聚类簇数量随min_cluster_size的增加而减小；min_simples用来衡量用户希望聚类的保守程度，该值越大，聚类就越保守，意味着更多的点将被视为噪声，并且聚类将被限制在逐渐更密集的区域；min_simples∈(0,1]，使用UMAP Embeddings训练HDBSACN；该步骤得到领域语料库的主题聚类分布。

进一步的，步骤S2具体为：

具体的，将单个聚类簇视为一个文档(document)，聚类簇数视为整个语料库文档数量N，使用TF-IDF算法提取领域候选术语，TF-IDF值的计算如公式所示：

其中，W_t,d为聚类簇d中术语t的TF-IDF值，tf_t,d为术语t在聚类簇d中出现的频率，df_t为在总聚类簇中包含的术语t的聚类簇数；

进一步的，步骤S3具体为：

具体的，使用基于中文百科语料的word2vec词嵌入模型，word2vec词嵌入模型更适合完成相似词计算任务，词嵌入维度dims为预定义，一般dims∈[50,300]∩Z；

具体的，Terms Embeddings的维度为(|Terms|，dims)；

S34：将领域术语词嵌入表示矩阵Terms Embeddings、词性嵌入表示矩阵POSEmbeddings和长度嵌入表示矩阵Size Embeddings进行特征融合，获得融合词嵌入表示矩阵Keywords Embeddings；

具体的，将Terms Embeddings、POS Embeddings和Size Embeddings使用非参数化的平均汇聚层进行特征融合，Keywords Embeddings的维度为(|Terms|，dims)。

进一步的，步骤S4具体为：

具体的，再次初始化UMAP降维算法，需要根据具体任务提供参数：n_components为降维的维数大小，建议n_components∈[2,100]∩Z；n_epochs：模型训练迭代次数，该参数取值随|Terms|增大而减小；使用Keywords Embeddings训练UMAP；该步骤得到融合词嵌入降维表示矩阵UMAP Keywords Embeddings，UMAP Keywords Embeddings的维度为(|Terms|，n_components)；

S42：通过HDBSACN聚类算法对融合词嵌入降维表示矩阵UMAP KeywordsEmbeddings进行术语聚类，获得领域术语聚类分布；

具体的，再次初始化HDBSACN聚类算法，需要根据具体任务提供参数：min_cluster_size为单个聚类簇包含的数据最小数量，即聚类簇数量随min_cluster_size的增加而减小；min_simples用来衡量用户希望聚类的保守程度，该值越大，聚类就越保守，意味着更多的点将被视为噪声，并且聚类将被限制在逐渐更密集的区域；min_simples∈(0,1]，使用UMAP Keywords Embeddings训练HDBSACN；该步骤得到领域术语聚类分布。

进一步的，步骤S5具体为：

具体的，将上述领域术语的聚类结果中的每一个聚类簇视为本体中的一个类(Class)，将词嵌入解码为领域术语中文字符表示，每个聚类簇包含多个领域术语；该步骤得到领域术语的分类表示矩阵Clusters，即Terms被分为m个类，每个类分别包含不同的领域术语；

S52：设置每个分类表示矩阵Clusters中各分类的实体类型和属性类型，通过实体类型、属性类型、实体类型之间的关系类型以及实体类型和属性类型之间的关系类型构建领域知识图谱本体；

具体的，将上述Clusters交由领域专家，由领域专家根据每个类的领域术语确定该类的概念表达，随后确定实体类型，关系类型，属性类型，完成领域知识图谱本体的构建工作。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为标识。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于主题模型的领域知识图谱本体半自动构建方法，其特征在于，包括：

S5：通过领域术语聚类分布构建领域知识图谱本体。

2.根据权利要求1所述的基于主题模型的领域知识图谱本体半自动构建方法，其特征在于，步骤S1具体为：

3.根据权利要求1所述的基于主题模型的领域知识图谱本体半自动构建方法，其特征在于，步骤S2具体为：

4.根据权利要求1所述的基于主题模型的领域知识图谱本体半自动构建方法，其特征在于，步骤S3具体为：

5.根据权利要求1所述的基于主题模型的领域知识图谱本体半自动构建方法，其特征在于，步骤S4具体为：

S42：通过HDBSACN聚类算法对融合词嵌入降维表示矩阵UMAP Keywords Embeddings进行术语聚类，获得领域术语聚类分布。

6.根据权利要求1所述的基于主题模型的领域知识图谱本体半自动构建方法，其特征在于，步骤S5具体为：

7.一种基于主题模型的领域知识图谱本体半自动构建系统，其特征在于，包括：