CN117131932A - 基于主题模型的领域知识图谱本体半自动构建方法及系统 - Google Patents
基于主题模型的领域知识图谱本体半自动构建方法及系统 Download PDFInfo
- Publication number
- CN117131932A CN117131932A CN202311069943.5A CN202311069943A CN117131932A CN 117131932 A CN117131932 A CN 117131932A CN 202311069943 A CN202311069943 A CN 202311069943A CN 117131932 A CN117131932 A CN 117131932A
- Authority
- CN
- China
- Prior art keywords
- domain
- corpus
- representation matrix
- clustering
- word embedding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims abstract description 74
- 230000004927 fusion Effects 0.000 claims abstract description 38
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000013507 mapping Methods 0.000 claims description 6
- 102000003780 Clusterin Human genes 0.000 claims description 3
- 108090000197 Clusterin Proteins 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 15
- 238000012549 training Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于主题模型的领域知识图谱本体半自动构建方法,包括:S1:获取领域语料库Corpus,对领域语料库Corpus进行降维和聚类,获得主题聚类分布;S2:对主题聚类分布进行领域术语提取,获得领域术语词表Terms;S3:构建词嵌入模型word2vec,通过词嵌入模型word2vec对领域术语词表Terms进行特征提取和融合,获得融合词嵌入表示矩阵Keywords Embeddings;S4:对融合词嵌入表示矩阵Keywords Embeddings进行降维和聚类,获得领域术语聚类分布;S5:通过领域术语聚类分布构建领域知识图谱本体。本发明通过对融合词嵌入表示矩阵进行降维和聚类构建领域知识图谱本体,仅需要少量的领域专家参与本体构建工作,能提高领域本体构建的效率,加速领域知识图谱的构建进程。
Description
技术领域
本发明涉及知识图谱构建领域,尤其涉及一种基于主题模型的领域知识图谱本体半自动构建方法及系统。
背景技术
知识图谱分为模式层和数据层两部分:其中模式层是是知识图谱的核心,在模式层存储的是经过提炼的知识;数据层存储的是具体数据信息。Schema属于模式层,用来规范知识图谱的领域与描述对象,为知识图谱设计Schema相当于为其本体构建(OntologyConstruction),文中提到的本体构建等价于设计Schema。
本体构建是构建知识图谱中的一个关键步骤,本体构建是指在某个特定领域中对概念、实体、属性和关系进行定义和建模的过程。本体通常用于描述领域中的概念体系,将实体和概念组织成一个层次结构,并定义它们之间的属性和关系。在垂直领域的知识图谱,通常只需要定义实体类型,关系类型,属性类型。通过定义和构建本体,可以明确知识图谱中的实体、属性和关系,使得知识图谱具有更好的结构化和标准化特性,能够更准确地表达和表示领域内的知识。
引入主题模型和聚类方法后提高了领域术语抽取的效率,可以根据语料文本相似度进行聚类和分析。但基于有监督的主题模型和聚类方法也需要依赖大量数据集的支持去进行特征学习,才能保证学习结果的准确性和可靠性。因此现有的本体构建通常需要大量领域专家参与来完成,效率低、耗时长且标准不统一。
发明内容
为解决上述技术问题,本发明提供一种基于主题模型的领域知识图谱本体半自动构建方法,包括:
S1:获取领域语料库Corpus,对领域语料库Corpus进行降维和聚类,获得主题聚类分布;
S2:对主题聚类分布进行领域术语提取,获得领域术语词表Terms;
S3:构建词嵌入模型word2vec,通过词嵌入模型word2vec对领域术语词表Terms进行特征提取和融合,获得融合词嵌入表示矩阵Keywords Embeddings;
S4:对融合词嵌入表示矩阵Keywords Embeddings进行降维和聚类,获得领域术语聚类分布;
S5:通过领域术语聚类分布构建领域知识图谱本体。
优选的,步骤S1具体为:
S11:获取领域文档,通过分句和拼接使领域文档中的单个文档的字符长度在512个字符以内,获得领域语料库Corpus;
S12:将领域语料库Corpus中的句子和段落映射到512维密集向量空间,获得词嵌入表示矩阵Corpus Embeddings;
S13:通过UMAP降维算法对词嵌入表示矩阵Corpus Embeddings进行降维,获得词嵌入降维表示矩阵UMAP Embeddings;
S14:通过HDBSACN聚类算法对词嵌入降维表示矩阵UMAP Embeddings进行主题聚类,获得主题聚类分布。
优选的,步骤S2具体为:
S21:将主题聚类分布中的单个聚类簇视为一个文档,提取获得各文档中的候选术语;
S22:通过TF-IDF算法计算获得各候选术语的TF-IDF值,通过各候选术语的TF-IDF值构建术语矩阵;
S23:设置主题聚类分布中每个聚类簇的阈值,将TF-IDF值高于对应聚类簇的阈值的候选术语作为领域术语,获取所有的领域术语构建领域术语词表Terms。
优选的,步骤S3具体为:
S31:获取初始词嵌入模型,通过领域语料库Corpus和领域术语词表Terms对初始词嵌入模型进行参数调整,获得词嵌入模型word2vec;
S32:通过词嵌入模型word2vec将领域术语词表Terms映射到多维密集向量空间,获得领域术语词嵌入表示矩阵Terms Embeddings;
S33:通过词嵌入模型word2vec对领域术语词表Terms分别进行词性提取和长度提取,获得词性嵌入表示矩阵POS Embeddings和长度嵌入表示矩阵Size Embeddings;
S34:将领域术语词嵌入表示矩阵Terms Embeddings、词性嵌入表示矩阵POSEmbeddings和长度嵌入表示矩阵Size Embeddings进行特征融合,获得融合词嵌入表示矩阵Keywords Embeddings。
优选的,步骤S4具体为:
S41:通过UMAP降维算法对融合词嵌入表示矩阵Keywords Embeddings进行降维,获得融合词嵌入降维表示矩阵UMAP Keywords Embeddings;
S42:通过HDBSACN聚类算法对融合词嵌入降维表示矩阵UMAP KeywordsEmbeddings进行术语聚类,获得领域术语聚类分布。
优选的,步骤S5具体为:
S51:将领域术语聚类分布中的每一个聚类簇视为一个类Class,获得领域术语的分类表示矩阵Clusters;
S52:设置每个分类表示矩阵Clusters中各分类的实体类型和属性类型,通过实体类型、属性类型、实体类型之间的关系类型以及实体类型和属性类型之间的关系类型构建领域知识图谱本体。
一种基于主题模型的领域知识图谱本体半自动构建系统,包括:
主题聚类分布获取模块,用于获取领域语料库Corpus,对领域语料库Corpus进行降维和聚类,获得主题聚类分布;
领域术语词表获取模块,用于对主题聚类分布进行领域术语提取,获得领域术语词表Terms;
融合词嵌入表示矩阵获取模块,用于构建词嵌入模型word2vec,通过词嵌入模型word2vec对领域术语词表Terms进行特征提取和融合,获得融合词嵌入表示矩阵KeywordsEmbeddings;
领域术语聚类分布获取模块,用于对融合词嵌入表示矩阵Keywords Embeddings进行降维和聚类,获得领域术语聚类分布;
领域知识图谱本体构建模块,用于通过领域术语聚类分布构建领域知识图谱本体。
本发明具有以下有益效果:
通过对领域语料库进行降维和聚类获得主题聚类分布,主题聚类能显著地提高领域候选术语提取的准确率;通过TF-IDF算法获取领域术语词表,减少了专家的参与程度,能有效地节省人力和物力;通过词嵌入模型对领域术语词表进行特征提取和融合,优化了异构数据对特征提取的影响;通过对融合词嵌入表示矩阵进行降维和聚类构建领域知识图谱本体,仅需要少量的领域专家参与本体构建工作,能提高领域本体构建的效率,加速领域知识图谱的构建进程。
附图说明
图1为本发明实施例方法流程图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,本发明提供一种基于主题模型的领域知识图谱本体半自动构建方法,包括:
S1:获取领域语料库Corpus,对领域语料库Corpus进行降维和聚类,获得主题聚类分布;
S2:对主题聚类分布进行领域术语提取,获得领域术语词表Terms;
S3:构建词嵌入模型word2vec,通过词嵌入模型word2vec对领域术语词表Terms进行特征提取和融合,获得融合词嵌入表示矩阵Keywords Embeddings;
S4:对融合词嵌入表示矩阵Keywords Embeddings进行降维和聚类,获得领域术语聚类分布;
S5:通过领域术语聚类分布构建领域知识图谱本体。
进一步的,步骤S1具体为:
S11:获取领域文档,通过分句和拼接使领域文档中的单个文档的字符长度在512个字符以内,获得领域语料库Corpus;
具体的,在特定领域内,利用爬虫、OCR等技术获取该领域的文档,经过处理后得到领域语料库,|Corpus|为语料的总数量(下同);
S12:将领域语料库Corpus中的句子和段落映射到512维密集向量空间,获得词嵌入表示矩阵Corpus Embeddings;
具体的,以领域语料库为数据源,使用SentenceTransformer的distiluse-base-multilingual-cased预训练模型,该模型将句子和段落映射到512维密集向量空间,并支持中文语料,可用于聚类或语义搜索等任务;该步骤得到Corpus的词嵌入表示矩阵CorpusEmbeddings,Corpus Embeddings的维度为(|Corpus|,512);
S13:通过UMAP降维算法对词嵌入表示矩阵Corpus Embeddings进行降维,获得词嵌入降维表示矩阵UMAP Embeddings;
具体的,首先初始化UMAP降维算法,需要根据具体任务提供参数:n_components为降维的维数大小,建议n_components∈[2,100]∩Z,Z为整数集(下同);n_epochs:模型训练迭代次数,该参数取值随|Corpus|增大而减小;使用Corpus Embeddings训练UMAP;该步骤得到词嵌入降维表示矩阵UMAP Embeddings,UMAP Embeddings的维度为(|Corpus|,n_components);
S14:通过HDBSACN聚类算法对词嵌入降维表示矩阵UMAP Embeddings进行主题聚类,获得主题聚类分布;
具体的,首先初始化HDBSACN聚类算法,需要根据具体任务提供参数:min_cluster_size为单个聚类簇包含的数据最小数量,即聚类簇数量随min_cluster_size的增加而减小;min_simples用来衡量用户希望聚类的保守程度,该值越大,聚类就越保守,意味着更多的点将被视为噪声,并且聚类将被限制在逐渐更密集的区域;min_simples∈(0,1],使用UMAP Embeddings训练HDBSACN;该步骤得到领域语料库的主题聚类分布。
进一步的,步骤S2具体为:
S21:将主题聚类分布中的单个聚类簇视为一个文档,提取获得各文档中的候选术语;
S22:通过TF-IDF算法计算获得各候选术语的TF-IDF值,通过各候选术语的TF-IDF值构建术语矩阵;
具体的,将单个聚类簇视为一个文档(document),聚类簇数视为整个语料库文档数量N,使用TF-IDF算法提取领域候选术语,TF-IDF值的计算如公式所示:
其中,Wt,d为聚类簇d中术语t的TF-IDF值,tft,d为术语t在聚类簇d中出现的频率,dft为在总聚类簇中包含的术语t的聚类簇数;
S23:设置主题聚类分布中每个聚类簇的阈值,将TF-IDF值高于对应聚类簇的阈值的候选术语作为领域术语,获取所有的领域术语构建领域术语词表Terms。
进一步的,步骤S3具体为:
S31:获取初始词嵌入模型,通过领域语料库Corpus和领域术语词表Terms对初始词嵌入模型进行参数调整,获得词嵌入模型word2vec;
具体的,使用基于中文百科语料的word2vec词嵌入模型,word2vec词嵌入模型更适合完成相似词计算任务,词嵌入维度dims为预定义,一般dims∈[50,300]∩Z;
S32:通过词嵌入模型word2vec将领域术语词表Terms映射到多维密集向量空间,获得领域术语词嵌入表示矩阵Terms Embeddings;
具体的,Terms Embeddings的维度为(|Terms|,dims);
S33:通过词嵌入模型word2vec对领域术语词表Terms分别进行词性提取和长度提取,获得词性嵌入表示矩阵POS Embeddings和长度嵌入表示矩阵Size Embeddings;
S34:将领域术语词嵌入表示矩阵Terms Embeddings、词性嵌入表示矩阵POSEmbeddings和长度嵌入表示矩阵Size Embeddings进行特征融合,获得融合词嵌入表示矩阵Keywords Embeddings;
具体的,将Terms Embeddings、POS Embeddings和Size Embeddings使用非参数化的平均汇聚层进行特征融合,Keywords Embeddings的维度为(|Terms|,dims)。
进一步的,步骤S4具体为:
S41:通过UMAP降维算法对融合词嵌入表示矩阵Keywords Embeddings进行降维,获得融合词嵌入降维表示矩阵UMAP Keywords Embeddings;
具体的,再次初始化UMAP降维算法,需要根据具体任务提供参数:n_components为降维的维数大小,建议n_components∈[2,100]∩Z;n_epochs:模型训练迭代次数,该参数取值随|Terms|增大而减小;使用Keywords Embeddings训练UMAP;该步骤得到融合词嵌入降维表示矩阵UMAP Keywords Embeddings,UMAP Keywords Embeddings的维度为(|Terms|,n_components);
S42:通过HDBSACN聚类算法对融合词嵌入降维表示矩阵UMAP KeywordsEmbeddings进行术语聚类,获得领域术语聚类分布;
具体的,再次初始化HDBSACN聚类算法,需要根据具体任务提供参数:min_cluster_size为单个聚类簇包含的数据最小数量,即聚类簇数量随min_cluster_size的增加而减小;min_simples用来衡量用户希望聚类的保守程度,该值越大,聚类就越保守,意味着更多的点将被视为噪声,并且聚类将被限制在逐渐更密集的区域;min_simples∈(0,1],使用UMAP Keywords Embeddings训练HDBSACN;该步骤得到领域术语聚类分布。
进一步的,步骤S5具体为:
S51:将领域术语聚类分布中的每一个聚类簇视为一个类Class,获得领域术语的分类表示矩阵Clusters;
具体的,将上述领域术语的聚类结果中的每一个聚类簇视为本体中的一个类(Class),将词嵌入解码为领域术语中文字符表示,每个聚类簇包含多个领域术语;该步骤得到领域术语的分类表示矩阵Clusters,即Terms被分为m个类,每个类分别包含不同的领域术语;
S52:设置每个分类表示矩阵Clusters中各分类的实体类型和属性类型,通过实体类型、属性类型、实体类型之间的关系类型以及实体类型和属性类型之间的关系类型构建领域知识图谱本体;
具体的,将上述Clusters交由领域专家,由领域专家根据每个类的领域术语确定该类的概念表达,随后确定实体类型,关系类型,属性类型,完成领域知识图谱本体的构建工作。
一种基于主题模型的领域知识图谱本体半自动构建系统,包括:
主题聚类分布获取模块,用于获取领域语料库Corpus,对领域语料库Corpus进行降维和聚类,获得主题聚类分布;
领域术语词表获取模块,用于对主题聚类分布进行领域术语提取,获得领域术语词表Terms;
融合词嵌入表示矩阵获取模块,用于构建词嵌入模型word2vec,通过词嵌入模型word2vec对领域术语词表Terms进行特征提取和融合,获得融合词嵌入表示矩阵KeywordsEmbeddings;
领域术语聚类分布获取模块,用于对融合词嵌入表示矩阵Keywords Embeddings进行降维和聚类,获得领域术语聚类分布;
领域知识图谱本体构建模块,用于通过领域术语聚类分布构建领域知识图谱本体。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为标识。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种基于主题模型的领域知识图谱本体半自动构建方法,其特征在于,包括:
S1:获取领域语料库Corpus,对领域语料库Corpus进行降维和聚类,获得主题聚类分布;
S2:对主题聚类分布进行领域术语提取,获得领域术语词表Terms;
S3:构建词嵌入模型word2vec,通过词嵌入模型word2vec对领域术语词表Terms进行特征提取和融合,获得融合词嵌入表示矩阵Keywords Embeddings;
S4:对融合词嵌入表示矩阵Keywords Embeddings进行降维和聚类,获得领域术语聚类分布;
S5:通过领域术语聚类分布构建领域知识图谱本体。
2.根据权利要求1所述的基于主题模型的领域知识图谱本体半自动构建方法,其特征在于,步骤S1具体为:
S11:获取领域文档,通过分句和拼接使领域文档中的单个文档的字符长度在512个字符以内,获得领域语料库Corpus;
S12:将领域语料库Corpus中的句子和段落映射到512维密集向量空间,获得词嵌入表示矩阵Corpus Embeddings;
S13:通过UMAP降维算法对词嵌入表示矩阵Corpus Embeddings进行降维,获得词嵌入降维表示矩阵UMAP Embeddings;
S14:通过HDBSACN聚类算法对词嵌入降维表示矩阵UMAP Embeddings进行主题聚类,获得主题聚类分布。
3.根据权利要求1所述的基于主题模型的领域知识图谱本体半自动构建方法,其特征在于,步骤S2具体为:
S21:将主题聚类分布中的单个聚类簇视为一个文档,提取获得各文档中的候选术语;
S22:通过TF-IDF算法计算获得各候选术语的TF-IDF值,通过各候选术语的TF-IDF值构建术语矩阵;
S23:设置主题聚类分布中每个聚类簇的阈值,将TF-IDF值高于对应聚类簇的阈值的候选术语作为领域术语,获取所有的领域术语构建领域术语词表Terms。
4.根据权利要求1所述的基于主题模型的领域知识图谱本体半自动构建方法,其特征在于,步骤S3具体为:
S31:获取初始词嵌入模型,通过领域语料库Corpus和领域术语词表Terms对初始词嵌入模型进行参数调整,获得词嵌入模型word2vec;
S32:通过词嵌入模型word2vec将领域术语词表Terms映射到多维密集向量空间,获得领域术语词嵌入表示矩阵Terms Embeddings;
S33:通过词嵌入模型word2vec对领域术语词表Terms分别进行词性提取和长度提取,获得词性嵌入表示矩阵POS Embeddings和长度嵌入表示矩阵Size Embeddings;
S34:将领域术语词嵌入表示矩阵Terms Embeddings、词性嵌入表示矩阵POSEmbeddings和长度嵌入表示矩阵Size Embeddings进行特征融合,获得融合词嵌入表示矩阵Keywords Embeddings。
5.根据权利要求1所述的基于主题模型的领域知识图谱本体半自动构建方法,其特征在于,步骤S4具体为:
S41:通过UMAP降维算法对融合词嵌入表示矩阵Keywords Embeddings进行降维,获得融合词嵌入降维表示矩阵UMAP Keywords Embeddings;
S42:通过HDBSACN聚类算法对融合词嵌入降维表示矩阵UMAP Keywords Embeddings进行术语聚类,获得领域术语聚类分布。
6.根据权利要求1所述的基于主题模型的领域知识图谱本体半自动构建方法,其特征在于,步骤S5具体为:
S51:将领域术语聚类分布中的每一个聚类簇视为一个类Class,获得领域术语的分类表示矩阵Clusters;
S52:设置每个分类表示矩阵Clusters中各分类的实体类型和属性类型,通过实体类型、属性类型、实体类型之间的关系类型以及实体类型和属性类型之间的关系类型构建领域知识图谱本体。
7.一种基于主题模型的领域知识图谱本体半自动构建系统,其特征在于,包括:
主题聚类分布获取模块,用于获取领域语料库Corpus,对领域语料库Corpus进行降维和聚类,获得主题聚类分布;
领域术语词表获取模块,用于对主题聚类分布进行领域术语提取,获得领域术语词表Terms;
融合词嵌入表示矩阵获取模块,用于构建词嵌入模型word2vec,通过词嵌入模型word2vec对领域术语词表Terms进行特征提取和融合,获得融合词嵌入表示矩阵KeywordsEmbeddings;
领域术语聚类分布获取模块,用于对融合词嵌入表示矩阵Keywords Embeddings进行降维和聚类,获得领域术语聚类分布;
领域知识图谱本体构建模块,用于通过领域术语聚类分布构建领域知识图谱本体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311069943.5A CN117131932A (zh) | 2023-08-23 | 2023-08-23 | 基于主题模型的领域知识图谱本体半自动构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311069943.5A CN117131932A (zh) | 2023-08-23 | 2023-08-23 | 基于主题模型的领域知识图谱本体半自动构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117131932A true CN117131932A (zh) | 2023-11-28 |
Family
ID=88852142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311069943.5A Pending CN117131932A (zh) | 2023-08-23 | 2023-08-23 | 基于主题模型的领域知识图谱本体半自动构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117131932A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117573893A (zh) * | 2024-01-15 | 2024-02-20 | 中国医学科学院医学信息研究所 | 一种本体构建方法、装置及计算机可读介质 |
-
2023
- 2023-08-23 CN CN202311069943.5A patent/CN117131932A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117573893A (zh) * | 2024-01-15 | 2024-02-20 | 中国医学科学院医学信息研究所 | 一种本体构建方法、装置及计算机可读介质 |
CN117573893B (zh) * | 2024-01-15 | 2024-04-09 | 中国医学科学院医学信息研究所 | 一种本体构建方法、装置及计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN111209412B (zh) | 一种循环更新迭代的期刊文献知识图谱构建方法 | |
CN106776562B (zh) | 一种关键词提取方法和提取系统 | |
CN107463607B (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN111126040B (zh) | 一种基于深度边界组合的生物医学命名实体识别方法 | |
CN108733647B (zh) | 一种基于高斯分布的词向量生成方法 | |
CN106055675A (zh) | 一种基于卷积神经网络和距离监督的关系抽取方法 | |
CN111611775B (zh) | 一种实体识别模型生成方法、实体识别方法及装置、设备 | |
CN114254653A (zh) | 一种科技项目文本语义抽取与表示分析方法 | |
CN115080694A (zh) | 一种基于知识图谱的电力行业信息分析方法及设备 | |
CN110750646B (zh) | 一种旅店评论文本的属性描述提取方法 | |
WO2023040493A1 (zh) | 事件检测 | |
CN111144119A (zh) | 一种改进知识迁移的实体识别方法 | |
CN108763192B (zh) | 用于文本处理的实体关系抽取方法及装置 | |
Huang et al. | A low-cost named entity recognition research based on active learning | |
CN117131932A (zh) | 基于主题模型的领域知识图谱本体半自动构建方法及系统 | |
CN115713072A (zh) | 一种基于提示学习和上下文感知的关系类别推断系统及方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
Tian et al. | Semantic sparse service discovery using word embedding and Gaussian LDA | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
CN117236338B (zh) | 一种稠密实体文本的命名实体识别模型及其训练方法 | |
CN107622047B (zh) | 一种设计决策知识的提取和表达方法 | |
ZA200200661B (en) | Method and apparatus for determining the cell border for handover operation. | |
CN112800244A (zh) | 一种中医药及民族医药知识图谱的构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |