CN117852637B

CN117852637B - 一种基于定义的学科概念知识体系自动构建方法与系统

Info

Publication number: CN117852637B
Application number: CN202410256766.XA
Authority: CN
Inventors: 张雪英; 陈培; 陈明珠; 杜俊汐; 张慧峰
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2024-03-07
Filing date: 2024-03-07
Publication date: 2024-05-24
Anticipated expiration: 2044-03-07
Also published as: CN117852637A

Abstract

本发明涉及一种基于定义的学科概念知识体系自动构建方法与系统，用于提升机器理解、计算与推理的准确性，包括：建立概念关系的分类体系，包括学科概念的类型以及概念间的关系类型；基于辞典、公开主题词表等数据源获取核心概念集及其定义集，每个核心概念称为目标概念；使用自然语言处理方法依次从定义集中自动提取相关概念以及概念关系；基于概念关系的分类体系，通过计算词语相似度标准化概念关系，获得三元组结构的集合；基于三元组结构的集合，重构学科概念的语义网络，形成更加系统的、结构化的学科概念体系。这有助于科学理解与正确使用概念，也有利于学科知识的智能理解、计算与推理。

Description

一种基于定义的学科概念知识体系自动构建方法与系统

技术领域

本发明涉及知识管理领域，特别是涉及一种基于定义的学科概念体系自动构建方法与系统。

背景技术

概念体系是根据概念间相互关系建立的结构化的概念集合，在解决不同数据源之间语义异质性、知识集成和知识推理方面具有潜在优势，也是学科知识体系构建的重要支撑。概念体系构建是学科理论体系构建、学术交流等的重要基础工作。

现有概念与关系获取方法多源自分散文本且更关注概念本身，缺乏立体的、网络化的概念关联网络。具体一学科领域的概念则多以辞典形式集中组织，概念条目相对独立，直接关联相对弱，致使难以直观获取清晰的概念关系，不利于支撑机器智能学习、理解与推理。定义因表述了概念的内涵与外延而包含了丰富的概念关系。基于定义中的概念关系建立概念之间的网络化关联，更具有科学性与正确性。聚焦于概念的定义，挖掘定义中的相关概念、概念关系，不断扩充概念集、完善单个概念网络，能形成更加系统的、完整的、结构化的学科概念体系。不仅有利于学生理解学科整体结构、促进知识的综合应用，而且便于机器学习领域概念以及概念之间的关联，迅速获取相关知识，从而支撑领域知识图谱构建。

发明内容

本发明的主要目的在于提供一种基于定义的学科概念体系自动构建方法与装置，形成具有学科特征与层次特征的概念体系，用于提升机器理解、计算与推理概念及概念关系的准确性。定义表述了概念的内涵与外延而包含了丰富的概念关系，基于定义中的概念关系建立概念之间的网络化关联，具有科学性与准确性。

第一方面，本发明提供一种基于定义的学科概念体系自动构建方法，包括：

所述方法包括以下步骤：

步骤1)建立概念关系的分类体系，包括学科概念的类型以及概念间的关系类型；

步骤2)基于辞典、公开主题词表数据源获取目标概念集及其定义集/>，每个核心概念称为目标概念；

步骤3)使用自然语言处理方法依次从定义集中自动提取相关概/>以及概念关系/>；

步骤4)基于概念关系的分类体系，通过计算词语相似度标准化概念关系，获得三元组结构的集合；

步骤5)基于三元组结构的集合，重构学科概念的语义网络，形成学科概念体系;

其中，步骤3)中使用条件随机场模型对定义集进行分词，获取一系列词元并依据特征进行标注，从而预测出每个词元的类别，实现自动抽取相关概念/>及概念关系/>,设定义的特征函数集为/>，其中/>表示能观测的定义集/>，/>表示无法直接判断的词元类型，在定义中该词元的条件概率为：

，

式子中表示概念类型以及概念关系类型，/>是条件随机场模型的参数，更直观地可以认为是特征函数集中每个特征函数的权重。概念关系R包含了目标概念与相关概念二者之间的具体关系。

步骤4)中基于概念关系的分类体系，计算词语的余弦相似度自动判别目标概念与相关概念的关系类型，公式如下：

，

其中，和/>分别表示两个词语的词向量，/>表示两个向量的点积，和/>分别表示向量的范数，标准化后的三元组集合/>为：

，

其中，，/>，/>分别为第/>项标准化后的概念关系中的目标概念、关系、相关概念，/>表示先确定目标概念，/>表示根据目标概念确定相关概念，表示根据目标概念与相关概念确定二者关系。

第二方面，本发明提供一种基于定义的学科概念体系自动构建系统，包括：

第一确定模块：获取该学科相关的有效原始数据集，录入、存储辞典类、主题词表类数据，确定核心概念的集合，即目标概念集/>；

第二匹配模块：依次在原始数据集中匹配、筛选、获取对目标概念集的定义集/>；

第三获取模块：在定义集中抽取除目标概念以外的相关概念/>、概念关系/>；

第四判断模块：基于概念关系的分类体系，自动判别目标概念与相关概念的关系类型，得到三元组结构的集合，

第五构建模块：融合与标准化自动判断的三元组结构的集合，据此，从内容与结构上形成学科概念体系，另外可基于用户目的构建不同形式的可视化表达。

进一步的，本发明提供一种基于定义的学科概念体系自动构建系统，其中，所述第三模块用于抽取的定义集，其包含但不限于定义文本，定义所属的概念，定义所属概念的唯一标识字符串；所获相关概念/>，存储时其内容包括但不限于：概念的术语、概念的抽取来源、概念的唯一标识字符串以及概念的抽取频次/>，其中概念的抽取来源即目标概念的来源。概念关系包括层次关系（如上位关系、下位关系、等同关系）与特征关系，概念关系/>则包含了主体概念与客体概念、二者之间的具体关系，存储时其内容包括但不限于：概念关系的指示词、主体概念、客体概念，概念关系的抽取来源。如果主体概念字段与目标概念字段一致，则主体概念与概念关系的抽取来源字段的内容一致，不重复存储。

进一步的，本发明提供一种基于定义的学科概念体系自动构建系统，其中，第三模块利用自然语言处理模型对定义集进行抽取，具体包括：基于规则与字典匹配模型和模型抽取地貌学科概念，通过规则模板、向量相似度与抽取来源获取概念间关系。基于规则的抽取方法常用正则表达式法，结合词法和句法从文本中抽取概念间关系。词法和句法规则通常依据文本中上下文特征词的特定组合，表达出概念以及与之相应的关系。在句子中匹配出头实体、尾实体和关系词，通过对相关的文本进行词法分析，可以发现一系列特征词，它们在语义和搭配方面都存在一定规律。对这些特征词进行研究，能够得出一系列适用于表述概念间关系的词法和句法规则。采用/>模型词向量变换功能，对概念集进行词向量化描述，利用词向量建立映射矩阵，并基于该模型判断概念词相似度：

，

其中，表示概念/>和概念/>之间的共现概率，/>表示一个特定概念/>和其他概念之间的共现概率，/>和/>是概念/>和概念/>的词向量，/>是概念/>的权重向量，概念词之间的共现概率除以一个基准值，即得到它们之间的相对权重，

，

其中，和/>是概念/>和概念/>的词向量，/>和/>两个标量是词向量的偏置项，是权重函数，/>为共现矩阵，/>表示概念/>、/>共现次数，/>代表概念集大小。

进一步的，本发明提供一种基于定义的学科概念体系自动构建系统，其中，所述第三模块中抽取频数，提供了衡量具体一个相关概念在该学科领域的重要性的指标，相关概念的抽取频数/>累计公式如下：

，

其中，为概念/>抽取频数，/>是值为0或1的常数，抽取所得新概念/>在概念集/>已存在则为1，不存在则为0，/>为概念/>首次被抽取得到的执行次，/>为第三获取模块抽取次，即概念/>第一次被抽取后为1。

进一步的，本发明提供一种基于定义的学科概念体系自动构建系统，其中，所述第四模块基于概念关系的分类体系通过规则与字典匹配模型自动判别目标概念与相关概念的关系类型；基于以下公式对概念集与概念关系/>进行一致化与核验：

，

其中，表示具体一个相关概念，/>是术语、/>是定义、是分类、/>是抽取来源、/>是概念的唯一标识字符串，

，

其中，，/>，/>分别为第/>项标准化后的概念关系中的主体概念、关系、客体概念，/>表示先确定主体概念，/>表示根据主体概念确定客体概念，/>表示根据主体概念与客体概念确定二者关系。

第三方面，根据本公开的另一方面，提供了一种基于定义的学科概念体系自动构建系统，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现该基于定义的概念抽取与概念体系构建方法的步骤。

第四方面，根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，用于存储计算机程序与执行指令，其特征在于，所属计算机程序被处理器执行时实现基于定义的概念抽取与地貌学科概念体系构建方法。

本发明提供的一种基于定义的学科概念体系自动构建方法与装置，首先，建立概念关系的分类体系；获取学科领域的核心概念及其定义，每个核心概念称为目标概念；依次从目标概念的定义中自动提取相关概念；基于概念关系的分类体系自动判别目标概念与相关概念的关系类型；依据所有核心概念与相关概念的关系集合，重构学科概念的语义网络，形成更加系统的、完整的、结构化的学科概念体系。本发明基于定义深入剖析学科概念内涵与隐含的概念关联，挖掘概念间关系，不断丰满概念集、完善概念关系的网络，最终形成关联丰富网络化学科概念体系，优化了学科概念体系的逻辑结构、语义一致性与可计算性。既能直观呈现不同概念之间的关系、展示与其他学科的交叉关联、帮助学生理解学科整体结构、促进知识的综合应用，而且便于机器学习领域概念以及概念之间的关联，迅速获取相关知识，从而支撑领域知识图谱以及学科知识体系的构建。

附图说明

图1是本发明公开的一种基于定义的学科概念体系构建方法的核心流程图；

图2是本发明提供的基于定义的地貌学科概念体系自动构建系统的结构示意图；

图3是本发明实施例的喀斯特地貌的概念关系分类体系图；

图4是本发明提供的实施例的概念定义中抽取概念及关系示例图。

具体实施方式

为使本发明的目的、技术方法和特点更加清晰，下面将结合本发明的附图，以喀斯特地貌为例，对本发明的技术方案进行详实描述，显然，此处所描述的具体实施例仅是本发明的一部分实施例，仅仅用于解释相关发明，而不是全部实施例，更非对本发明的限定。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：本发明提供实施例为一种基于定义的喀斯特地貌概念体系构建方法，核心步骤如图1，具体实施时，包括以下步骤：

步骤5)基于三元组结构的集合，重构学科概念的语义网络，形成更加系统的、完整的、结构化的学科概念体系。

，

实施例2：本发明实施例提供一种基于定义的喀斯特地貌学科概念体系自动构建系统，如图2，装置的主要模块包括：

确定模块S201：获取喀斯特地貌学科相关的有效原始数据集，录入、存储辞典类、主题词表类数据，确定核心概念的集合，即目标概念集/>；

匹配模块S202：依次在数据集中匹配、筛选并获取对应于输入目标概念集的定义集/>；

获取模块S203：在定义集中抽取除目标概念以外的相关概念/>、概念关系/>；

判断模块S204：基于概念关系的分类体系，自动判别目标概念与相关概念的关系类型，得到三元组结构的集合。

构建模块S205：用于合并与标准化自动判断的结果，据此，从内容与结构上形成喀斯特地貌学科概念体系。另外可基于用户目的构建不同形式的可视化表达。

作为一种优选的技术方案，确定模块S201中对于数据源选取与确定，从内容形式上喀斯特概念可从学术图书、论文报告、标准规范、数据资料等来源中获取，如表1所示。喀斯特地貌相关专业书籍、论文报告与辞典是本发明实施例主要的概念获取来源，如表2所示获取对于喀斯特地貌相关文本中蕴含的概念与定义。获取喀斯特地貌的核心概念与定义，作为构建喀斯特地貌概念体系的基础。

表1喀斯特地貌核心概念的原始数据源表；

作为一种优选的技术方案，匹配模块S202中对于筛选与匹配概念集的定义，对于定义缺失的目标概念，需要在数据源中基于词法规则进行匹配获取，获取方法如表2。获取的相关概念集，其内容包括相关概念、术语、概念的抽取来源、概念的原始来源，概念的唯一标识字符串，其中概念的抽取来源即目标概念的来源；

表2概念内涵匹配词法规则示例；

作为一种优选的技术方案，获取模块S203中采用自然语言处理技术使用词性标注技术识别出喀斯特地貌相关概念，基于词向量模型进行抽取，获取喀斯特地貌相关概念与概念关系；基于喀斯特地貌概念关系的分类体系给予喀斯特地貌概念与概念间关系以特定的类别标注，如表3所示。

表3喀斯特地貌专用词性标注示例表；

作为一种优选的技术方案，判断模块S203产生概念集，如图3，采用的自然语言处理模型包括：基于规则与字典匹配模型和/>词向量模型抽取概念。采用/>模型词向量变换功能，对概念集进行词向量化描述，利用词向量建立映射矩阵：

，

作为一种优选的技术方案，获取模块S203在自动提取相关概念时需要累计抽取频数，提供一个用于衡量具体一个相关概念在该学科领域的重要性的指标，相关概念的抽取频数/>累计公式如下：

，

作为一种优选的技术方案，判断模块S204基于喀斯特地貌概念关系的分类体系通过规则与字典匹配模型自动判别目标概念与相关概念的关系类型；基于以下公式通过概念集与概念关系/>获得三元组结构的集合/>：

，

其中，，/>，/>分别为第/>项标准化后的概念关系中的主体概念、关系、客体概念，/>表示先确定主体概念，/>表示根据主体概念确定客体概念，/>表示根据主体概念与客体概念确定二者关系；示例如图4。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、、光学存储器等）上实施计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备和计算机程序产品的流程图和/或方框图来描述的。应理解的是，可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能模块的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令可装载到计算机或其他可编程数据处理设备，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，上述说明是示例性的，并非穷尽性的。本领域的普通技术人员可以对本发明进行各种显而易见的改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于定义的学科概念知识体系自动构建方法，其特征在于，所述方法包括以下步骤：

步骤2)基于辞典、公开主题词表数据源获取目标概念集C及其定义集D，每个核心概念称为目标概念；

步骤3)使用自然语言处理方法依次从定义集D中自动提取相关概念C`以及概念关系R；

步骤4)基于概念关系的分类体系，通过计算词语相似度标准化概念关系，获得三元组结构的集合U；

步骤5)基于三元组结构的集合U，重构学科概念的语义网络，形成学科概念体系；

其中，步骤3)中使用条件随机场模型对定义集D进行分词，获取一系列词元并依据特征进行标注，从而预测出每个词元的类别，实现自动抽取相关概念C`及概念关系R,设定义的特征函数集为Φ(x₁，...，x_n，s₁，...，s_n)，其中{x₁，...，x_n}表示能观测的定义集D，{s₁，...，s_n}表示无法直接判断的词元类型，在定义中该词元的条件概率为：

式子中S′表示概念类型以及概念关系类型，ω是条件随机场模型的参数，步骤4)中基于概念关系的分类体系，计算词语的余弦相似度自动判别目标概念与相关概念的关系类型，公式如下：

其中，u和v分别表示两个词语的词向量，dot(u，v)表示两个向量的点积，norm(u)和norm(v)分别表示向量的范数，标准化后的三元组集合U为：

U_R(s_i，p_i，o_i)＝U(s_i)U(o_i|s_i)U(p_i|s_i，o_i)

其中，s_i，p_i，o_i分别为第i项标准化后的概念关系中的目标概念、关系、相关概念，U(s_i)表示先确定目标概念，U(o_i|s_i)表示根据目标概念确定相关概念，U(p_i|s_i，o_i)表示根据目标概念与相关概念确定二者关系。

2.一种基于定义的学科概念体系自动构建系统，其特征在于，实现权利要求1所述的构建方法，所述系统包括：

第一确定模块：获取该学科相关的有效原始数据集Recouse₀，录入、存储辞典类、主题词表类数据，确定核心概念的集合，即目标概念集C；

第二匹配模块：依次在原始数据集中匹配、筛选、获取对目标概念集C的定义集D；

第三获取模块：在定义集D中抽取除目标概念以外的相关概念C`、概念关系R；

第四判断模块：基于概念关系的分类体系，自动判别目标概念与相关概念的关系类型，得到三元组结构的集合U，

第五构建模块：融合与标准化自动判断的三元组结构的集合U，据此，从内容与结构上形成学科概念体系，另外基于用户目的构建不同形式的可视化表达。

3.根据权利要求2所述的一种基于定义的学科概念体系自动构建系统，其特征在于，第三获取模块用于抽取的定义集D，其包含定义文本，定义所属的概念，定义所属概念的唯一标识字符串；所获相关概念C`，存储时其内容包括但不限于：概念的术语、概念的抽取来源、概念的唯一标识字符串以及概念的抽取频次cf，其中概念的抽取来源与目标概念的来源一致，概念关系包括层次关系与特征关系，概念关系R则包含了主体概念与客体概念、二者之间的具体关系，存储时其内容包括概念关系的指示词、主体概念、客体概念，概念关系的抽取来源，如果主体概念字段与目标概念字段一致，则主体概念与概念关系的抽取来源字段的内容一致，不重复存储。

4.根据权利要求3所述的一种基于定义的学科概念体系自动构建系统，其特征在于，第三获取模块利用自然语言处理模型对定义集进行抽取，具体包括：基于规则与字典匹配模型和GloVe模型抽取学科概念，通过规则模板、向量相似度与抽取来源获取概念间关系，基于规则的抽取方法常用正则表达式法，结合词法和句法从文本中抽取概念间关系，词法和句法规则依据文本中上下文特征词的组合，表达出概念以及与之相应的关系，在句子中匹配出头实体、尾实体和关系词，采用GloVe模型词向量变换功能，对概念集进行词向量化描述，利用词向量建立映射矩阵：

其中，P_ij表示概念i和概念j之间的共现概率，P_k表示一个概念k和其他概念之间的共现概率，v_i和v_j是概念i和概念j的词向量，是概念k的权重向量，概念词之间的共现概率除以一个基准值，即得到它们之间的相对权重，

其中，v_i和v_j是概念i和概念j的词向量，b_i和b_j两个标量是词向量的偏置项，f(X_i，j)是权重函数，X为共现矩阵，X_i，j表示概念i、j共现次数，N代表概念集大小。

5.根据权利要求4所述的一种基于定义的学科概念体系自动构建系统，其特征在于，第三获取模块中抽取频数cf_i，提供了衡量具体一个相关概念在该学科领域的重要性的指标，相关概念的抽取频数cf_i累计公式如下：

其中，cf_i为概念i抽取频数，a_i，n是值为0或1的常数，抽取所得新概念i在概念集C已存在则为1，不存在则为0，m为概念i首次被抽取得到的执行次，n为第三获取模块抽取次，即概念i第一次被抽取后为1。

6.根据权利要求5所述的一种基于定义的学科概念体系自动构建系统，其特征在于，第四判断模块基于概念关系的分类体系通过规则与字典匹配模型自动判别目标概念与相关概念的关系类型；基于以下公式对概念集C与概念关系R进行一致化与核验：

C_concept＝(V_Terminology，V_Definition，A_Category，A_Source，cf，id)，

其中，C_concept表示具体一个相关概念，V_Terminology是术语、V_Definition是定义、A_Category是分类、A_Source是抽取来源、id是概念的唯一标识字符串，

U_R(s_i，p_i，o_i)＝U(s_i)U(o_i|s_i)U(p_i|s_i，o_i)

其中，s_i，p_i，o_i分别为第i项标准化后的概念关系中的主体概念、关系、客体概念，U(s_i)表示先确定主体概念，U(o_i|s_i)表示根据主体概念确定客体概念，U(p_i|s_i，o_i)表示根据主体概念与客体概念确定二者关系。

7.一种基于定义的学科概念体系自动构建系统，包括处理器、存储器及存储在所述存储器上并在所述处理器上运行的计算机程序与可执行指令，其特征在于，所述处理器执行所述程序时实现权利要求1所述基于定义的学科概念知识体系自动构建方法。

8.一种非易失性计算机可读存储介质，其上存储计算机程序，其特征在于，计算机程序被处理器执行时实现权利要求1所述基于定义的学科概念知识体系自动构建方法。