CN110188347B

CN110188347B - 一种面向文本的知识主题间认知关系抽取方法

Info

Publication number: CN110188347B
Application number: CN201910356243.1A
Authority: CN
Inventors: 刘均; 麻珂欣; 曾宏伟; 任若清
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2021-01-19
Anticipated expiration: 2039-04-29
Also published as: CN110188347A

Abstract

本发明提供一种面向文本的知识主题间认知关系抽取方法，不仅判断出知识主题间存在的依赖关系，更具有方向性。可根据过滤后的认知关系三元组指导知识主题的学习。其包括以下步骤：(1)对待识别文本进行预处理得到预处理结果文本；(2)结合词以及句子层面因素，抽取预处理结果文本中影响认知关系的词特征和句子特征，构成认知关系特征集；(3)利用多节点标记规则，通过训练的条件随机场模型进行句子层面序列标注；根据认知关系特征集，抽取句子中存在的所有认知关系三元组；(4)计算认知关系三元组中知识主题词重要性，根据词语重要性原则，对抽取出认知关系三元组进行过滤，从而抽取出知识主题间认知关系。

Description

一种面向文本的知识主题间认知关系抽取方法

技术领域

本发明涉及知识主题间认知关系的方法，具体为一种面向文本的知识主题间认知关系抽取方法。

背景技术

信息技术的快速发展和网络的普及带来了海量的数字资源，巨大的数字资源使学习者从中快速、有序、准确的获取所需知识造成了极大的困难，易造成学习迷航等问题。因此，如何缓解该问题已经成为了信息领域急需解决的问题之一。其核心是如何实现将数据庞大、信息缺乏的互联网信息根据知识主题之间内在的联系，即知识主题之间的认知关系，将知识主题有序的组织在一起。以知识主题为主要研究对象，挖掘其中的认知关系，并提供一种方式使得知识主题以简明、合理的方式组织起来，从而学习者可根据其中认知关系顺序以递进的方式学习，大大提高了学习效率，缓解了学习迷航等问题。

知识主题间的认知关系决定了知识主题学习的先后顺序。在传统教育或学习中都是根据经验判断知识主题间的认知关系。目前，高质量的知识主题间认知关系需要领域专家根据领域知识来进行标注，构建过程缓慢。因此，实际有效自动判断知识主题间认知关系的方法，有助于推进学习者高效有序学习。

发明内容

针对现有技术中存在的问题，本发明提供一种面向文本的知识主题间认知关系抽取方法，不仅判断出知识主题间存在的依赖关系，更具有方向性。可根据过滤后的认知关系三元组指导知识主题的学习。

本发明是通过以下技术方案来实现：

一种面向文本的知识主题间认知关系抽取方法，包括以下步骤：

(1)对待识别文本进行预处理得到预处理结果文本；

(2)结合词以及句子层面因素，抽取预处理结果文本中影响认知关系的词特征和句子特征，构成认知关系特征集；

(3)利用多节点标记规则，通过训练的条件随机场模型进行句子层面序列标注；根据认知关系特征集，抽取句子中存在的所有认知关系三元组；

(4)计算认知关系三元组中知识主题词重要性，根据词语重要性原则，对抽取出认知关系三元组进行过滤，从而抽取出知识主题间认知关系。

优选的，所述步骤(1)包括以下步骤：

(1.1)抽取待识别文本中的领域术语构成知识主题词集；

(1.2)对知识主题词集和待识别文本进行繁简体转换，将文本中繁体字均转换为对应简体中文，得到简体知识主题词集和简体待识别文本；

使用繁简体转换之后的知识主题词集构建分词自定义外部词典，使用分词自定义外部词典对简体待识别文本进行分词得到分词文本；

(1.3)使用简体知识主题词集构建知识领域词性标注自定义外部词典，词性标注自定义外部词典中每行所包含内容为(知识主题词，词性)，知识主题词的词性均为名词；使用词性标注自定义外部词典对分词文本进行词性标注，识别出分词文本中动词、名词、介词、形容词、代词、助动词以及标点；

(1.4)对分词文本进行语义角色标注；语义角色标注识别出句子中的主语、宾语、间接宾语、谓语动词、方式、时间、非语义角色；在确定词语的语义角色时，根据嵌套在最底层谓词所对应的词语语义角色确定词语的语义角色；

(1.5)对待识别文本中句子进行命名实体识别，识别出句子中的人名、机构名、地名和非命名实体；对待识别文本中句子进行依存句法分析处理，识别出句子中实体之间的关系，实体间关系包括：核心关系、主谓关系、并列关系、动宾关系、定中结构和状中结构。

优选的，所述步骤(2)包括以下步骤：

(2.1)词特征选择：抽取词的位置、词性、命名实体类型、语义角色类型信息作为词的特征；其中词的位置特征计算方法为该词语在整个句子分词后，从第一个词语算起位于第几个词语；

(2.2)句子特征选择：抽取词语在句子中的语法信息作为句子的特征；

(2.3)组合词特征以及句子特征构成特征集。

优选的，所述步骤(3)包括以下步骤：

(3.1)使用多节点标记规则对预处理结果文本中所有句子进行标记；多节点标记规则中，使用“CR”表示认知关系谓词，“F”表示先序实体，“L”表示后序实体，“OT”表示其它词；同时结合“BIE”标记模式，其中，“B”表示词首，“I”表示词中，“E”表示词尾；

(3.2)使用上述标记规则对实验数据集的文本进行标记；然后将实验数据集分为训练集和测试集，分别用于验证训练模型和测试模型有效性；

(3.3)使用条件随机场模型基于句子层面进行序列标注；条件随机场模型中使用条件概率计算条件随机场模型的隐藏状态序列；

在对句子进行上述的序列标记过程中，提取出对于一个句子中存在的多个不同认知关系角色，得到句子中存在的多组认知关系三元组；

(3.4)根据认知关系特征集，使用关系三元组形式从模型训练结果提取出认知关系；关系三元组以(F,CR,L)的形式表示；其中“F”表示先序实体，“CR”表示认知关系谓词，“L”表示后序实体；关系三元组所包含认知关系为：先学习先序实体，再学习后序实体。

进一步，所述步骤(3.3)中：

其中，条件概率为：

式中，x为观测序列，y为隐藏状态序列，

λ_k和μ_l为权值，s_l和t_k分别为结点上和边上的状态特征函数和转移特征函数，依赖于所处位置。

优选的，所述步骤(4)包括以下步骤：

(4.1)对抽取出的认知关系三元组，使用TF-IDF衡量先序实体和后序实体的词语重要性；

(4.2)当词语的重要性值在一定区间内时，剔除该知识主题词，同时，将包含该知识主题词的认知关系三元组剔除；

(4.3)在进行认知关系三元组过滤之后，剩下的认知关系三元组则为待分析文本中实际存在的知识主题间认知关系，即成功抽取出知识主题间认知关系。

进一步，所述步骤(4.1)中，

TF-IDF值计算公式为：

式中，N为文档总数；df_i为词语i的词频；f_ij为词语i在文档d_j中的词频；n_i为文档中出现词语i的文档数。

与现有技术相比，本发明具有以下有益的技术效果：

本发明能够对文本内容自动分析，识别出文本中的知识主题词。结合词以及句子特征构建特征模型，通过条件随机场模型标记出句子中知识主题间认知先后顺序，并计算出知识主题词的重要性，根据知识主题词重要性进行无关知识主题词及认知关系过滤。该方法可有效抽取出文本中知识主题间认知关系，可有效帮助学生学习。

附图说明

图1为本发明的方法流程框架图。

图2为本发明实例中所述维基百科数据获取和处理流程图。

图3为本发明实例中所述维基百科词条页面示意图。

图4为本发明实例中所述维基百科词条对应解释页面示意图。

图5为本发明实例中所述语义角色标注示例。

图6为本发明实例中所述文本预处理流程图。

图7为本发明实例中所述句子序列标记示例。

图8为本发明实例中所述机器学习领域认知关系挖掘部分数据示例图。

具体实施方式

下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

以维基百科为知识源为例，提取维基百科词条构成知识主题词集，并且提取词条对应维基百科页面正文摘要构成待识别文本。维基百科的数据获取和处理流程如图2所示。所提取维基百科词条如图3所示，所提取维基百科正文摘要内容如图4所示。

本发明具体包括以下步骤，参见图1：

(1)对待识别文本进行预处理得到预处理结果文本，如图6所示，主要包括5个步骤：

(1.1)抽取待识别文本中的领域术语构成知识主题词集。

(1.2)对知识主题词集和待识别文本进行繁简体转换，将文本中繁体字均转换为对应简体中文，得到简体知识主题词集和简体待识别文本。使用简体知识主题词集构建分词自定义外部词典，使用分词自定义外部词典对简体待识别文本进行分词得到分词文本。

(1.3)使用简体知识主题词集构建知识领域词性标注自定义外部词典，词性标注自定义外部词典中每行所包含内容为(知识主题词，词性)，知识主题词的词性均为名词。使用词性标注自定义外部词典对分词文本进行词性标注，识别出分词文本中动词、名词、介词、形容词、代词、助动词以及标点。词性标注时包括对动词、名词、介词、形容词、代词、助动词以及标点的对应标注。

(1.4)对分词文本进行语义角色标注。在语义角色标注过程中，同一个词语在不同谓词中语义角色可能不相同。语义角色标注识别出句子中的主语、宾语、间接宾语、谓语动词、方式、时间、非语义角色。在确定词语的语义角色时，根据嵌套在最底层谓词所对应的词语语义角色确定词语的语义角色。语义角色标注实例如图5所示，句子“机器学习理论主要是设计和分析一些让计算机可以自动学习的算法”中，短语“可以自动学习”在第一层分析中语义角色为A1(宾语)，而在底层分析中语义角色为A2(间接宾语)，因此该短语的语义角色为A2(间接宾语)。

(1.5)对分词文本中句子进行命名实体识别，识别出句子中的人名、机构名、地名和非命名实体。对分词文本中句子进行依存句法分析处理，识别出句子中的实体之间的关系，实体间关系包括：核心关系、主谓关系、并列关系、动宾关系、定中结构和状中结构。

对分词文本完成词性标注、语义角色标注和命名实体识别后得到预处理结果文本。(2)结合词以及句子层面因素，抽取预处理结果文本中影响认知关系的词特征和句子特征，构建认知关系特征集；主要包括2个步骤：

(2.1)词特征选择：抽取词的位置、词性、命名实体类型、语义角色类型信息作为词的特征。其中词的位置特征计算方法为该词语在整个句子分词后，从第一个词语算起位于第几个词语。

(2.2)句子特征选择：抽取词语在句子中的语法信息作为句子的特征。

(2.3)组合词特征以及句子特征构成特征集。

(3)利用多节点标记规则，通过训练的条件随机场模型进行句子层面序列标注；根据认知关系特征集，抽取句子中存在的所有认知关系三元组。具体主要包括3个步骤：

(3.1)使用多节点标记规则对预处理结果文本中所有句子进行标记。多节点标记规则中，使用“CR”表示认知关系谓词，“F”表示先序实体，“L”表示后序实体，“OT”表示其它词。同时结合“BIE”标记模式，其中，“B”表示词首，“I”表示词中，“E”表示词尾。

句子多节点标记示例如图7所示，对句子“机器学习理论主要是设计和分析一些让计算机可以自动学习的算法”进行认知关系标记。

知识主题词的标记由完整的包含“B”、“I”、“E”的词构成。确定一个知识主题词的详细过程如下：

Step1：初始化句子检测位置index＝0；

Step2：初始化知识主题词为topic＝Ф，i＝0。

Step3：从句子index位置开始检测，当检测到L或者F时，则直接输出该知识主题词；当检测到第一个F-B或L-B时，将该词存入topic[i]中，i加1；

Step3：在检测到词首之后，将之后所检测到连续的词中F-I或L-I存入topic[i]中，i加1；

Step4：当检测到词尾，即F-E或L-E时，将该词存入topic[i]中，i＝0，输出topic保存所检测出知识主题词。记录句子检测位置index＝i；

Step5：判断句子是否结束，若未到达句子结尾，则index加一，跳转执行Step2；否则，句子中知识主题词已检测完，继续重复Step1到Step5检测下一个句子。

如图7所示，能够确定出知识主题词为机器学习理论、算法。

(3.2)使用上述标记规则对实验数据集的文本进行标记。然后将实验数据集分为训练集和测试集，分别用于验证训练模型和测试模型有效性。

(3.3)使用条件随机场模型基于句子层面进行序列标注。条件随机场模型中使用条件概率计算条件随机场模型的隐藏状态序列；

其中，条件概率为：

式中，x为观测序列，y为隐藏状态序列，

λ_k和μ_l为权值，s_l和t_k分别为结点上和边上的状态特征函数和转移特征函数，依赖于所处位置。所述的特征函数计算特征时同时考虑当前词语的前后三个词语的特征。

在对句子进行上述的序列标记过程中，提取出对于一个句子中存在的多个不同认知关系角色，得到句子中存在的多组认知关系三元组。

所使用条件随机场特征模板形式如下：

U03:％x[1,0]

U04:％x[2,0]

U05:％x[-2,0]/％x[-1,0]/％x[0,0]

U06:％x[-1,0]/％x[0,0]/％x[1,0]

U07:％x[0,0]/％x[1,0]/％x[2,0]

其中，Uzz表示该特征模板为Unigram类型，窗口大小为m，％x[#,#]中的两个“#”分别表示相对的行偏移与列偏移，x表示词的位置。特征模板表明对于位置i的词，还考虑其前面m个词以及后面m个词对标记的影响，本优选实例中窗口大小为3。

(3.4)根据认知关系特征集，使用关系三元组形式从模型训练结果提取出认知关系。关系三元组以(F,CR,L)的形式表示。其中“F”表示先序实体，“CR”表示认知关系谓词，“L”表示后序实体。关系三元组所包含认知关系为：先学习先序实体，再学习后序实体。

从模型训练结果中提取认知关系三元组的详细过程如下：

Step1：初始化关系三元组集合RelationSet为空，先序实体集合First为空，后序实体集合Last为空，关系谓词集RelationVerb为空；

Step2：输入一个句子的模型训练标记结果，指针fi＝0、li＝0、ri＝0。

Step3：根据认知关系特征集，从句首开始识别，当识别到完整先序实体firstEntity，则放到先序实体集合First中，fi加1；当识别到完整后序实体时，则放到后序实体集合Last中，li加1；当识别到关系谓词时，则存放到关系谓词集RelationVerb中，ri加1。

Step4：根据认知关系特征集，每当识别到一个关系谓词，判断先序实体集合First[fi--]、后序实体集合Last[li--]是否存在元素，若均存在元素，则(First[fi--]、RelationVerb[ri--]、Last[li--])构成认知关系三元组。否则，继续向后检测，直到三个集合均不为空，得到从模型训练结果中提取出的认知关系三元组。

Step5：当句子识别完毕，则初始化先序实体集合First为空，后序实体集合Last为空，关系谓词集RelationVerb为空。若存在待识别的其它句子，则跳到Step2，否则执行完毕。

(4)计算认知关系三元组中知识主题词重要性，根据词语重要性原则，对抽取出认知关系三元组进行过滤，从而抽取出知识主题间认知关系。其中，认知关系三元组过滤，主要包括3个步骤：

(4.1)对抽取出的认知关系三元组，使用TF-IDF衡量先序实体和后序实体的词语重要性。在计算知识主题词的词语重要性之前，对预处理结果文本进行去停用词处理。TF-IDF值计算公式为：

(4.2)根据统计，当词语重要性值在一定区间内时，则该词语不是专业名词。因此当词语的重要性值在一定区间内时，剔除该知识主题词，同时，将包含该知识主题词的认知关系三元组剔除。

(4.3)在进行认知关系三元组过滤之后，剩下的认知关系三元组则为待分析文本中实际存在的知识主题间认知关系，即成功抽取出知识主题间认知关系。如图8所示为使用以上方法所抽取出机器学习领域认知关系挖掘部分数据。

本发明上述实例，从维基百科获得知识主题以及待分析文本，对知识主题词以及待分析文本进行处理，包括构建自定义外部词典、分句、分词、词性标注、命名实体识别及句法分析。根据文本分析结果构建实体间认知关系特征，通过条件随机场模型对句子进行多节点序列标记，得到句子中实体间认知关系。最后，根据词语重要性对模型抽取出认知关系三元组进行过滤，得到待识别文本中知识主题间认知关系。该方法能够对文本进行自动分析，识别出文本中存在的知识主题间的认知关系，帮助学习者高效有序的学习。

Claims

1.一种面向文本的知识主题间认知关系抽取方法，其特征在于，包括以下步骤：

(1)对待识别文本进行预处理得到预处理结果文本；

(4)计算认知关系三元组中知识主题词重要性，根据词语重要性原则，对抽取出认知关系三元组进行过滤，从而抽取出知识主题间认知关系；

所述步骤(2)包括以下步骤：

(2.1)词特征选择：抽取词的位置、词性、命名实体类型、语义角色类型信息作为词的特征；其中词的位置特征计算方法为该词在整个句子分词后，从第一个词语算起位于第几个词语；

(2.3)组合词特征以及句子特征构成特征集；

所述步骤(3)包括以下步骤：

在对句子进行上述的序列标注过程中，提取出对于一个句子中存在的多个不同认知关系角色，得到句子中存在的多组认知关系三元组；

(3.4)根据认知关系特征集，使用关系三元组形式从模型训练结果提取出认知关系；关系三元组以(F,CR,L)的形式表示；其中“F”表示先序实体，“CR”表示认知关系谓词，“L”表示后序实体；关系三元组所包含认知关系为：先学习先序实体，再学习后序实体；

所述步骤(4)包括以下步骤：

2.根据权利要求1所述的一种面向文本的知识主题间认知关系抽取方法，其特征在于，所述步骤(1)包括以下步骤：

(1.1)抽取待识别文本中的领域术语构成知识主题词集；

(1.3)使用简体知识主题词集构建知识领域词性标注自定义外部词典，词性标注自定义外部词典中每行所包含内容为知识主题词，词性；知识主题词的词性均为名词；使用词性标注自定义外部词典对分词文本进行词性标注，识别出分词文本中动词、名词、介词、形容词、代词、助动词以及标点；

(1.4)对分词文本进行语义角色标注；语义角色标注识别出句子中的主语、宾语、谓语动词、方式、时间、非语义角色；在确定词语的语义角色时，根据嵌套在最底层谓词所对应的词语语义角色确定词语的语义角色；

3.根据权利要求1所述的一种面向文本的知识主题间认知关系抽取方法，其特征在于，所述步骤(3.3)中：

其中，条件概率为：

式中，x为观测序列，y为隐藏状态序列，

λ_k和μ_l为权值，s_l为节点上的状态特征函数，t_k为边上的转移特征函数，s_l和t_k分别依赖于所处位置。

4.根据权利要求1所述的一种面向文本的知识主题间认知关系抽取方法，其特征在于，所述步骤(4.1)中，

TF-IDF值计算公式为：