CN116882494A

CN116882494A - 面向专业文本的无监督知识图构建方法和装置

Info

Publication number: CN116882494A
Application number: CN202311146916.3A
Authority: CN
Inventors: 孙宇清; 夏天宇; 马磊; 肖国亮; 袁峰
Original assignee: SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Current assignee: SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2023-10-13
Anticipated expiration: 2043-09-07
Also published as: CN116882494B

Abstract

一种面向专业文本的无监督知识图构建方法和装置，属于自然语言处理的技术领域。本发明提出了一种用于描述专业文本中知识内容的知识图概念，其核心是专业知识中的术语、实体和重要通用词汇构成的专业要素及其之间的关联关系：首先，设计了基于专家规则的专业要素抽取方法用于构建知识图的节点集，通过专业要素的抽取可以识别考生文本中的中心思想，提炼重要词汇；然后，对于抽取出的专业要素，融合其局部上下文特征、依存句法特征和语义相似度特征作为两专业要素之间关联关系的特征，得到知识图的边集及对应特征。本发明能够对缺少实体关系标记的专业文本进行知识抽取，得到的知识图可以反映文本中的专业知识，具有一定的可读性。

Description

面向专业文本的无监督知识图构建方法和装置

技术领域

本发明公开一种面向专业文本的无监督知识图构建方法和装置，属于自然语言处理的技术领域。

背景技术

专业考试中考生作答主观题时会产生大量的考生文本，其中通常包含专业的概念和术语，属于专业文本。专业文本的核心是专业知识。面向考生文本进行知识图构建，知识图需要呈现出专业的概念和术语，以及它们之间的关联关系，以获得考生在文本中所表达的专业知识，这些知识反映了考生对考题的分析以及对知识点的理解。从考生文本中抽取知识可以为自动评阅系统提供显式的知识，帮助自动评阅系统实现利用考生文本中的知识进行评阅。通过分析知识图，还可以发现考生存在的知识薄弱点，从而有针对性的对考生进行指导。

然而对于面向专业文本的无监督知识图构建方法，主要有以下技术困难：

专业文本中知识难以有效抽取和表示。知识图是一种结构化的知识组织形式，由节点和边构成。面向专业文本构建知识图，要求通过知识图能够识别专业文本中的主要概念和观点。节点反映专业术语、专业知识相关的关键词等重要的专业要素，边反映节点间的关联关系。从文本中获取知识主要通过信息抽取方法来实现，现有的信息抽取方法大多依赖于一定量的标记样本。专业知识中要素之间的关系非常复杂，难以用简单的一对一或一对多的关系进行描述，使得对关系类型进行清晰的定义变得非常困难，从而对数据标注造成了困难。对于缺少实体关系标记的专业文本，使用现有信息抽取技术来获得和表示其中的知识需要耗费大量的人工和时间成本。

现有技术如中国专利文献CN115860436A对城市热线数据中的热线事件发生地址和热线事件内容进行实体关系抽取以构建城市热线知识图谱用于检索。但方法所抽取的实体不具备专业知识性，关系不具备专业关联性。中国专利文献CN115795057A公开的一种基于AI技术的审计知识处理方法与系统，和中国专利文献CN115658929A公开的一种资产管理知识图谱的生成方法、装置及系统，上述方法均根据领域中的语料库构建知识图，不适用于单一文本，无法针对单一考生文本构建对应的知识图，由于依赖于标记数据，难以应用在缺少标记的样本上。

综上，实现面向专业文本的知识图构建在专业领域中具有重要的实用价值。

发明内容

针对现有技术的不足，本发明公开一种面向专业文本的无监督知识图构建方法；

本发明还公开一种实现上述方法的装置。

发明概述：

本发明面向专业文本设计了无监督的知识图构建方法，实现专业文本中知识的结构化抽取并进行显式表示：提出了一种用于描述专业文本中知识内容的知识图概念，其核心是专业知识中的术语、实体和重要通用词汇构成的专业要素及其之间的关联关系。知识图由节点集和边集构成，首先，设计了基于专家规则的专业要素抽取方法用于构建知识图的节点集。通过专业要素的抽取可以识别考生文本中的中心思想，提炼重要词汇。然后，对于抽取出的专业要素，融合其局部上下文特征、依存句法特征和语义相似度特征作为两专业要素之间关联关系的特征，得到知识图的边集及对应特征。通过本发明能够对缺少实体关系标记的专业文本进行知识抽取，是一种无监督的方法，得到的知识图可以反映文本中的专业知识，具有一定的可读性。

术语解释：

专业术语表：以专业文本对应领域常用的标准术语表为基础，经过专家审核构建用于分词的专业术语表，但是所述专业术语表的构建过程并不是本发明所保护的内容。此条为本发明所涉及到的元素及对应的参数解释：对于某道主观题Q，给定考生文本，其中/>为考生文本中所有词汇个数，通过知识图构建方法构建节点集：，/>为考生文本中专业要素的总个数，/>都是知识图中的节点，代表一个专业要素；边集为/>，由节点集和边集构成知识图：/>。

本发明的技术方案如下：

一种面向专业文本的无监督知识图构建方法，其特征在于，通过知识图的表达形式将专业文本中的知识进行表示，实现文本中知识的结构化抽取，包括节点集和边集的构建：

S1：专业要素抽取，依据词汇的信息增益构建专业要素表，通过专业要素表从专业文本中进行专业要素抽取用于构建知识图的节点集；

S2：关联关系构建，对专业文本中出现的两两专业要素对，融合其局部上下文特征、依存句法特征和语义相似度特征作为两专业要素之间关联关系的特征，以实现知识图边集以及对应特征的构建。

根据本发明优选的，所述S1记载的专业要素抽取包括：

S11：对专业文本进行预处理：

对专业文本进行分词处理，得到词集合，作为候选专业要素集合，用于专业要素表的构建；

S12：对专业文本中的专业要素进行抽取，以构建专业要素表：

用于定义抽取专业文本中的何种专业要素作为知识图的节点集，知识图作为后续推断任务的重要依据，知识图中的节点为推断任务关注的专业要素；通过采用信息增益衡量候选专业要素对推断任务的贡献，以构建专业要素表，基于专业术语表完成文本预处理后，得到候选专业要素集合，依据带有得分标记的考生文本数据集合，为候选专业要素集合中的每个候选专业要素计算信息增益值，其中，考生文本数据集合的大小记为/>，每个考生文本均有对应的得分类型标记，记/>为考生文本的得分类型集合，/>为得分类型为/>的考生文本数量，/>；

对于变量的取值有/>种，每一种取到的概率为/>，那么变量Y的熵为：

将熵应用于考生文本中的词，对于词T，给正确推断带来的信息增益为：

在公式和/>中，/>表示考生文本的得分；/>表示考生文本得分的整体熵；/>表示考生文本得分为/>的频率，即/>；/>表示给定词/>的有无时，考生文本得分的条件熵：

在公式、/>、/>中，/>为词/>出现时的考生得分的条件熵；/>为词/>不出现时的考生文本得分的条件熵；/>表示词/>出现的概率；/>表示词/>不出现的概率；/>表示具有词汇t的考生文本中得分类型为/>的频率；/>表示不具有词汇t的考生文本中得分类型为/>的频率；

将信息增益值最高的/>个候选专业要素构成专业要素表，所述/>的大小根据实际情况和实践经验确定，/>并不是本发明要保护的内容；

S13：使用所述专业要素表对给定的考生文本中存在的专业要素进行抽取，构成知识图的节点集合/>。

根据本发明优选的，在所述S13之前还包括：

（1）对专业文本中的专业要素进行抽取时，还考虑了对专业要素进行同义合并，在专业语境中，特定的术语通常被用来描述相关的概念，然而，同一个概念可能会有不同的术语来描述，例如，在一些公司中，股东大会被称为“股东会”，而在其他公司中则被称为“股东代表大会”；在考生文本中，还存在着大量因语言使用习惯不同造成的多词同义，例如对“应”这一词义的表达，考生可能使用“应当”“应该”等词，它们词义没有区别，只是字词使用不同，因此在知识图中，这些术语都应该映射到同一个节点上，否则会导致知识图中出现语义相同的重复节点，造成知识图的冗余和复杂度增加；

为了解决上述问题，在构建专业要素表时，在题目语境下基于专家知识进行专业要素的同义合并，专家对需要进行同义合并的专业要素进行审核；同义专业要素是指在某个语境下含义相同或类似的要素，同义合并指将这些要素归并为一个专业要素。对专业要素进行同义合并可以精炼专业要素表，提高对专业文本中的专业要素抽取的准确性和完整性，避免造成了遗漏；同时避免了知识图中出现语义相似的节点，使得知识图对知识的表达更为精准；

进行同义合并会影响候选专业要素信息增益值的计算，所以进一步对专业要素表的构建方法进行优化：

在计算信息增益时，将与词汇具有相同含义的词汇/>的信息增益值/>计入词/>的信息增益值/>：

在公式中，/>表示词/>的同义词汇集合；/>根据公式(1)-(6)计算得到的与词汇/>具有相同含义的词汇/>的信息增益值；

对完成了同义合并的信息增益值进行排序，将/>值最高的/>个候选专业要素构成专业要素表；

（2）基于同义合并完成专业要素表的构建后，使用所述专业要素表对给定的考生文本中存在的专业要素进行抽取，构成知识图的节点集合/>。

根据本发明优选的，所述S2中所述关联关系构建方法，包括：

S21：对于给定专业文本，首先按照S11-S13抽取专业文本中的专业要素，之后使用多维度信息融合的方式对专业要素间的关联关系进行构建：

在知识图中，节点之间的连接反映知识中专业要素间的关联关系，因此构建合理的关联关系对于知识图正确描述专业文本中的知识起着重要的作用，给定专业文本，根据专业要素表抽取专业文本中出现的专业要素；对专业文本中出现的任意两个专业要素，融合多种特征作为两个专业要素之间关联关系的权重，以实现知识的结构化表征，所述多种特征包括：局部上下文特征、依存句法特征和语义相似度特征；所述局部上下文特征是指专业要素在专业文本中其他专业要素，以提供上下文信息，上下文信息指词汇所处上下文所包含的信息；所述依存句法特征用于依存句法特征描述出各个词语之间的依存关系，以更好地理解专业要素之间的语法关系；语义相似度特征用于描述专业要素在含义上的相似性；

所述融合多种特征作为两两专业要素之间关联关系的权重的具体方法包括：

(a)局部上下文是对于给定的词窗口大小内专业要素的上下文文本，其中，局部上下文是在文本中与专业要素距离不超过给定的词窗口大小的文本；因此局部上下文特征是建立专业要素之间联系的一个基本特征，以捕捉在一定大小的窗口内，专业要素和其他专业要素之间的短距离交互：

如果节点集合中的节点/>在专业文本中所对应词汇之间的距离大于/>，则之间的局部上下文特征值为0，表示两个专业要素窗口内无任何交集；

如果在文本中所对应词汇之间的距离小于等于/>，则/>之间的局部上下文特征值为1，表示两个专业要素之间存在局部上下文关系；

使用不同的窗口大小可以捕捉不同粒度的语境信息，较小的窗口是指离该词比较近的范围内的上下文，较大的窗口是指比较远的，具体的窗口大小数值需要根据句子的长度确定：较小的窗口大小可以更精细地捕捉节点与其周围单词之间的语义关系，适用于短语内部的语义分析；较大的窗口大小则可以更好地捕捉句子的整体语义，适用于句子级别的语义分析，因此，选择了两种不同大小的窗口，分别为和/>，其中/>：分别计算专业要素/>之间对应的局部上下文特征值，/>为窗口大小为/>时节点/>之间的局部上下文特征值，/>为窗口大小为/>时节点/>之间的局部上下文特征值，/>为窗口大小为时节点/>之间的局部上下文特征值，将/>和/>拼接后作为局部上下文信息/>，/>为实数：

；

(b)求取所述依存句法特征的方法为依存句法分析方法，其是自然语言处理中的重要工具，描述了一个句子中各个成分之间的关系，即短语结构或句子的结构关系；在这些关系中，依存句法关注的是主要要素之间的关系，例如主语、谓语或宾语，以及句子中单独要素之间的关系；依存句法信息聚焦于专业要素之间的依存关系，使用现有的依存句法分析工具获得文本的依存句法树，利用依存句法树对句子的语法结构进行解析，进而获取在语义角度上词汇之间的紧密联系，因此，在知识图构建中，依存句法信息是作为专业要素之间边权重的重要指标之一，来增强专业要素之间的语义联系；

使用现有的依存句法分析工具根据解析考生文本中的句子，获得依存句法树结构；再根据依存句法树上专业要素之间的依存关系，构建专业要素之间的依存关系：

若专业要素在专业文本中对应的词汇之间存在父子关系，即/>是/>的父节点或者/>是/>的父节点，则依存句法信息/>值为1，否则为0，/>指代是否具有父子依存句法关系；

为了更好的利用依存句法树中所包含的词汇间依存信息，同时也考虑两个专业要素之间的间接关联，建立专业要素之间的依存关系：

首先，如果专业要素和/>之间存在祖孙关系：

是/>的祖先，则依存句法信息/>为1，/>指代是否具有父子依存句法关系，表示专业要素/>和/>之间存在一条从/>到/>的依存路径；或者/>是/>的祖先，则依存句法信息设置为1；

然后，如果专业要素和/>具有相同的父亲：

即它们是兄弟，则依存句法信息设置为1，表示/>与相同的词汇具有依存关系；

最后，不满足以上两种情况时，则为0：

将和/>拼接得到依存句法特征/>：

（c）为丰富多维度的语义表示，计算专业要素之间的语义相似度特征，以衡量两个专业要素之间的关联程度：

余弦相似度是用来衡量文本中两个词语之间相似程度的一种算法，以向量夹角余弦值作为相似度的衡量标准，使用预训练语言模型BERT对考生文本进行编码，得到向量序列/>，其中专业要素/>编码后为向量/>，专业要素/>对应向量/>；利用向量空间中两个向量/>和/>夹角的余弦值计算语义相似度/>：

（d）对于考生文本中出现的专业要素/>与/>，拼接其局部上下文信息/>、依存句法信息/>、语义相似度/>作为专业要素/>之间边的权重/>：

。

根据本发明优选的，所述一种面向专业文本的无监督知识图构建方法，还包括S3：对考生文本抽取结构化知识即知识图/>。

根据本发明优选的，所述分词处理的方式是基于专业术语表，使用分词工具Jieba进行的，具体参见https://github.com/fxsjy/jieba。

一种实现上述方法的装置，其特征在于，包括处理器、存储装置以及存储在存储装置上并在所述处理器上执行的计算机程序；

所述计算机程序被执行时能够完成面向专业文本的无监督知识图构建方法。

本发明的技术优势包括：

本发明利用专家知识实现了无标记专业文本中知识的结构化抽取。本发明所提出的面向专业文本的无监督知识图构建方法，相较于现有的利用标记数据进行知识图构建的方法，本发明能够利用无实体关系标记的数据显示地将文本中的专业知识进行抽取并展示。文本中包含的知识作为考生文本的关键信息，是评估考生文本和确定得分的重要依据。显式的知识表达能够为作为进行文本评阅的重要依据，满足了实际应用场景的需求。

附图说明

图1是本发明面向专业文本的无监督知识图构建方法流程图；

图2是考生答案的依存句法分析树示意图；

图3是实施例2中参考答案的知识图；

图4是实施例2中考生文本的知识图；

图5是实施例2中考生文本的知识图；

图6是实施例2中考生文本的知识图。

具体实施方式

下面结合实施例和说明书附图对本发明做详细的说明，但不限于此。

实施例1、

一种面向专业文本的无监督知识图构建方法，通过知识图的表达形式将专业文本中的知识进行表示，实现文本中知识的结构化抽取，包括节点集和边集的构建：

根据本发明优选的，所述S1记载的专业要素抽取包括：

S11：对专业文本进行预处理：

所述S2中所述关联关系构建方法，包括：

；

首先，如果专业要素和/>之间存在祖孙关系：

然后，如果专业要素和/>具有相同的父亲：

最后，不满足以上两种情况时，则为0：

将和/>拼接得到依存句法特征/>：

。

实施例2、

如实施例1所述一种面向专业文本的无监督知识图构建方法，其特征在于，在所述S13之前还包括：

/>

所述分词处理的方式是基于专业术语表，使用分词工具Jieba进行的，具体参见https://github.com/fxsjy/jieba。

实施例3、

一种实现如实施例1、2所述方法的装置，包括处理器、存储装置以及存储在存储装置上并在所述处理器上执行的计算机程序；

现结合实际应用场景对本发明实施例1、实施例2、实施例3进一步说明：

场景1：以某级别某专业资格考试的真实考生文本为例，对于考生答案“答：戊公司在汇票上保证的被保证人是丙公司。”其中，“汇票”和“被保证人”是抽取出的专业要素，二者之间的关联关系根据步骤S2构建，具体包括：选择,/> ，根据公式/>计算得到二者之间的/> ，/> ，/> 。根据公式/>，使用依存句法工具HanLP生成依存句法树的结果如图2所示，在图2中，NN: 名词；P: 介词；LC: 方位词；VV：动词；DEC: “的”作为补语标记；VC：系动词；PU：标点；得到“汇票”和“被保证人”不存在父子关系，存在祖孙关系，得到/>，/>,/> 。根据公式/>经过计算，得到语义相似度/>。最终得到“汇票”和“被保证人”之间边的权重为/>。

场景2：通过本发明所述的面向专业文本的无监督知识图构建方法在某级某专业资格考试的真实数据上进行实施，对输入的考生文本进行知识图构建，以一道主观题为例，如表1所示;为了图展示清晰，边上的数值为特征的的均值。

表1 考生文本推断实例

附图3、附图4、附图5和附图6中的节点表示了对应专业文本中包含的专业要素。由图中的节点所示，领域中的术语例如：

在附图3中的“公司章程”、“出资义务”、“足额缴纳”、“股东”、“违约责任”、“法律规定”；

在附图4中的“公司章程”、“出资义务”、“股东”、“违约责任”、“法律规定”；

在附图5中的“公司章程”、“出资义务”、“等额缴纳”、“违约责任”、“法律规定”；

在附图6中的“公司章程”、“出资义务”、“出资事项”、“违约责任”、“法律规定”；

说明基于专业术语表的文本预处理保证了术语的正确分词，保证了专业要素表中各专业要素的规范化，从而能够将专业文本中的术语有效地抽取出来，在知识图中实现知识的正确表达。

在附图3、附图4、附图5和附图6中的节点之间的数字是指通过本发明所述的关联关系构建方法得到的两节点之间的权重求和得到的数值。另外，在附图3、附图4、附图5和附图6中的节点是以圆圈表示，即圆圈表示了对应专业文本中包含的专业要素。

对于得分为2分的考生答案，如图4所示。知识图中出现了具有关联关系的专业要素“符合”和“法律规定”，说明考生对第一个问题作出了判断。节点“履行”与多个节点“未”、“需要”、“出资义务”相连，表达了李某未履行出资义务的描述以及李某需要履行出资义务的判断，节点“承担”、“违约责任”、“符合”和“法律规定”之间存在关联关系，说明考生认为李某对于以上行为的是符合法律规定的。

对于得分为1分的考生答案，如图5所示。通过专业要素“符合”和“法律规定”以及它们之间的关联关系，说明考生对一个问题作出了判断。知识图中出现了 “等额缴纳”，没有出现与第二个得分点相关的专业要素。

对于得分为0分的考生答案，如图6所示。知识图中出现了专业要素“不符合”和“法律规定”，并且二者之间有较强的关联关系。知识图中还出现了“出资事项”、“未作”、“规定”等节点，体现了考生对于“不符合”这一判断作出的解释。/>

Claims

1.一种面向专业文本的无监督知识图构建方法，其特征在于，通过知识图的表达形式将专业文本中的知识进行表示，实现文本中知识的结构化抽取，包括节点集和边集的构建：

2.根据权利要求1所述的一种面向专业文本的无监督知识图构建方法，其特征在于，所述S1记载的专业要素抽取包括：

S11：对专业文本进行预处理：

基于专业术语表完成文本预处理后，得到候选专业要素集合，依据带有得分标记的考生文本数据集合，为候选专业要素集合中的每个候选专业要素计算信息增益值，其中，考生文本数据集合的大小记为/>，每个考生文本均有对应的得分类型标记，记/>为考生文本的得分类型集合，/>为得分类型为/>的考生文本数量，/>；

将信息增益值最高的/>个候选专业要素构成专业要素表；

3.根据权利要求2所述的一种面向专业文本的无监督知识图构建方法，其特征在于，在所述S13之前还包括：

（1）进一步对专业要素表的构建方法进行优化：

4.根据权利要求1所述的一种面向专业文本的无监督知识图构建方法，其特征在于，所述S2中所述关联关系构建方法，包括：

根据专业要素表抽取专业文本中出现的专业要素；对专业文本中出现的任意两个专业要素，融合多种特征作为两个专业要素之间关联关系的权重，以实现知识的结构化表征，所述多种特征包括：局部上下文特征、依存句法特征和语义相似度特征；所述局部上下文特征是指专业要素在专业文本中其他专业要素，以提供上下文信息；所述依存句法特征用于依存句法特征描述出各个词语之间的依存关系；语义相似度特征用于描述专业要素在含义上的相似性；

(a)局部上下文是对于给定的词窗口大小内专业要素的上下文文本；因此局部上下文特征是建立专业要素之间联系的一个基本特征，以捕捉在一定大小的窗口内，专业要素和其他专业要素之间的短距离交互：

选择了两种不同大小的窗口，分别为和/>，其中/>：分别计算专业要素/>之间对应的局部上下文特征值，/>为窗口大小为/>时节点/>之间的局部上下文特征值，为窗口大小为/>时节点/>之间的局部上下文特征值，/>为窗口大小为/>时节点之间的局部上下文特征值，将/>和/>拼接后作为局部上下文信息/>，/>为实数：

；

(b)求取所述依存句法特征的方法为依存句法分析方法：

建立专业要素之间的依存关系：

首先，如果专业要素和/>之间存在祖孙关系：

是/>的祖先，则依存句法信息/>为1，/>指代是否具有父子依存句法关系；或者/>是/>的祖先，则依存句法信息/>设置为1；

然后，如果专业要素和/>具有相同的父亲：

即它们是兄弟，则依存句法信息设置为1；

最后，不满足以上两种情况时，则为0：

将和/>拼接得到依存句法特征/>：

（c）计算专业要素之间的语义相似度特征，以衡量两个专业要素之间的关联程度：

使用预训练语言模型BERT对考生文本进行编码，得到向量序列/>，其中专业要素/>编码后为向量/>，专业要素/>对应向量/>；利用向量空间中两个向量/>和/>夹角的余弦值计算语义相似度/>：

。

5.根据权利要求1所述的一种面向专业文本的无监督知识图构建方法，其特征在于，所述一种面向专业文本的无监督知识图构建方法，还包括S3：对考生文本抽取结构化知识即知识图/>。

6.根据权利要求2所述的一种面向专业文本的无监督知识图构建方法，其特征在于，所述S11中，分词处理的方式是基于专业术语表，使用分词工具Jieba进行的。

7.一种面向专业文本的无监督知识图构建方法的装置，其特征在于，包括处理器、存储装置以及存储在存储装置上并在所述处理器上执行的计算机程序；

所述计算机程序被执行时完成根据权利要求1-6任意一项所述的面向专业文本的无监督知识图构建方法。