CN110765781A

CN110765781A - 一种领域术语语义知识库人机协同构建方法

Info

Publication number: CN110765781A
Application number: CN201911269522.0A
Authority: CN
Inventors: 王裴岩; 张桂平; 蔡东风
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-02-07
Anticipated expiration: 2039-12-11
Also published as: CN110765781B

Abstract

本发明公开一种领域术语语义知识库人机协同构建方法，包括以下步骤：基于HowNet的语义理论体系，并根据术语的特点将协同构建包括四个关键过程，分别为术语内部依存结构分析、术语内部词语义项辅助选择、术语内部动态角色关系辅助判断以及术语DEF生成，其中，术语内部动态角色关系辅助判断方法，提出三种判断方法，分别为最大熵分类器与基于相似度方法相结合、基于首义原预选择的KNN分类方法、基于KNN的主动学习方法。本发明从术语语义层次，按照自底向上的思想构建领域术语语义知识库，从语义和统计的层面，判断术语内部词语间的关系类型；在训练语料不十分充分的情况下模型依然能够取得不错的效果。

Description

一种领域术语语义知识库人机协同构建方法

技术领域

本发明涉及一种语义知识库，具体为一种领域术语语义知识库人机协同构建方法。

背景技术

语义知识库是一种重要的基础性语言资源，可以为自然语言处理任务提供丰富的语义知识，常被广泛应用于词义消歧、机器翻译、信息检索以及自动问答等任务。目前，国内外研究者已经构建了许多大规模语义知识库，国外被广泛应用的语义知识库主要有WordNet、FrameNet、MindNet、OpenCYC等。国内较为成熟的语义知识库有HowNet(知网)、CCD(the Chinese Concept Dictionary,中文概念辞书)、CFN(Chinese FrameNet)、《现代汉语述语动词机器词典》等。这些语义知识库大多都面向通用领域但在特定领域下无法满足自然语言处理任务对语义知识的需求。垂直领域下的语义知识库可以填补通用型知识库的不足。

现有语义知识库皆为人工构建。采用人工构建方法进行领域知识库的构建，明显的不足之处就是效率较低。专业领域的术语种类繁多，专业性也较强，而自然语言处理工作需要较为准确的解释，这就需要调用大量的人力资源来进行领域知识库的构建。然而面对快速发展的信息化社会，效率的高低显得尤为重要，手工构建方法构建的小规模术语语义知识库很难满足大数据时代自然语言处理领域以及其他领域对专业知识的大量需求，无法辅助完成大规模的语义资源处理工作。而完全自动地生成本体的技术还不成熟，难度很大，因为领域内的大量概念及概念之间的关系具有复杂性，若完全自动化则无法保证领域概念描述生成的准确性。因此，如何利用机器的自动处理能力向用户推荐概念的形式化语义描述，然后由用户确定和编辑就变得十分有意义。因此，领域语义知识库辅助构建的技术在理论和实践中将会显示出巨大的意义和价值。而目前，能够满足上述要求的领域术语语义知识库人机协同构建方法尚未见报道。

发明内容

针对现有技术中人工构建方法效率低、完全自动化方法无法保障准确性的问题，本发明要解决的问题是提供一种可保证领域概念描述生成的准确性的领域术语语义知识库人机协同构建方法。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种领域术语语义知识库人机协同构建方法，包括以下步骤：

基于HowNet的语义理论体系，并根据术语的特点将协同构建包括四个关键过程，分别为术语内部依存结构分析、术语内部词语义项辅助选择、术语内部动态角色关系辅助判断以及术语DEF生成，其中，术语内部动态角色关系辅助判断方法，提出三种判断方法，分别为最大熵分类器与基于相似度方法相结合、基于首义原预选择的KNN分类方法、基于KNN的主动学习方法。

所述术语内部依存结构分析为：

借鉴术语的依存分析模型，利用模型选择策略为结构化风险最小的SVM；

选取术语基本特征、术语内部任一词对之间的点互信息以及术语内部词语的HowNet义项的第一义原，根据词对的依存强度输出依存强度值，若为正值说明预判断的词对存在依存关系，当输出值越大则说明词对的依存强度越大；若输出值为负值说明词对不能构成依存关系，当值越小则说明词对越不可能存在依存关系；

所述术语基本特征包括术语内部词、词性、词对之间的距离以及术语内部上下文窗口为1的词；点互信息度量的是变量间相互依赖的程度，在依存分析模型中度量了术语内部词间的依赖度。

所述术语内部词语义项辅助选择包括搭配词、搭配词集、搭配词典以及基于搭配词的词义消歧，其中：

搭配词，与多义词同在一个关联单位的词语，这些词语与多义词在语义层面上具有依存关系；

搭配词集，由多义词的搭配词构成的集合，多义词在领域语义空间中所出现的每个义项对应一个词语集合称为该多义词的搭配子集，多义词的搭配子集构成了搭配词集；

搭配词典，由语料库中所有多义词、搭配词集以及多义词各个义项构成的集合；

基于搭配词的词义消歧，根据多义词的搭配词所属搭配子集选取该多义词的义项。

基于搭配词的词义消歧，包括以下方法：

从已有的术语语义知识库中分析并抽取术语内部词语的搭配词典；

判断在搭配词典中多义词的搭配词收录于哪个搭配子集里，搭配子集所对应的义项即为该多义词在当前术语中表示的义项；

若当前搭配词不在当前多义词的搭配词集里，则将搭配词与多义词的搭配词集的每个词语进行相似度计算，取与搭配词最相似的词语所属搭配子集的对应义项作为该多义词义项；

将基于搭配词的词义消歧方法融入到术语内部词义辅助选择的任务中。

最大熵分类器与基于相似度方法相结合包括：

最大熵分类器利用使概率模型的条件熵趋于最大值的统计信息，为待判断关系类型的关联单位的可能动态角色关系打分；

基于相似度方法利用词语的语义信息，通过度量待判断关系类型的关联单位与在训练集中关联单位之间的相似度，为动态角色打分；

二者分别从统计和语义两个不同层面进行动态角色判断，从两者生成的动态角色排序表中按照预先设定的推荐优先级顺序依次向答案集添加动态角色，以供人工选择。

基于首义原预选择的KNN分类方法是使用术语内部两词语DEF项中的首义原对训练集进行预选择，再对动态角色关系做进一步的标注，具体为：

关联单位(w₁,w₂)对应的义原类别组可表示为：(Class₁,Class₂)，其中，Class₁、Class₂分别表示词语w₁和w₂已选DEF项的首义原所属的义原类别；

动态角色degree、scope分别用于描述属性值的程度、范围；动态角色agent表示行动的事件类型中“变关系”，“变状态”，“变属性”和“使之动”四类事件中的充当“变”这一功能的实体；

在样本预选择过程中，先利用HowNet的义原《分类体系Taxonomy》，为关联单位中术语内部词语找到其DEF项中首义原所属的义原类别，从而获得标注单位对应的义原类别组合，然后在已有的样本数据中选择出与其具有相同义原类别组合的数据，作为基于KNN分类算法的动态角色标注方法的训练样本数据；

对动态角色关系做进一步的标注，是将KNN分类算法中最近邻样本数据的获取转化为训练集中三元组排序表的生成。

生成三元组排序表包括三种策略，分别为基于词语DEF相似度的排序表生成、基于词向量相似度的排序表生成以及三元组排序表合并，利用DEF及词向量两种方法蕴涵语义信息的差异性，提出三元组排序表合并算法，以最大化的发挥出基于不同词语语义表示的相似度计算的优势，其中：基于词向量相似度的排序表生成为：

通过基于词向量的相似度计算方法得到Sim_w(w'₁₁,w₁₁)，从而获得训练集的三元组排序表Score_E＝{e₁,e₂……e_m}(m≤n)。其中，Sim_w(w'₁₁,w₁₁)计算式表示为

式中，X₁＝{x₁,x₂……x_n},Y₁＝{y₁,y₂……y_n}分别为词语w'₁₁、w₁₁的词向量表示。

三元组排序表合并通过以下算法实现：

已知基于词语DEF的相似度计算生成的三元组排序表Score_D＝{d₁,d₂,…,d_m}和基于词向量的相似度计算生成的三元组排序表Score_E＝{e₁,e₂,…,e_m}，首先将表Score_D中的元素d_i和表Score_E中的元素e_i依次按照各自所在表中顺序各取前n个，然后根据动态角色数量的大小将该2n个三元组按从高到低的顺序进行排序，从而得到新的三元组排序表Score_C＝{c₁,c₂,…,c_2n}。

所述基于KNN的主动学习方法为：

利用KNN分类算法的标注结果，在术语内部动态角色标注中加入了主动学习算法，选取有潜在价值的样本进行标注，包括学习引擎的实现和采样引擎的实现，其中学习引擎的实现是通过对术语内部词语DEF项的分析对训练集进行预选择，降低动态角色关系类型选择范围，然后利用DEF及词向量两种方法所蕴含语义信息的差异性，提出训练单位排序表合并算法，以提高动态角色排序准确性；对于给定的标注单位X，其标注结果为Y的条件概率P(Y|X)计算公式如(3)所示，其中K值表示KNN分类算法中选定的K值，该结果的范围为[0,1]；

采样引擎的实现是采用不确定性度量采样策略，选取学习系统最不确定的样本数据做为帮助学习系统下一次的学习“进步”最大的数据，选取不确定性度量采样策略中的基于熵采样、基于边缘采样，并于随机采样算法做对比。

本发明具有以下有益效果及优点：

1.本发明基于HowNet的语义理论体系，全面阐述了一种领域术语语义知识库人机协同构建方法，从术语的语义层次，按照自底向上的思想构建领域术语语义知识库。并且将术语内部的依存结构信息，融入到知识库构建中；基于术语依存结构，提出了基于搭配词的词义消歧方法和术语DEF生成方法，同时提出了基于最大熵分类器与关联单位相似度相结合、基于首义原预选择的KNN分类方法、基于KNN的主动学习方法的动态角色关系判断方法，从语义和统计的层面，判断术语内部词语间的关系类型；最后利用术语间相似度的验证方法，通过两相似度序列的皮尔逊相关系数以及人工标注结果与根据术语DEF计算结果的对比，验证了本发明方法所构建术语DEF的有效性。

2.本发明采用对术语的依存分析模型，利用模型选择策略为结构化风险最小的SVM，在训练语料不十分充分的情况下模型依然能够取得不错的效果。

附图说明

图1为本发明方法中术语DEF生成示意图；

图2为本发明方法中领域术语语义知识库构建框架图；

图3为本发明方法中领域术语“空气循环冷却系统”DEF的结构分析图；

图4为本发明方法中人工标注结果与根据术语DEF计算结果趋势图。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明方法从术语的语义层次，按照自底向上的思想构建领域术语语义知识库，并且将术语内部的依存结构信息，融入到领域术语语义知识库构建中；利用领域术语语义知识库，基于术语依存结构分析，提出基于搭配词的词义消歧方法和术语DEF生成方法、基于最大熵分类器与关联单位相似度相结合、基于首义原预选择的KNN分类方法以及基于KNN的主动学习方法的动态角色关系判断方法，从语义和统计的层面，判断术语内部词语间的关系类型。

一、术语内部依存结构分析

本发明借鉴了术语的依存分析模型。该依存分析模型利用了模型选择策略为结构化风险最小的SVM，在训练语料不十分充分的情况下模型依然能够取得不错的效果。

在特征选择上，选取了术语基本特征、术语内部任一词对之间的点互信息以及术语内部词语的HowNet义项的第一义原。模型根据词对的依存强度输出依存强度值，若为正值说明预判断的词对存在依存关系，当输出值越大则说明词对的依存强度越大；若输出值为负值说明词对不能构成依存关系，当值越小则说明词对越不可能存在依存关系。其中术语基本特征包括术语内部词、词性、词对之间的距离以及术语内部上下文窗口为1的词。点互信息度量的是变量间相互依赖的程度，在该模型中度量了术语内部词间的依赖度。术语内部词在HowNet中的第一义原作为特征的加入，有效减缓了数据稀疏的问题。由于一条术语不仅是一个由词语组成的序列，更是一个由语义依存关系连接而成的树。因此对术语进行依存结构分析可得到术语内部所有的关联单位。

SVM特征选择

二、术语内部词语义项辅助选择

术语内部词语义项辅助选择包括搭配词、搭配词集、搭配词典以及基于搭配词的词义消歧，其中：

(1)搭配词

所谓搭配词，是指与多义词同在一个关联单位的词语，这些词语与多义词在语义层面上具有依存关系。在领域语义空间中多义词与其搭配词共现，对应多义词确定的某一义项。

(2)搭配词集

顾名思义，搭配词集是由多义词的搭配词构成的集合。多义词在领域语义空间中所出现的每个义项对应一个词语集合，即该多义词的搭配子集，也意味着当前多义词的搭配子集对应多义词的某一义项，多义词的搭配子集构成了搭配词集。

(3)搭配词典

搭配词典是由语料库中所有多义词、搭配词集以及多义词各个义项构成的集合。

(4)基于搭配词的词义消歧

基于搭配词的词义消歧是根据多义词的搭配词所属搭配子集选取该多义词的义项。术语内部的多义词在特定的语义约束下其表示的语义相对稳定，符合术语单义性的特点。本实施例从已有的航空术语语义知识库中分析并抽取出航空术语内部词语的搭配词典。由于搭配词与多义词的共现对应多义词确定的某一义项，只需判断在搭配词典中多义词的搭配词收录于哪个搭配子集里，搭配子集所对应的义项即为该多义词在当前术语中表示的义项。若当前搭配词不在当前多义词的搭配词集里，则将搭配词与多义词的搭配词集的每个词语进行相似度计算，取与搭配词最相似的词语所属搭配子集的对应义项作为该多义词义项。

综上所述，本发明将基于搭配词的词义消歧方法融入到术语内部词义辅助选择的任务中。术语内部词语义项辅助选择方法的具体算法过程如下所示：

输入：训练样本集D_train；待确定义项的词语w及其搭配词c；从HowNet中抽取的词典集Dict_HowNet，其中包含HowNet中的词语及其义项；从HowNet中抽取的多义词词典Dict_ambig，包含HowNet中的多义词及其义项。

输出：词语w的义项S

三、术语内部动态角色关系辅助判断

HowNet利用动态角色/特征描述复杂概念所具有的各种属性，动态角色/特征在一定程度上反映了概念间的语义关系。

因此本发明基于HowNet将动态角色/特征应用到术语概念的描述中，使得术语内部的简单概念通过动态角色有机关联起来，而构成表示术语本身语义知识的复杂概念。

其中对于术语内部的词语w₁和词语w₂之间存在语义关系，可以表示为某种动态角色/特征，将其表示成三元组的形式：

(w₁,EventRole/EventFeature,w₂)

其中关联单位是Relation(w₁,w₂)，关系类型为EventRole/EventFeature，关联方向为w₁依存于w₂。术语内部所有的三元组表示了术语内部词语结构。

1、最大熵分类器与基于相似度方法相结合

(1)基于最大熵分类器的动态角色判断

本发明方法将动态角色关系判断转化成一种对于关联单位的分类问题，并且将关联单位所对应的动态角色/特征作为分类的标签。

其中，最大熵分类器是基于最大熵模型为理论基础，其基本思想是将所有满足已知约束条件的概率模型中熵最大的模型视为最好的分类模型。最大熵分类器能够较容易地对多分类问题进行建模，并对各个类别输出一个相对客观的概率值。与此同时，最大熵的训练效率相对较高，相比于SVM，最大熵模型可以较容易地对多分类任务建模。其中最大熵分类器选择以上两过程获得的结果作为特征，如下表所示。

最大熵分类器所选用的特征

(2)基于相似度的动态角色判断

航空术语内部同一个关联单位的关系类型基本固定不变。因此，基于相似度的动态角色判断方法是将待判断关系类型的关联单位与训练集中每一个三元组的关联单位进行相似度计算，并将此相似度值作为三元组的分值，从而在训练集中出现的每个动态角色都对应一个分值列表，如下所示：

其中“EventRole₁、EventRole₂、...、EventRole_n”为表示三元组关系类型的动态角色；“[score₁₁，score₁₂…]”为动态角色“EventRole₁”的分值列表，“score₁₁，score₁₂”是关系类型为“EventRole₁”的三元组的分值。

本发明方法取动态角色分值列表的最大值作为候选动态角色的分值。根据分值从大到小对动态角色从高到低排序，从而得到动态角色排序表。按照预先设定的优先级从排序表中选取未在答案集中排序最高的动态角色。其中待判断关系类型的关联单位U₁(w₁₁,w₁₂)与训练集中三元组的关联单位U₂(w₂₁,w₂₂)间的相似度计算如公式(1)所示，Sim_w(w₁,w₂)为现有技术，此处不再赘述。

Sim_u(U₁,U₂)＝Sim_w(w₁₁,w₂₁)*Sim_w(w₁₂,w₂₂) (1)

(3)最大熵分类器与基于相似度方法相结合

最大熵分类器利用使概率模型的条件熵趋于最大值的统计信息，为待判断关系类型的关联单位的可能动态角色关系打分；而基于相似度方法利用词语的语义信息，通过度量待判断关系类型的关联单位与在训练集中关联单位之间的相似度，为动态角色打分。二者分别从统计和语义两个不同层面进行动态角色判断，存在一定的互补。

因此，本发明采用最大熵分类器与基于相似度相结合的动态角色判断方法，从两者生成的动态角色排序表中按照预先设定的推荐优先级顺序依次向答案集添加动态角色，以供人工选择。并在实验中证实了本发明方法的可行性。

2、基于首义原预选择的KNN分类方法

(1)基于首义原的KNN样本预选择

HowNet先把世界知识本体做个定义，然后在定义里再做具体的区分，采取自上而下的方法，并采用以义原为基的策略。基于此思想，本发明首先使用术语内部两词语DEF项中的首义原对训练集进行预选择；其次，再对动态角色关系做进一步的标注。

关联单位(w₁,w₂)对应的义原类别组合可表示为：(Class₁,Class₂)。其中，Class₁、Class₂分别表示词语w₁和w₂已选DEF项的首义原所属的义原类别，HowNet将义原分为属性类、属性值类、事件类和实体类四类。因此，本发明根据关联单位对应的义原类别组合可将已有的样本数据分为16类。

HowNet中每个动态角色都有其特定的描述对象，使其接纳关联单位的条件比较苛刻，从而造成有些动态角色关系类型只出现于固定的几个义原类别组合对应的三元组中。比如，动态角色host用于标注属性的宿主，一般多出现于义原类别组合为(实体类,属性类)所对应的三元组中；动态角色degree、scope分别用于描述属性值的程度、范围；动态角色agent表示行动的事件类型中“变关系”，“变状态”，“变属性”和“使之动”四类事件中的充当“变”这一功能的实体，一般情况只会在义原类别组合为(实体类,事件类)所对应的三元组中出现。

在样本预选择过程中，首先利用HowNet的义原《分类体系Taxonomy》，为关联单位中术语内部词语找到其DEF项中首义原所属的义原类别，从而获得标注单位对应的义原类别组合，然后在已有的样本数据中选择出与其具有相同义原类别组合的数据，作为下一过程即基于KNN分类算法的动态角色标注方法的训练样本数据。

(2)基于KNN分类算法的动态角色标注

由于目前国内外许多大规模的知识库大多都面向通用领域，在特定领域研究较少，造成领域术语语义知识库的可获得标注资源匮乏，加之标注成本代价较高，限制了当前需要更多数据支撑的深度学习等主流算法的使用。KNN算法是一种基于实例学习的分类算法，适合多分类任务，不需要构建分类模型，对新增类别有较好的适应能力。

本发明将KNN分类算法中最近邻样本数据的获取转化为训练集中三元组排序表的生成。KNN分类算法是对最近邻样本采用多数表决投票法来决定待分类样本的类别，因此，最近邻样本数据选取的好坏即三元组排序表生成策略制定的优劣对分类效果有着重要影响。

下文将介绍生成三元组排序表的三种策略，分别为基于词语DEF相似度的排序表生成、基于词向量相似度的排序表生成、三元组排序表合并。其中，DEF是对词语概念定义的描述，包含有丰富的义原信息，但脱离了具体上下文语境；而词向量表示与词语DEF所隐含的语义信息不同，它更能反映上下文信息、主题信息和词的功能等，蕴涵了词语在大规模数据集中的语义信息，词语之间的语义和句法关联关系在空间中也得到很好的体现。本发明利用DEF及词向量两种方法蕴涵语义信息的差异性，提出了一种三元组排序表合并算法，该算法最大化的发挥出基于不同词语语义表示的相似度计算的优势，实现了两者排序的互补，提高了正确动态角色关系类型在候选答案中的排序准确性。

1)基于词语DEF相似度的排序表生成

本发明方法采用基于词语DEF的相似度算法计算Sim_w(w'₁₁,w₁₁)与Sim_w(w'₁₂,w₁₂)，从而获得训练集的三元组排序表Score_D＝{d₁,d₂,…,d_n}。其计算公式为现有技术，在此不再赘述。

该算法定义了HowNet义原间的相似度计算公式。通过利用HowNet中DEF项由不同义原构成，加权组合各个部分义原相似度实现了登录词的相似度计算。通过对未登录词进行概念切分和语义自动生成，解决了未登录词无法参与语义计算的难题，实现了任意词语在语义层面上的相似度计算。

2)基于词向量相似度的排序表生成

本小节通过基于词向量的相似度计算方法得到Sim_w(w'₁₁,w₁₁)，从而获得训练集的三元组排序表Score_E＝{e₁,e₂……e_m}(m≤n)(可能存在训练集中的词语未包含于词向量文件中即为未登录词的情况)。其中，Sim_w(w'₁₁,w₁₁)计算式表示为

如果计算过程中待标注动态角色的关联单位U(w'₁₁,w'₁₂)中词语w'₁₁或词语w'₁₂属于未登录词，则Sim_w(w'₁₁,w₁₁)采用基于词语DEF相似度的排序表生成方法获取。

1)三元组排序表合并算法

本节提出了一种三元组排序表合并算法，已知基于词语DEF的相似度计算生成的三元组排序表Score_D＝{d₁,d₂,…,d_m}和基于词向量的相似度计算生成的三元组排序表Score_E＝{e₁,e₂,…,e_m}，首先将表Score_D中的元素d_i和表Score_E中的元素e_i依次按照各自所在表中顺序各取前n个，然后根据动态角色数量的大小将该2n个三元组按从高到低的顺序进行排序，从而得到新的三元组排序表Score_C＝{c₁,c₂,…,c_2n}。在该三元组排序表合并算法中，未采用对两种相似度值规范化线性组合后再排序，原因在于该方法会拉低关联单位的相似性。

下文将举例对该算法进行说明与分析，比如，待标注动态角色的关联单位为(信号,选择)，该关联单位希望从训练集中学习到的动态角色为“content”，动态角色“content”表示“信号”是“选择”的内容，其三元组形式表示为：((信号,选择),content)。由三种策略得到的三元组排序表部分结果如以下两表所示，三元组排序表合并算法中n取值为5。

由以下两表可知，当KNN分类算法中的K取值为9时，基于三元组排序表Score_D、Score_E、Score_C生成的候选动态角色集分别为Result_D{RelateTo、content、means}、Result_E{RelateTo、content、scope}、Result_C{content、RelateTo、time}，其中候选动态角色集中包含Top1～3对应排序位置上的动态角色，并且正确动态角色“content”在候选动态角色集Result_C中的排序位置排列在第1位，而在候选答案集Result_D、Result_E中的排序位置都只排列在第2位。由此可知，基于本发明提出的三元组合并算法生成最近邻的KNN算法，提高了正确动态角色在候选答案集中的排序准确性。

三元组排序表Score_D与Score_E

三元组排序表Score_C

3、基于KNN的主动学习方法

领域术语语义知识库的可获得标注资源匮乏，使用较少的标注数据对分类器进行训练容易造成过拟合，泛化能力较低等问题，然而大规模、高质量的领域术语知识库标注资源需要巨大的人力、物力以及时间成本才能得到。因此，如何选取有潜在价值的样本进行标注，使得在较少训练样本的情况下获得较高的动态角色标注准确率是有监督机器学习方法要解决的难题之一。本发明针对这一问题，利用KNN分类算法的标注结果，在术语内部动态角色标注中加入了主动学习算法。

本发明在术语内部动态角色标注中加入主动学习算法，选取有潜在价值的样本进行标注，减少人工标注量，提高领域术语语义知识库构建效率。其中，主动学习算法伪代码如下图3，学习引擎和采样引擎的实现详见下文。

输入：标注集合L(L≠Φ)，未标注集合U(U≠Φ)，学习引擎K，采样引擎S，迭代次数N(N≠0)

(1)学习引擎的实现

本发明的主动学习算法的学习引擎的实现是依靠本发明第三章所提出的算法即基于KNN的术语内部动态角色标注方法，该方法继承了本发明第三章所提出的一种基于KNN的术语内部动态角色标注方法的所有优点，首先通过对术语内部词语DEF项的分析对训练集进行预选择，可以有效地降低动态角色关系类型选择范围，然后利用DEF及词向量两种方法所蕴含语义信息的差异性，提出的一种训练单位排序表合并算法，可以有效地提高动态角色排序准确性。对于给定的标注单位X，其标注结果为Y的条件概率P(Y|X)计算公式如(3)所示，其中K值表示KNN分类算法中选定的K值，该结果的范围为[0,1]。

(2)采样引擎的实现

本发明采用研究最为充分、应用最为广泛的不确定性度量采样策略，它选取那些学习系统最不确定的样本数据，也就是最不确定的样本是帮助学习系统下一次的学习“进步”最大的数据。本发明选取不确定性度量采样策略中的基于熵采样、基于边缘采样，并于随机采样算法做对比，以下介绍这几种采样策略。

1)随机采样(Random Sampling,RS)

随机采样策略不考虑其所属类别的后验概率，每次随机的从未标注样本中选取一定数量的样例进行人工准确的标注，然后将其加入标记样本集合中。该方法经常用于与其他主动学习方法做对比。

2)基于熵的采样(Entropy Sampling,ES)

基于熵的采样是使用信息熵度量未标注样本数据包含的不确定信息大小，不确定信息越大则该样本最能促进学习系统“进步”。而熵则是在学习系统的学习结果出来之前对所有可能取值的信息量的平均值。当该样例所有可能取值的信息量的平均值最小时熵值最大，则该样本的不确定信息越大，计算公式如(4)所示。由于信息熵具有多值偏向问题，即基于熵的采样倾向于选取类别划分较多的样本，在基于分类器迭代训练过程中，会优先选取那些预测类别数较多的样本而使得那些较少预测类别数的样本区域迟迟不能被选取，相同类别的样本越来越多被选取，这就造成更新之后的训练样本集合中的类别分布不均匀，从而使得分类器的泛化性能越来越差。故针对这一问题，提出了n-ES算法，计算公式如(5)所示。

3)基于边缘的采样(Margin Sampling,MS)

在边缘采样中，算法的采样策略是选取那些最靠近分类分界线的样本点，学习系统对越靠近分类分界线的样本数据学习的困难越大，该算法主要应用于二分类问题。基于最优次优标号类属概率差(best versus second-best,BvSB)准则，是将边缘采样算法扩展在多分类问题中，计算公式如(6)所示，其中，P(ybest|x)和P(ysecond-best|x)为学习系统得到的动态角色类别排序最靠前的前两个动态角色的后验概率，当两者相减所得到的值越小时则认为学习系统越无法区分该样例的具体动态角色种类，则认为该样例的不确定性越大，反之，学习系统越能区分出该样例的具体动态角色种类时，则认为该样例的不确定性越小。由于BvSB准则只对样例所属概率最高的前两个动态角色类别进行计算分析，其余类别的信息无法给学习系统的学习过程带来任何影响。

BvSB准则虽然对学习系统学习过程中学习最没有把握的样本度量较为准确，但是只考虑样本数据的不确定信息还不能帮助采样引擎找到最好的样本数据。样本的不确定性信息对分类分界线的调整有着重要作用，而样本的代表性能减少数据集中信息的冗余以及可以去除噪声数据。目前，样本的代表性度量通常通过计算未标注样本与已标注样本间距离聚类中心的欧式距离、余弦相似度获得。

4)BvSB-SIM算法

在样本的不确定性的基础上融合了基于DEF相似度计算度量的样本代表性，对BvSB准则做了改进，计算公式如(7)所示。其中，利用基于DEF相似度算法计算未标注样本与已标注样本的相似度值，本发明主动学习算法的每一次迭代训练只选取一个最有价值的样本予以标注，因此只将相似度最小值simbest(xi,xj)作为样本代表性度量。当α＝1时，BvSB-SIM算法退化成BvSB算法，只评估样本的不确定性，当α＝0时，BvSB-SIM算法退化成基于相似度采样算法，只评估样本的代表性。其中，xi表示未标注样本，xj表示已标注样本，Uc表示已标注样本集合。

四、术语DEF生成

本发明基于术语内部依存结构提出一种术语DEF生成算法，按照术语内部依存结构，将术语内部所有关系三元组映射成术语DEF。例如，术语“w₁w₂w₃w₄w₅”生成DEF过程如下图1所示，通过前3个过程，得到了所有完整的三元组，包括：(w₁,EventRole₁₃,w₃),(w₂,EventRole₂₃,w₃),(w₃,EventRole₃₅,w₅),(w₄,EventRole₄₅,w₅)；以及术语内部词语DEF，表示为{w₁：DEF＝{S₁}，w₂：DEF＝{S₂}，w₃：DEF＝{S₃}，w₄：DEF＝{S₄}，w₅：DEF＝{S₅}}。

本方法将术语内部依存结构表示成依存树的形式，如下所示：{w₅:[w₃,w₄],w₃:[w₁,w₂],w₄:[],w₂:[],w₁:[]}。其中当前术语的核心词是w₅，位于依存树叶子节点的词语为w₄、w₂以及w₁。

图1表示了术语依存树转换成术语DEF的映射过程，按照大箭头的指示依次变换。示意图中的起始框图表示了术语“w₁w₂w₃w₄w₅”依存树结构。其中依存树节点之间的实线边表示依存关系，由被依存对象指向依存对象；边上符号表示节点之间的动态角色关系，每个节点存储当前词语的DEF。可以看出，随着依存树的叶子节点向其父节点嵌入语义信息的过程演进，依存树的结构以及树节点信息也随之变化。其中节点之间的虚线表示将依存对象(子节点)的DEF以及两者之间的动态角色按照KDML的规定嵌入到被依存对象(父节点)；叶子节点完成嵌入语义信息后，被减枝；依存树重复上一过程，每一次都是由当前依存树的叶子节点向其父节点嵌入语义信息，直至仅剩下根节点；当只剩下根节点时，术语依存树完成转换术语DEF的映射过程，输出根节点信息即可得到术语DEF。

术语DEF生成算法如下所述。

输入：术语内部所有完整的三元组以及每个词语DEF。

输出：术语DEF。

step1：将三元组列表解析成依存树。

step2：遍历依存树，找到当前依存树的叶子节点。

step3：判断当前叶子节点是否为依存树根节点。若为是，进入step5；否则进入step4。

step4：将该叶子节点的DEF及该叶子节点和父节点之间的动态角色，以KDML的规定嵌入到父节点的DEF中，删除当前叶子节点，进入step2。

step5：输出依存树根节点信息，即为术语DEF。

本实施例所构建的航空术语“空气循环冷却系统”DEF表示为：DEF＝{part|部件:{cool|制冷:means＝{circulate|循环:patient＝{gas|气}},instrument＝{～}}}

通过术语内部依存结构分析、术语内部词语义项辅助选择、术语内部动态角色关系辅助判断完成了术语“空气循环冷却系统”DEF的结构分析如图3，得到了如下3个三元组，(空气，patient，循环)、(循环，means，冷却)、(冷却，instrument，系统)，以及术语内部词语DEF。对于三元组“(空气，patient，循环)”可作如下解释：三元组的关联单位是“空气”和“循环”，它们的关系方向是“空气”依存于“循环”，其中的关系类型是“patient”。最后通过术语DEF生成算法可以生成该术语的DEF。

为了说明术语DEF的有效性，本发明进行了验证实验，其验证方法的基本思想是：计算机根据术语DEF对术语的区分度越接近于人对术语的区分度，则说明术语DEF越有效。计算机对术语的区分，一定程度上表现为术语间的语义距离，因此通过计算术语间的相似度得以实现。

因此，本发明将人工标注术语间的相似度与根据术语DEF计算术语间的相似度进行相关性分析，即在本发明方法构建的知识库中随机抽取100对术语。并运用概念相似度计算方法对此100对术语DEF进行相似度计算。另外，组织5个人对这100对术语人工判断它们的相似度，将术语间的相似程度分成6个等级，记为0到5；取这5个人标注结果的平均值，并将其映射到0到1之间；从而得到两组相似度序列，这两组相似度序列折线的整体趋势对比如下图2所示。另外，对两组序列进行皮尔逊相关系数计算。若皮尔逊相关系数等于零，则说明二者不相关；若皮尔逊相关系数越接近于1，则表明二者越趋近于正相关；若皮尔逊相关系数越接近于-1，则表明二者越趋近于负相关。

根据术语DEF计算得到的术语间相似度x与人工标注的术语间相似度y之间的皮尔逊相关系数r_xy的计算，见公式(8)所示。

通过实验得到的皮尔逊相关系数为0.8786，大于零接近1，表明根据术语DEF计算术语间的相似度与人工判断术语间的相似度是相关的。如图4所示，两条折线的整体趋势基本一致，可见两术语相似度计算结果存在一定的相关性；但图4所示根据术语DEF计算结果的折线普遍高于人工标注结果的折线以及表1中所示两方法得到相似度结果(相似度结果、人工标注结果)的绝对数值存在一定差异，这是由于两种方法的评价标准不同造成的。

然而从皮尔逊相关系数(0.8786)以及表1所示两方法的相似度皆减去平均值的结果(减去平均值的计算结果、减去平均值的人工标注结果)来看，两种方法对不同术语的区分基本一致，验证了本发明方法所构建术语DEF的有效性。

本实施例实验从手工构建好的航空术语语义知识库中抽取出500条航空术语DEF。人工将每条术语DEF分解成若干个训练单位以及术语内部词语DEF，去除重复的数据之后，本数据集最终共有1587个不同的训练单位。将包含1587个不同训练单位的语料分为三部分：(1)该语料的10％用于测试集；(2)该语料的10％用于开发集；(3)该语料的80％用于训练集，其中，主动学习算法中将该训练集再以比例为1：4分为初始标记训练语料、初始未标注语料两部分。

其中，数据集共出现了38种动态角色。词向量数据来源于腾讯AI实验室公开的中文词向量数据集，包含800多万中文词汇，其中每个词对应一个200维的向量，本实验从中抽取了294144条数据作为基于词向量的相似度计算的语料。本发明的实验均基于10-fold交叉验证下进行。主动学习算法每次迭代只选出一个最有价值的样本予以标注。其中KNN分类算法中，最近邻生成方法采用基于DEF相似度和基于词向量相似度的合并算法，K取值为9。

表1列出了K值取值为9，基于DEF、基于词向量、排序表合并算法生成最近邻的KNN分类算法在训练集基于首义原预选择与未预选择的对比实验结果，以及基于最大熵与基于相似度相结合方法在该数据集上的实验结果，显示了每种方法的1-Best、3-Best和7-Best(最有可能成为正确答案的1个、3个和7个候选动态角色)在测试集上的平均准确率以及7-Best的平均倒数排名MRR值。

通过分析下表的实验结果，可以得出以下研究结论：①通过对比训练集预选择与未预选择的实验结果可看出，基于首义原对训练集预选择后，评测指标均有大幅度提高，这说明利用首义原对训练集预选择后再使用KNN分类算法会具有更高的动态角色标注准确率。②通过对比基于DEF与基于词向量生成最近邻KNN算法的实验结果可看出，在本实验中基于DEF生成最近邻的方法优于基于词向量生成最近邻的方法，原因在于本发明的术语内部语义关系标注是以HowNet为基础。并且，基于DEF与基于词向量生成最近邻KNN算法两者实验结果间的差距在训练集预选择后变小，究其原因在于训练集预选择阶段也利用了DEF项信息。

表1对比实验结果

由下表可知，基于主动学习的术语动态角色标注在分类准确率为67.09％时需要标记的样本数最少只需要480个，相比不使用主动学习算法的术语内部动态角色标注需要的1264个样本，样本数减少了62.03％，可以有效减少人工标注的时间和成本，从而验证了主动学习算法在术语动态角色关系标注中的有效性。其中，BvSB-SIM算法不仅需要标注的样本数量最少，而且动态角色标注准确率最高。并且基于主动学习的不同采样算法提高了术语动态角色标注的分类准确率，原因在于已标注的训练数据可能含有部分质量较差的样本，这样反而会影响KNN分类算法的效果。

表2相同分类准确率时各算法需要标记的样本数

本发明基于HowNet的语义理论体系，全面阐述了一种领域术语语义知识库人机协同构建方法的方法，从术语的语义层次，按照自底向上的思想构建领域术语语义知识库。并且将术语内部的依存结构信息，融入到知识库构建中。基于术语依存结构，提出了基于搭配词的词义消歧方法和术语DEF生成方法。同时提出了基于最大熵分类器与关联单位相似度相结合、基于首义原预选择的KNN分类方法、基于KNN的主动学习方法的动态角色关系判断方法，从语义和统计的层面，判断术语内部词语间的关系类型。最后利用术语间相似度的验证方法，通过两相似度序列的皮尔逊相关系数以及人工标注结果与根据术语DEF计算结果的对比，验证了本文方法所构建术语DEF的有效性。

本文方法以构建领域术语语义知识库为导向，结合自身所具有的语料资源，初步完成了语义知识库闭环构建任务。为了保障知识库的准确性，本文方法采用人机协同的方式构建术语DEF。

Claims

1.一种领域术语语义知识库人机协同构建方法，其特征在于包括以下步骤：

2.根据权利要求1所述的领域术语语义知识库人机协同构建方法，其特征在于所述术语内部依存结构分析为：

3.根据权利要求1所述的领域术语语义知识库人机协同构建方法，其特征在于所述术语内部词语义项辅助选择包括搭配词、搭配词集、搭配词典以及基于搭配词的词义消歧，其中：

4.根据权利要求3所述的领域术语语义知识库人机协同构建方法，其特征在于基于搭配词的词义消歧，包括以下方法：

从已有的术语语义知识库中分析并抽取空术语内部词语的搭配词典；

5.根据权利要求1所述的领域术语语义知识库人机协同构建方法，其特征在于最大熵分类器与基于相似度方法相结合包括：

6.根据权利要求1所述的领域术语语义知识库人机协同构建方法，其特征在于基于首义原预选择的KNN分类方法是使用术语内部两词语DEF项中的首义原对训练集进行预选择，再对动态角色关系做进一步的标注，具体为：

7.根据权利要求6所述的领域术语语义知识库人机协同构建方法，其特征在于生成三元组排序表包括三种策略，分别为基于词语DEF相似度的排序表生成、基于词向量相似度的排序表生成以及三元组排序表合并，利用DEF及词向量两种方法蕴涵语义信息的差异性，提出三元组排序表合并算法，以最大化的发挥出基于不同词语语义表示的相似度计算的优势，其中：基于词向量相似度的排序表生成为：

8.根据权利要求7所述的领域术语语义知识库人机协同构建方法，其特征在于：三元组排序表合并通过以下算法实现：

9.根据权利要求1所述的领域术语语义知识库人机协同构建方法，其特征在于所述基于KNN的主动学习方法为：