CN108038106B

CN108038106B - 一种基于上下文语义的细粒度领域术语自学习方法

Info

Publication number: CN108038106B
Application number: CN201711404969.5A
Authority: CN
Inventors: 张顺; 林绍福; 陈建辉; 高江帆; 何小波
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2021-07-02
Anticipated expiration: 2037-12-22
Also published as: CN108038106A

Abstract

为了解决现有基于大训练样本的文本术语学习方法难以满足较小实例样本的细粒度领域术语学习需求的问题，本发明提出了一种基于上下文语义的细粒度领域术语自学习方法，通过融合上下文语义信息，从候选术语上下文信息的复现次数角度上全面表现候选术语在语料库中的统计特征和语言特征，借鉴领域相关性与领域一致性思想，运用对数似然比，计算候选术语的领域依存偏向值，最后综合每个候选术语的隶属激活值自主发现领域新术语。本发明所述的基于上下文语义的细粒度领域术语自学习技术可实现术语集的自学习，促进特定领域本体构建，其不仅可以应用在诸如认知功能等领域的术语发现和抽取，还能够在概念抽取方法中作为候选概念产生工具使用。

Description

一种基于上下文语义的细粒度领域术语自学习方法

技术领域

本发明涉及大数据驱动领域术语自学习方法，尤其涉及基于博客、文献、网页等文本数据资源的领域术语集的自学习，实现领域术语库的自扩充。

背景技术

大数据知识工程是人工智能研究的重要内容，而博客、文献、网页等文本数据是其中最重要的知识源。传统基于文本的术语学习技术主要采用条件随机场等基于大训练样本的机器学习方法，针对各领域内核心的、实例规模大的术语，例如生物信息学领域的基因名、蛋白名，社交媒体领域的地址、职业等术语，进行识别和抽取。然而，随着知识驱动的人工智能应用的不断深入，所需的知识日趋精细化、专业化，针对较小实例样本的细粒度领域术语识别和抽取成为基于文本的术语学习的重要技术发展趋势。现在基于大训练样本的文本术语学习技术难以满足需求。

发明内容

为了解决现有基于大训练样本的文本术语学习技术难以满足较小实例样本的细粒度领域术语学习需求的问题，本发明提出了一种基于上下文语义的细粒度领域术语自学习方法，通过融合上下文语义信息，从候选术语上下文信息的复现次数角度上全面表现候选术语在语料库中的统计特征和语言特征，借鉴领域相关性与领域一致性思想，运用对数似然比，计算候选术语的领域依存偏向值，最后综合每个候选术语的隶属激活值自主发现领域新术语。本发明所述的基于上下文语义的细粒度领域术语自学习技术可实现术语集的自学习，促进特定领域本体构建，其不仅可以应用在诸如认知功能等领域的术语发现和抽取，还能够在概念抽取方法中作为候选概念产生工具使用。

为解决所述技术问题，本发明采用的技术方案具体步骤如下：

步骤1：构建初始术语集和目标语料库

基于领域已存在的术语集进行精简或者手动自主构建，得到一个20-30个词组成的术语集合的初始术语集，利用正负最大匹配抽取初始术语集在35个词大小窗口下的上下文集合构建形成目标语料库；

步骤2：构建对照语料库

对照数据集应分为通用对照语料子集和领域对照语料子集两部分；前者由目标领域以外的多领域术语及其上下文组成；后者由目标领域内待学习术语以外的领域术语及其上下文组成；

步骤3：基于上下文平衡二叉树的知识源预处理

对于待抽取知识源，运用自然语言处理技术识别名词短语作为候选术语集，并抽取其在35个词大小窗口下的上下文集合，构建形成候选术语上下文平衡二叉树，其中，候选术语上下文平衡二叉树的节点编号和存储值分别存储候选术语及其对应上下文集合，作为进一步筛选和处理的基础；

步骤4：基于上下文-语料库相关性假设的术语领域区分度计算

首先构建术语上下文与语料库的相关性假设，在此基础上，综合应用对数似然比和基于上下文向量的句子相似度量，计算术语领域区分度Dtn(t)；

步骤5：计算候选术语领域依存偏向值

构建“中心词-修饰词”词形骨架模型，分别计算候选术语“中心词”上下文在目标语料库和对照语料库的相似度；首先定义候选术语领域依存偏向自变量DRG＝W₂/W₁，其中W₁>0,W₂≥0,W₁和W₂分别为候选术语上下文在目标语料库和对照语料库中出现的频次，然后利用领域依存偏向函数Dte(t)＝e^-n*DRG*ln2(1)，其中e是自然对数，n是调节因子，n的取值范围为10000-12000，然后计算候选术语的领域依存偏向值，进而构建候选术语依存调节因子二叉树，其中，候选术语依存调节因子二叉树的节点编号和存储值分别存储候选术语及其领域依存偏向值；

步骤6：计算候选术语隶属激活值

结合步骤4和步骤5的结果，整合候选术语上下文平衡二叉树和候选术语依存调节因子二叉树，构建“区分-偏向-隶属”三层映射激活模型，计算候选术语隶属激活值，即Dtm(t)＝Dtn(t)*Dte(t)，其中，Dtn(t)表示术语领域区分度，通过步骤4的结果得到，Dte(t)表示候选术语领域依存偏向值，通过步骤5的结果得到；构建候选术语隶属激活值二叉树，其中，候选术语隶属激活值二叉树的节点编号和存储值分别存储候选术语及其隶属激活值；

步骤7：细粒度领域术语自学习

基于候选术语隶属激活值二叉树，设置激活值临界值，画出不同激活值临界值对应的准确率曲线，取阈值对应最高准确率的值为激活值临界值，满足临界值的术语视为发现的领域新术语，添加进初始术语集，并返回执行步骤1。

进一步的，所述步骤4中基于上下文-语料库相关性假设的术语领域区分度计算具体方法过程为：

步骤1)：定义上下文-语料库相关性假设

假设1：候选术语的上下文在目标语料库和对照语料库中出现的频次相同；

假设2：候选术语的上下文在目标语料库和对照语料库中出现的频次不同；

步骤2)：构造目标语料向量集

首先，基于目标语料库，训练一个基于上下文的“传入-隐藏-反馈”三层神经网络模型；其次，遍历目标语料库中的所有上下文，将每一上下文逐词输入神经网络模型，获取各词对应的多维词向量，并利用所有词向量的各维度平均值，构造上下文向量；最后，汇总目标语料库中所有上下文的上下文向量，构造目标语料向量集；

步骤3)：构造对照语料向量集

首先，基于对照语料库，训练一个基于上下文的“传入-隐藏-反馈”三层神经网络模型；其次，遍历对照语料库中的所有上下文，将每一上下文逐词输入神经网络模型，获取各词对应的多维词向量，并利用所有词向量的各维度平均值，构造上下文向量；最后，汇总对照语料库中所有上下文的上下文向量，构造对照语料向量集；

步骤4)：构造候选术语上下文向量

首先，基于候选术语，遍历候选术语上下文平衡二叉树提取对应上下文；然后将上下文逐一输入对照语料库的三层神经网络模型，获取各词对应的多维词向量；最后利用所有词向量的各维度平均值构造候选术语上下文向量；

步骤5)：融合对数似然估计和句子相似度计算的术语领域区分度计算

结合步骤1)的定义的两个假设L(H₁)和L(H₂)，利用二项式分布假设计算L(H₁)和L(H₂)的似然估计值，其中L(H₁)＝B(W₁；W₁+W₂；P)B(W₂；W₁+W₂；P)，L(H₂)＝B(W₁；W₁+W₂；P₁)B(W₂；W₁+W₂；P₂)，其中W₁和W₂分别表示为候选术语上下文在目标语料库和对照语料库中出现的频次，P₁和P₂分别表示候选术语的上下文在目标语料库和对照语料库出现的概率；结合二项式分布假设B(W₂；W₁+W₂；P)，公式转化为

P为假设1中候选术语上下文在目标语料库中出现的概率，则相应的对数似然比以2为底T_tf的计算为

用于计算上下文-语料库相关性假设的可能性；然后通过利用

计算候选术语各上下文句子向量与目标语料向量集中各上下文句子向量的句子相似度，其中a表示候选术语各上下文句子向量，b表示目标语料向量集中各上下文句子向量；计算候选术语各上下文句子向量与目标语料向量集中各上下文句子向量的句子相似度，通过统计相似度频次，阈值超过50次获得W₁；计算候选术语各上下文句子向量与对照语料向量集中各上下文句子向量的句子相似度，通过统计相似度频次，阈值超过50次获得W₂。

附图说明

图1是本发明所述的基于上下文语义的细粒度领域术语自学习方法流程图。

具体实施方式

下面将结合附图和实施案例对本发明进行进一步的描述：

本发明所述的领域术语发现方法所用的源数据来源于PLOS ONE网站，通过搜过“fMRI”and“Cognitive Function”关键词随机爬取5000篇文章；

认知功能术语概念集由Cognitive atlas网站中803个认知功能术语构成；

本实施例的方法流程图如图1所示，具体包括以下步骤：

步骤一：构建初始术语集和原始目标语料库

初始术语集合通过筛选源数据中出现频率最高的前10个认知功能术语构成；

原始目标语料库由源数据中932段构成，其中每篇摘要都含有初始术语集合中的术语；

步骤二：构建原始对照语料库

原始对照语料库分别由源数据集中不包含803个术语的段落和包含803个段落中和术语不在同一句的25032段落构成；

步骤三：构建原始知识源语料库

知识源语料库来自我们从PLOS ONE网站中通过搜过“fMRI”and“CognitiveFunction”关键词随机爬取150篇最新的文章构造测试语料库，基于认知的术语表，在这些文章中对20个认知功能术语进行了标注。

步骤四：数据预处理获得候选术语集、目标语料库上下文、对照语料库上下文和知识源上下文

第一步：使用HanLp工具对知识源数据进行词性标注及句法解析，提取语料库中所有的名词短语；

第二步：从上述名词短语中去除冠词、描述性形容词等停用词；

第三步：将“and”或者“or”连接名词短语拆分为两部分，例如，把“anchoringandapperception”拆为“anchoring”和“apperception”；

第四步：从符合“名词|名词”或“形容词|名词”等类似语法结构的名词短语中进一步切割，二次抽取更细粒度的候选术语，例如，从“audiovisual perception”中产生“audiovisual”和“perception”；

第五步：词形还原、去重，得到候选术语集合，以此抽取在知识源语料库中对应各个候选术语的上下文信息，取候选术语周围窗口大小为35个词作为其术语上下文。同理也可为获得目标语料上下文在对照语料上下文。

步骤五：计算术语领域区分度

利用对数似然比(5)计算上下文-语料库相关性假设的可能性，采用二项式分布假设，则公式可转化为公式(6)，然后通过先利用(7)计算候选术语各上下文向量与目标语料向量集中各向量的句子相似度，再统计相似度超过设定阈值次数而获得。同理也可为获得候选术语上下文在对照语料库中出现的次数。

步骤六：计算候选术语领域依存偏向值

对于每个候选术语，根据公式(1)计算出每个术语的依存差异值Dtn(t)；

步骤七：术语自学习

进而根据公式(2)计算领域候选术语隶属激活值Dtm(t)＝2.3501686958E-39，设置激活值临界值，满足临界值的术语视为发现的领域新术语，添加进初始术语集，并重复执行步骤1，实现术语集的自学习和本方法的自提升。

本次实验中共抽取29个领域术语，其中，发现25个为认知功能术语，术语发现准确率为86.20％。下表为术语发现的详细结果：

表1术语发现详情

为了验证本发明所述方法的有效性，本次实验所提出的算法与DR-DC、CTROL、CRF等算法的结果进行比较。实验结果显示：DR-DC算法的准确率为16.52％，CTROL算法的准确率为31.09％，CRF算法的准确率为43.22％，实验结果表明，基于上下文语义的细粒度领域术语自学习技术算法的术语发现有较高准确率。

由此可知，基于上下文语义的细粒度领域术语自学习技术，有利于文本数据资源的领域术语集的自学习，实现领域术语库的自扩充。

Claims

1.一种基于上下文语义的细粒度领域术语自学习方法，其特征在于，包括如下步骤：