CN110888991A

CN110888991A - 一种弱标注环境下的分段式语义标注方法

Info

Publication number: CN110888991A
Application number: CN201911190029.XA
Authority: CN
Inventors: 张健沛; 安立桐; 杨静; 王勇
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-03-17
Anticipated expiration: 2039-11-28
Also published as: CN110888991B

Abstract

本发明提供的是一种弱标注环境下的分段式语义标注方法。(1)输入待标注文本，使用数据挖掘算法自动化构建文本主题相关的“类别‑实体‑关系‑扩展”四层领域本体；(2)使用已构建的四层领域本体对弱标记文本进行语义标注；(3)采用加入注意力机制的卷积神经网络对已标注的段落文本进行段落句群划分；(4)综合使用词袋模型验证句群划分准确性并对新生成的句群的标注信息进行筛选。本发明对历史、文学、娱乐、计算机等不同领域的文本均具有较好的标注和句群划分效果，解决了多学科弱标记资源文本无法准确处理和分析的问题，可以帮助用户缩小检索范围，快速找到搜索结果，提高搜索准确性。

Description

一种弱标注环境下的分段式语义标注方法

技术领域

本发明涉及的是一种自然语言处理(NLP)方法，具体地说是一种基于文本标注的句群划分方法。

背景技术

伴随着中文互联网世界的跨越式进步，各大中文互联网平台上积累了海量的文本数据，对这些文本数据进行分析和分类，有助于平台构建清晰的用户画像，对平台未来的发展和定位具有重要意义。

但现实生活中，大多数数据的标记都是弱标记(Weak Label)，即不准确、不完整的标记。弱标记样本可能仅包含其对应标记中的小部分，又或者根本没有任何标记。而现有的较为流行的处理数据的方式，效果明显的则都是基于多标记数据的。常见的多标签分类算法如标签Powerset(Label Powerset,LP)、二元关联(Binary Relevance,BR)、组合分类器链(Ensembles of Classifier Chains,ECC)、多标签K近邻(Multi-Label K-NearestNeighbor,ML-KNN)等，都需要训练集中所有数据的标签信息完整，故均不能对弱标记样本进行有效地学习，基本无法使用弱标记训练集获得成熟的模型，也就无法对数据进行有效的分类和进一步解读。

对数据的解读，以对数据的分类标注为主。具体到文本数据，则是对文本进行语义标注。语义标注可以视作一个输入和输出的过程，其输入为无标注的文本，输出为有标注语义信息的文本，它是语义检索、知识挖掘、智能推理等研究领域的一个热点问题，常用的模型有：条件随机场(CRF)模型、递归神经网络(RNN)模型等。而文本语义标注技术，则是将非结构化的自然语言文本数据转变为结构化的语义数据的有效手段。现有的文本语义标注技术的研究方向，主要集中于借助统计学习的手段，对已有的文本资料进行全文的命名实体的标注。但根据此方法形成的语义标注数据，同样存在逻辑结构简单混乱、感情判断不清、命名实体遗漏等问题，针对这一问题，需要将文章带入相应的领域本体中。

领域本体(Domain Ontology,DO)是对领域的一种结构化描述。其具体可根据其作用的不同包含有学科中的类别、概念实体以及实体间的关系和与实体相关的扩展概念及关系间的约束等。因为知识含有显著的学科特征，领域本体可以更加直观合理的表示知识的结构。这里的“学科”其实是一种领域范围的概念，本质上是按照本体创建者的需求来划分的，它可以是一个大类别的学科，也可以是几个学科或者范围的组合，还也可以是一个学科中分出的更小的范围。

目前为止，本体工程中比较有名的几种方法包括TOVE法、Methontology方法、骨架法、IDEF-5法和七步法等，均处于人工建立领域本体的阶段。随着深度学习技术的发展，联合改进经典深度学习算法长短期记忆网络(LSTM)和条件随机场算法(CRF)构建领域本体的技术也已经出现，但准确率相对较低。由于本体工程到目前为止仍处于相对不成熟的阶段，领域本体的建设还处于探索期，因此构建过程中还存在着很多问题。因此，如何自动化的构建一个准确率高的、可以用于标注文本语义数据的领域本体就是目前急需解决的问题之一。

发明内容

本发明的目的在于提供一种能够解决多学科弱标记资源文本无法准确处理和分析的问题，可以帮助用户缩小检索范围，快速找到搜索结果，提高搜索准确性的弱标注环境下的分段式语义标注方法。

本发明的目的是这样实现的：

(1)输入待标注文本，使用数据挖掘方法根据文章标题弱标记，自动构建与文本主题相关的类别-实体-关系-扩展四层领域本体；

(2)使用分词技术将文章按段落带入已构建的四层领域本体中，对弱标记文本的初步语义标注；

(3)将每一自然段的语义标注信息与自然段前后各自一定数目的实词混合，使用skip-gram模型生成词向量，使用加入注意力机制的卷积神经网络进行训练，已标注的段落文本进行段落句群划分，对相邻段落是否属于同一句群进行判断；

(4)使用词袋模型验证句群生成的准确性并对新生成的句群的标注信息进行重新筛选。

本发明还可以包括：

1.步骤(1)中构建领域本体的实体词结构时，先使用分词技术，获取文章标题中的实词，并按照结合标题信息的短文本主题词抽取公式计算出文章前200字内的关键实体词，公式为：W(w_i)＝tf(w_i)×df(w_i)×(1+g(w_i))×f_p(w_i)，

其中f_p(w_i)是词汇的位置权重因子，由公式

求得：其中，

考虑到分词粒度对结果产生的影响，f_t(w_i)是w_i在标题中所占的汉字数目，s_t(d_j)是标题中全部实词的汉字总数，Q为调整系数、与标题内重复包含的该关键词个数的上限有关，经训练取整数2，取得分最高的前n个主题词作为初始的实体词，以获取其领域层次结构，n的大小与文章篇幅正相关。

2.步骤(1)中构建领域本体的类别词结构时，将提取的实体词带入已编码的WordNet名词上下位词关系词典和爬取的完整知乎话题标签关系树中，在两跳内寻找实体词的上位词的集合作为文章领域类别待选择词汇，再分别将集合内待选择词代入关系树中以确定集合内各词是否互相存在上下位词关系，保留每类中处于最上位的待选择词作为文章领域的类别词。

3.步骤(1)中构建领域本体的关系词结构时，将实体词带入百度百科、维基百科、360百科、搜狗百科、互动百科和复旦知识图谱知识库中检索，爬取搜索结果的一级目录并获取实词部分作为备选关系词集合W，并使用关系词得分公式计算关系词得分，保留得分高于阈值的关系词作为文章领域本体的关系词。

4.步骤(1)中构建领域本体的扩展词结构时，通过分别建立实体层m个实体词+关系层n个关系词所对应的m×n个词对，在必应搜索中检索m×n次词对获取网页信息，爬取检索结果前十页内网页的主要内容，分词并保留名词，统计剩余词汇和词频，通过计算TF-IDF值，保留大的词作为待选择的扩展词，通过多维度归一化Bing距离公式计算其归一化距离，公式如下：

其中，M表示Bing索引搜索到的网页总数，f(x)和f(y)分别表示搜索词x和y的命中数量，f(x,y)表示同时出现x和y的网页数量，若x和y从未一起出现在同一网页上，而只是单独出现，则它们之间的归一化Bing距离无穷大；若x和y总是同时出现，则它们之间的归一化Bing距离为0，利用归一化Bing距离对非领域内概念进行过滤，将过滤后得到的词汇作为领域本体第四层的扩展词汇。

5.步骤(2)中使用已构建的四层领域本体对弱标记文本进行语义标注时：将分词并保留名词部分的文章按段落对已构建的四层领域本体进行遍历，提取在领域本体中存在的实词和其所有在领域本体中的上位概念作为该弱标记文本的初步语义标注。

6.步骤(3)中已标注的段落文本进行段落句群划分时，将每一自然段的语义标注信息与自然段前后各自一定数目的实词混合后共同生成词向量。

本发明提供了一种可以将仅有弱标注的文本，通过构建领域本体的形式实现文本的段落标注，并在具有注意力机制的卷积神经网络中，将文本的段落归纳成句群的方法。

本发明主要包括：(1)输入待标注文本，使用数据挖掘算法自动化构建文本主题相关的“类别-实体-关系-扩展”四层领域本体(Domain Ontology,DO)；(2)使用已构建的四层领域本体对弱标记文本进行语义标注；(3)采用加入注意力机制(Attention Mechanism)的卷积神经网络(Convolutional Neural Networks,CNN)对已标注的段落文本进行段落句群划分；(4)综合使用词袋模型验证句群划分准确性并对新生成的句群的标注信息进行筛选。本发明构建四层领域本体，解决弱标记文本的标记来源问题；采用权重因子判定手法将领域本体中的信息匹配到弱标记文本中，解决其难以标记的问题；通过将标记信息生成的词向量进行深度学习，将有相同主题的段落合并划分为句群，解决了句群划分的问题；验证提出的弱标注环境下的分段式语义标注方法对历史、文学、娱乐、计算机等不同领域的文本均具有较好的标注和句群划分效果，解决了多学科弱标记资源文本无法准确处理和分析的问题，可以帮助用户缩小检索范围，快速找到搜索结果，提高搜索准确性。

本发明与现有技术相比的优点在于：提出的基于四层领域本的弱标注环境下的分段式语义标注方法实现了在弱标注环境下对文本的语义标注和文本分类，其对历史、文学、娱乐、计算机等不同领域的弱标记文本均具有较好的适应性和标注效果，相比于传统基于主题提取的标注，基于该四层领域本体的标注方法可以使文章的标注信息呈现四层的树形结构化形式，使得文章的标注信息更加具有逻辑和条理，采用基于注意力机制的卷积神经网络对于文章的句群划分效果也优于其他方式。

附图说明

图1是本发明方法的流程图；

图2是WordNet的名词上下位词关系树结构图；

图3是构建的四层领域本体结构图。

具体实施方式

本发明在实现过程中包括如下步骤：

(1)使用数据挖掘技术根据文章标题等弱标记，实现自动化构建与文本主题相关的“类别-实体-关系-扩展”四层领域本体；

(2)使用分词技术将文章按段落带入已构建的四层领域本体中，实现对弱标记文本的初步语义标注；

(3)将每一自然段的语义标注信息与自然段前后各自一定数目的实词混合，使用skip-gram模型生成词向量，使用加入注意力机制的卷积神经网络进行训练，实现对相邻段落是否属于同一句群的判断；

(4)使用词袋模型验证生成句群的准确性并对新生成的句群的标注信息进行重新筛选。

上述各步骤具体包括：

1、在步骤(1)中使用分词技术获取文章标题中的实词，并按照短文本主题词抽取公式W(w_i)＝tf(w_i)×df(w_i)×(1+g(w_i))×f_p(w_i)计算出文章前200字内的关键实体词。

其中，tf(w_i)是文档d_j中的词w_i的相对词频，由

公式求得。

f_j(w_i)是ω_i在文档d_i中出现的次数，n(d_j)是文档中实词的个数，df(w_i)是词汇w_i的权重因子，由

公式求得。其中n(w_i)是每50字左右出现该词汇w_i的次数，N是提取样本占总样本的比值，取4；g(w_i)代表词汇w_i的主题表现力，由公式

求得；取得分最高的前n个主题词与标题中提取的实词一起作为初始的实体词，以获取其领域层次结构。

2、在步骤(1)中提取的实体词带入已编码的WordNet名词上下位词关系词典和爬取的完整知乎话题标签关系树中，在两跳内寻找实体词的上位词的集合作为文章领域类别待选择词汇，再分别将集合内待选择词代入关系树中以确定集合内各词是否互相存在上下位词关系，保留每类中处于最上位的待选择词作为文章领域的类别词。

3、在步骤(1)中将实体词带入各大热门百科和知识库中检索，爬取搜索结果的一级目录并获取实词部分作为备选关系词集合，爬取搜索结果的一级目录并获取实词部分作为备选关系词集合W，使用公式

计算关系词得分。其中，score(ω_i)为W中词w_i的关系词得分；n为第j类资源中包含有w_i的词项数量；weight_j为第j种资源所对应的权重；w_i·length为w_i的词长；turm_kj为第j种资源中第k个包含有w_i的词项，term_kj.length为其词长；tf_j(trem_kj)为term_kj在第j种资源中的词频；μ为调整系数，保留得分高于阈值的关系词作为文章领域本体的关系词。

4、在步骤(1)中建立“实体词+关系词”所对应的词对，在必应搜索检索词对以获取网页信息。爬取检索结果前十页内网页的主要内容，分词并保留名词，统计剩余词汇和词频，通过计算TF-IDF值，保留较大的词作为待选择的扩展词，通过多维度归一化Bing距离公式：

计算其归一化距离。其中，MNBD(x,y)是多维度归一化Bing距离，M表示Bing索引的网页总数，f(x)和f(y)分别表示搜索词x和y的命中数量，f(x,y)表示同时出现x和y的网页数量。若x和y从未一起出现在同一网页上，而只是单独出现，则它们之间的归一化Bing距离无穷大；若x和y总是同时出现，则它们之间的归一化Bing距离为0。

5、在步骤(3)中将注意力机制加入池化层的卷积神经网络进行训练，利用卷积神经网络对于文本分类的优势，并通过注意力机制提高模型对于语义关系句子中与最终分类结果更相关部分的关注程度，实现对相邻段落是否属于同一句群的判断。

下面结合附图举例对本发明做更详细的描述。

结合图1，本发明的具体步骤如下：

(1)自动化构建与文本主题相关的“类别-实体-关系-扩展”四层领域本体；

使用分词技术获取文章标题中的实词，并按照结合标题信息的短文本主题词抽取公式计算出文章前200字内的关键实体词：

W(w_i)＝tf(w_i)×df(w_i)×(1+g(w_i))×f_p(w_i)

其中，tf(w_i)是文档d_j中的词w_i的相对词频，由如下公式求得：

f_j(w_i)是w_i在文档d_i中出现的次数；n(d_j)是文档中实词的个数；df(w_i)是词汇w_i的权重因子，由如下公式求得：

其中n(w_i)是每50字左右出现该词汇w_i的次数，N是提取样本占总样本的比值，取4；

g(w_i)代表词汇w_i的主题表现力，由如下公式求得：

f_p(w_i)是词汇的位置权重因子，由如下公式求得：

其中，考虑到分词粒度对结果产生的影响，f_t(w_i)是w_i在标题中所占的汉字数目，s_t(d_j)是标题中全部实词的汉字总数，Q为调整系数，与标题内重复包含的该关键词个数的上限有关，经训练取整数2。

取得分最高的前n个主题词作为初始的实体词，以获取其领域层次结构。

将提取的实体词带入如图2已编码的WordNet名词上下位词关系词典和爬取的完整知乎话题标签关系树中，在两跳内寻找实体词的上位词的集合作为文章领域类别待选择词汇，再分别将集合内待选择词代入关系树中以确定集合内各词是否互相存在上下位词关系，保留每类中处于最上位的待选择词作为文章领域的类别词；

将实体词带入百度百科、维基百科、360百科、搜狗百科、互动百科和复旦知识图谱等知识库中检索，爬取搜索结果的一级目录并获取实词部分作为备选关系词集合W，使用如下公式计算关系词得分。

其中，score(w_i)为W中词w_i的关系词得分；提取第三层关系词时，由于包含六种知识来源，将m值设为6；n为第j类资源中包含有w_i的词项数量；weight_j为第j种资源所对应的权重；w_i·length为w_i的词长；turm_kj为第j种资源中第k个包含有w_i的词项，term_kj.length为其词长；tf_j(trem_kj)为term_kj在第j种资源中的词频；μ为调整系数，设定为10。

通过实验计算和分析，将六种资源的权重分别设置为0.24，0.32，0.11，0.10，0.08和0.15。阈值设定为2.2，关联词得分高于阈值的列为第三层属性词。

综合比较各类搜索引擎的展示现状后，通过分别建立“实体层m个实体词+关系层n个关系词”所对应的词对，在必应搜索检索m×n次词对以获取网页信息。爬取检索结果前十页内网页的主要内容，分词并保留名词，统计剩余词汇和词频，通过计算其TF-IDF值，保留TF-IDF值较大的词，作为待选择的扩展词，通过多维度归一化Bing距离公式计算其归一化距离，公式如下：

其中，MNBD(x,y)是多维度归一化Bing距离，M表示Bing索引的网页总数，f(x)和f(y)分别表示搜索词x和y的命中数量，f(x,y)表示同时出现x和y的网页数量。若x和y从未一起出现在同一网页上，而只是单独出现，则它们之间的多维度归一化Bing距离无穷大；若x和y总是同时出现，则它们之间的多维度归一化Bing距离为0。

利用多维度归一化Bing距离对无关概念进行过滤，将过滤后得到的词汇作为领域本体第四层的扩展词汇。

至此领域本体构建完成，其结构如图3所示。

(2)使用jieba分词技术，将分词并保留名词部分的文章按段落对已构建的四层领域本体进行遍历，提取在领域本体中存在的实词和其所有在领域本体中的上位概念作为该弱标记文本的初步语义标注。

(3)将每一自然段的语义标注信息与自然段前后各自一定数目的实词混合，去重后使用skip-gram模型生成词向量。再使用将注意力机制加入池化层的卷积神经网络进行训练，利用卷积神经网络对于文本分类的优势，并通过注意力机制提高模型对于语义关系句子中与最终分类结果更相关部分的关注程度，实现对相邻段落是否属于同一句群的判断。

(4)对于被判断为同一句群的段落，统计每个自然段所对应的标注信息，使用词袋模型对新生成的句群的标注信息进行筛选和验证，筛选出最符合的主题作为新句群的标注。

为验证本发明提出的一种弱标注环境下的分段式语义标注方法的有效性，本文首先针对领域本体抽取关键词的能力进行评估。实验选择了著名NLP会议CoNLL提供的conlleval评分脚本，数据选择了复旦大学中文文本分类数据集的训练集中共计4000篇文章，分为20个类别。通过对比本文的四层领域本体构建方法与两种基于LSTM、BLSTM的实验模型在概念术语抽取效果上的准确率、召回率和F1值得出下表结果，可知依靠本文方法建立领域本体，在概念术语抽取的效果上有了较为显著的提升。由于该领域本体的构建更多依靠在网络中的搜索结果，故而本方法对于不同领域内的新概念或新术语词汇的识别和抽取均具有很高的健壮性和可扩展性。

针对基于领域本体的句群划分结果，由于本文的句群划分方法是自然段颗粒度，因此也采用准确率、召回率以及F值作为评价指标。若划分为同一句群的两个自然段所标注的语义信息重合率高于50％，则两段为同一句群，否则为不同句群。通过对比本文方法与两种基于知网、多元判别分析的传统方法，以及分别采用不输入标注信息的基于CNN的句群划分、输入标注信息的基于CNN的句群划分和不输入标注信息的基于ABCNN的句群划分可知，本文的方法对句群划分的效果有明显提高，且领域本体实现的标注和注意力机制的引入均对准确度的提升有所贡献。

Claims

1.一种弱标注环境下的分段式语义标注方法，其特征是：

2.根据权利要求1所述的弱标注环境下的分段式语义标注方法，其特征是：步骤(1)中构建领域本体的实体词结构时，先使用分词技术，获取文章标题中的实词，并按照结合标题信息的短文本主题词抽取公式计算出文章前200字内的关键实体词，公式为：W(w_i)＝tf(w_i)×df(w_i)×(1+g(w_i))×f_p(w_i)，

其中f_p(w_i)是词汇的位置权重因子，由公式

求得：其中，考虑到分词粒度对结果产生的影响，f_t(w_i)是w_i在标题中所占的汉字数目，s_t(d_j)是标题中全部实词的汉字总数，Q为调整系数、与标题内重复包含的该关键词个数的上限有关，经训练取整数2，取得分最高的前n个主题词作为初始的实体词，以获取其领域层次结构，n的大小与文章篇幅正相关。

3.根据权利要求2所述的弱标注环境下的分段式语义标注方法，其特征是：步骤(1)中构建领域本体的类别词结构时，将提取的实体词带入已编码的WordNet名词上下位词关系词典和爬取的完整知乎话题标签关系树中，在两跳内寻找实体词的上位词的集合作为文章领域类别待选择词汇，再分别将集合内待选择词代入关系树中以确定集合内各词是否互相存在上下位词关系，保留每类中处于最上位的待选择词作为文章领域的类别词。

4.根据权利要求3所述的弱标注环境下的分段式语义标注方法，其特征是：步骤(1)中构建领域本体的关系词结构时，将实体词带入百度百科、维基百科、360百科、搜狗百科、互动百科和复旦知识图谱知识库中检索，爬取搜索结果的一级目录并获取实词部分作为备选关系词集合W，并使用关系词得分公式计算关系词得分，保留得分高于阈值的关系词作为文章领域本体的关系词。

5.根据权利要求4所述的弱标注环境下的分段式语义标注方法，其特征是：步骤(1)中构建领域本体的扩展词结构时，通过分别建立实体层m个实体词+关系层n个关系词所对应的m×n个词对，在必应搜索中检索m×n次词对获取网页信息，爬取检索结果前十页内网页的主要内容，分词并保留名词，统计剩余词汇和词频，通过计算TF-IDF值，保留大的词作为待选择的扩展词，通过多维度归一化Bing距离公式计算其归一化距离，公式如下：

6.根据权利要求1-5任何一项所述的弱标注环境下的分段式语义标注方法，其特征是：步骤(2)中使用已构建的四层领域本体对弱标记文本进行语义标注时：将分词并保留名词部分的文章按段落对已构建的四层领域本体进行遍历，提取在领域本体中存在的实词和其所有在领域本体中的上位概念作为该弱标记文本的初步语义标注。

7.根据权利要求1-5任何一项所述的弱标注环境下的分段式语义标注方法，其特征是：步骤(3)中已标注的段落文本进行段落句群划分时，将每一自然段的语义标注信息与自然段前后各自一定数目的实词混合后共同生成词向量。

8.根据权利要求6所述的弱标注环境下的分段式语义标注方法，其特征是：步骤(3)中已标注的段落文本进行段落句群划分时，将每一自然段的语义标注信息与自然段前后各自一定数目的实词混合后共同生成词向量。