CN112149421A

CN112149421A - 一种基于bert嵌入的软件编程领域实体识别方法

Info

Publication number: CN112149421A
Application number: CN202011007465.1A
Authority: CN
Inventors: 唐明靖; 王俊; 陈建兵; 邹伟
Original assignee: Yunnan Normal University
Current assignee: Yunnan University YNU; Yunnan Normal University
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2020-12-29

Abstract

本发明涉及一种基于BERT嵌入的软件编程领域实体识别方法，属于自然语言处理、深度学习和软件资源挖掘技术领域。首先，利用自然语言处理技术对软件问答社区StackOverflow的数据集进行文本解析和预处理，结合领域分析确定软件编程领域实体类别，并基于Bart自然语言标注工具对样本数据进行人工标注获得训练集和测试集；然后，通过BERT预训练语言模型获得输入序列的语义和向量化表示，并结合BiGRU双向循环神经网络对输入序列进行模型训练；最后，通过CRF条件随机场对输入标签序列建模，从而得到概率最大的标签序列，实现软件编程领域的实体识别。本发明基于深度学习训练方法，能在少量标注样本数据的情况下，有效识别软件编程领域特定的实体。

Description

一种基于BERT嵌入的软件编程领域实体识别方法

技术领域

本发明涉及一种基于BERT嵌入的软件编程领域实体识别方法，属于自然语言处理、深度学习和软件资源挖掘技术领域。

背景技术

在大众化软件开发时代，有超过5000万余名软件开发人员在StackOverFlow软件知识社区进行有关开发技术、配置管理、项目组织等软件编程问答交流。这些海量社会化文本数据包含软件工程的各类问题和答案，蕴含着丰富的软件编程领域知识。软件编程知识的自动获取、共享和推荐将有利于软件开发人员快速解决项目开发过程中遇到的问题，提高软件开发质量。

传统的信息检索方式无法满足软件编程特定领域的需求，以实体为中心的信息检索和基于知识图谱的知识智能化管理将成为有效解决方案，而准确识别软件编程领域特定的实体并归类是工作的第一步。

传统命名实体识别(Named Entity Recognition，NER)的主要任务是识别出文本中的人名、地名等有意义的专有名称并加以归类。由于软件编程知识来自软件知识社区的社会化文本，并具有特定的软件领域特征，传统的模型和方法不适应，存在如下问题：

(1)软件知识社区的文本内容不遵循严格的语言规则，存在大量拼写错误，以及简写等情况。

(2)基于规则、词典和知识库的方法依赖专家手工创建，工作繁琐且无法实现自动化更新。

(3)基于监督学习、半监督学习的方法，需要人工标注大量的样本数据、无法解决单词多义性，造成实体识别效果不佳。

发明内容

本发明要解决的技术问题是提出一种基于BERT嵌入的软件编程领域实体识别方法，可以有效提高从软件知识社区的社会化文本中提取软件编程知识实体的精度，解决上述问题，为下一步构建软件编程领域知识图谱提供有效支持。

本发明的技术方案是：一种基于BERT嵌入的软件编程领域实体识别方法，首先，利用自然语言处理技术对软件问答社区StackOverflow(stackoverflow.com)的数据集进行文本解析和预处理，结合领域分析确定软件编程领域实体类别，并基于Bart自然语言标注工具对样本数据进行人工标注获得训练集和测试集；然后，通过 BERT(BidirectionalEncoder Representations from Transformers)预训练语言模型获得输入序列的语义和向量化表示，并结合BiGRU(Bi-Gated Recurrent Unit)双向循环神经网络对输入序列进行模型训练；最后，通过CRF(Conditional Random Field)条件随机场对输入标签序列建模，从而得到概率最大的标签序列，实现软件编程领域的实体识别。

具体步骤为：

Step1、软件问答社区数据集预处理。

软件问答社区StackOverflow的数据集是以html标签格式存储的社会化文本数据，需要对其进行数据解析、内容提取、去标记、分词等文本预处理操作。所述步骤Step1 的具体步骤为：

Step1.1：解析html文本，提取软件编程问答内容文本。

Step1.2：去除文本中包含的标签内容，以空格为分隔符进行分词，标签内容包括链接和源代码。

Step1.3：按1：9的比例，将样本数据划分为测试集和训练集。

Step2、样本数据标注。

在完成软件问答社区数据预处理后，通过Bart自然语言标注工具对样本数据进行手工标注。所述步骤Step2的具体步骤为：

Step2.1：结合软件编程领域分析，研究并确定软件编程领域实体的类别清单。

Step2.2：根据Step2.1确定的实体类别清单，利用Bart自然语言标注工具和交叉验证法对软件问答社区样本数据进行人工标注。

Step3、特征提取及向量化。

为了提升模型的特征提取能力，获取输入序列的分布式向量表示，采用BERT预训练语言模型对文本序列进行特征提取和向量化表示。所述步骤Step3的具体步骤为：

Step3.1：在BERT模型预训练中，采用Masked语言模型MLM(Masked LanguageModel)和下一句预测NSP(Next Sentence Prediction)两种策略用于模型预训练，用[CLS]表示句首，[SEP]表示句尾，并随机遮盖15％的单词。

BERT模型预训练。BERT模型采用12层或24层的双向Transformer作为特征提取器，并通过大量无标签语料数据进行预训练。为了让模型掌握自然语言知识，采用了Masked语言模型MLM(Masked Language Model)和下一句预测NSP(Next Sentence Prediction)两种策略用于模型预训练。用[CLS]表示句首，[SEP]表示句尾，并随机遮盖15％的单词(其中80％用masked token替代，10％用随机的单词替代，10％保持原词不变)。

Step3.2：构建BERT模型的输入表示，对于输入词序列X＝(x₁,x₂,···,x_n)，n表示输入词序列的长度，每个单词向量由Token Embeddings、Segment Embeddings和Position Embeddings三部分求和得到。

其中，Token Embeddings表示词向量，Segment Embeddings表示句子向量，用于区分不同的句子，Position Embeddings是通过模型学习得到的位置向量。

Step3.3：载入BERT模型并训练。导入BERT预先训练好的英文模型(不考虑字母大小写)，并结合Step2中产生的软件问答社区标注样本数据进行模型训练。

Step3.4：获取BERT模型的输出，得到软件问答社区标注样本数据的词向量表示序列：C＝(c₁,c₂,···,c_n)。

Step4：将Step3中得到软件问答社区单词序列向量C＝(c₁,c₂,···,c_n)输入到BiGRU-CRF模型进行软件编程领域实体识别，具体步骤为：

Step4.1：把Step3中输出的序列向量C＝(c₁,c₂,···,c_n)输入双向循环神经网络BiGRU 进行模型训练。

GRU输入为前一时刻隐藏层h_t-1和当前输入x_t，输出为下一时刻隐藏层信息h_t。

GRU包含重置门r_t和更新门z_t，其中r_t用来计算候选隐藏层

控制保留多少前一时刻隐藏层h_t-1的信息。z_t用来控制加入多少候选隐藏层

的信息，从而得到输出 h_t。

r_t＝σ(W_r·[h_t-1，x_t]) (2)

z_t＝σ(W_z·[h_t-1，x_t]) (3)

Step4.2：在BiGRU双向神经网络的hidden层之后接入CRF层，把通过BiGRU模型得到的每个单词对应的标签概率作为条件随机场CRF的输入，CRF通过统计标签直接的转移概率对双向循环神经网络的结果加以限制从而得到测试集数据的最终预测结果。

对于输入序列X＝(x₁,x₂,···,x_n)和对应的标签序列Y＝(y₁,y₂,···,y_n)，通过式(5) 进行分数评估：

标签序列y的最大概率用SoftMax函数计算，见式(6)：

对于训练集和(x_i，y_i)采用最大条件似然函数评估，见式(7)：

Step5、模型结果评价，采用精确率(precision)、准确率(accuracy)、召回率(recall) 和F1值等评价指标对模型结果进行评价。

本发明的有益效果是：本发明所采用的构建词向量方法和特征提取器(BERT)，是基于深度神经网络的预训练语言模型，它通过在所有层中联合调节上下文来预训练文本的深层双向表示，能有效降低向量空间维度、提高训练效率，与其他语言模型相比BERT模型更加高效，更能表征自然语言特征，适合进行软件编程社会化文本挖掘；采用BiGRU双向循环网络进行模型训练并结合条件随机场CRF的转移特征对结果序列加以限制，有效解决了标签之间的顺序性问题；通过以上步骤实现软件编程领域实体的精准识别，为下一步软件编程领域知识图谱的构建提供了基础。

附图说明

图1是本发明的步骤流程图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

如图1所示，一种基于BERT嵌入的软件编程领域实体识别方法，本实施例的语料数据是从StackOverflow发布的官方数据转储中抽取不同标签的问答文本。例如：面向对象和过程的语言(Java、C)、Web和脚本语言(JavaScript、PHP、Python)、标记语言(html)、平台(android)和库(jquery)，共获得4000个StackOverflow问答。具体实施过程包括：软件问答社区数据集预处理(Step1)，样本数据标注(Step2)，特征提取及向量化(Step3)，BiGRU-CRF模型训练及实体标注(Step4)和效果评价(Step5)。

所述软件编程领域实体识别方法的具体步骤如下(具体程序实现采用Python语言)：

Step1、软件问答社区数据集预处理。

通过StackOverflow官方网站下载官方转储的数据集。软件问答社区StackOverflow 的数据集是以HTML标签格式存储的社会化文本数据，需要对其进行数据解析、内容提取、去标记、分词等文本预处理操作。所述步骤Step1的具体步骤为：

Step1.1、调用Python语言的HTML文档解析库BeautifulSoup，解析HTML文本，提取软件编程问答内容文本。

Step1.2、调用Python语言的文本处理库，去除文本中包含的链接、源代码等标签内容，以空格为分隔符进行分词。

Step1.3、按1:9的比例，将样本数据划分为测试集和训练集。

Step2、样本数据标注。

Step2.1、组成一个标注小组，结合软件编程领域分析，研究并确定了5类软件实体，分别是：PL(编程语言)、Plat(平台)、API、Fram(工具库框架)和Stan(软件标准)。

Step2.2、根据Step2.1确定的实体类别清单，利用Bart自然语言标注工具和交叉验证法对软件问答社区样本数据进行人工标注。样本标注示例如下：

Step3、特征提取及向量化。

Step3.1、BERT模型预训练。BERT预训练语言模型有两种：BERT-Base和 BERT-Large，两者模型网络结构相似，只是部分参数不同。本发明采用BERT-Base模型，共12层，隐层为768维，采用12头模式，共110M个参数。

Step3.2、构建BERT模型的输入表示。获取BERT模型的输入：input_ids、input_mask、 segment_ids，分别表示句子中单词id组成的tensor、与句子长度匹配的mask、表明单词属于第一个句子还是第二个句子(0或1)。

Step3.3、载入BERT模型并训练。导入BERT预先在海量语料中训练好的英文模型cased_L-12_H-768_A-12(考虑字母大小写)，并结合Step2产生的软件问答社区标注样本数据进行模型训练。

Step3.4、获取BERT模型的输出，得到软件问答社区标注样本数据的词向量表示序列：C＝(c₁,c₂,···,c_n)。

Step4、将Step3步骤得到软件问答社区单词序列向量C＝(c₁,c₂,···,c_n)输入到 BiGRU-CRF模型进行软件编程领域实体识别。所述步骤Step4的具体步骤为：

Step4.1、把Step3步骤输出的序列向量C＝(c₁,c₂,···,c_n)输入双向循环神经网络 BiGRU进行模型训练。

GRU输入为前一时刻隐藏层h_t-1和当前输入x_t，输出为下一时刻隐藏层信息h_t，见公式(1)。

GRU包含重置门r_t和更新门z_t，其中r_t用来计算候选隐藏层

的信息，从而得到输出 h_t。

r_t＝σ(W_r·[h_t-1，x_t]) (2)

z_t＝σ(W_z·[h_t-1，x_t]) (3)

Step4.2、在BiGRU双向神经网络的hidden层之后接入CRF层，把通过BiGRU模型得到的每个单词对应的标签概率作为条件随机场CRF的输入，CRF通过统计标签直接的转移概率对双向循环神经网络的结果加以限制从而得到测试集数据的最终预测结果。

对于输入序列X＝(x₁,x₂,···,x_n)和对应的标签序列Y＝(y₁,y₂,···,y_n)，通过公式(5) 进行分数评估：

标签序列y的最大概率用SoftMax函数计算，见公式(6)：

对于训练集和(x_i，y_i)采用最大条件似然函数评估，见公式(7)：

Step5、效果评价。通过实验分析，本发明所述方法的准确率(accuracy)达到98.02％，精确率(precision)达到78.52％，召回率(recall)达到71.02％，F1值达到74.58％。对应每个实体类别的精确率(precision)、召回率(recall)、F1值如下所示：

实体类别	精确率(precision)	召回率(recall)	F1值
				PL	93.75％	96.77％	95.24％
Plat	100.00％	80.00％	88.89％
				API	68.42％	66.10％	67.24％
Fram	75.00％	52.94％	62.07％
				Stan	86.36％	76.00％	80.85％

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于BERT嵌入的软件编程领域实体识别方法，其特征在于：

首先，利用自然语言处理技术对软件问答社区StackOverflow的数据集进行文本解析和预处理，结合领域分析确定软件编程领域实体类别，并基于Bart自然语言标注工具对样本数据进行人工标注获得训练集和测试集；然后，通过BERT预训练语言模型获得输入序列的语义和向量化表示，并结合BiGRU双向循环神经网络对输入序列进行模型训练；最后，通过CRF条件随机场对输入标签序列建模，从而得到概率最大的标签序列，实现软件编程领域的实体识别。

2.根据权利要求1所述的基于BERT嵌入的软件编程领域实体识别方法，其特征在于具体步骤为：

Step1、软件问答社区数据集预处理；

Step1.1：解析html文本，提取软件编程问答内容文本；

Step1.2：去除文本中包含的标签内容，以空格为分隔符进行分词，标签内容包括链接和源代码；

Step1.3：按1：9的比例，将样本数据划分为测试集和训练集；

Step2、样本数据标注；

Step2.1：结合软件编程领域分析，确定软件编程领域实体的类别清单；

Step2.2：根据Step2.1确定的实体类别清单，利用Bart自然语言标注工具和交叉验证法对软件问答社区样本数据进行人工标注；

Step3、特征提取及向量化；

Step3.1：在BERT模型预训练中，采用Masked语言模型MLM和下一句预测NSP两种策略用于模型预训练，用[CLS]表示句首，[SEP]表示句尾，并随机遮盖15％的单词；

Step3.2：构建BERT模型的输入表示，对于输入词序列X＝(x₁,x₂,…,x_n)，n表示输入词序列的长度，每个单词向量由Token Embeddings、Segment Embeddings和PositionEmbeddings三部分求和得到；

其中，Token Embeddings表示词向量，Segment Embeddings表示句子向量，用于区分不同的句子，Position Embeddings是通过模型学习得到的位置向量；