CN111967267B

CN111967267B - 一种基于XLNet的新闻文本地域提取的方法及系统

Info

Publication number: CN111967267B
Application number: CN202011009623.7A
Authority: CN
Inventors: 童逸琦; 马涛; 倪斌; 汪姿如; 庄福振
Original assignee: Zhongke Xiamen Data Intelligence Research Institute
Current assignee: Zhongke Xiamen Data Intelligence Research Institute
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2022-06-21
Anticipated expiration: 2040-09-23
Also published as: CN111967267A

Abstract

本发明公开了一种基于XLNet的新闻文本地域提取的方法及系统，其方法包括如下步骤：S1、利用互联网上获取海量未标注生语料，输入XLNet预训练模型中进行预训练；S2、将预处理后的数据输入到步骤S1预训练好的XLNet预训练模型中进行编码，将编码后的隐状态输入到BiLSTM+CRF模型中进行识别，输出识别后的地域实体；S3、地域实体消歧；S4、地域实体汇总；S5、地域主体补全操作；其系统包括地域实体识别模块、实体拼接模块、地域消歧义模块和地域汇总模块，地域实体识别模块由XLNet预训练模型和BiLSTM+CRF模型组成。本发明的二阶段训练过程克服了现有技术存在的预训练阶段和训练阶段存在使用模式不一致的问题，解决了传统的自回归模型无法同时学习上下文信息的痛点，实现了完整建模。

Description

一种基于XLNet的新闻文本地域提取的方法及系统

技术领域

本发明涉及计算机技术领域，特别涉及一种基于XLNet的新闻文本地域提取的方法及系统。

背景技术

新闻文本的地域属性蕴含了新闻事件发生的地点，是对新闻事件进行统计、分析的重要参考维度，因此利用计算机实现对新闻文本地域的自动抽取，对下游任务如推荐系统、舆情分析、文本摘要等具有非常重要的推动作用。目前主流的地域提取方法包括机器学习方法和深度学习方法，这两种方法都需要人工标注的地域实体数据集进行训练。

BERT+BiLSTM+CRF模型就是(双向转换的编码预训练模型+双向长短期记忆网络+条件随机场模型)深度学习方法中的一种，但BERT模型存在如下缺点：1、预训练阶段采用引入遮掩标记来遮掩15％的词，但在训练阶段不含有这些被加入遮掩标记的词，导致预训练阶段和训练阶段存在使用模式不一致的情况；2、在预训练阶段，随机遮掩的15％词之间是条件独立的，不存在关联，但自然语言的词之间有些是存在关联的，导致模型的性能损失，无法同时学习上下文信息；3、只能对固定长度的文本序列进行建模，而新闻文本通常是长文本序列，导致无法对其进行完整建模。

发明内容

为解决上述问题，本发明提供了一种基于XLNet的新闻文本地域提取的方法及系统。

本发明采用以下技术方案：

一种基于XLNet的新闻文本地域提取的方法，包括如下步骤：

S1、预训练：利用爬虫技术从互联网上获取海量未标注生语料，对所述未标注生语料进行去噪声和预处理操作后，输入XLNet预训练模型中进行预训练；

S2、训练：a、在BIOES标注框架下，人工标注形成带标签的中文新闻文本地域语料库用作模型训练语料，b、对所述模型训练语料进行通用的数据预处理流程，c、将预处理后的数据输入到所述步骤S1预训练好的XLNet预训练模型中进行编码，d、将编码后的隐状态输入到BiLSTM+CRF模型中进行识别，输出层输出识别后的地域实体；

S3、地域实体消歧：构建省/市二级同一地名知识库，将所述地域实体与所述知识库进行匹配映射，进行消歧；

S4、地域实体汇总：a、统计所述地域实体的长度、在文本中出现的次数以及位置，并将这三个统计信息通过非线性变换分别转换成人工特征，b、采用成对比较法，利用所述人工特征构建特征矩阵，c、计算所述特征矩阵的主特征向量，所述主特征向量上每一维的值对应着所述地域实体的主地域权重，d、对所述主地域权重进行归一化指数函数操作，并按照所述主地域权重大小降序排序，仅保留前3个权重最大的地域实体；

S5、补全：利用爬虫技术爬取中国的行政区划信息，构建省/市/县(区)三级的中国地域知识库，对所述步骤S4所得的前3个权重最大的地域实体进行补全操作，所述补全操作采用最大匹配算法。

进一步地，步骤S2中的所述人工标注的方法为：B代表地域的开始，I代表地域的中间，E代表地域的结尾，S代表单个字符，O代表无关字符。

进一步地，所述步骤S2还包括：e、地域拼接：利用所述地域实体在文本中的位置，采用地域拼接算法对地域主体信息进行拼接。

进一步地，所述XLNet预训练模型中包含了排列语言模型，所述排列语言模型将文本句子的单词随机打乱顺序，对于单词x_i，原本出现在它后面的词{x_i+1,...,x_n}也可以出现在它前面，设长度为T的文本序列[1,2,...,T]的所有排列组合集合为Z_T，设z_t为文本序列中的第t个元素，z_＜t表示一种排列组合情况即z∈Z_T的前t-1个元素，则排列语言模型对文本序列的建模过程可以表示成：

其中，θ为待训练的模型参数。

进一步地，所述XLNet预训练模型采用了双流注意力机制。

进一步地，所述BiLSTM+CRF模型采用随机梯度下降算法迭代优化模型的参数。

一种基于XLNet的新闻文本地域提取的系统，包括地域实体识别模块、实体拼接模块、地域消歧义模块和地域汇总模块，所述地域实体识别模块由XLNet预训练模型和BiLSTM+CRF模型组成，所述XLNet预训练模型利用互联网未标注数据完成预训练后用于待识别文本的编码，所述BiLSTM+CRF模型用于对编码后的所述待识别文本进行文本地域识别以获得地域主体，所述实体拼接模块根据所述地域实体在文本中的位置信息对所述地域实体进行拼接，所述地域消歧模块用于将所述地域主体与人工构建的省/市二级同一地名知识库进行匹配映射以实现消歧，所述地域汇总模块用于所述地域实体的统计、排序和补全。

进一步地，所述XLNet预训练模型采用排列语言模型和双流注意力机制。

进一步地，所述BiLSTM+CRF模型为BiLSTM模型和CRF模型的结合，所述BiLSTM模型为双向长短期记忆网络即采用一个从前端到后端的LSTM神经网络和一个从后端到前端的LSTM神经网络拼接而成，所述CRF模型为条件随机场模型。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：

1、本发明采用二阶段训练过程，即预训练过程和训练过程，预训练过程在大规模为标注数据上进行无监督学习得到预训练模型，训练过程则是将待识别数据输入预训练模型中编码后将编码结果输入训练模型中进行迭代训练，整体框架可确保获得较高的地域提取质量，克服了现有的BERT+BiLSTM+CRF模型存在的预训练阶段和训练阶段存在使用模式不一致的问题；

2、传统的自回归模型只能从前端到后端(或从后端到前端)单方向的建模，而本发明引入了排列语言模型，将输入的文本序列按照排列组合的方式随机打乱序列，使得后端的文本序列可能随机组合到了前端，解决了传统的自回归模型无法同时学习上下文信息的痛点；

3、引入的XLNet模型使用的是相对位置编码而不是绝对位置编码，使得本发明的地域提取方法能够完整的识别整个长文本序列的地域，实现了完整建模。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一

如图1所示，一种基于XLNet的新闻文本地域提取的方法，包括如下步骤：

步骤S1和步骤S2中的所述数据预处理包括对未标注数据进行清洗，即剔除无用的文本，以及对文本进行分词、断句、去停用词等通用的数据预处理流程。

步骤S2中的所述人工标注的方法为：B代表地域的开始，I代表地域的中间，E代表地域的结尾，S代表单个字符，O代表无关字符。例如：“江苏省苏州市”就会被人工标注成“江苏B-TER省I-TER苏州I-TER市E-TER”。

所述步骤S2还包括：e、地域拼接：利用所述地域实体在文本中的位置，采用地域拼接算法对地域主体信息进行拼接。

在模型效果测试的过程中发现，发现对有些文本中出现的地域实体无法完整抽取，如：浙江省丽水市，会被识别成“浙江省”、“丽水市”两个实体，针对该问题，添加了在步骤S2添加了e、地域拼接的步骤，依赖地域实体在文章中的位置信息进行拼接，以此解决部分实体无法完整抽取的痛点。例如在文本中出现了“浙江省”、“丽水市”，此时模型会认为“浙江省”地域实体的末尾位置为1、“丽水市”地域实体的末尾位置为2，即这两个地域实体在文中是相邻的，然后判断两者是否存在从属关系，若是，则将二者拼接为“浙江省丽水市”，否则不作任何处理。地域拼接效果如下表所示：

表1.地域拼接效果

由于中国语言丰富多彩，存在着大量缺省现象，不同的文本却可以代表相同的含义，如“沪”、“上海”和网络常用语“魔都”表示的都是同一个地域，因此，构建了一个省/市二级同一地名知识库，通过地域实体与该知识库进行匹配映射，上述的“沪”、“上海”、“魔都”都会被映射为“上海市”。

补全的示例效果如下表所示：

表2.补全示例效果

所述XLNet预训练模型中包含了排列语言模型，所述排列语言模型将文本句子的单词随机打乱顺序，对于单词x_i，原本出现在它后面的词{x_i+1,...,x_n}也可以出现在它前面，设长度为T的文本序列[1,2,...,T]的所有排列组合集合为Z_T，设z_t为文本序列中的第t个元素，z_＜t表示一种排列组合情况即z∈Z_T的前t-1个元素，则排列语言模型对文本序列的建模过程可以表示成：

其中，θ为待训练的模型参数。

所述XLNet预训练模型采用了双流注意力机制。

引入排列语言模型后，解决了传统的自回归模型无法同时学习上下文信息的缺点同时，也会带来一个问题：文本位置信息丢失。在传统的自回归模型中，对于句子[x₁,x₂.x₃,x₄]，模型预测的永远是序列下一个位置的单词，但对于排列语言模型，假设当前要预测x₃对于排列组合后的序列[x₂,x₄,x₁,x₃]，模型就会预测x₁。为了使模型学习到序列的位置信息，在XLNet中引入了双流注意力机制，其中Content stream attention(内容流注意力)就是标准的自注意力(self-attention)机制，Query stream attention(查询流注意力)和Content stream attention(内容流注意力)的区别在于Query stream attention(查询流注意力)使用的都是上下文信息，没有涉及到任何有关预测目标词的信息，两者相结合有助于模型更好的提取有关上下文信息的特征，具体的双流注意力计算机制为：

其中,

为额外输入的预测目标词的位置信息，

表示文本序列中各个位置之间的相关性，Attention表示经典的自注意力机制，其计算公式如下：

其中,上标T代表矩阵转置操作，dim代表矩阵维度。

引入的XLNet模型使用的是相对位置编码而不是绝对位置编码，使得本发明的地域提取方法能够完整的识别整个长文本序列的地域，实现完整建模。

所述BiLSTM+CRF模型采用随机梯度下降算法迭代优化模型的参数。

本实施例采用二阶段训练过程，即预训练过程和训练过程，预训练过程在大规模为标注数据上进行无监督学习得到预训练模型，训练过程则是将待识别数据输入预训练模型中编码后将编码结果输入训练模型中进行迭代训练，整体框架可确保获得较高的地域提取质量，克服了现有的BERT+BiLSTM+CRF模型存在的预训练阶段和训练阶段存在使用模式不一致的问题。

实施例二

所述XLNet预训练模型采用排列语言模型和双流注意力机制。所述BiLSTM+CRF模型为BiLSTM模型和CRF模型的结合，所述BiLSTM模型为双向长短期记忆网络即采用一个从前端到后端的LSTM(长短期记忆网络)和一个从后端到前端的LSTM(长短期记忆网络)拼接而成，所述CRF模型为条件随机场模型。

本实施例的系统中的地域实体识别模块采用二阶段训练过程，即基于XLNet预训练模型的预训练过程和基于BiLSTM+CRF模型的训练过程，预训练过程在大规模为标注数据上进行无监督学习得到预训练模型，训练过程则是将待识别数据输入预训练模型中编码后将编码结果输入训练模型中进行迭代训练，整体框架可确保获得较高的地域提取质量，克服了现有的BERT+BiLSTM+CRF模型存在的预训练阶段和训练阶段存在使用模式不一致的问题；

传统的自回归模型只能从前端到后端(或从后端到前端)单方向的建模，而本发明引入了排列语言模型，将输入的文本序列按照排列组合的方式随机打乱序列，使得后端的文本序列可能随机组合到了前端，解决了传统的自回归模型无法同时学习上下文信息的痛点；

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于XLNet的新闻文本地域提取的方法，其特征在于：包括如下步骤：

S1、预训练：利用爬虫技术从互联网上获取未标注生语料，对所述未标注生语料进行去噪声和预处理操作后，输入XLNet预训练模型中进行预训练；

所述XLNet预训练模型中包含了排列语言模型，所述排列语言模型将文本句子的单词随机打乱顺序，设长度为T的文本序列[1,2,...,T]的所有排列组合集合为Z_T，设z_t为文本序列中的第t个元素，z_＜t表示所有排列组合集合Z_T的其中一种排列组合情况的前t-1个元素，则排列语言模型对文本序列的建模过程表示成：

其中，θ为待训练的模型参数；

S5、补全：利用爬虫技术爬取中国的行政区划信息，构建省/市/县或区三级的中国地域知识库，对所述步骤S4所得的前3个权重最大的地域实体进行补全操作，所述补全操作采用最大匹配算法。

2.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法，其特征在于：步骤S2中的所述人工标注的方法为：B代表地域的开始，I代表地域的中间，E代表地域的结尾，S代表单个字符，O代表无关字符。

3.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法，其特征在于：所述步骤S2还包括：e、地域拼接：利用所述地域实体在文本中的位置，采用地域拼接算法对地域主体信息进行拼接。

4.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法，其特征在于：所述XLNet预训练模型采用了双流注意力机制。

5.如权利要求1所述的一种基于XLNet的新闻文本地域提取的方法，其特征在于：所述BiLSTM+CRF模型采用随机梯度下降算法迭代优化模型的参数。

6.一种基于XLNet的新闻文本地域提取的系统，其特征在于：包括地域实体识别模块、实体拼接模块、地域消歧义模块和地域汇总模块，所述地域实体识别模块由XLNet预训练模型和BiLSTM+CRF模型组成，所述XLNet预训练模型利用互联网未标注数据完成预训练后用于待识别文本的编码，所述BiLSTM+CRF模型用于对编码后的所述待识别文本进行文本地域识别以获得地域实体，所述实体拼接模块根据所述地域实体在文本中的位置信息对所述地域实体进行拼接，所述地域消歧模块用于将所述地域主体与人工构建的省/市二级同一地名知识库进行匹配映射以实现消歧，所述地域汇总模块用于所述地域实体的统计、排序和补全；

其中，θ为待训练的模型参数；

所述获得地域实体的步骤为：A1、在BIOES标注框架下，人工标注形成带标签的中文新闻文本地域语料库用作模型训练语料，A2、对所述模型训练语料进行通用的数据预处理流程，A3、将预处理后的数据输入到所述XLNet预训练模型中进行编码，A4、将编码后的隐状态输入到BiLSTM+CRF模型中进行识别，输出层输出识别后的地域实体；

所述地域实体的统计、排序具体为：B1、统计所述地域实体的长度、在文本中出现的次数以及位置，并将这三个统计信息通过非线性变换分别转换成人工特征，B2、采用成对比较法，利用所述人工特征构建特征矩阵，B3、计算所述特征矩阵的主特征向量，所述主特征向量上每一维的值对应着所述地域实体的主地域权重，B4、对所述主地域权重进行归一化指数函数操作，并按照所述主地域权重大小降序排序，仅保留前3个权重最大的地域实体；

所述地域实体的补全具体为：利用爬虫技术爬取中国的行政区划信息，构建省/市/县或区三级的中国地域知识库，对保留的前3个权重最大的地域实体进行补全操作，所述补全操作采用最大匹配算法。

7.如权利要求6所述的一种基于XLNet的新闻文本地域提取的系统，其特征在于：所述XLNet预训练模型采用排列语言模型和双流注意力机制。

8.如权利要求6所述的一种基于XLNet的新闻文本地域提取的系统，其特征在于：所述BiLSTM+CRF模型为BiLSTM模型和CRF模型的结合，所述BiLSTM模型为双向长短期记忆网络即采用一个从前端到后端的LSTM神经网络和一个从后端到前端的LSTM神经网络拼接而成，所述CRF模型为条件随机场模型。