CN110852068A

CN110852068A - 一种基于BiLSTM-CRF的体育新闻主题词提取方法

Info

Publication number: CN110852068A
Application number: CN201910978573.4A
Authority: CN
Inventors: 江逸琪; 赵彤洲
Original assignee: Wuhan Institute of Technology
Current assignee: Wuhan Institute of Technology
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2020-02-28

Abstract

本发明公开一种基于BiLSTM‑CRF的体育新闻主题词提取方法，包括以下步骤：从网站获取体育新闻作为训练数据，提取训练数据的标题和正文；从正文中提取主题句，提取训练数据的主题句；建立训练集和测试集，将得到的标题和主题句的部分划分到训练集中，剩余部分划分到测试集中；建立BiLSTM‑CRF模型，以训练集内的标题和主题句为对象对其进行训练，对训练集内的训练数据的主题词进行提取，得到最优预测模型；提取需要提取主题词的体育新闻的标题和主题句，并代入最优预测模型中，得到取需要提取主题词的体育新闻的主题词。本发明提供一种体育新闻主题词抽取方法，为读者提供新闻主题词，使其快速从新闻中准确地获取感兴趣的信息。

Description

一种基于BiLSTM-CRF的体育新闻主题词提取方法

技术领域

本发明涉及数据挖掘领域。更具体地说，本发明涉及一种基于BiLSTM-CRF的体育新闻主题词提取方法。

背景技术

进入大数据时代，主题词抽取技术在新闻检索、新闻文本聚类、分类等自然语言处理任务中发挥着重要作用。目前，主题词抽取方法主要有基于统计的方法和基于机器学习的方法。《计算机科学》2016年第43卷第12期出版的《基于词或词组长度和频数的短中文文本关键词提取算法》一文中，陈伟鹤采用基于统计的方法，依据词频及逆文档作为指标，选取Top-K作为文档的主题词。这种无监督的方法无需人工标注训练集，简单快捷，但是无法有效的利用句子的语法、语义特征。《软件学报》2017年第28卷第9期出版的《自动关键词抽取综述》一文中，赵京胜对基于机器学习的方法进行了论述，这类方法融合了语言模型以及统计机器学习的方法，需在大量的人工标注样本的基础进行主题词抽取，将主题词抽取问题转化为判断每个候选词是否为主题词的二分类问题。机器学习的方法对每个候选词单独判断是否为主题词，失去了文本本身的情感信息和句子结构的有效信息。

针对这些问题，诸多研究者将主题词抽取问题转化为序列标注问题，如隐马尔科夫模型(HMM)、最大熵马尔科夫(HEMMs)和条件随机场(CRF)。这种方法结合人工设计的特征，提高了识别的准确率。但是，这种基于机器学习的序列标注模型，在人工设计特征时需要反复尝试，耗时耗力。

近年来，长短期记忆网络(Long Short-Term Memory Network,LSTM)模型作为循环神经网络的代表已被有效用于各类NLP问题。LSTM模型对历史信息记忆的特点，使得模型对长序列依赖问题效果显著。但是，LSTM模型处理新闻主题词识别时每个字是相互独立的，最终得到的是每个字的最优预测，如果字与字之间存在较强的依赖关系(例如，以“B-”“I-”分别表示主题词的首字和非首字，主题词的第一字的标签应以“B-”开头，而非“I-”；预测标签“B-label1I-label2”则无效)，LSTM模型无法对这些约束进行建模，预测性能将受到限制。

发明内容

本发明的目的是提供一种体育新闻主题词抽取方法，为读者提供新闻主题词，使其快速从新闻中准确地获取感兴趣的信息。

为了实现根据本发明的这些目的和其它优点，提供了一种基于BiLSTM-CRF的体育新闻主题词提取方法，包括以下步骤：

从网站获取体育新闻作为训练数据，提取所述训练数据的标题和正文；

从所述正文中提取主题句，提取所述训练数据的主题句；

建立训练集和测试集，将得到的所述标题和主题句的部分划分到所述训练集中，剩余部分划分到所述测试集中；

建立BiLSTM-CRF模型，以所述训练集内的所述标题和主题句为对象对其进行训练，对所述训练集内的所述训练数据的主题词进行提取，得到最优预测模型，其中，所述主题词包括体育新闻的新闻人物、新闻发生地点和体育项目；

提取需要提取主题词的体育新闻的标题和主题句，并代入所述最优预测模型中，得到取需要提取主题词的体育新闻的主题词。

本发明为了解决传统机器学习需要反复构建特征工程的不足和LSTM模型无法得到全局最优解的问题，在处理体育新闻主题词抽取的问题上引入双向长短期记忆网络和条件随机场模型,即BiLSTM-CRF，BiLSTM对长期的信息进行记忆并将其应用到当前的输出中，CRF自动从训练数据中学习字与字之间的约束以确保最终预测结果有效，实现主题词抽取。

在上述技术方案的基础上，本发明还可以做如下改进：

进一步，所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法中，得到所述最优预测模型后，以所述测试集内的所述标题和主题句为对象，对得到的所述最优预测模型的精度进行验证。

采用上述进一步方案的有益效果是：本进一步方案中，得到最优预测模型后，以测试集内的标题和主题句为对象，将测试集内的标题和主题句代入模型中进提取后，对其得到的主题词的准确率、召回率、F1值进行评价，对最优预测模型进行验证，保证其提取主题词的精度。

进一步，所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法中，使用Python的Request和Beautiful Soup库从网站中获取体育新闻。

采用上述进一步方案的有益效果是：Python中使用request和BeautifulSoup库进行网络爬虫为现有技术，本处不再具体展开。

进一步，所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法中，使用TextRank算法从所述正文中提取主题句。

采用上述进一步方案的有益效果是：依靠标题进行主题词抽取对主题词抽取的准确率、覆盖程度有一定影响，因此，在进行主题句抽取时，考虑新闻正文是对仅考虑新闻标题的抽取方法的补充，该方法对主题词的准确率和覆盖程度都有一定程度的提升。本发明首先采用TextRank算法对新闻正文进行主题句自动提取，在主题句的基础上再抽取主题词，这种方法避免了仅仅依赖新闻标题进行主题抽取导致的关键信息遗漏或覆盖不全的问题。

进一步，所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法中，使用TextRank算法从所述正文中提取主题句时，句子V_i的权重WS(V_i)的计算方法如下：

其中，d为阻尼系数，0＜d＜1；In(V_i)和Out(V_i)分别为指向句子V_i的句子集合和句子V_i指向的句子集合；w_ji表示任意两个句子V_i和句子V_j之间边的权重；

用两个句子V_i和句子V_j的相似程度Similarity(S_i,S_j)表示w_ji：

其中，S_i为句子V_i去除停用词之后的词语集合；S_j为句子V_j去除停用词之后的词语集合。

采用上述进一步方案的有益效果是：TextRank拟定一个权重的评分标准，给新闻正文的每个句子进行打分，之后选取排名靠前的K个句子作为结果，本发明可以根据需要确定K的取值。TextRank将文本信息拆分成句子作为节点，并组成带权重的句子有向图模型，其中V为节点集合，即句子构成的节点集合，E为边集合，用来表示句子之间的结构关系。并通过图的迭代计算实现句子权重的排序。

进一步，所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法中，所述BiLSTM-CRF模型的第一层为look-up层、第二层为双向LSTM层第三层为CRF层。

采用上述进一步方案的有益效果是：以经过主题句抽取后的文本和新闻标题为对象，使用基于字的双向LSTM网络联合条件随机场模型将主题词抽取问题转化为序列标注问题。本发明采用BIO标准标注，即B-PER、I-PER代表体育新闻中人名首字、人名非首字，B-LOC、I-LOC代表体育新闻中出现的国家和地名的首字、地名非首字，B-SPO、I-SPO代表体育项目名首字、体育项目名非首字，O代表该字不属于主题词的部分：

模型的第一层为look-up层，利用随机初始化的嵌入矩阵(embedding matrix)将句子中每个字的one-hot向量x_i映射为含有嵌入特征的低维稠密的字向量x_i∈R^d，其中d为嵌入矩阵的维度；

模型的第二层为双向LSTM层，将各个字向量作为各个时间步的输入，再将前向隐藏状态和后向隐藏状态

进行拼接，得到该时间步完整的隐藏状态

利用一个线性层将隐藏向量从m维映射为k维(k是标注的标签数)得到p_i∈R^k，p_i中的每一维p_ij为字x_i到标签j的打分值；

模型的第三层为CRF层，该层具有一个状态转移矩阵的参数。通过这一层，模型可以有效地利用过去的标签和未来的标签来预测当前的标签，通过下式来计算句子x的标签等于y的分数:

其中，A是一个加了起始状态和终止状态的(k+2)×(k+2)矩阵,A_ij表示的是从第i个标签到第j个标签的转移分数。可以看出整个序列的分值等于各个位置的分值之和，而每个位置的分数由两部分得到，一部分是由LSTM输出的决定，另一部分则由CRF的转移矩阵A决定。模型在预测过程时使用下式所示的Viterbi算法求解最优序列:

进一步，所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法中，所述标题和主题句均按照20:1的比例划分到所述训练集和测试集中。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明所述的一实施例的BiLSTM-CRF模型示意图的结构示意图；

图2为本发明所述的一实施例的体育新闻主题词提取方法的流程图；

图3为本发明所述的一实施例中对得到的所述最优预测模型的精度进行验证结果。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

需要说明的是，在本发明的描述中，术语“横向”、“纵向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，并不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

如图1-图3所示，本发明的实施例提供一种基于BiLSTM-CRF的体育新闻主题词提取方法，包括以下步骤：

S1、使用Python的Request和Beautiful Soup库从新闻网站爬取真实新闻文本，清洗数据后得到新闻正文和新闻标题。

S2、对新闻正文使用TextRank方法提取新闻主题句，整理新闻标题和新闻主题句得到数据集，将数据集按20:1的分为训练集和测试集。

S3、如图1所示，构建BiLSTM-CRF主题词抽取模型，模型用来识别体育新闻中能够代表该篇体育新闻主题的新闻人物(PER)、新闻发生地点(LOC)、体育项目(SPO)。

S4、初始化BiLSTM-CRF主题词抽取模型，本实例采用TensorFlow进行搭建，各个参数设置如下：batch_size＝64,clip＝5.0,dropout＝0.5,embedding_dim＝300,epoch＝150,hidden_dim＝300,lr＝0.001,optimizer＝'Adam'。

S5、、在训练集上训练主题词抽取模型，训练结束得到本实例的最优预测模型。

S6、将训练得到的预测模型在测试集上进行测试，采用了准确率(P)、召回率(R)、F1值进行评价，实验结果如附图3所示。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的实施例。

Claims

1.一种基于BiLSTM-CRF的体育新闻主题词提取方法，其特征在于，包括以下步骤：

从所述正文中提取主题句，提取所述训练数据的主题句；

2.如权利要求1所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法，其特征在于，得到所述最优预测模型后，以所述测试集内的所述标题和主题句为对象，对得到的所述最优预测模型的精度进行验证。

3.如权利要求1所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法，其特征在于，使用Python的Request和Beautiful Soup库从网站中获取体育新闻。

4.如权利要求1所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法，其特征在于，使用TextRank算法从所述正文中提取主题句。

5.如权利要求2所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法，其特征在于，使用TextRank算法从所述正文中提取主题句时，句子V_i的权重WS(V_i)的计算方法如下：

用两个句子V_i和句子V_j的相似程度Similarity(S_i,S_j)表示w_ji：

6.如权利要求1-5任一项所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法，其特征在于，所述BiLSTM-CRF模型的第一层为look-up层、第二层为双向LSTM层第三层为CRF层。

7.如权利要求1-5任一项所述的一种基于BiLSTM-CRF的体育新闻主题词提取方法，其特征在于，所述标题和主题句均按照20:1的比例划分到所述训练集和测试集中。