CN112131389B

CN112131389B - LightGBM集成多个BERT模型用于加速系统评价更新的方法

Info

Publication number: CN112131389B
Application number: CN202011157850.4A
Authority: CN
Inventors: 孙鑫; 秦璇; 李玲; 刘佳利; 王雨宁; 刘艳梅; 齐亚娜; 邹康; 邓可; 马玉; 刘梅
Original assignee: West China Hospital of Sichuan University
Current assignee: West China Hospital of Sichuan University
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2023-04-07
Anticipated expiration: 2040-10-26
Also published as: CN112131389A; WO2022088979A1

Abstract

本发明公开LightGBM集成多个BERT模型用于加速系统评价更新的方法，包括以下步骤：步骤s1：采用预先原有的系统评价初筛数据作为语料库，并将所述初筛数据分割为训练集、开发集以及测试集，所述初筛数据包括文本和原本的分类标签；步骤s2：把训练集、开发集、测试集中的文本均分别转化为位置向量、文本向量和字向量；步骤s3：分别训练4个BERT模型；步骤s4：调整4个BERT模型的超参数；步骤s5：使用训练好的4个BERT模型对训练集和开发集文本进行分类；步骤s6：训练LightGBM模型；步骤s7：得到测试集的最终分类结果。本发明使用Lightgbm模型整合不同的BERT模型，稳定地、高敏感性地且高特异性地进行系统评价更新过程中的自动化筛选题目和摘要。

Description

LightGBM集成多个BERT模型用于加速系统评价更新的方法

技术领域

本发明涉及计算机数据处理技术领域，尤其涉及LightGBM集成多个BERT模型用于加速系统评价更新的方法。

背景技术

作为一种文献综述方法，系统评价有助于临床医务工作者和卫生决策者做出科学的医疗卫生决策。然而，目前的系统评价大多来自一定时期的文献筛选，因此有必要根据新发表的文献来更新已发表系统评价的结果。

在进行系统评价的文献检索过程中，由于每年文献的爆炸性增长和检索策略的缺乏特异性，检索到的引文数量非常大。

到目前为止，已经开发了100多个软件工具，来加快合成证据所涉及的最耗时的那部分过程，然而基于先进机器学习的自然语言处理方法(NLP)在系统评价的软件中很少被使用。值得注意的是，Covidence、Early Review Organizing Software(EROS)和PICOPortal等软件侧重于文本可视化，并在同一个项目上帮助多个用户合作筛选引文。SWIFT-Active Screener使用词袋编码和术语频率-逆文档频率权重(TF-IDF)对文档进行评分，以便对其估计的相关性概率进行排序，而忽略了语序信息，导致引文筛选效果不佳。GAPscreener,Abstrackr和Rayyan等文本挖掘工具是半自动引用筛选和选择软件，采用支持向量机(SVM)对文档进行分类。SVM是一种成功的机器学习模型，广泛应用于这些文本挖掘工具中，在二十一世纪的第一个十年中十分流行。但SVM在很大程度上依赖于人为设置的样本特征，这样的特征是不稳定，同时需要大量人力劳动。

随着机器学习技术和计算机硬件的发展，基于神经网络的机器学习模型已经出现，并证明了其特别是在图像识别和NLP中良好的学习效果。与SVM相比，深度神经网络学习模型在减少人工工作量的同时，利用该算法提取样本特征，可以获得相同甚至更好的训练效果。机器学习模型在自然语言处理中的发展是卷积神经网络(CNN)、递归神经网络(RNN)、长短期记忆(LSTM)、双向长短期记忆(Bi-LSTM)、注意机制、Transformer、BidirectionalEncoder Representations from Transformers(BERT)。BERT，一个由谷歌公司提出的预先培训模型，是截止2018年10月前在11个NLP任务表现最好的模型。不同的预训练集会导致不同的初始BERT参数，这将影响BERT的性能。BERT模型单一模型即可以实现高敏感度和高特异性地识别系统评价更新问题中的合格引文，然而其模型的稳定性不佳。

近年来，Light Gradient Boosting Machine(LightGBM)是最受欢迎的机器学习技术之一，因为它作为一种集成策略，具有非常强大地将几种模型的性能结合起来能力。除了节省时间外，其效果还优于现有的Boosting Machine效果。

发明内容

本发明旨在提供一种基于LightGBM算法及多个BERT模型并且在更新系统评价时自动筛选标题和摘要的方法。

为达到上述目的，本发明是采用以下技术方案实现的：

LightGBM集成多个BERT模型用于加速系统评价更新的方法，包括以下步骤：

步骤s1：采用预先原有的系统评价初筛数据作为语料库，并将所述初筛数据分割为训练集、开发集以及测试集，所述初筛数据包括文本和原本的分类标签；

步骤s2：把训练集、开发集、测试集中的文本均分别转化为位置向量、文本向量和字向量；

步骤s3：使用训练集中的文本转化后的位置向量、文本向量、自向量和原本的分类标签分别训练4个BERT模型；

步骤s4：使用开发集中的文本转化后的位置向量、文本向量、自向量和步骤s1中原本的分类标签来调整4个BERT模型的超参数；

步骤s5：使用训练好的4个BERT模型对训练集和开发集文本进行分类；

步骤s6：训练LightGBM模型；

步骤s7：使用4个BERT模型对测试集数据进行分类，得到分类结果，lightGBM模型综合4个BERT模型的分类结果得到测试集的最终分类结果。

优选的，在步骤s1中，所述分割的方式为将某一个时间节点之后发表的文本作为测试集，将该时间节点之前的文本按照五折交叉验证的方式分为训练集和开发集。

优选的，所述4个BERT模型分别为SCI-BBUP、SCI-BBUPC、BIOBU和BBU，SCI-BBUP为BlueBERT-base不区分大小写且受PubMed训练的BERT模型，SCI-BBUPC为BlueBERT-base不区分大小写且受PubMed和clinical notes训练的BERT模型，BIO-BBU为BioBERT-base不区分大小写且受PubMed训练的BERT模型，BBU为Bert-base不区分大小写且受英文维基百科训练的BERT模型。

优选的，在步骤s5中，训练集和开发集中的每一个文本经过一个BERT模型分类会得到一个2维向量作为分类结果。因此训练集和开发集的一个文本经过4个BERT模型的分类得到了一个8维向量。

进一步的，在步骤s6中，使用训练集和开发集的文本转化后的8维向量数据和训练集原本的分类标签来训练LightGBM模型，并采用十折交叉验证，逐步调整LightGBM模型超参数。

本发明具有以下有益效果：

使用LightGBM模型整合多个不同的BERT模型，进行系统评价更新过程中的自动化筛选题目和摘要，整体过程相较于以往的系统评价办法更稳定、更高效，且灵敏度和特异性都更高。

附图说明

图1为本发明算法工作流程；

图2为本发明算法总体框架；

图3为不同模型方法在案例系统评价2年后更新中的比较结果；

图4为不同模型方法在案例系统评价3年后更新中的比较结果；

图5为不同模型方法在案例系统评价4年后更新中的比较结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。

如图1，LightGBM集成多个BERT模型用于加速系统评价更新的方法，包括以下步骤：

步骤s1：采用预先原有的系统评价初筛数据作为语料库，并将所述初筛数据分割为训练集、开发集以及测试集，所述初筛数据包括文本和原本的分类标签。

在步骤s1中，所述分割的方式为将某一个时间节点之后发表的文本作为测试集，将该时间节点之前的文本按照五折交叉验证的方式分为训练集和开发集。

步骤s2：把训练集、开发集、测试集中的文本均分别转化为位置向量、文本向量和字向量。

具体地，步骤s2中的转化过程采用google提供的bert模型代码的tokenization.py代码完成。

文本向量(Segment Embedding)：用于区分句子的表示，比如哪些单词属于句子1，那些单词属于句子2。由于本发明中是单段文本作为输入，所以所有的Segment Embedding都标1。

位置向量(Position Embedding)：和transformer中的一样目的在于区分句子中词的位置关系。例如I think,therefore I am，第一个I和第二个I应该有不同的向量表示。BERT模型中的最大句子长度是512，所以Position Embedding layer是一个size为(512，768)的lookup table，且不同句子同样的位置，位置编码是一样的。

字向量(Token Embedding)：每个词被表示成一个768维的向量，其中的CLS表示开始符号，SEP表示结束符号。这里使用WordPiece tokenization的原因是这种表示方法使BERT模型只需要存储很少的词汇，并且很少遇到未登陆词。经过预训练的BERT模型会提供Token对应的Embedding向量。

因此，三个部分联合表示形成一个文本数据，例如(1,n,768)。

步骤s3：使用训练集中的文本转化后的位置向量、文本向量、自向量和原本的分类标签分别训练4个BERT模型。

所述4个BERT模型分别为SCI-BBUP、SCI-BBUPC、BIOBU和BBU，SCI-BBUP为BlueBERT-base不区分大小写且受PubMed训练的BERT模型，SCI-BBUPC为BlueBERT-base不区分大小写且受PubMed和clinical notes训练的BERT模型，BIO-BBU为BioBERT-base不区分大小写且受PubMed训练的BERT模型，BBU为Bert-base不区分大小写且受英文维基百科训练的BERT模型。

4个BERT模型SCI-BBUP、SCI-BBUPC、BIOBU和BBU作为基分类器，具有相同的模型结构，但初始参数不同，不同初始参数会影响模型的性能。模型结构是12-layer,768-hidden,12-heads,110M parameters。其中的超参数为：转小写为True，最大片段长度为512，训练batch大小为4，学习率为2e-5，训练轮数为4.0。模型初始参数为公开数据，分别在github中下载。

在使用过程中，对于每个基分类器，输入是以标题和摘要的形式筛选的引文。对于输出，训练集中的每个引文通过每个基分类器得到一个二维向量作为模型结果。

步骤s4：步骤s4：使用开发集中的文本转化后的位置向量、文本向量、自向量和步骤s1中原本的分类标签来调整4个BERT模型的超参数。

在步骤s5中，训练集和开发集中的每一个文本经过一个BERT模型分类会得到一个2维向量作为分类结果。因此训练集和开发集的一个文本经过4个BERT模型的分类得到了一个8维向量。

步骤s6：训练LightGBM模型。

在步骤s6中，使用训练集和开发集的文本转化后的8维向量数据和训练集原本的分类标签来训练LightGBM模型，并采用十折交叉验证，逐步调整LightGBM模型超参数。

在训练过程中，分类器学习了引文与标签(合格或不合格)之间的链接关系。经过训练之后，分类器可以分类没有标签的引文。

LightGBM模型作为集成分类器，输入是训练集上四个基分类器的分类结果。在本发明中合并了四个作为基分类器分类结果的二维向量作为集成分类器训练的输入特征，则输出是一个二维向量。

并且，使用argmax将每个二维向量转换为一维(1或0)作为最终分类结果。

评价算法性能的指标有准确性、敏感性、特异性、遗漏研究和工作量节省。

在本发明中，准确性是正确预测的引文数量与引文总数的比率。敏感性是正确预测为合格引文的合格引文数量与合格引文总数的比率。特异性是被正确预测为不合格的引文数量与不合格引文总数的比率。

错过的引文是合格引文的数量，这些引文被错误地预测为不合格的引文。工作量节省是指被错误地预测为不合格引文的合格引文数量与引文总数的比率。对于遗漏的引文，工作人员会检查引文是否包括在最终的全文分类中。

下面通过具体实施例来说明本发明的技术效果：

本具体实施例构建了一个系统评价2年后的更新，通过一个人为的时间截点(2018年)，按照出版日期通过将引文分为初始筛选的引文和待筛选的引文，2018年前的文章作为筛选过得引文(训练集)。

使用2018年和2019年的文章作为一组待筛选引文(评价集)，在初步筛选的引文上拟合了本发明所涉及的模型，在待筛选引文上进行了评估模型筛选合格引文能力的评估。

比较了本发明和单一BERT模型在案例研究中表现，结果展示如图3所示。

同时为了说明模型的稳定性而进行了更早年份的划分，分别预测了此系统评价以2016年和2017年为时间节点3年后和4年后的更新。结果展示如图4、5所示。

同时为了说明模型的稳定性，进行了更早年份的划分，分别预测了此系统评价以2016年和2017年为时间节点3年后和4年后的更新。

其中系统评价数据详情是一份已发表的关于钠-葡萄糖共转运体-2(SGLT2)抑制剂治疗2型糖尿病(T2DM)的随机对照试验(RCTS)的系统评价中的数据，这些数据是从开始到2019年6月从Pubmed、EMBASE和Cochrane对照试验中央登记册(Central)中检索的，有3858篇筛选的引文。两位受过研究方法培训的评审员，独立筛选标题/摘要和全文，以获得最终合格的引文。评审员通过讨论或必要时与第三位审查员协商来解决分歧。

本发明在案例研究评价集中的准确率为81％，灵敏度为96％，特异性为78％。灵敏度96％在案例研究中优于每个单一的BERT模型。在案例研究中，本发明将避免手动筛选947篇引文中的347篇，使工作量减少63.3％，而180篇合格引文中缺少8篇(4％)，其中没有一篇在全文考虑后最终被纳入系统审查。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.LightGBM集成多个BERT模型用于加速系统评价更新的方法，其特征在于，包括以下步骤：

步骤s3：使用训练集中的文本转化后的位置向量、文本向量、字向量和原本的分类标签分别训练4个BERT模型；

步骤s4：使用开发集中的文本转化后的位置向量、文本向量、字向量和步骤s1中原本的分类标签来调整4个BERT模型的超参数；

步骤s6：训练LightGBM模型；

2.根据权利要求1所述的LightGBM集成多个BERT模型用于加速系统评价更新的方法，其特征在于：在步骤s1中，所述分割的方式为将某一个时间节点之后发表的文本作为测试集，将该时间节点之前的文本按照五折交叉验证的方式分为训练集和开发集。

3.根据权利要求1所述的LightGBM集成多个BERT模型用于加速系统评价更新的方法，其特征在于：所述4个BERT模型分别为SCI-BBUP、SCI-BBUPC、BIOBU和BBU，SCI-BBUP为BlueBERT-base不区分大小写且受PubMed训练的BERT模型，SCI-BBUPC为BlueBERT-base不区分大小写且受PubMed和clinical notes训练的BERT模型，BIO-BBU为BioBERT-base不区分大小写且受PubMed训练的BERT模型，BBU为Bert-base不区分大小写且受英文维基百科训练的BERT模型。

4.根据权利要求1所述的LightGBM集成多个BERT模型用于加速系统评价更新的方法，其特征在于：在步骤s5中，训练集和开发集中的每一个文本经过一个BERT模型分类会得到一个2维向量作为分类结果；因此训练集和开发集的一个文本经过4个BERT模型的分类得到了一个8维向量。

5.根据权利要求4所述的LightGBM集成多个BERT模型用于加速系统评价更新的方法，其特征在于：在步骤s6中，使用训练集和开发集的文本转化后的8维向量数据和训练集原本的分类标签来训练LightGBM模型，并采用十折交叉验证，逐步调整LightGBM模型超参数。