CN115130466B

CN115130466B - 分类和实体识别联合抽取方法、计算机设备及存储介质

Info

Publication number: CN115130466B
Application number: CN202211072171.6A
Authority: CN
Inventors: 柴龙涛; 金霞
Original assignee: Hangzhou Firestone Technology Co ltd
Current assignee: Hangzhou Firestone Technology Co ltd
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2022-12-02
Anticipated expiration: 2042-09-02
Also published as: CN115130466A

Abstract

本发明属于循证医学中PICOS抽取技术领域，公开了一种针对PICOS抽取的分类和实体识别联合抽取方法、计算机设备及存储介质。本发明方法充分考虑到医学领域文章在撰写时的书写逻辑问题，在该场景和任务中加入了句子的位置信息以及句子的类别信息，并且针对PICOS抽取场景搭建了同时包含分类模块以及实体识别模块的联合抽取模型，因而能够在进行PICOS抽取时充分考虑到句子位置信息的重要性，同时在实体信息识别时能够充分考虑到句子的位置信息以及句子的类别信息的重要性，使得本发明方法在面对医学领域文章的PICOS抽取分类时和实体信息识别时准确率明显提高，进而证明了本发明方法的有效性。

Description

分类和实体识别联合抽取方法、计算机设备及存储介质

技术领域

本发明属于循证医学中PICOS抽取技术领域，特别涉及一种针对PICOS抽取的分类和实体识别联合抽取方法、计算机设备及存储介质。

背景技术

在循证医学中任何一个研究都是由患者、干预、比较、结果和试验设计组成的，即PICOS原则，PICOS原则是用来协助临床研究问题构建时的逻辑框架或思路。

无论是对医学文献进行解读或者进行临床研究，提出一个研究问题特别是与治疗方法相关的问题研究时，都能够按照PICOS的思路加以充实和完善并转化成完整的研究内容。

在医学文献中PICOS信息会在文献摘要中概括，因此需要对文献摘要抽取形成PICOS。目前抽取PICOS比较困难，需要专业的医学人士仔细阅读，并进行标注才能完成。

可见，传统的人工抽取PICOS的方式具有专业性要求高、人工操作繁琐、易出错等问题。因此，需要提出一种自动化抽取方法，以实现自动化抽取PICOS，减少人工操作。

目前虽有对文献摘要句子进行分类或实体识别的方法，然而这些方法并没有考虑到摘要中句子在文中的位置以及类别信息，因而在针对PICOS抽取时并不适用，具体体现在：

(1).在对医学领域文章的摘要进行PICOS抽取分类的过程中，传统方法并没有考虑到句子的位置信息，通过观察发现句子的位置信息对于PICOS抽取分类的影响较大。

例如：在一篇文章摘要中，正常情况下研究对象信息P会出现在文章摘要的开头部分，而干预I会出现在结果O的前面，通过这样的规律发现句子位置信息的重要性。

(2).在对医学领域文章的摘要进行句子实体识别时，传统方法并没有考虑到句子的类别和句子的位置信息，通过观察会发现一些实体在特定的句子类别中出现的次数较多。

例如：研究对象的实体在背景和方法中出现的次数较多。

由于传统的方法在对文献进行分类和实体识别的方法，并没有考虑句子的位置信息以及类别信息的重要性，因此容易导致在应用于PICOS抽取时分类和实体识别精度降低。

发明内容

本发明的目的在于提出一种针对PICOS抽取的分类和实体识别联合抽取方法，通过加入句子的类别和位置信息，以提高PICOS抽取分类以及实体信息识别的准确率。

本发明为了实现上述目的，采用如下技术方案：

一种针对PICOS抽取的分类和实体识别联合抽取方法，包括如下步骤：

步骤1.数据获取以及预处理操作；

首先获取多篇医学领域文章的摘要信息，然后将所有医学领域文章的摘要信息进行分句操作，并记录各条句子在对应医学领域文章的摘要信息中的位置；

步骤2.句子标注以及构建数据集；

对每条句子进行标注，包括分类任务标注以及实体识别任务标注；分类任务标注将句子划分为P、I、C、O、S、其他，共六个类别，实体识别任务标注对每条句子标注实体信息；

将每条句子的句子文本以及该句子的句子位置、句子类别以及句子实体信息共同组成一个数据样本，将与所有句子对应的数据样本共同组成数据集；

将数据集划分为训练集以及测试集，其中训练集用于模型训练，测试集用于模型测试；

步骤3.构建分类和实体识别联合抽取模型；

分类和实体识别联合抽取模型包括一个向量化模块、两个拼接模块、一个分类模块以及一个实体识别模块，其中，进行如下定义：

定义两个拼接模块分别为第一拼接模块以及第二拼接模块；

向量化模块的输入分别为句子文本、句子位置以及句子类别；

其中，分类和实体识别联合抽取模型的处理过程如下：

首先将句子文本以及句子位置分别作为向量化模块的输入，并依次输入到向量化模块中，分别得到句子文本向量以及句子位置向量；

句子文本向量和句子位置向量在第一拼接模块中进行拼接得到第一拼接句子向量；

第一拼接向量输入到分类模块中进行分类操作，得到句子类别；

将句子类别作为向量化模块的输入，并输入到向量模块中，得到句子类别向量；句子类别向量与第一拼接句子向量在第二拼接模块中进行拼接得到第二拼接句子向量；

将第二拼接句子向量输入到实体识别模块中，得到句子的实体信息；

步骤4.训练及测试分类和实体识别联合抽取模型；

利用步骤2训练集中的样本数据对步骤3中的分类和实体识别联合抽取模型进行训练，并保存模型参数，得到训练好的分类和实体识别联合抽取模型；

利用测试集中的样本数据对训练好的分类和实体识别联合抽取模型进行测试；

步骤5.对医学领域文章摘要信息进行PICOS抽取分类和实体信息识别；

首先按照步骤1对医学领域文章摘要进行预处理，然后预处理后的句子文本和句子位置输入到训练好的分类和实体识别联合抽取模型中，得到PICOS抽取分类和实体识别结果。

此外，本发明还提出了一种与上述针对PICOS抽取的分类和实体识别联合抽取方法相对应的计算机设备，该计算机设备包括存储器和一个或多个处理器。

所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，用于实现上面述及的针对PICOS抽取的分类和实体识别联合抽取方法。

此外，本发明还提出了一种与上述针对PICOS抽取的分类和实体识别联合抽取方法相对应的计算机可读存储介质，其上存储有程序；该程序被处理器执行时，

用于实现上面述及的针对PICOS抽取的分类和实体识别联合抽取方法。

本发明具有如下优点：

如上所述，本发明述及了一种针对PICOS抽取的分类和实体识别联合抽取方法，该方法充分考虑到医学领域文章在撰写时的书写逻辑问题，在该场景和任务中加入了句子的位置信息以及句子的类别信息，并且针对PICOS抽取场景搭建了同时包含分类模块以及实体识别模块的联合抽取模型，能够在进行PICOS抽取时充分考虑到句子位置信息的重要性，同时在实体信息识别时能够充分考虑到句子的位置信息以及句子的类别信息的重要性，使得本发明方法在面对医学领域文章的PICOS抽取分类时以及实体信息识别时准确率明显提高。

附图说明

图1为本发明实施例中针对PICOS抽取的分类和实体识别联合抽取方法的流程图；

图2为本发明实施例中针对PICOS抽取的分类和实体识别联合抽取方法的模型框图；

图3为本发明实施例中得到第一拼接句子向量的过程示意图；

图4为本发明实施例中得到第二拼接句子向量的过程示意图。

具体实施方式

名词解释：

PICOS原则：在循证医学中，任何一个研究都是由患者、干预、比较、结果和试验设计组成的，即PICOS原则，PICOS原则有5个元素组成：

P(Population)研究对象：需要研究的对象人群或代表与研究对象相关的问题。

I(Intervention)干预措施：对研究人群采用的治疗干预措施或与观察指标。

C(Comparison)比较组：代表对照组和将给予治疗措施或观察的指标。

O(Outcome)结果：代表与结局指标和相关的问题。

S(Study design)研究类型：即研究设计是什么，队列研究、病例对照还是横断面。

softmax:用于多类分类问题的激活函数。

CRF:条件随机场(conditional random field)的简称，是一种鉴别式机率模型，常用于标注或分析序列资料。

PubMed：是一个提供生物医学方面的论文搜寻以及摘要，并且免费搜寻的数据库。

无论是对文献进行解读或要开始做临床研究，提出一个研究问题时特别是治疗方法相关的研究问题，都可以按照PICOS的思路加以充实和完善，进而转化成完整的研究内容。

目前大部分的医学文献也都是按照PICOS的思路和原则来进行编写文献。

因此，在医学文献撰写时通常会有一定的书写逻辑，例如：一篇文章的摘要一般会先描述的背景信息，然后才是试验过程和设计方案，最后是实验结果和总结。

这种书写逻辑信息在做文章摘要分类的过程中也极为重要。

目前现有技术在进行文献摘要句子分类的过程中没有考虑到摘要中句子的位置信息。

本发明充分考虑到了PICOS原则的特殊性，在进行PICOS句子抽取分类和实体识别的过程中，加入句子的位置和类别信息来利用PICOS的原则去进行模型训练。

最终使得训练好的模型在进行PICOS抽取分类以及实体识别时准确率明显提升。

针对医学文献摘要的PICOS抽取，本发明的发明构思如下：

本发明首先将PICOS抽取看成一个文献摘要句子分类任务，将文献摘要根据标点符号进行分句，对每条句子进行分类，分为PICOS和其他六个类别；

然后再结合每条的句子文本、句子类别和句子位置信息，构建一个分类和实体识别联合抽取模型，去做一个实体识别的任务，从而抽取出文章摘要中的重要文字信息。

下面结合附图以及具体实施方式对本发明作进一步详细说明：

如图1所示，针对PICOS抽取的分类和实体识别联合抽取方法，包括如下步骤：

步骤1.数据获取以及预处理操作。

首先获取多篇医学领域文章的摘要信息，然后将所有医学领域文章的摘要信息进行分句操作，并记录各条句子在对应医学领域文章的摘要信息中的位置。

本实施例中文章可以从PubMed数据库中获取，选出大约1000篇医学领域文章摘要。

在分句操作之前，需要先将问题文献去除。

本实施例中的问题文献是指文献中没有摘要或者摘要只要一句话的文献。

本实施例中通过标点符号(例如句号、问号等)对每篇医学领域文章的摘要信息进行分句操作，并记录每条句子在文献摘要的中位置，例如：在文章摘要中第几句。

步骤2.句子标注以及构建数据集。

对每条句子进行标注，包括分类任务标注以及实体识别任务标注。分类任务标注将句子划分为P、I、C、O、S、其他，共六个类别，实体识别任务标注对每条句子标注实体信息。

实体信息需要按照业务需要设定实体类别，例如：P：种族，地区；I-C：干预措施，干预方案，研究时间；O：主要研究终点，次要研究终点；S：研究设计，临床试验分期。

本实施例将每条句子的句子文本以及该句子的句子位置、句子类别以及句子实体信息共同组成一个数据样本，同时将与所有句子对应的数据样本共同组成数据集。

将数据集划分为训练集以及测试集，其中训练集用于模型训练，测试集用于模型测试。

本实施例中将训练和测试数据分开保存为两个excel文件。

如表1所示，excel的列名为：句子文中，句子位置，句子类别，句子实体(start_offset为实体开头下标，end_offset为实体结尾下标，label_name为实体信息)。

表1

步骤3.构建分类和实体识别联合抽取模型，其包括一个向量化模块、两个拼接模块、一个分类模块以及一个实体识别模块，如图2所示。

其中，向量化模块的输入分别为句子文本、句子位置以及句子类别，其作用是将句子文本、句子位置以及句子类别转换为句子文本向量、句子位置向量以及句子类别向量。

定义两个拼接模块分别为第一拼接模块以及第二拼接模块。

其中，第一拼接模块以及第二拼接模块优选采用torch.cat拼接向量模块实现。

分类和实体识别联合抽取模型的处理过程如下：

首先将句子文本以及句子位置分别作为向量化模块的输入，并依次输入到向量化模块中，分别得到句子文本向量以及句子位置向量。

句子文本向量和句子位置向量在第一拼接模块中进行拼接得到第一拼接句子向量。

本实施例中向量化模块优选采用Bert预训练模型。

其中，利用Bert预训练模型进行句子文本向量的获取过程如下：

将句子文本依次通过第一预训练模型进行文本嵌入，将Bert预训练模型最后一层hiddenlayer状态，作为其Embedding输出，得到句子文本向量。

其中，利用Bert预训练模型进行句子位置向量的获取过程如下：

将句子位置依次通过第二预训练模型进行文本嵌入，将Bert预训练模型最后一层hiddenlayer状态，作为其Embedding输出，得到句子位置向量。

句子文本向量和句子位置向量在第一拼接模块中进行拼接操作得到第一拼接句子向量，通过两个向量拼接得到第一拼接句子向量，如图3所示。

由图3可知，第一拼接句子向量充分考虑句子位置的影响，将该第一拼接句子向量输入到分类模块中进行分类操作，利于提高PICOS抽取分类的准确性。

第一拼接向量输入到分类模块中进行分类操作，通过预测得到句子类别。

分类模块包括LayerNorm层、两层神经网络层以及一层softmax分类层。

第一拼接句子向量在分类模块中的处理过程为：第一拼接句子向量首先进入LayerNorm层，再进入两层神经网络层，最后经过softmax分类层输出预测的句子类别。

神经网络层的激活函数使用relu函数，dropout值为0.2。

将句子类别作为向量化模块的输入，并输入到向量模块中，得到句子类别向量；句子类别向量与第一拼接句子向量在第二拼接模块中进行拼接得到第二拼接句子向量，如图4所示。

其中，利用Bert预训练模型进行句子类别向量的获取过程如下：

将分类模块输出的句子类别通过第三预训练模型进行文本嵌入，将Bert预训练模型最后一层hiddenlayer状态，作为其Embedding输出，得到句子类别向量。

将第二拼接句子向量输入到实体识别模块中，通过预测得到句子的实体信息。

由图4可知，第二拼接句子向量充分考虑句子位置和类别的影响，将该第二拼接句子向量输入到实体识别模块中进行识别操作，利于提高实体信息识别的准确性。

本实施例中实体识别模块采用CRF实体识别模块，此处不再详细赘述。

步骤4.训练及测试分类和实体识别联合抽取模型。

利用步骤2训练集中的样本数据对步骤3中的分类和实体识别联合抽取模型进行训练，并保存模型参数，得到训练好的分类和实体识别联合抽取模型。

训练过程如下：首先将训练集的数据样本中的句子文本和句子位置作为输入，输入到步骤3构建的分类和实体识别联合抽取模型中，其中：

句子文本和句子位置分别进入向量化模块并得到句子文本向量以及句子位置向量；句子文本向量和句子位置向量在第一拼接模块中进行拼接得到第一拼接句子向量。

第一拼接向量输入到分类模块中进行分类操作，预测得到句子类别。

将句子类别作为向量化模块的输入，并输入到向量模块中，得到句子类别向量；句子类别向量与第一拼接句子向量在第二拼接模块中进行拼接得到第二拼接句子向量。

将第二拼接句子向量输入到实体识别模块中，预测得到句子的实体信息。

本发明中分类模块的损失值采用交叉熵损失函数计算得到，实体识别模块的损失值由CRF损失函数计算得到，联合抽取模型的总损失值由两个损失值的和组成。

本发明通过最小化联合抽取模型的总损失值，得到分类模块和实体识别模块的模型参数，保存上述模型参数，得到训练好的分类模块和实体识别模块。

利用测试集中的样本数据对训练好的分类和实体识别联合抽取模型进行测试。

步骤5.对医学领域文章摘要信息进行PICOS抽取分类和实体信息识别，具体过程如下：

本发明在文献摘要句子分类和实体识别场景下加入位置信息和类别信息去表示句子的embedding，通过加入句子的类别和句子的位置信息来提高实体识别的准确率。

另外，由于本发明采用了对PICOS进行抽取分类以及实体信息识别的联合抽取模型，因而不需要将两个任务(文本分类和实体识别)分开训练所以节省了多余操作。

为了验证本发明方法的有效性，还将本发明方法(加入位置信息)与不加入位置信息的模型，在PICOS抽取分类以及实体识别准确率两方面进行了对比，对比结果如表2所示。

表2

项目	未加入位置信息(准确率)	加入位置信息(准确率)
			句子分类	94.0％	98.2％
实体识别	92.4％	94.5％

通过将本发明方法与不加入位置的模型相比，分类模块的准确率提升了4.2％，实体识别模块的准确率提升了2.1％，效果均有着显著的提升，证明了本发明方法的有效性。

此外，本发明实施例中还提出了一种用于实现上述针对PICOS抽取的分类和实体识别联合抽取方法的计算机设备。该计算机设备包括存储器和一个或多个处理器。

其中，在存储器中存储有可执行代码，当处理器执行可执行代码时，用于实现上述针对PICOS抽取的分类和实体识别联合抽取方法。

本实施例中计算机设备为任意具备数据数据处理能力的设备或装置，此处不再赘述。

此外，本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述针对PICOS抽取的分类和实体识别联合抽取方法。

该计算机可读存储介质可以是任意具备数据处理能力的设备或装置的内部存储单元，例如硬盘或内存，也可以是任意具备数据处理能力的设备的外部存储设备，例如设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。

当然，以上说明仅仅为本发明的较佳实施例，本发明并不限于列举上述实施例，应当说明的是，任何熟悉本领域的技术人员在本说明书的教导下，所做出的所有等同替代、明显变形形式，均落在本说明书的实质范围之内，理应受到本发明的保护。

Claims

1.一种针对PICOS抽取的分类和实体识别联合抽取方法，其特征在于，包括如下步骤：

步骤1.数据获取以及预处理操作；

步骤2.句子标注以及构建数据集；

将每条句子的句子文本以及该句子的句子位置、句子类别以及句子实体信息共同组成一个数据样本；将与所有句子对应的数据样本共同组成数据集；

步骤3.构建分类和实体识别联合抽取模型；

分类和实体识别联合抽取模型包括一个向量化模块、两个拼接模块、一个分类模块以及一个实体识别模块，定义两个拼接模块分别为第一拼接模块以及第二拼接模块；

其中，向量化模块的输入为句子文本、句子位置以及句子类别；

分类和实体识别联合抽取模型的处理过程如下：

将句子类别作为向量化模块的输入，并输入到向量模块中，得到句子类别向量；

句子类别向量与第一拼接句子向量在第二拼接模块中进行拼接得到第二拼接句子向量；

步骤4.训练及测试分类和实体识别联合抽取模型；

首先按照步骤1对文章摘要进行预处理，然后预处理后的句子文本和句子位置输入到训练好的分类和实体识别联合抽取模型中，得到PICOS抽取分类和实体识别结果。

2.根据权利要求1所述的针对PICOS抽取的分类和实体识别联合抽取方法，其特征在于，

所述向量化模块采用Bert预训练模型；

句子文本向量的获取过程如下：将句子文本依次通过Bert预训练模型进行文本嵌入，将Bert最后一层hiddenlayer状态，作为其Embedding输出，得到句子文本向量；

句子位置向量的获取过程如下：将句子位置依次通过Bert预训练模型进行文本嵌入，将Bert最后一层hiddenlayer状态，作为其Embedding输出，得到句子位置向量；

句子类别向量的获取过程如下：将句子类别通过Bert预训练模型进行文本嵌入，将Bert最后一层hiddenlayer状态，作为其Embedding输出，得到句子类别向量。

3.根据权利要求1所述的针对PICOS抽取的分类和实体识别联合抽取方法，其特征在于，

所述分类模块包括LayerNorm层、两层神经网络层以及一层softmax分类层；

4.根据权利要求1所述的针对PICOS抽取的分类和实体识别联合抽取方法，其特征在于，所述实体识别模块采用CRF实体识别模块。

5.根据权利要求1所述的针对PICOS抽取的分类和实体识别联合抽取方法，其特征在于，所述步骤1中，在分句操作之前，需要先将问题文献去除。

6.根据权利要求1所述的针对PICOS抽取的分类和实体识别联合抽取方法，其特征在于，所述步骤1中，通过标点符号对每篇医学领域文章的摘要信息进行分句操作。

7.根据权利要求1所述的针对PICOS抽取的分类和实体识别联合抽取方法，其特征在于，所述第一拼接模块以及第二拼接模块采用torch.cat拼接向量模块。

8.根据权利要求1所述的针对PICOS抽取的分类和实体识别联合抽取方法，其特征在于，

所述步骤4中，分类和实体识别联合抽取模型的总损失值由分类模块的损失值和实体识别模块的损失值组成；通过最小化总损失值得到分类模块和实体识别模块的模型参数。

9.一种计算机设备，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，其特征在于，所述处理器执行所述可执行代码时，

实现如权利要求1至8任一项所述的针对PICOS抽取的分类和实体识别联合抽取方法。

10.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时，实现如权利要求1至8任一项所述的针对PICOS抽取的分类和实体识别联合抽取方法。