CN113836892B

CN113836892B - 样本量数据提取方法、装置、电子设备及存储介质

Info

Publication number: CN113836892B
Application number: CN202111052101.XA
Authority: CN
Inventors: 王则远; 周永杰
Original assignee: Lingxi Quantum Beijing Medical Technology Co ltd
Current assignee: Lingxi Quantum Beijing Medical Technology Co ltd
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2023-08-08
Anticipated expiration: 2041-09-08
Also published as: CN113836892A

Abstract

本发明提供一种样本量数据提取方法、装置、电子设备及存储介质，该方法包括：通过预设规则将临床研究文献分为关键句可提取临床研究文献和关键句不可提取临床研究文献；通过预设分句规则将关键句可提取临床研究文献的摘要数据进行分句，得到方法数据的第一关键句数据；将方法数据和非方法数据作为训练数据集对第一预训练模型进行训练，得到数据抽取模型，基于数据抽取模型提取关键句不可提取临床研究文献，得到第二关键句数据；将第一关键句数据和第二关键句数据作为关键句数据集合对第二预训练模型进行训练，得到数据生成模型，基于数据生成模型生成样本量数据。本发明通过数据抽取模型和数据生成模型提取数据，提升了样本量数据的准确性。

Description

样本量数据提取方法、装置、电子设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种样本量数据提取方法、装置、电子设备及存储介质。

背景技术

目前的临床医学研究中，临床研究样本量数据的提取相关工作基本都是基于人工提取方式进行的。人工提取方式即通过两位研究者背对背独立进行样本量数据的提取，但是在人工提取操作的过程中，往往存在很多影响研究者的不确定性因素，从而造成提取出的样本量数据不准确，使得提取出的样本量数据的准确性低。

发明内容

本发明提供一种样本量数据提取方法、装置、电子设备及存储介质，旨在提升提取出的样本量数据的准确性。

本发明提供一种样本量数据提取方法，包括：

获取临床研究文献，通过预设规则将所述临床研究文献分为关键句可提取临床研究文献和关键句不可提取临床研究文献；

通过预设分句规则将所述关键句可提取临床研究文献的摘要数据进行分句，得到对应的方法数据和非方法数据，并将所述方法数据确定为第一关键句数据；

将所述方法数据和所述非方法数据确定为第一训练数据集，基于所述第一训练数据集对第一预训练模型进行训练，得到数据抽取模型，并基于所述数据抽取模型对所述关键句不可提取临床研究文献进行提取，得到第二关键句数据；

将所述第一关键句数据和所述第二关键句数据确定为关键句数据集合，基于所述关键句数据集合对第二预训练模型进行训练，得到数据生成模型，基于所述数据生成模型生成样本量数据。

根据本发明提供的一种样本量数据提取方法，所述基于所述关键句数据集合对第二预训练模型进行训练，得到数据生成模型，基于所述数据生成模型生成样本量数据的步骤包括：

提取所述关键句数据集合中预设比例的关键句数据，并确定所述预设比例的关键句数据基于人工标记的人工标记结果；

将所述携带有人工标记结果的预设比例的关键句数据，确定为第二训练数据集，并基于所述第二训练数据集对所述第二预训练模型进行训练，得到所述数据生成模型；

将所述关键句数据集合中除预设比例的关键句数据之外的剩余关键句数据输入至所述数据生成模型中，得到对应的第一推理结果，并基于所述第一推理结果生成所述样本量数据。

根据本发明提供的一种样本量数据提取方法，所述基于所述第二训练数据集对所述第二预训练模型进行训练，得到所述数据生成模型的步骤包括：

确定在所述第二预训练模型训练过程中生成的模型验证结果，基于所述模型验证结果确定对应的最优数据模型；

将所述最优数据模型确定为所述数据生成模型。

根据本发明提供的一种样本量数据提取方法，所述基于所述模型验证结果确定对应的最优数据模型的步骤包括：

对所述模型验证结果进行分析，得到对应的预测错误数据；

选取所述预测错误数据中预设类数据替换第二训练数据集中对应的关键句数据，得到对应的新训练数据集；

基于所述新训练数据集对所述第二预训练模型进行训练，得到所述最优数据模型。

根据本发明提供的一种样本量数据提取方法，所述基于所述数据抽取模型对所述关键句不可提取临床研究文献进行提取，得到第二关键句数据的步骤包括：

将所述关键句不可提取临床研究文献的摘要数据进行分句，得到对应的各个第一分句数据；

将各个所述第一分句数据输入至所述数据抽取模型，得到对应的第二推理结果，并基于所述第二推理结果确定所述第二关键句数据。

根据本发明提供的一种样本量数据提取方法，所述将各个所述第一分句数据输入至所述数据抽取模型，得到对应的第二推理结果，并基于所述第二推理结果确定所述第二关键句数据的步骤包括：

将各个所述第一分句数据输入至所述数据抽取模型中，得到各个所述第一分句数据对应的激活函数值；

确定所述数据抽取模型的最佳分类边界数值，并确定在各个所述第一分句数据中是否存在目标分句数据，得到所述第二推理结果，其中，所述目标分句数据对应的激活函数值大于或者等于所述最佳分类边界数值；

若所述第二推理结果为在各个所述第一分句数据中存在所述目标分句数据，则将所述目标分句数据确定为所述第二关键句数据。

根据本发明提供的一种样本量数据提取方法，所述通过预设分句规则将所述关键句可提取临床研究文献的摘要数据进行分句，得到对应的方法数据和非方法数据，并将所述方法数据确定为第一关键句数据的步骤包括：

通过所述预设分句规则将所述关键句可提取临床研究文献的摘要数据进行分句，得到携带数据标签的各个第二分句数据，其中，所述数据标签包括正样本标签和负样本标签；

将携带有正样本标签的第二分句数据确定为方法数据，并将携带有负样本标签的第二分句数据确定为非方法数据；

将所有携带有正样本标签的第二分句数据进行提取，得到所述第一关键句数据。

本发明还提供一种样本量数据提取装置，包括：

获取模块，用于获取临床研究文献，通过预设规则将所述临床研究文献分为关键句可提取临床研究文献和关键句不可提取临床研究文献；

确定模块，用于通过预设分句规则将所述关键句可提取临床研究文献的摘要数据进行分句，得到对应的方法数据和非方法数据，并将所述方法数据确定为第一关键句数据；

抽取模块，用于将所述方法数据和所述非方法数据确定为第一训练数据集，基于所述第一训练数据集对第一预训练模型进行训练，得到数据抽取模型，并基于所述数据抽取模型对所述关键句不可提取临床研究文献进行提取，得到第二关键句数据；

生成模块，用于将所述第一关键句数据和所述第二关键句数据确定为关键句数据集合，基于所述关键句数据集合对第二预训练模型进行训练，得到数据生成模型，基于所述数据生成模型生成样本量数据。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述样本量数据提取方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述样本量数据提取方法的步骤。

本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被所述处理器执行时实现如上任一种所述样本量数据提取方法的步骤。

本发明提供的样本量数据提取方法、装置、电子设备及存储介质，通过获取临床研究文献，通过预设规则将临床研究文献分为关键句可提取临床研究文献和关键句不可提取临床研究文献；通过预设分句规则将关键句可提取临床研究文献的摘要数据进行分句，得到对应的方法数据和非方法数据，并将方法数据确定为第一关键句数据；将方法数据和非方法数据确定为第一训练数据集，基于第一训练数据集对第一预训练模型进行训练，得到数据抽取模型，并基于数据抽取模型对关键句不可提取临床研究文献进行提取，得到第二关键句数据；将第一关键句数据和第二关键句数据确定为关键句数据集合，基于关键句数据集合对第二预训练模型进行训练，得到数据生成模型，基于数据生成模型生成样本量数据。由此可知，本发明通过预设规则将临床研究文献进行分类，再通过数据抽取模型提取包含样本量数据关键信息的关键句数据集合，再通过数据生成模型和关键句数据集合生成样本量数据，也即将临床研究文献的样本量数据提取与预设规则及自然语言处理技术结合，从而提升了样本量数据的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的样本量数据提取方法的流程示意图之一；

图2是本发明提供的样本量数据提取方法的流程示意图之二；

图3是本发明提供的样本量数据提取方法的流程示意图之三；

图4是本发明提供的样本量数据提取装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1至图5描述本发明提供的样本量数据提取方法、装置、电子设备及存储介质。

具体地，本发明提供一种样本量数据提取方法，参照图1，图1是本发明提供的样本量数据提取方法的流程示意图之一。

本发明实施例提供了样本量数据提取方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些数据下，可以以不同于此处的顺序完成所示出或描述的步骤。

本发明实施例方法以电子设备作为执行主体进行举例，本发明实施例提供的样本量数据提取方法包括：

步骤S10，获取临床研究文献，通过预设规则将所述临床研究文献分为关键句可提取临床研究文献和关键句不可提取临床研究文献。

需要说明的是，本发明实施例中的数据提取系统是电子设备的表现形式之一，并不对电子设备进行限制。本实施例中的数据提取系统中至少包括一个子系统EBM(Evidence-based medicine，循证医学)AI-Reviewer系统，即循证医学智能文献筛选系统，若干个算法架构，其中，算法架构主要的两个中文医学预训练模型为中文医学预训练模型NDYX-ELECTRA和中文医学预训练模型NDYX-UniLM。中文医学预训练模型NDYX-ELECTRA在中文预训练模型ELECTRA的基础上，基于1000万篇中文医学文献的摘要数据训练得到的中文医学文献预训练模型。中文医学预训练模型NDYX-UniLM采用了UniLM架构，UniLM架构与BERT结构的训练方式不同，UniLM结构联合训练了三种不同目标函数的无监督语言模型，单向语言模型、双向语言模型与序列到序列语言模型，基于1000万篇中文医学文献的摘要数据训练得到的中文医学文献预训练模型。

进一步地，临床研究文献的摘要数据一般可分为四个部分数据，分别为目的部分数据、方法部分数据、结果部分数据和结论部分数据。在循证医学在辅助医疗决策和医学研究的过程中，为了制作准确的系统评价，需要提取准确的样本量数据进行辅助，其中，所谓的样本量数据也即临床研究文献的摘要数据中方法部分数据。因此，在制作系统评价的过程中，数据提取系统通过EBM AI-Reviewer系统获取临床研究文献，并通过预设规则判定获取到的临床研究文献的文献类型，确定该临床研究文献的文献类型是关键句可提取类型，还是关键句不可提取类型，也即通过预设规则可将获取到的临床研究文献分为关键句可提取临床研究文献和关键句不可提取临床研究文献。

进一步可以理解为，预设规则是一种逻辑判断规则，也即数据提取系统判断该临床研究文献的文献逻辑是否符合预设逻辑规则，若确定该临床研究文献的文献逻辑符合预设逻辑规则，数据提取系统则将该临床研究文献的文献类型判定为关键句可提取类型，也即将该临床研究文献分类为关键句可提取临床研究文献。若确定该临床研究文献的文献逻辑不符合预设逻辑规则，数据提取系统则将该临床研究文献的文献类型判定为关键句不可提取类型，也即将该临床研究文献分类为关键句不可提取临床研究文献，其中，预设逻辑规则为系统设定的，本实施例不作限制。

步骤S20，通过预设分句规则将所述关键句可提取临床研究文献的摘要数据进行分句，得到对应的方法数据和非方法数据，并将所述方法数据确定为第一关键句数据。

需要说明的是，数据提取系统将获取到的临床研究文献进行分类之后，对关键句可提取临床研究文献和关键句不可提取临床研究文献分别进行对应的操作，即将关键句可提取临床研究文献和关键句不可提取临床研究文献中摘要数据的方法部分数据(方法数据)进行提取。

具体地，数据提取系统通过预设分句规则将关键句可提取临床研究文献的摘要数据进行分句处理，即通过预设分句规则将关键句可提取临床研究文献的摘要数据分类为方法部分数据(方法数据)和非方法部分数据(非方法数据)，并将摘要数据中的方法部分数据进行提取，得到临床研究文献的第一关键句数据，其中，预设分句规则是根据实际情况设定的，关键句数据即包含样本量数据的关键信息片段。具体如步骤S201至步骤S203。

进一步地，步骤S201至步骤S203的具体描述如下：

步骤S201，通过所述预设分句规则将所述关键句可提取临床研究文献的摘要数据进行分句，得到携带数据标签的各个第二分句数据，其中，所述数据标签包括正样本标签和负样本标签；

步骤S202，将携带有正样本标签的第二分句数据确定为方法数据，并将携带有负样本标签的第二分句数据确定为非方法数据；

步骤S203，将所有携带有正样本标签的第二分句数据进行提取，得到所述第一关键句数据。

具体地，数据提取系统根据预设分句规则构建对应的分类关键词词典，并通过分类关键词词典中的关键词将关键句可提取临床研究文献的摘要数据进行分句，即将关键句可提取临床研究文献的摘要数据分为的多个分句数据(第二分句数据)。需要说明的是，在通过分类关键词词典的分句的各个第二分句数据中都携带有其对应的数据标签，数据标签包括正样本标签和负样本标签。其中，数据提取系统将携带有正样本标签的第二分句数据定义为方法数据，将携带有负样本标签的第二分句数据定义为非方法数据。接着，数据提取系统将所有携带的数据标签为正样本标签的第二分句数据进行提取，得到关键句可提取临床研究文献的摘要数据对应的方法数据，并将该方法数据确定为临床研究文献的第一关键句数据。

本实施例通过结合分类关键词词典(预设分句规则)以及数据标签提取关键句可提取临床研究文献中摘要数据的方法数据(第一关键句数据)，从而保证了第一关键句数据的准确性。

步骤S30，将所述方法数据和所述非方法数据确定为第一训练数据集，基于所述第一训练数据集对第一预训练模型进行训练，得到数据抽取模型，并基于所述数据抽取模型对所述关键句不可提取临床研究文献进行提取，得到第二关键句数据。

数据提取系统将上述步骤S20部分，关键句可提取临床研究文献的摘要数据对应的方法数据和非方法数据，确定为第一训练数据集，通过该第一训练数据集对第一预训练模型(步骤S10描述的中文医学预训练模型NDYX-ELECTRA)进行训练，通过F-Measure与Accuracy的评估模型效果方法对训练得到的数据模型进行效果评估，并效果最好的数据模型确定为最优数据模型，也即将最高的F-Measure及最高的Accuracy对应的数据模型确定为最优数据模型，并将最优数据模型确定为数据抽取模型。其中，F-Measure越高，表示数据抽取模型性能越好。Accuracy表示提取数据的准确率，Accuracy越高，表示提取数据越准确。接着，数据提取系统将关键句不可提取临床研究文献输入至该数据抽取模型中，通过该数据模型抽取出关键句不可提取临床研究文献中摘要数据的方法数据，并将关键句不可提取临床研究文献的方法数据确定为临床研究文献的第二关键句数据。

需要说明的是，本实施例中训练的数据抽取模型采用中文医学预训练模型NDYX-ELECTRA最后四层的平均值作为句向量，再将句向量输入到两个全连接层中。第一个全连接层对句向量作特征变换，将768维向量转换为256维向量。第二个全连接层采用sigmoid作为激活函数，将各个256维向量转换为介于0至1的值。数据抽取模型的损失函数利用Focalloss来解决正负样本比例不平衡的问题。

步骤S40，将所述第一关键句数据和所述第二关键句数据确定为关键句数据集合，基于所述关键句数据集合对第二预训练模型进行训练，得到数据生成模型，基于所述数据生成模型生成样本量数据。

数据提取系统得到临床研究文献的第一关键句数据和第二关键句数据后，将第一关键句数据和第二关键句数据确定为关键句数据集合，并将该关键句数据集合作为训练数据集，通过该训练数据集对第二预训练模型(步骤S10描述的中文医学预训练模型NDYX-UniLM)进行训练，得到对应的数据生成模型，再通过该数据生成模型生成临床研究文献的样本量数据。

本实施例提供了样本量数据提取方法，通过获取临床研究文献，通过预设规则将临床研究文献分为关键句可提取临床研究文献和关键句不可提取临床研究文献；通过预设分句规则将关键句可提取临床研究文献的摘要数据进行分句，得到对应的方法数据和非方法数据，并将方法数据确定为第一关键句数据；将方法数据和非方法数据确定为第一训练数据集，基于第一训练数据集对第一预训练模型进行训练，得到数据抽取模型，并基于数据抽取模型对关键句不可提取临床研究文献进行提取，得到第二关键句数据；将第一关键句数据和第二关键句数据确定为关键句数据集合，基于关键句数据集合对第二预训练模型进行训练，得到数据生成模型，基于数据生成模型生成样本量数据。由此可知，本实施例通过预设规则将临床研究文献进行分类，再通过数据抽取模型提取包含样本量数据关键信息的关键句数据集合，再通过数据生成模型和关键句数据集合生成样本量数据，也即将临床研究文献的样本量数据提取与预设规则及自然语言处理技术结合，从而提升了样本量数据的准确性。

进一步地，参照图2，图2是本发明提供的样本量数据提取方法的流程示意图之二，所述步骤S30包括：

步骤S301，将所述关键句不可提取临床研究文献的摘要数据进行分句，得到对应的各个第一分句数据；

步骤S302，将各个所述第一分句数据输入至所述数据抽取模型，得到对应的第二推理结果，并基于所述第二推理结果确定所述第二关键句数据。

数据提取系统将关键句不可提取临床研究文献的摘要数据进行分句，得到对应的各个第一分句数据，并将各个第一分句数据输入至数据抽取模型中，得到各个第一分句数据对应的激活函数值。同时，数据提取系统确定该数据抽取模型对应的最佳分类边界数值，根据各个第一分句数据对应的激活函数值和最佳分类边界数值，得到对应的第二推理结果，并根据第二推理结果提取关键句不可提取临床研究文献的摘要数据的方法数据，得到临床研究文献的第二关键句数据，具体如步骤S3021至S3023。

进一步地，步骤S3021至步骤S3023的具体描述如下：

步骤S3021，将各个所述第一分句数据输入至所述数据抽取模型中，得到各个所述第一分句数据对应的激活函数值；

步骤S3022，确定所述数据抽取模型的最佳分类边界数值，并确定在各个所述第一分句数据中是否存在目标分句数据，得到所述第二推理结果，其中，所述目标分句数据对应的激活函数值大于或者等于所述最佳分类边界数值；

步骤S3023，若所述第二推理结果为在各个所述第一分句数据中存在所述目标分句数据，则将所述目标分句数据确定为所述第二关键句数据。

数据提取系统将各个第一分句数据输入至数据抽取模型中，得到各个第一分句数据对应的激活函数值，同时确定该数据抽取模型对应的最佳分类边界数值。接着，数据提取系统将各个第一分句数据对应的激活函数值与最佳分类边界数值进行数值大小比较，确定在各个第一分句数据中是否存在激活函数值大于或者等于最佳分类边界数值的目标分句数据，得到对应的第二推理结果。其中，第二推理结果可为存在目标分句数据，也可为不存在目标分句数据。若第二推理结果为存在目标分句数据，数据提取系统则确定所有的目标分句数据，并将所有的目标分句数据确定为临床研究文献的第二关键句数据。

在本实施例中，比如，数据抽取模型对应的最佳分类边界值为0.45，数据提取系统则将所有激活函数值大于或者等于0.45的分句数据，确定为临床研究文献的第二关键句数据。

本实施例提供了样本量数据提取方法，通过将关键句不可提取临床研究文献的摘要数据进行分句，得到对应的各个第一分句数据；将各个第一分句数据输入至数据抽取模型，得到对应的第二推理结果，并基于第二推理结果确定第二关键句数据。由此可知，本实施例通过数据抽取模型提取包含样本量数据关键信息的第二关键句数据，将关键句数据的提取与与自然语言处理技术结合，保证了第二关键句数据的准确性，同时保证了关键句数据集合的准确性，为提取准确的样本量数据提供了保障。

进一步地，参照图3，图3是本发明提供的样本量数据提取方法的流程示意图之三，所述步骤S40包括：

步骤S401，提取所述关键句数据集合中预设比例的关键句数据，并确定所述预设比例的关键句数据基于人工标记的人工标记结果；

步骤S402，将所述携带有人工标记结果的预设比例的关键句数据，确定为第二训练数据集，并基于所述第二训练数据集对所述第二预训练模型进行训练，得到所述数据生成模型；

步骤S403，将所述关键句数据集合中除预设比例的关键句数据之外的剩余关键句数据输入至所述数据生成模型中，得到对应的第一推理结果，并基于所述第一推理结果生成所述样本量数据。

数据提取系统提取关键句数据集合中预设比例的关键句数据进行人工标记，为了方便理解，将预设比例的关键句数据定义为待训练数据集，其中，预设比例根据实际情况设定的，可以为10％、20％，也可以为其他等等，本实施例不作限制。接着，数据提取系统确定待训练数据集中各个关键句数据通过人工标记的人工标记结果，并将携带有人工标记结果的待训练数据集确定为用以训练数据生成模型的第二训练数据集，需要说明的是，在临床研究的过程中，临床研究包含多种研究方法，不同研究方法对数据标注为不同形式，数据标注形式主要有以下几种，具体如表1所示。接着，数据提取系统通过第二训练数据集对第二预训练模型(中文医学预训练模型NDYX-UniLM)进行训练，确定在训练过程中产生的模型验证结果，然后通过模型验证结果得到数据生成模型，具体如步骤S4021至步骤S4022。最后，数据提取系统将关键句数据集合中除预设比例的关键句数据之外的剩余关键句数据输入至数据生成模型中，得到对应的第一推理结果，并根据第一推理结果生成临床研究文献的样本量数据。

随机对照试验	总样本量：X，干预组：Y，对照组：Z
		病例-对照研究	病例组：Y，对照组：Z
队列研究	总样本量：X
		横断面研究	总样本量：X

表1

进一步地，步骤S4021至步骤S4022的具体描述如下：

步骤S4021，确定在所述第二预训练模型训练过程中生成的模型验证结果，基于所述模型验证结果确定对应的最优数据模型；

步骤S4022，将所述最优数据模型确定为所述数据生成模型。

数据提取系统确定在第二预训练模型训练过程中生成的模型验证结果，通过模型验证结果不断对第二训练数据集进行优化处理，再通过优化后的第二训练数据集对中文医学预训练模型NDYX-UniLM进行训练，将最终的数据模型确定为最优数据模型，具体如步骤S40211至步骤S40213，并将该最优数据模型确定为数据生成模型。

需要说明的是，数据生成模型的输入是一段单独的文本S₁S₂，S₁和S₂分别表示源序列和目标序列，训练出输入为【SOS】S₁【EOS】S₂【EOS】。其中，【SOS】为文本的起始位置，【EOS】用于分割文本，同时【EOS】可作为文本生成结束的标志。中文医学预训练模型NDYX-UniLM的fine-tuning(微调)过程是通过随机掩盖S₂中一定比例的词，让数据生成模型学习被掩盖的词，末尾的【EOS】也可以被掩盖，让数据生成模型预测。当预测为【EOS】是，数据生成模型自动结束生成任务，生成文本结束。本发明实施例对S₂做了特殊处理，在S₂中添加了特定词K(总样本量K₁、干预组K₂、对照组K₃)，【SOS】S₁【EOS】K₁ X K₂ Y K₃ Z【EOS】，fine-tuning过程中当X被Mask，X可通过S₁、K₁和Mask自身编码预测，X即代表总样本量，当Y被Mask，Y可通过S₁、K₁、X、K₂和Mask自身编码预测，Y即代表干预组样本量，当Z被Mask，Z可通过S₁、K₁、X、K₂、Y、K₃和Mask自身编码预测，Z即代表对照组样本量。进一步需要说明的是，在中文医学预训练模型NDYX-UniLM的fine-tuning过程中加入了EMA(Exponential Moving Average，权重滑动平均)，通过EMA权重滑动平均使得数据生成模型的训练过程更加稳定。

进一步地，步骤S40211至步骤S40213的具体描述如下：

步骤S40211，对所述模型验证结果进行分析，得到对应的预测错误数据；

步骤S40212，选取所述预测错误数据中预设类数据替换第二训练数据集中对应的关键句数据，得到对应的新训练数据集；

步骤S40213，基于所述新训练数据集对所述第二预训练模型进行训练，得到所述最优数据模型。

具体地，数据提取系统对模型验证结果进行分析，得到对应的预测错误数据，然后选取预测错误数据中预设类数据，在不改变文本结构的情况下，替换第二训练数据集中对应的关键句数据，将替换后的关键句数据以及第二训练数据集中的其他关键句数据，构建新训练数据集。最后，数据提取系统通过新训练数据集对中文医学预训练模型NDYX-UniLM进行训练，得到新的数据生成模型，依次不断循环，循环次数根据实际情况设定，并将最终的数据生成模型确定为最优数据模型。

本实施例通过数据增强技术优化模型，也即通过新训练数据集不断优化模型，得到最优数据模型，通过最优数据模型得到更加准确的样本量数据，从而提升了提取出的样本量数据的准确性。

本实施例提供了样本量数据提取方法，通过提取关键句数据集合中预设比例的关键句数据，并确定预设比例的关键句数据基于人工标记的人工标记结果；将携带有人工标记结果的预设比例的关键句数据，确定为第二训练数据集，并基于第二训练数据集对第二预训练模型进行训练，得到数据生成模型；将关键句数据集合中除预设比例的关键句数据之外的剩余关键句数据输入至数据生成模型中，得到对应的第一推理结果，基于第一推理结果生成样本量数据。由此可知，通过数据生成模型生成样本量数据，即将临床研究文献的样本量数据提取与自然语言处理技术结合，提升了提取出的样本量数据的准确性。

进一步地，下面对本发明提供的样本量数据提取装置进行描述，下文描述的样本量数据提取装置与上文描述的样本量数据提取方法可相互对应参照。

如图4所示，图4是本发明提供的样本量数据提取装置的结构示意图，样本量数据提取装置，包括：

获取模块401，用于获取临床研究文献，通过预设规则将所述临床研究文献分为关键句可提取临床研究文献和关键句不可提取临床研究文献；

确定模块402，用于通过预设分句规则将所述关键句可提取临床研究文献的摘要数据进行分句，得到对应的方法数据和非方法数据，并将所述方法数据确定为第一关键句数据；

抽取模块403，用于将所述方法数据和所述非方法数据确定为第一训练数据集，基于所述第一训练数据集对第一预训练模型进行训练，得到数据抽取模型，并基于所述数据抽取模型对所述关键句不可提取临床研究文献进行提取，得到第二关键句数据；

生成模块404，用于将所述第一关键句数据和所述第二关键句数据确定为关键句数据集合，基于所述关键句数据集合对第二预训练模型进行训练，得到数据生成模型，基于所述数据生成模型生成样本量数据。

进一步地，所述生成模块404还用于：

将所述最优数据模型确定为所述数据生成模型。

进一步地，所述生成模块404还用于：

对所述模型验证结果进行分析，得到对应的预测错误数据；

进一步地，所述抽取模块403还用于：

进一步地，所述确定模块402还用于：

本发明提供的样本量数据提取装置的具体实施例与上述样本量数据提取方法各实施例基本相同，在此不作赘述。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行样本量数据提取方法，该方法包括：

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的样本量数据提取方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的样本量数据提取方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种样本量数据提取方法，其特征在于，包括：

将所述方法数据和所述非方法数据确定为第一训练数据集，基于所述第一训练数据集对第一预训练模型进行训练，得到数据抽取模型，并基于所述数据抽取模型对所述关键句不可提取临床研究文献进行提取，得到第二关键句数据；所述第一预训练模型为中文医学预训练模型NDYX-ELECTRA；

将所述第一关键句数据和所述第二关键句数据确定为关键句数据集合，基于所述关键句数据集合对第二预训练模型进行训练，得到数据生成模型，基于所述数据生成模型生成样本量数据；所述第二预训练模型为中文医学预训练模型NDYX-UniLM；

其中，通过预设分句规则将所述关键句可提取临床研究文献的摘要数据进行分句，得到对应的方法数据和非方法数据，并将所述方法数据确定为第一关键句数据的步骤包括：

2.根据权利要求1所述的样本量数据提取方法，其特征在于，所述基于所述关键句数据集合对第二预训练模型进行训练，得到数据生成模型，基于所述数据生成模型生成样本量数据的步骤包括：

将携带有人工标记结果的预设比例的关键句数据，确定为第二训练数据集，并基于所述第二训练数据集对所述第二预训练模型进行训练，得到所述数据生成模型；

3.根据权利要求2所述的样本量数据提取方法，其特征在于，所述基于所述第二训练数据集对所述第二预训练模型进行训练，得到所述数据生成模型的步骤包括：

将所述最优数据模型确定为所述数据生成模型。

4.根据权利要求3所述的样本量数据提取方法，其特征在于，所述基于所述模型验证结果确定对应的最优数据模型的步骤包括：

对所述模型验证结果进行分析，得到对应的预测错误数据；

5.根据权利要求1所述的样本量数据提取方法，其特征在于，所述基于所述数据抽取模型对所述关键句不可提取临床研究文献进行提取，得到第二关键句数据的步骤包括：

6.根据权利要求5所述的样本量数据提取方法，其特征在于，所述将各个所述第一分句数据输入至所述数据抽取模型，得到对应的第二推理结果，并基于所述第二推理结果确定所述第二关键句数据的步骤包括：

7.一种样本量数据提取装置，其特征在于，包括：

抽取模块，用于将所述方法数据和所述非方法数据确定为第一训练数据集，基于所述第一训练数据集对第一预训练模型进行训练，得到数据抽取模型，并基于所述数据抽取模型对所述关键句不可提取临床研究文献进行提取，得到第二关键句数据；所述第一预训练模型为中文医学预训练模型NDYX-ELECTRA；

生成模块，用于将所述第一关键句数据和所述第二关键句数据确定为关键句数据集合，基于所述关键句数据集合对第二预训练模型进行训练，得到数据生成模型，基于所述数据生成模型生成样本量数据；所述第二预训练模型为中文医学预训练模型NDYX-UniLM；

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述样本量数据提取方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述样本量数据提取方法的步骤。