CN114357144B

CN114357144B - 基于小样本的医疗数值抽取和理解方法及装置

Info

Publication number: CN114357144B
Application number: CN202210221233.9A
Authority: CN
Inventors: 胡文蕙; 刘学洋; 曾晓东
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-08-09
Anticipated expiration: 2042-03-09
Also published as: CN114357144A

Abstract

本发明提供一种基于小样本的医疗数值抽取和理解方法及装置，该方法包括：基于正则化表达式，对目标医疗文本进行数值抽取；基于prompt函数，获取每一数值对应的问句；将每一数值对应的问句和所述目标医疗文本输入问答模型中，得到每一数值对应的属性信息；其中，每一数值对应的属性信息为每一数值对应的问句的答案；所述问答模型，基于第一数量的其他类的第一样本文本、第一样本问句和第一样本问句对应的真实答案，以及第二数量的医疗类的第二样本文本、第二样本问句和第二样本问句对应的真实答案进行训练获取；所述第一数量大于第二数量。本发明实现在节约医疗类标注数据资源的同时，达到较好的数值抽取和属性信息抽取效果。

Description

基于小样本的医疗数值抽取和理解方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于小样本的医疗数值抽取和理解方法及装置。

背景技术

近年来有很多关于数值抽取的研究，并且该领域已经非常成熟。例如，一些研究人员试图通过定义一系列的抽取模式和优先级，利用正则表达式或者基于规则的语法树来进行数值抽取；或者采用微软开发的Text-recognizer（文本识别器）进行数值抽取。该工具支持抽取纯数字、序号数字、百分比、年龄、货币、度量数值、温度、时间、电话号码、邮箱等数值，在一般领域表现良好，但是在医疗领域并不支持在中文环境下抽取出如mol，mg，L等度量信息。

随着人工智能和神经网络的发展，衍生了一系列数值抽取模型，包括CRF（Conditional Random Field，条件随机场）、LSTM（Long Short-Term Memory，长短期记忆）等方法。这些方法的特点都是依赖于大规模的标注数据，通过词向量（Word2Vector）的方法将文本表示成向量，然后通过神经网络完成命名实体抽取（Named Entity Recognition，NER）的任务，从而抽取出数值实体。由于在实际业务中，医疗领域的数值标注数据较为匮乏，因此无法获取可准确抽取数值的神经网络模型，进而也无法准确抽取出有效的医疗数值。

此外，现有技术中，有大量学者进行了关于数值理解的研究。例如，部分学者提出一种中文文本中实体数值型关系抽取方法，经过文本预处理、句式分析、候选集生成、关系抽取等四个阶段的处理，主要是将文本分词后进行POS（Part Of Speech，词性）标注，然后底层基于一套复杂的规则模式将数值和对应的度量进行匹配，最终生成（实体对象，实体特征，实体属性值）三元组。

另外，部分学者提出一个评测任务，该任务提出了一种关于数值理解的标准范式并给定了大量的英文标注数据。在理解一个数值的过程中主要需要理解以下内容：数值的单位、修饰符、度量的主体、度量的属性、时间范围；如2022年珠穆朗玛峰的高度为8848.13米，数值为8848.13米，单位为米，度量的主体为珠穆朗玛峰，度量的属性为高度，时间范围为2022年。

以上两种主流的方法，前者需要大量的针对目前的业务分析的规则模式，并且由于语言表述的丰富性，使得规则难以枚举完备，适用范围受限；后者需要基于大量的中文标注数据才能完成，而在实际业务中，医疗领域的数值标注数据较为匮乏，且不支持进行大规模的标注工作，因此无法准确理解获取有效的医疗数值的属性信息。

发明内容

本发明提供一种基于小样本的医疗数值抽取和理解方法及装置，用以解决现有技术中在标注数据较少时，无法准确抽取有效的医疗数值和理解获取有效的医疗数值的属性信息，以及适用范围受限的缺陷，实现在标注数据较少时，准确抽取出医疗数值和理解获取相应的属性信息，提高兼容性。

本发明提供一种基于小样本的医疗数值抽取和理解方法，包括：

基于正则化表达式，对目标医疗文本进行数值抽取；

基于prompt函数，获取每一数值对应的问句；

将每一数值对应的问句和所述目标医疗文本输入问答模型中，得到每一数值对应的属性信息；其中，每一数值对应的属性信息为每一数值对应的问句的答案；

其中，所述问答模型，基于第一数量的其他类的第一样本文本、第一样本问句和第一样本问句对应的真实答案，以及第二数量的医疗类的第二样本文本、第二样本问句和第二样本问句对应的真实答案进行训练获取；所述第一数量大于第二数量。

根据本发明提供的一种基于小样本的医疗数值抽取和理解方法，所述问答模型基于如下步骤进行训练得到：

基于所述第一数量的其他类的第一样本文本、第一样本问句和第一样本问句对应的真实答案，对多个初始问答模型进行预训练；

基于所述第二数量的医疗类的第二样本文本、第二样本问句和第二样本问句对应的真实答案，对预训练后的预训练性能最优的初始问答模型进行再次训练，得到最终的问答模型。

根据本发明提供的一种基于小样本的医疗数值抽取和理解方法，所述问答模型，基于BERT模型构建生成。

根据本发明提供的一种基于小样本的医疗数值抽取和理解方法，所述将每一数值对应的问句和所述目标医疗文本输入问答模型中，得到每一数值对应的属性信息，包括：

在所述目标医疗文本中存在多个相同的数值的情况下，对所述目标医疗文本中的多个相同的数值进行去重处理；

将每一数值对应的问句和去重处理后的所述目标医疗文本输入所述问答模型中，得到每一数值对应的属性信息。

根据本发明提供的一种基于小样本的医疗数值抽取和理解方法，所述对所述目标医疗文本中的多个相同的数值进行去重处理，包括：

对于所述多个相同的数值中的每一数值，对所述目标医疗文本中所述多个相同的数值中的其他数值进行掩码处理，得到每一数值对应的掩码处理后的所述目标医疗文本；

相应地，所述将每一数值对应的问句和去重处理后的所述目标医疗文本输入所述问答模型中，得到每一数值对应的属性信息，包括：

将每一数值对应的问句和掩码处理后的所述目标医疗文本输入所述问答模型中，得到每一数值对应的属性信息。

根据本发明提供的一种基于小样本的医疗数值抽取和理解方法，所述基于正则化表达式，对目标医疗文本进行数值抽取，包括：

对所述目标医疗文本进行预处理；

其中，所述预处理包括去除日期，和/或在相邻的英文和数字之间增加空格；

基于所述正则化表达式，对预处理后的所述目标医疗文本进行数值抽取。

本发明还提供一种基于小样本的医疗数值抽取和理解装置，包括：

数值抽取模块，用于基于正则化表达式，对目标医疗文本进行数值抽取；

问句获取模块，用于基于prompt函数，获取每一数值对应的问句；

数值理解模块，用于将每一数值对应的问句和所述目标医疗文本输入问答模型中，得到每一数值对应的属性信息；其中，每一数值对应的属性信息为每一数值对应的问句的答案；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于小样本的医疗数值抽取和理解方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于小样本的医疗数值抽取和理解方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于小样本的医疗数值抽取和理解方法的步骤。

本发明提供的基于小样本的医疗数值抽取和理解方法及装置，一方面联合大量的其他类的第一样本文本、第一样本问句和第一样本问句对应的真实答案，以及少量的医疗类的第二样本文本、第二样本问句和第二样本问句对应的真实答案，对问答模型进行训练，使得训练好的问答模型既具备医疗领域的知识，又可实现快速准确地输出数值的医疗属性信息，在节约医疗类标注数据资源的同时，达到较好的数值抽取和属性信息抽取效果，且问答模型通过多种不同的样本进行训练，鲁棒性和泛化性能良好，可适用于多种不同的医疗文本；另一方面，直接基于正则化表达式，对目标医疗文本进行数值抽取，不需要大量的医疗类样本，只需构建正则化表达式，即可快速准确地获取医疗数值。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于小样本的医疗数值抽取和理解方法的流程示意图之一；

图2是本发明提供的基于小样本的医疗数值抽取和理解方法的流程示意图之二；

图3是本发明提供的基于小样本的医疗数值抽取和理解装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本实施例中的医疗数值抽取方法可应用于不同的系统或设备，如执行器；执行器可以是智能终端，如手机终端、平板电脑、笔记本电脑和车载终端等，还可以是服务器或云端等，本实施例对此不作具体地限定。

下面结合图1描述本发明的基于小样本的医疗数值抽取和理解方法，该方法包括：步骤101，基于正则化表达式，对目标医疗文本进行数值抽取；

其中，目标医疗文本为待进行数值抽取的医疗文本，可以是电子文本，也可以是通过图片或语音提取的文本，本实施例对此不作具体地限定。

目标医疗文本包括入院小结文本和入院检查文本等其他类型的医疗文件，本实施例对此不作具体地限定。

可选地，在获取到目标医疗文本后，可以直接基于正则化表达式，对目标医疗文本进行数值抽取，也可以是对目标医疗文本进行预处理后，再基于正则化表达式，对预处理后的目标医疗文本进行数值抽取。

其中，正则表达描述了一种字符串匹配的模式，可以用来检查一个字符串是否含有某种子串、将匹配的子串替换或者从某个字符串中取出符合某个条件的子串。因此，本实施例可以为正则表达设置相应的数值抽取规则，即可快速准确地将目标医疗文本中所有的数值抽取出来。

正则表达式基于数值表达形式和预先获取的数值单位模式进行构建生成。

例如，正则表达式的形式可以为：

nums = re.findall('(' + quantity_pattern + ')([ ]*)' + unit_pattern,text)；

其中，数值表达形式包括基础模式和复合模式；

例如，基础模式可表示为：

base_mode = [

'0\.

\d*', # 0以及0.小数的表述形式

'[1-9]\d*\.

\d*', # 正常数值形式

]；

复合模式为在基础模式的基础上进行组合的模式

例如，复合模式可表示为：

base_mode + '符号

' + base_mode；

通过复合模式抽取的数值为多个数值表达形式和某些符号的组合形式，如159/87mmHg mode，6-7次/分，3*4cm，3*4*5cm mode。

预先获取的数值单位模式用于表征数值的单位，如温度单位（度）；具体包括基于微软Text-recognizer底层的单位库和基于医学文本整理的医学单位库，可以以csv或html等格式保存在文件中；其中，数值单位的数量可以根据实际需求进行设置，如898个；且可根据实际需求随时进行补充扩展。

步骤102，基于prompt函数，获取每一数值对应的问句；

其中，每一数值对应的问句为对目标医疗文本进行提问的问题。

可选地，在获取到从目标医疗文本中抽取的数值后，将每一数值分别填入prompt函数中的变量中，得到每一数值对应的问句。

例如，prompt函数的表达形式为“{quantity}指的是

”，其中“quantity”为prompt 函数的变量。

相应地，基于prompt函数，获取每一数值对应的问句的代码为：questions = [' {quantity}指的是

'.format(quantity=q) for q in quantities]；

因此，基于prompt函数，可快速获取每一数值对应的问句。

步骤103，将每一数值对应的问句和所述目标医疗文本输入问答模型中，得到每一数值对应的属性信息；其中，每一数值对应的属性信息为每一数值对应的问句的答案；其中，所述问答模型，基于第一数量的其他类的第一样本文本、第一样本问句和第一样本问句对应的真实答案，以及第二数量的医疗类的第二样本文本、第二样本问句和第二样本问句对应的真实答案进行训练获取；所述第一数量大于第二数量。

其中，其他类可以是公共领域中的问答样本数据，也是除医疗领域外的其他可获取大量问答标注数据的特定领域等，本实施例对此不具体地限定。

其中，在保证第一数量远大于第二数量的情况下，可以根据实际需求对第一数量和第二数量进行具体设置；如第一数量为20万个，第二数量为200个。

其中，200个医疗类样本包括在预训练的问答模型中表现性能较差，经过人工重新标注的24个样本，以及在预训练的问答模型中表现性能较好的174个样本。

其中，问答模型基于MRC（Machine Reading Comprehension，机器阅读理解）模型、BERT（Bidirectional Encoder Representation from Transformers，预训练的语言表征）模型或者MRC模型和BERT模型的组合模型等构建生成，本实施例对此不作具体地限定。

可选地，在执行步骤103之前，需要先对问答模型进行训练；其中，问答模型基于大量的其他类的第一样本文本、第一样本问句和第一样本问句对应的真实答案形成的充足样本数据集，以及少量的医疗类的第二样本文本、第二样本问句和第二样本问句对应的真实答案形成的小样本数据集进行训练获取；

具体训练方式，可以是将其他类的充足样本数据集和医疗类的小样本数据集，共同作为训练样本数据集，对问答模型进行训练；

也可以是先基于其他类的充足样本数据集对问答模型进行预训练后，再在预训练后的问答模型中添加医疗领域知识，基于医疗类的小样本数据集，在预训练后的问答模型的基础上，对问答模型进行再次训练等，本实施例不对问答模型的训练方式作具体地限定。

综上，在对问答模型进行训练时，只需要少量的医疗类训练样本即可使得问答模型既可进行准确的输出问答结果，也可以快速适用于医疗领域。

在得到训练好的问答模型后，可以将每一数值对应的问句和目标医疗文本输入训练好的问答模型中，以快速准确地得到每一数值对应的属性信息。

本实施例一方面联合大量的其他类的第一样本文本、第一样本问句和第一样本问句对应的真实答案，以及少量的医疗类的第二样本文本、第二样本问句和第二样本问句对应的真实答案，对问答模型进行训练，使得训练好的问答模型既具备医疗领域的知识，又可实现快速准确地输出数值的医疗属性信息，在节约医疗类标注数据资源的同时，达到较好的抽取和理解效果，且问答模型通过多种不同的样本进行训练，鲁棒性和泛化性能良好，可适用于多种不同的医疗文本；另一方面，直接基于正则化表达式，对目标医疗文本进行数值抽取，不需要大量的医疗类样本，只需构建正则化表达式，即可快速准确地获取医疗数值。

在上述实施例的基础上，本实施例中所述问答模型基于如下步骤进行训练得到：基于所述第一数量的其他类的第一样本文本、第一样本问句和第一样本问句对应的真实答案，对多个初始问答模型进行预训练；基于所述第二数量的医疗类的第二样本文本、第二样本问句和第二样本问句对应的真实答案，对预训练后的预训练性能最优的初始问答模型进行再次训练，得到最终的问答模型。

其中，初始问答模型包括但不限于原始的BERT、少量MRC常用问答数据训练的BERT-MRC（Bidirectional Encoder Representation from Transformers MachineReading Comprehension，基于预训练的语言表征模型的机器阅读理解模型）、基于共指消解训练的BERT-MRC，基于大量MRC常用问答数据训练的BERT-MRC-WWM（Training withWhole Word Masking for Bidirectional Encoder Representation from TransformersMachine Reading Comprehension，基于单词掩蔽的预训练的语言表征模型的机器阅读理解模型），基于大量MRC常用问答数据训练的BERT-MRC-large（大量问答样本训练的BERT-MRC模型）等，本实施例对此不作具体地限定。

在对初始问答模型进行预训练时，不需要医疗类的样本数据，因此，相对于医疗类样本而言，该预训练过程为无监督训练过程。

表1五种无监督策略下数值理解的评估结果

首先，为了使得预训练的问答模型具备良好的问答性能，依次在原始的BERT、少量MRC问答数据训练的BERT-MRC，基于共指消解训练的BERT-MRC，基于大量MRC问答数据训练的BERT-MRC-WWM, 基于大量MRC问答数据训练的BERT-MRC-large上采用第一数量的其他类的训练数据集对模型的性能进行评价，得到如表1所示的结果。

其中，模型评价指标包括精确率指标P、召回率指标R、匹配度指标EM和得分指标F；其中，P表示问答模型输出结果中和真实答案相同的字符占所有输出结果的比例，比例越大，答案的准确性越高；R指标是问答模型输出结果中和真实答案相同的字符占所有真实答案的比例，比例越大，答案的准确性越高；EM指标表示预测中匹配到正确答案的百分比，当问答模型的输出结果和真实答案一模一样时会输出1；F值则是综合精确率指标P和召回率指标R计算得到的综合计算结果。

在微调过程中，选择预训练过程中EM和F值表现性能最好的模型BERT-MRC-WWM，并采用医疗类的小样本训练数据集对预训练后的BERT-MRC-WWM进行微调，得到既具备医疗领域的知识，又可实现快速准确地输出数值的医疗属性信息的问答模型。

在对BERT-MRC-WWM进行微调的过程中，可采用各种训练策略进行训练，以训练效果最优的BERT-MRC-WWM模型作为最终的问答模型。其中，训练策略包括start_point（起始训练点）、batch4epoch1（以4个样本为一批次，迭代次数为1进行训练）、batch8epoch1（以8个样本为一批次，迭代次数为1进行训练）、batch4epoch2（以4个样本为一批次，迭代次数为2进行训练）、batch8epoch2（以8个样本为一批次，迭代次数为2进行训练）、batch4epoch3（以4个样本为一批次，迭代次数为3进行训练）、batch8epoch3（以8个样本为一批次，迭代次数为3进行训练）、batch8epoch10（以8个样本为一批次，迭代次数为10进行训练）等，本实施例对此不作具体地限定。

如表2所示，为几种示例性地训练策略下的评价结果。

最终将以batch4epoch1策略训练的BERT-MRC-WWM模型作为最终的问答模型，以用于对医疗类数值问题的属性信息进行抽取。

表2有监督下几种训练策略的对比

本实施例仅通过少量的医疗类的第二样本文本、第二样本问句和第二样本问句对应的真实答案，对问答模型进行训练，即可得到既具备医疗领域的知识，又可实现快速准确地输出数值的医疗属性信息的问答模型，可有效节约医疗类标注数据的资源，同时达到较好的抽取和理解效果。

在上述实施例的基础上，本实施例中所述问答模型，基于BERT模型构建生成。

其中，BERT模型是一种预训练模型，其是Google（谷歌）发布预训练的语言模型，该模型中下游任务中底层的、共性的部分模型已提前训练好，在需要使用该模型处理具体下游任务时，可用下游任务各自的样本数据来训练相应的模型，可以极大地加快模型的收敛速度。

可选地，可基于样本问答数据对BERT模型进行训练后，得到基于BERT模型的MRC模型，形成问答模型，即BERT-MRC模型；

由于BERT-MRC模型在输入文本前加上了实体类型的描述信息，这些实体类型的描述作为先验知识提高了模型的信息抽取的效果。因此，在数据量匮乏的场景下，BERT-MRC模型通过在输入文本前面拼接的实体类型的描述信息获得了一定的先验信息，可有效提升模型的性能。

综上，本实施例采用基于BERT模型生成的问答模型，即使在样本数据量较小的情况下，也可根据先验信息，训练获取性能良好的问答模型，进而使得抽取的数值的属性信息更加准确。

在上述实施例的基础上，本实施例中所述将每一数值对应的问句和所述目标医疗文本输入问答模型中，得到每一数值对应的属性信息，包括：在所述目标医疗文本中存在多个相同的数值的情况下，对所述目标医疗文本中的多个相同的数值进行去重处理；将每一数值对应的问句和去重处理后的所述目标医疗文本输入所述问答模型中，得到每一数值对应的属性信息。

可选地，在执行步骤103之前，需要先对目标医疗文本进行去重处理，以避免在目标医疗文本存在相同数值，而其对应的属性信息不同时，导致问答模型难以输出准确的属性信息，具体步骤包括：

首先，使用计数器统计目标医疗文本中每个相同数值的数量；

在目标医疗文本中存在出现频次大于1次的数值（最少为2次）的情况下，对目标医疗文本进行去重处理；

其中，去重处理包括将目标医疗文本中值相同，而属性信息不同的数值采用不同的标记形式进行标记；或对每一数值对应的目标医疗文本，对该医疗文本中的其他数值进行掩码处理等，本实施例对此不作具体地限定。

然后，将每一数值对应的问句和去重处理后的目标医疗文本输入问答模型中，得到每一数值对应的属性信息。

本实施例在目标医疗文本中存在多个相同的数值的情况下，对目标医疗文本中的多个相同的数值进行去重处理，可以有效避免具有值相同而属性信息不同的多个数值的属性信息混淆，导致问答模型难以输出准确的属性信息的问题，进而使得获取的各数值对应的属性信息更加准确，效率更高。

在上述实施例的基础上，本实施例中所述对所述目标医疗文本中的多个相同的数值进行去重处理，包括：对于所述多个相同的数值中的每一数值，对所述目标医疗文本中所述多个相同的数值中的其他数值进行掩码处理，得到每一数值对应的掩码处理后的所述目标医疗文本；相应地，所述将每一数值对应的问句和去重处理后的所述目标医疗文本输入所述问答模型中，得到每一数值对应的属性信息，包括：将每一数值对应的问句和掩码处理后的所述目标医疗文本输入所述问答模型中，得到每一数值对应的属性信息。

可选地，对于目标医疗文本中出现频次大于1次的数值（最少为2次），当对其中一个数值进行提问时，需要采用相应的掩码标记将其他的相同数值进行掩蔽，得到该数值对应的掩码处理后的目标医疗文本。

其中，掩码标记可以为字符串或特殊字符等，如“##”，本实施例对此不做具体地限定。

例如，目标医疗文本的内容为“病人生病4天，伴咳嗽4天，腹泻3天，发热4天”；

其中，第一个数值对应的问句为“4天指的是

”；第一个数值对应的掩码处理后的目标医疗文本为“病人生病4天，伴咳嗽##，腹泻3天，发热##”；

第二个数值对应的问句为“4天指的是

”；第二个数值对应的掩码处理后的目标医疗文本为“病人生病##，伴咳嗽4天，腹泻3天，发热##”；

第三个数值对应的问句为“4天指的是

”；第三个数值对应的掩码处理后的目标医疗文本为“病人生病##，伴咳嗽##，腹泻3天，发热4天”。

在获取每一数值对应的属性信息时，只需要将每一数值对应的问句和掩码处理后的目标医疗文本输入所述问答模型中，即可快速准确地得到每一数值对应的属性信息。

本实施例通过对数值相同，而属性信息不同的数值进行掩码处理，即可快速有效地对目标医疗文本进行去重处理，进而使得获取的各数值对应的属性信息更加准确。

在上述各实施例的基础上，本实施例中所述基于正则化表达式，对目标医疗文本进行数值抽取，包括：对所述目标医疗文本进行预处理；所述预处理包括去除日期，和/或在相邻的英文和数字之间增加空格；基于所述正则化表达式，对预处理后的所述目标医疗文本进行数值抽取。

可选地，对于医疗领域来说，一段文本当中的数值度量的主体往往都是患者/药品，而某些日期数值并无与医疗相关的属性信息；因此，为了适当简化任务相对于问答模型的难度，忽略时间和度量主体两个理解元素，只需要模型能够具备识别数值度量的属性信息或对象信息即可。

例如，对于目标医疗文本“2017年11月14日和病人患高血压病11月”，前一部分数值“2017年”、“11月”、“14日”无具体地属性信息指代，而后一部分数值“11月”的属性信息为“患高血压”，若采用上述规则，则无法区分上述场景，很难准确获取每一数值的属性信息。因此需要先对目标医疗文本做预处理，去除里面目标医疗文本中关于日期的表达，如去除表达形式为“'\d+年\d+月\d+日'”，“'\d+年\d+月'”和“'\d+月\d+日'”的所有数值。

其中，可通过如下代码去除目标医疗文本中的时间数值：

pattern包含'\d+年\d+月\d+日'、'\d+年\d+月'、'\d+月\d+日'；

re.sub(pattern, '##', text)；

另外，在数值理解（获取数值对应的属性信息）过程中，由于目标医疗文本中既含有中文表述，还含有英文表述。而在英文和数值组合的情况下，容易造成歧义，无法准获取数值的属性信息。

例如，“T37°C”表示体温37度；“剂量：33mg”中的“mg”是一个度量剂量的单位；“直径3mm”当中的“mm”是一个度量长度的单位。而在后续的问答模型中，需要用到BertTokenizer（Bidirectional Encoder Representation from Transformers Tokenizer，预训练的语言表征模型的分词器）。中文tokenizer（分词器）是以字符级别进行的分词，但是当遇到英文字母和数字时，会将英文字母和数字的组合形式划分为一个词语，示例性的形式如表3所示。

通过这种分词方式，无法使问答模型的下游模型（数值理解）正确地理解获取的分词结果“T 37°C”、“3 mg”和“3 mm”。

表3分词器的默认分词结果

当基于上述分词结果进行提问时，即问句为“T37°C指的是

”时，无论怎么对模型进行训练，模型的输出都只能是[T3,7,°c, T37°C, T37, 7°C, T37°C]其中的一个或者多个的表述，而这些答案显然不是预期的属性信息。

因此，本实施例考虑在预处理的过程中，在英文和数字之间加入空格修正，以达到正确地分词方式，进而提升数值理解的准确性。

可选地，判断目标医疗文本中是否存在任意相邻两个字符为字母和数字的组合形式；其中，可采用如下代码，判断相邻两个字符是否为字母和数字：

text[i + 1].isdigit() and text[i].encode('utf-8').isalpha()；

text[i].isdigit() and text[i + 1].encode('utf-8').isalpha()；

若存在，则在任意相邻的字母和数字之间添加空格“□”，以将英文字符和数值区分开来，示例性的形式如表4所示。

表4分词器引入空格后的分词结果

在对目标医疗文本进行去除日期，和/或在相邻的英文和数字之间增加空格的预处理之后，即可基于所述正则化表达式，对预处理后的目标医疗文本进行数值抽取，并将每一数值对应的问句和预处理后的目标医疗文本输入问答模型中，快速准确地得到每一数值对应的属性信息。

如图2所示，为本实施例的基于小样本的医疗数值抽取和理解方法的完整流程示意图，主要包括如下步骤：

步骤1，对目标医疗文本进行预处理操作；具体对目标医疗文本进行去除日期，和/或在相邻的英文和数字之间增加空格等预处理，得到预处理后的目标医疗文本；

步骤2，对预处理后的目标医疗文本进行数值抽取；具体利用正则表达式，对预处理后的目标医疗文本进行数值抽取；

步骤3，将数值和prompt函数进行组合，形成数值对应的问句。

步骤4，对目标医疗文本中重复的数值进行去重处理；具体统计目标医疗文本中各数值出现的频次，对于出现频次大于1次的数值，在对其中一个数值进行提问时，将目标医疗文本中其他相同数值进行掩码处理，得到该数值对应的掩码处理后的目标医疗文本；

步骤5，将各数值对应的问句和掩码处理后的目标医疗文本，输入经过微调训练后的问答模型中，得到相应的答案（即，各数值对应的属性信息）。

下面结合具体举例来说明医疗数值抽取的过程：

实例1，以目标医疗文本为入院小结文本为例：

其中，目标医疗文本包括如下内容：

1.2022年1月14日，患者因“头部摔伤后意识不清，四肢活动不利2年余”入院。2.体检：耳温：36.8℃，呼吸：20次/分，脉搏：87次/分，血压：148/85mmHg，神清，精神一般，双侧瞳孔等大等圆，直径3mm，对光反射可，右侧鼻唇沟稍浅，口角向左歪斜，伸舌不能配合，咽反射不能配合。肺部听诊呼吸音稍粗，双肺可闻及湿性罗音，心腹查体无殊。患者双侧肩关节被动活动轻度受限，被动活动肩关节患者有痛苦表情，四肢轻度水肿。双上肢伸肌、屈肌肌张力1+级，余肢体肌张力均为0级，四肢腱反射正常，右侧巴氏征阳性，左侧巴氏征阴性。认知功能：高级脑功能障碍，MMSE检查无法完成。运动功能：右侧Brunstrom分期（上肢-手-下肢）II期 -III期 -III期；左侧肢体Brunstrom分期（上肢-手-下肢）III期 -IV期 -III期。言语功能：偶有发声，听理解、复述、阅读、命名、书写不能配合。吞咽功能、感觉功能均不能配合检查。坐位平衡1级，立位平衡不能配合。ADL评定：Barthel指数0分。社会参与重度受限。

步骤1，对目标医疗文本进行预处理操作，得到预处理后的目标医疗文本的内容如下：

1.患者因“头部摔伤后意识不清，四肢活动不利2年余”入院。2.体检：耳温：36.8℃，呼吸：20次/分，脉搏：87次/分，血压：148/85□mmHg，神清，精神一般，双侧瞳孔等大等圆，直径3□mm，对光反射可，右侧鼻唇沟稍浅，口角向左歪斜，伸舌不能配合，咽反射不能配合。肺部听诊呼吸音稍粗，双肺可闻及湿性罗音，心腹查体无殊。患者双侧肩关节被动活动轻度受限，被动活动肩关节患者有痛苦表情，四肢轻度水肿。双上肢伸肌、屈肌肌张力1+级，余肢体肌张力均为0级，四肢腱反射正常，右侧巴氏征阳性，左侧巴氏征阴性。认知功能：高级脑功能障碍，MMSE检查无法完成。运动功能：右侧Brunstrom分期（上肢-手-下肢）II期 -III期 -III期；左侧肢体Brunstrom分期（上肢-手-下肢）III期 -IV期 -III期。言语功能：偶有发声，听理解、复述、阅读、命名、书写不能配合。吞咽功能、感觉功能均不能配合检查。坐位平衡1级，立位平衡不能配合。ADL评定：Barthel指数0分。社会参与重度受限。

步骤2，对预处理后的目标医疗文本进行数值抽取，得到如下结果：

['2年余', '36.8℃', '20次/分', '87次/分', '148/85□mmHg', '3□mm', '0级', '1级', '0分']；

步骤3，将数值和prompt函数组合形成问句，得到如下结果：

['2年余指的是

', '36.8℃指的是

', '20次/分指的是

', '87次/分指的是

', '148/85□mmHg指的是

', '3□mm指的是

', '0级指的是

', '1级指的是

', '0分指的是

']；

步骤4，对目标医疗文本中的重复数值进行去重处理；由于实施例1的目标医疗文本中没有重复数值；因此处理前后并没有区别。

表5 实施例1中问答模型的输出结果

步骤5，将步骤3中的问句和步骤4中的目标医疗文本，输入经过微调的问答模型中，得到各问句对应的答案，即各数值对应的属性信息。如表5所示为实施例1中问答模型的输出的各数值对应的属性信息以及问答模型的性能评价指标Score（得分）。

其中，Score值越接近1，表明问答模型的性能越好，输出结果越接近真实值。

通过表5可知，本实施例中的医疗数值抽取方法，可快速准确地获取数值以及数值的属性信息。

实例2，以目标医疗文本为入院检查文本为例：

其中，目标医疗文本包括如下内容：

(2020-12-20 08:41，本院)糖化血红蛋白(全血)：糖化血红蛋白-A1 9.2%↑，糖化血红蛋白-A1c 9.2%↑；血常规+超敏CRP(全血)：白细胞计数 12.66x10^9/L↑，中性粒细胞计数 9.4x10^9/L↑，血红蛋白 144g/L，血小板计数 289x10^9/L，超敏C反应蛋白 3.0mg/L；生化(血清)：总蛋白 69.0g/L，谷丙转氨酶 77U/L↑，总胆红素 24.1μmol/L↑，葡萄糖6.92mmol/L↑，尿酸 589μmol/L↑，总胆固醇 7.35mmol/L↑，甘油三酯 2.94mmol/L↑，*低密度脂蛋白胆固醇 4.61mmol/L↑，乳酸脱氢酶 252U/L↑，同型半胱氨酸 16.1μmol/L↑；(2020-12-20 10:06，本院)心肌酶谱(血清)：乳酸脱氢酶 261U/L↑；尿常规(尿液)：尿糖弱阳性↑，尿酮体阴性(-)，尿蛋白弱阳性↑，尿白细胞阴性(-)；TORCH(血清)：巨细胞病毒-IgG抗体2056.56U/ml↑，单纯疱疹病毒1型-IgG抗体 338.35U/ml↑；

(本院)糖化血红蛋白(全血)：糖化血红蛋白-A□1□9.2%↑，糖化血红蛋白-A□1□c□9.2%↑；血常规+超敏CRP(全血)：白细胞计数 12.66□x□10^9/L↑，中性粒细胞计数 9.4□x□10^9/L↑，血红蛋白 144□g/L，血小板计数 289□x□10^9/L，超敏C反应蛋白 3.0□mg/L；生化(血清)：总蛋白 69.0□g/L，谷丙转氨酶 77□U/L↑，总胆红素 24.1□μmol/L↑，葡萄糖 6.92□ mmol/L↑，尿酸 589□μmol/L↑，总胆固醇 7.35□mmol/L↑，甘油三酯 2.94□mmol/L↑，*低密度脂蛋白胆固醇 4.61□mmol/L↑，乳酸脱氢酶 252□U/L↑，同型半胱氨酸16.1□μmol/L↑；(本院)心肌酶谱(血清)：乳酸脱氢酶 261□U/L↑；尿常规(尿液)：尿糖弱阳性↑，尿酮体阴性(-)，尿蛋白弱阳性↑，尿白细胞阴性(-)；TORCH(血清)：巨细胞病毒-IgG抗体 2056.56□U/ml↑，单纯疱疹病毒1型-IgG抗体 338.35□U/ml↑；

['9.2%', '9.2%', '12.66□x□10^9/L', '9.4□x□10^9/L', '144□g/L', '289□x□10^9/L', '3.0□mg/L', '69.0□g/L', '77□U/L', '24.1□μmol/L', '6.92□mmol/L', '589□μmol/L', '7.35□mmol/L', '2.94□mmol/L', '4.61□mmol/L','252□U/L', '16.1□μmol/L', '261□U/L', '2056.56□U/ml', '338.35□U/ml']；

步骤3，将数值和prompt函数组合形成问句，得到如下结果：

['9.2%指的是

', '9.2%指的是

', '12.66□x□10^9/L指的是

', '9.4□x□10 ^9/L指的是

', '144□g/L指的是

', '289□x□10^9/L指的是

', '3.0□mg/L指的是

', '69.0□g/L指的是

', '77□U/L指的是

', '24.1□μmol/L指的是

', '6.92□mmol/L 指的是

', '589□μmol/L指的是

', '7.35□mmol/L指的是

', '2.94□mmol/L指的是

', '4.61□mmol/L指的是

', '252□U/L指的是

', '16.1□μmol/L指的是

', '261□U/L 指的是

', '2056.56□U/ml指的是

', '338.35□U/ml指的是

']；

步骤4，对目标医疗文本中的重复数值进行去重处理；由于出现2次'9.2%'，当基于其中一个“9.2%”提问时，将目标医疗文本中另一个“9.2%”掩蔽成“##”。

步骤5，将步骤3中的问句和步骤4中的目标医疗文本，输入经过微调的问答模型中，得到各问句对应的答案，具体如表6所示。

表6 实施例2的输出结果

下面对本发明提供的基于小样本的医疗数值抽取和理解装置进行描述，下文描述的基于小样本的医疗数值抽取和理解装置与上文描述的基于小样本的医疗数值抽取和理解方法可相互对应参照。

如图3所示，本实施例提供一种基于小样本的医疗数值抽取装置，该装置包括数值抽取模块301、问句获取模块302和数值理解模块302，其中：

数值抽取模块301用于基于正则化表达式，对目标医疗文本进行数值抽取；

问句获取模块302用于基于prompt函数，获取每一数值对应的问句；

数值理解模块303用于将每一数值对应的问句和所述目标医疗文本输入问答模型中，得到每一数值对应的属性信息；其中，每一数值对应的属性信息为每一数值对应的问句的答案；其中，所述问答模型，基于第一数量的其他类的第一样本文本、第一样本问句和第一样本问句对应的真实答案，以及第二数量的医疗类的第二样本文本、第二样本问句和第二样本问句对应的真实答案进行训练获取；所述第一数量大于第二数量。

在上述实施例的基础上，本实施例中还包括训练模块，用于：基于所述第一数量的其他类的第一样本文本、第一样本问句和第一样本问句对应的真实答案，对多个初始问答模型进行预训练；基于所述第二数量的医疗类的第二样本文本、第二样本问句和第二样本问句对应的真实答案，对预训练后的预训练性能最优的初始问答模型进行再次训练，得到最终的问答模型。

在上述各实施例的基础上，本实施例中数值理解模块，具体用于：在所述目标医疗文本中存在多个相同的数值的情况下，对所述目标医疗文本中的多个相同的数值进行去重处理；将每一数值对应的问句和去重处理后的所述目标医疗文本输入所述问答模型中，得到每一数值对应的属性信息。

在上述实施例的基础上，本实施例中数值理解模块，还用于：对于所述多个相同的数值中的每一数值，对所述目标医疗文本中所述多个相同的数值中的其他数值进行掩码处理，得到每一数值对应的掩码处理后的所述目标医疗文本；将每一数值对应的问句和掩码处理后的所述目标医疗文本输入所述问答模型中，得到每一数值对应的属性信息。

在上述各实施例的基础上，本实施例中数值抽取模块，具体用于：对所述目标医疗文本进行预处理；其中，所述预处理包括去除日期，和/或在相邻的英文和数字之间增加空格；基于所述正则化表达式，对预处理后的所述目标医疗文本进行数值抽取。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403中的逻辑指令，以执行基于小样本的医疗数值抽取和理解方法，该方法包括：基于正则化表达式，对目标医疗文本进行数值抽取；基于prompt函数，获取每一数值对应的问句；将每一数值对应的问句和所述目标医疗文本输入问答模型中，得到每一数值对应的属性信息；其中，每一数值对应的属性信息为每一数值对应的问句的答案；其中，所述问答模型，基于第一数量的其他类的第一样本文本、第一样本问句和第一样本问句对应的真实答案，以及第二数量的医疗类的第二样本文本、第二样本问句和第二样本问句对应的真实答案进行训练获取；所述第一数量大于第二数量。

此外，上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于小样本的医疗数值抽取和理解方法，该方法包括：基于正则化表达式，对目标医疗文本进行数值抽取；基于prompt函数，获取每一数值对应的问句；将每一数值对应的问句和所述目标医疗文本输入问答模型中，得到每一数值对应的属性信息；其中，每一数值对应的属性信息为每一数值对应的问句的答案；其中，所述问答模型，基于第一数量的其他类的第一样本文本、第一样本问句和第一样本问句对应的真实答案，以及第二数量的医疗类的第二样本文本、第二样本问句和第二样本问句对应的真实答案进行训练获取；所述第一数量大于第二数量。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于小样本的医疗数值抽取和理解方法，该方法包括：基于正则化表达式，对目标医疗文本进行数值抽取；基于prompt函数，获取每一数值对应的问句；将每一数值对应的问句和所述目标医疗文本输入问答模型中，得到每一数值对应的属性信息；其中，每一数值对应的属性信息为每一数值对应的问句的答案；其中，所述问答模型，基于第一数量的其他类的第一样本文本、第一样本问句和第一样本问句对应的真实答案，以及第二数量的医疗类的第二样本文本、第二样本问句和第二样本问句对应的真实答案进行训练获取；所述第一数量大于第二数量。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于小样本的医疗数值抽取和理解方法，其特征在于，包括：

基于正则化表达式，对目标医疗文本进行数值抽取；

基于prompt函数，获取每一数值对应的问句；

其中，所述问答模型，基于第一数量的其他类的第一样本文本、第一样本问句和第一样本问句对应的真实答案，以及第二数量的医疗类的第二样本文本、第二样本问句和第二样本问句对应的真实答案进行训练获取；所述第一数量大于第二数量；所述其他类的第一样本文本包括公共领域的问答样本和/或除医疗领域外的其他领域的问答样本；

所述问答模型基于如下步骤进行训练得到：

2.根据权利要求1所述的基于小样本的医疗数值抽取和理解方法，其特征在于，所述问答模型，基于BERT模型构建生成。

3.根据权利要求1或2所述的基于小样本的医疗数值抽取和理解方法，其特征在于，所述将每一数值对应的问句和所述目标医疗文本输入问答模型中，得到每一数值对应的属性信息，包括：

4.根据权利要求3所述的基于小样本的医疗数值抽取和理解方法，其特征在于，所述对所述目标医疗文本中的多个相同的数值进行去重处理，包括：

5.根据权利要求1或2所述的基于小样本的医疗数值抽取和理解方法，其特征在于，所述基于正则化表达式，对目标医疗文本进行数值抽取，包括：

对所述目标医疗文本进行预处理；

6.一种基于小样本的医疗数值抽取和理解装置，其特征在于，包括：

所述问答模型基于如下步骤进行训练得到：

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述基于小样本的医疗数值抽取和理解方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于小样本的医疗数值抽取和理解方法的步骤。

9.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于小样本的医疗数值抽取和理解方法的步骤。