CN113705226A

CN113705226A - 医学文本实体标注方法和装置

Info

Publication number: CN113705226A
Application number: CN202111267285.1A
Authority: CN
Inventors: 秦晓宏; 华宗楠
Original assignee: Shanghai Clinbrain Information Technology Co Ltd
Current assignee: Shanghai Clinbrain Information Technology Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2021-11-26
Anticipated expiration: 2041-10-29
Also published as: CN113705226B

Abstract

本发明提供了一种医学文本实体标注方法和装置，所述方法包括：得到已标注医学文本集合；在所述已标注医学文本集合中，确定所述每一已标注实体对应的中间部分表达式，并确定每一已标注实体对应的前面部分表达式和后面部分表达式；确定每一已标注实体对应的基于正则表达式的实体标注模板；对目标医学文本集合中所述第一预设数量的医学文本以外的医学文本进行实体标注。本发明实施例提供的医学文本实体标注方法，通过半监督的标注方法从预标注医学文本中提取了实体标注模板，实现了大批量医学文本的自动标注，并在提取实体标注模板时同时考虑了实体本身及其上下文的文本特性，从而提高了医学文本实体标注的准确率，并减少了人工干预的工作量。

Description

医学文本实体标注方法和装置

技术领域

本发明涉及医疗大数据领域，特别涉及一种医学文本实体标注方法和装置。

背景技术

随着智能医疗技术的广泛应用，利用自然语言处理技术识别如电子病例等医学文本的需求逐渐提高。然而用于人工智能模型训练的医学标注文本语料库的缺失，仍然是制约智能医疗技术应用的瓶颈，当前仍然需要用户根据实际场景和需求去标注大量医学文本。医学文本实体标注是对医学文本中的各类实体进行特征标记的过程，是智能医疗的重要技术构成之一。该技术通过明确文本的多维度特征，对文本内容打上具体的元数据标签，以创建大体量的实体标注医学文本数据集。人工标注大量医学文本工作量大、难以实现。因此，需要采用机器自动标注医学文本从而取代人工标注的工作。

现有的医学文本自动标注方法通常直接采用基于语义、情感等因素的通用文本标注方法，然而通用文本的标注方法没有考虑到医学文本的特殊性，例如：医学文本中的停词或无意义词汇特别少，导致文本中所展示的内容大部分都是需要标注的实体内容，标签密集度高，但标签和标签出现顺序往往有规律性，比如症状和症状描述等实体，检验名和检验值等实体；医学文本相较于其他常规的文本，更多是名词短语的形式，缺少完整的语法结构，因此一些语义的解析方法在医学文本实体标注时不适用；医学标签相较其他通用标签的标签内容更丰富。比如通用标签：国家，学校等内容有上万种就已经很多，而像疾病，手术，药品等等，全称简称口头描述非常多；此外医学文本中还存在一些否定式的表述方式等文本特征。

因此，采用通用文本标注方法来标注医学文本准确率难以保证，不仅不会节省人工标注的工作量，所导致的错误标注结果还会导致需要人工后期介入修正标注结果，从而降低了医学文本的标注效率。

发明内容

有鉴于此，本发明实施例的目的在于提供一种医学文本实体标注方法和装置，具体包括：

第一方面，本发明实施例提供了一种医学文本实体标注方法，所述方法包括：

步骤S110，对目标医学文本集合中第一预设数量的医学文本进行实体标注，得到已标注医学文本集合；

步骤S120，在所述已标注医学文本集合中，根据每一已标注实体确定所述每一已标注实体对应的中间部分表达式，并根据每一已标注实体的上下文信息确定每一已标注实体对应的前面部分表达式和后面部分表达式；

步骤S130，根据每一已标注实体对应的前面部分表达式、中间部分表达式和后面部分表达式中的至少一个，确定每一已标注实体对应的基于正则表达式的实体标注模板；

步骤S140，根据所有已标注实体对应的实体标注模板构成的实体标注模板集合，对目标医学文本集合中所述第一预设数量的医学文本以外的医学文本进行实体标注。

可选地，所述根据每一已标注实体确定每一已标注实体对应的中间部分表达式，具体包括：

对与所述已标注实体属于同一标签的所有已标注实体进行分词处理，统计得到出现频率大于预设频率值且为非数字的高频字符；

对属于所述标签的每一已标注实体，将每一所述高频字符以外的部分表达为相关内容正则表达式；

根据每一已标注实体对应的高频字符和相关内容正则表达式，确定每一已标注实体对应的中间部分表达式。

可选地，所述根据每一已标注实体的上下文信息确定每一已标注实体对应的前面部分表达式和后面部分表达式，具体包括：

对每一已标注实体，获取用于表征所述已标注实体的上下文信息的前字符串集合和后字符串集合，并对所述前字符串集合和所述后字符串集合中的每一字符串进行分词处理，得到前文分词处理结果和后文分词处理结果；其中，所述前字符串集合和后字符串集合中的字符串由所述已标注实体对应的目标搜索窗口的邻近字符组成；

根据与所述已标注实体属于同一标签的所有已标注实体对应的前文分词处理结果和所述后文分词处理结果，分别统计得到出现频率大于预设频率值的前关键词列表和后关键词列表；

根据每一已标注实体对应的所述前关键词列表和后关键词列表，确定每一已标注实体对应的前面部分表达式和后面部分表达式。

可选地，所述已标注实体对应的目标搜索窗口通过如下方式确定：

根据与所述已标注实体属于同一标签的所有已标注实体对应的实体标注模板，统计所述所有已标注实体的前关键词和后关键词的搜索窗口的大小；

在所述属于同一标签的所有已标注实体各自的前关键词和后关键词的搜索窗口大小中，获取所述前关键词和所述后关键词的搜索窗口的最大值，作为所述已标注实体邻近的目标搜索窗口。

根据与所述已标注实体属于同一标签的所有已标注实体对应的实体标注模板，统计所述所有已标注实体对应的实体标注模板是否包含前面部分表达式和后面部分表达式；

所述所有已标注实体对应的实体标注模板中，若前面部分表达式和/或后面部分表达式为空的比例超过预设占比，则将所述已标注实体对应的前面部分表达式和/或后面部分表达式设置为空。

可选地，所述根据所有已标注实体对应的实体标注模板构成的实体标注模板集合，对目标医学文本集合中所述第一预设数量的医学文本以外的医学文本进行实体标注，具体包括：

根据所述实体标注模板集合，对目标医学文本集合中第二预设数量的医学文本进行实体标注，并将所述第二预设数量的医学文本更新至所述已标注医学文本集合，并基于更新后的已标注医学文本集合更新所述实体标注模板集合中实体标注模板的前面部分表达式、中间部分表达式和/或后面部分表达式；

重复上述更新过程，直到目标医学文本集合中的所有医学文本标注完成。

可选地，所述重复上述过程，直到目标医学文本集合中的所有医学文本标注完成，具体包括：

当所述实体标注模板集合更新完成后，判断所述实体标注模板集合中正则表达式产生变化的数量是否大于预设变化量；

若是，则重复所述更新过程；否则，基于更新后的实体标注模板集合，对目标医学文本集合中的剩余医学文本进行实体标注。

可选地，所述已标注实体对应的实体标注模板还包括否定式前缀表达式，所述否定式前缀表达式的确定方式为：

根据预设的搜索窗口大小，在与所述已标注实体左邻近字符中进行搜索，判断所述左邻接字符中是否包括目标否定式前缀；

若是，则进一步判断所述目标否定式前缀与所述已标注实体之间是否存在其他已标注实体；

若否，则根据所述目标否定式前缀，在所述已标注实体对应的实体标注模板最左侧添加否定式前缀表达式。

可选地，所述方法还包括：

根据所有已标注实体对应的实体标注模板构成的实体标注模板集合，对目标医学文本集合中所述第一预设数量的医学文本以外的医学文本中的否定式前缀进行标注。

第二方面，本发明实施例还提供了一种医学文本实体标注装置，所述装置包括：

第一标注模块，用于对目标医学文本集合中第一预设数量的医学文本进行实体标注，得到已标注医学文本集合；

表达式确定模块，用于在所述已标注医学文本集合中，根据每一已标注实体确定所述每一已标注实体对应的中间部分表达式，并根据每一已标注实体的上下文信息确定每一已标注实体对应的前面部分表达式和后面部分表达式；

模板确定模块，用于根据每一已标注实体对应的前面部分表达式、中间部分表达式和后面部分表达式，确定每一已标注实体对应的基于正则表达式的实体标注模板；

第二标注模块，用于根据所有已标注实体对应的实体标注模板构成的实体标注模板集合，对目标医学文本集合中所述第一预设数量的医学文本以外的医学文本进行实体标注。

本发明实施例提供的医学文本实体标注方法和装置，通过半监督的标注方法从预标注医学文本中提取了实体标注模板，并根据已标注医学文本结合的更新实现了实体标注模板的循环更新，不仅实现了其他医学文本的自动标注，还使得用于自动标注的模板更符合医学文本结合的语义特征；并在提取实体标注模板时将其正则表达式形式区分为前中后部分，并为不同实体的标注匹配了不同结构的正则表达式和前后关键词搜索窗口，同时考虑了实体本身及其上下文的文本特性，更加符合医学文本标注任务的特殊性，提高了医学文本实体标注的准确率，并减少了人工干预的工作量；还进行医学标注任务时还实现了对实体的否定式前缀进行标注，进一步方便后续对标注文本的分析研究。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳务的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本申请的主旨。

图1示出了本发明实施例提供的医学文本实体标注方法的流程示意图。

图2示出了本发明实施例提供的实体标注模板中间部分表达式的确定方法的流程示意图。

图3示出了本发明实施例提供的实体标注模板前面部分表达式和后面部分表达式的确定方法的流程示意图。

图4示出了本发明实施例提供的在确定实体标注模板前面部分表达式和后面部分表达式时目标搜索窗口的确定方法的流程示意图。

图5示出了本发明实施例提供的实体标注模板前面部分表达式和后面部分表达式的确定方法的另一流程示意图。

图6示出了本发明实施例提供的医学文本标注方法的又一流程示意图。

图7示出了本发明实施例提供的实体标注模板的否定式前缀的确定方法的流程示意图。

图8示出了本发明实施例提供的医学文本实体标注装置的结构示意图。

图9示出了本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

以下，将参照附图来描述本发明实施例。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。这里使用的词语“一”、“一个（种）”和“该”等也应包括“多个”、“多种”的意思，除非上下文另外明确指出。此外，在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语（包括技术和科学术语）具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

有鉴于此，本发明实施例的目的在于提供一种医学文本实体标注方法、装置、电子设备及可读存储介质，以下结合附图详细描述本发明实施例公开的内容。

附图1示出了本发明实施例提供的医学文本实体标注方法的流程示意图，具体内容如下。

本发明实施例中的目标医学文本集合，是指有待进行实体标注的一系列医学文本的集合，医学文本可以是电子病例、医学诊断书、医学文章等含有大量实体信息的文本。医学文本实体标注主要是将医学文本中出现的目标实体标注为对应的标签，形成带有实体标注信息的语料，供后续分析研究使用，例如将医学文本中出现的“癌症”、“鼻炎”等实体标注为标签“疾病”，将“头疼”、“腹泻”等实体标注为标签“症状”，将“2021年8月”、“19年2月23日”等实体标注为标签“日期”。一般而言，实体标注对应的标签的数量和内容可以是预先根据用户需求设定的。医学文本标注任务中，常见的与医疗术语相关的医学标签有：疾病、症状、体征、检验、手术、药品、化疗、家族史等；常见的与通用术语相关的非医学标签有：时间、日期、邮箱等。

本步骤中对目标医学文本集合中第一预设数量的医学文本进行实体标注，从而得到已标注医学文本集合，是指在目标医学文本集合存在数量较大的医学文本的情况下，预先对一部分医学文本进行实体标注，得到后续用于提取实体标注模板的已标注医学文本集合的数据。该数据应该保证准确性，使得后续所提取的实体标注模板也是可靠的。举例说明，用户在面对1000份医学文本构成的目标医学文本集合的标注任务时，为了实现自动标注，本步骤首先需要先得到第一预设数量的（例如200份）的已标注医学文本集合。

相比之下，现有技术中通用文本实体标注方法在基于标注模板对文本进行标注时，通常采用的是固定的标注模板和标注策略，例如根据先验知识或第三方的标注模板库得到一套固定的实体标注模板集合，该集合直接用于对某个目标文本集合进行标注，而非考虑该文本集合本身的特性。而本发明实施例采用从预标注的医学文本中提取实体标注模板来实现其他同类医学文本的自动标注，这种半监督的标注方法能够更好的匹配医学文本的特性，也就是说，例如采用半监督的方式从电子病例中提取出的实体标注模板，用于标注同类的电子病例，可以得到更准确的标注结果。

具体地，为了得到上述200份的已标注医学文本集合，可以采用基于字典、模式匹配和/或人工标注的方式对目标医学文本集合中第一预设数量的医学文本进行实体标注。本领域技术人员可以理解的是，人工标注的方法可以保证200份医学文本的标注结果是尽可能准确的。为了减少本步骤中人工标注的工作量，还可以先使用现有技术中基于字典或模式匹配的标注方法先对200份医学文本进行预标注，再结合人工标注的方法对预标注的结果进行补充和修正。预标注可通过以下方式达到：例如预标注过程中标注者想把所有疾病标注出来，可以使用疾病词典完成自动标注；如果想标注邮箱，可以基于邮箱格式的模板进行模板匹配完成预标注批量标注。预标注可以通过医学文本实体标注装置的第一标注模块自动完成标注，或人工标注，或二者相结合的方式均可。

步骤S120，在所述已标注医学文本集合中，根据每一已标注实体确定所述每一已标注实体对应的中间部分表达式，并根据每一已标注实体的上下文信息确定每一已标注实体对应的前面部分表达式和后面部分表达式。

步骤S130，根据每一已标注实体对应的前面部分表达式、中间部分表达式和后面部分表达式中的至少一个，确定每一已标注实体对应的基于正则表达式的实体标注模板。

在得到了预标注的已标注医学文本集合后，需要对已标注医学文本集合进行分析，进而得到实体标注模板集合。本发明实施例中的实体标注模板集合是可以理解为从已标注医学文本集合提取用于后续对医学文本进行自动标注的标注规则，标注规则可以采用正则表达式的形式。

本发明实施例根据已标注医学实体确定医学实体标注模板，需要考虑医学文本标注任务中医学实体的语法特性。医学文本中例如涉及疾病、症状、药品等内容的实体，在语法上与上下文之间的关联较强，例如“症状”标签下的实体前后通常会有一些关于症状描述的表述，“检验单位”标签下的实体前后通常会有一些关于检验名、检验值的表述。因此，不同于现有的通用文本实体标注方法在确定实体标注模板时仅需要考虑实体本身的正则表达方式，还需要考虑实体前后的文本内容，从而构建对应的正则表达式作为实体标注模板。

本发明实施中的构成实体标注模板的正则表达式包括前面部分表达式、中间部分表达式和后面部分表达式。其中，中间部分表达式可以理解为从已标注实体本身提取出的正则表达式，前面部分表达式可以理解为从已标注实体之前的文本内容提取出的正则表达式，后面部分表达式可以理解为从已标注实体之后的文本内容提取出的正则表达式。其中，前面部分表达式和后面部分表达式来源于已标注实体前后的文本内容，构成了已标注实体的上下文信息。具体地，前面部分表达式、中间部分表达式和后面部分表达式都可以采用正则表达式的形式进行表示。

对于每一已标注实体而言，在获得了对应的前面部分表达式、中间部分表达式和后面部分表达式后，按照文本语序的顺序，可以将前面部分表达式、中间部分表达式和后面部分表达式进行顺序拼接，构成了一个完整的正则表达式，作为已标注实体对应的实体标注模板。可以理解的是，该实体标注模板可以用于在实体标注时匹配待标注的实体及其上下文信息，实现实体的自动标注。

本发明实施例在基于每一个已标注实体生成对应的基于正则表达式的实体标注模板后，所有已标注实体生成对应的实体标注模板共同构成了实体标注模板集合。具体在构成实体标注模板集合时，可以对其中所生成的相同的实体标注模板进行去重处理，避免实体标注模板的冗余。

除步骤S110中已进行预标注的第一预设数量的医学文本以外，本步骤中目标医学文本集合中其他医学文本的实体标注的过程可以使用实体标注模板集合中的各实体标注模板与医学文本进行匹配，从而实现医学文本的自动标注。可见，预标注阶段与自动标注阶段共同构成了本发明实施例提供的半监督方式的医学文本实体标注方法。

对医学文本进行实体标注后，可以对标注出的实体进行高亮处理，并将标注为不同类型标签的实体高亮为不同的颜色，以方便后续的阅读和研究。

值得说明的是，实体标注模型的通常评价指标包含准确率(Precision)、召回率(Recall)等。基于后续分析研究任务的需要，医学文本的实体标注任务对标注准确性即准确率(Precision)的要求较高，因此本发明实施例中的自动标注方法仅考虑标注出来的实体有多少是正确的，而不考虑有多少正确的实体被标注出来，即准确性的重要程度远高于完整性。遗漏掉的未标注实体可以通过后期的人工标注进行补充。经权衡而非限制性的，本案的实施例中，自动标注方法所采取的其中一种优选的评价指标是，仅考虑标注出来的实体有多少是正确的，而不考虑有多少正确的实体被标注出来，更符合医学文本标注的准确性要求。

本领域技术人员可以理解的是，设计医学文本的自动实体标注任务的目标不是为了完全避免人工标注的工作，而是为了减少人工标注的工作。因此，本发明实施例所体现出的实体标注的准确性尤为重要，如果存在错误标注，反而会增加人工核查的工作量。此外，本发明实施例提供的医学文本的实体标注方法也不要求标注出全部的标签，可以基于预设的若干标签进行标注，其余的标签对应的标注工作也可以通过人工标注或其他标注方法进行补充。例如，医学文本的实体标注任务共涉及10类标签，但可以约定执行本发明实施例时仅在其中5类适合自动标注的标签范围内进行标注，或者初始标注的200份医学文本所提取的标注模板只涉及到了5类标签，在这样的一些场景下本发明实施例提供的医学文本标注方法仍然可以达到相应的技术效果。

本发明实施例提供的医学文本实体标注方法，通过半监督的标注方法从预标注医学文本中提取了实体标注模板，实现了大批量医学文本的自动标注，并在提取实体标注模板时将其正则表达式形式区分为前中后部分，同时考虑了实体本身及其上下文的文本特性，更加符合医学文本中实体密集度高、实体之间具有关联性等文本特征，从而提高了医学文本实体标注的准确率，并减少了人工干预的工作量。

基于上述实施例，附图2示出了本发明实施例提供的实体标注模板中间部分表达式的确定方法的流程示意图，所述根据每一已标注实体确定每一已标注实体对应的中间部分表达式，具体包括如下内容。

步骤S210，对与所述已标注实体属于同一标签的所有已标注实体进行分词处理，统计得到出现频率大于预设频率值且为非数字的高频字符。

本发明实施例根据已标注实体确定实体标注模板，需要考虑医学文本标注任务中实体的语法特性。其中，前述实施例中提到的中间部分表达式是基于实体本身的表达形式生成的正则表达式。

本案中，在此处给出正则表达式的基础公式：

中文[\u4E00-\u9FA5]

英文[A-Za-z]

数字：\d

除了\n的其他字符: .

匹配多个：+

匹配0到1个：{0,1}

匹配n到m个： {n,m}

Or ： |

本步骤中首先需要提取某一类标签下的已标注实体中出现频率较高的字符，具体而言，可以对属于同一标签类型的所有已标注实体进行分词处理，统计得到出现频率大于预设频率值且为非数字的高频字符。分词处理可以采用jieba、SnowNLP、THULAC等第三方分词工具。以下通过一个实例进行说明。

首先在已标注医学文本集合中获取所有标注为“日期”这一标签的已标注实体，共获得如下四个已标注实体：“2019年3月”、“2000年”、“1984年12月20号”和“19年”，对这四个已标注实体分别进行分词处理后，统计其中出现频率大于40%的字符作为高频字符，发现“年”和“月”为高频字符。统计高频字符的目的在于将高频字符作为构建正则表达式的核心内容。此外，高频字符需要排除掉数字字符，因为数字字符一般不能表示已标注实体中核心的语义信息。可以理解的是，对于不同标签下已标注实体的不同表达方式，可以分别设置不同的预设频率值，这些数值可以根据用户的实际需求进行设置，本发明实施例不做具体限定。

步骤S220，对属于所述标签的每一已标注实体，将每一所述高频字符以外的部分表达为相关内容正则表达式。

在获取到高频字符后，本步骤对属于所述标签类型的每一已标注实体，将每一所述高频字符以外的部分表达为相关内容正则表达式。本发明实施例将已标注实体分为了高频字符部分和相关内容部分。本步骤就是对相关内容部分构建正则表达式。以下继续根据实例进行说明。

在步骤S210中获取了“日期”这一标签下所有已标注实体的高频字符“年”和“月”后，需要针对每一高频字符对应的相关内容部分构建正则表达式。首先处理高频字符“年”，每一个已标注实体中相关内容位于“年”的前面和后面。例如“2019年3月”中，“年”前的相关内容为“2019”，“年”后的相关内容为“3月”；“1984年12月20号”中，“年”前的相关内容为“1984”，“年”后的相关内容为“12月20号”，以此类推。

因此，对于获取的四个已标注实体“2019年3月”、“2000年”、“1984年12月20号”和“19年”。可以归纳出各已标注实体“年”前面的正则表达式分别为\d{4}，\d{4}，\d{4}和\d{2}。其中，“\d”、“{}”以及本发明实施例提及的其他正则表达式用到的标识均为本领域通用的正则表达式的表达形式，在此不做赘述。将\d{4}，\d{4}，\d{4}和\d{2}合并后，得到“年”前面的正则表达式为\d{2,4}，也就是，该高频词“年”前面取2~4个字，是该“时间”标签类型下高频词“年”是较为适宜的标注规则。同样可以归纳出各已标注实体“年”后面的正则表达式分别为\d{1}，\d{0}，\d{2}月\d{2}号和\d{0}，合并后得到“年”后面的正则表达式为\d{0,1}|\d{0,2}月|\d{0,2}号，同理，该高频词“年”后取0~2个字是较为适宜的标注规则。同理，也可以采用上述方式确定高频字符“月”前后的正则表达式。对于已标注实体，分别对不同标签类型下的高频词归纳出更匹配更适宜的标注规则，形成标注规则集合，用于确定相应地实体标注模板。

步骤S230，根据每一已标注实体对应的高频字符和相关内容正则表达式，确定每一已标注实体对应的中间部分表达式。

由于本发明实施例将已标注实体分为了高频字符部分和相关内容部分，因此在步骤S210和步骤S220分别确定了高频字符以及高频字符对应的相关内容正则表达式后，本步骤可以确定出实体标注模板的中间部分表达式。例如\d{2,4}、年和\d{0,1}|\d{0,2}月|\d{0,2}号进行拼接即构成了一个实体标注模板的中间部分表达式，同理还可以生成一个基于高频字符“月”的实体标注模板的中间部分表达式。最终生成的中间部分表达式的形式可以是\d{2,4}年(\d{0,2}月|\d{0,1}|\d{0,2}号)。

以下提供“检验单位”这一标签下生成实体标注模板的中间部分表达式的完整过程作为另一支持实例。

首先在已标注医学文本集合中获取所有标注为“检验单位”这一标签的已标注实体，相关的文本部分可以是“CA274：47.4U/ML ，血红……”、“血红蛋白：152g/L，患者……”、“血小板积压PCT 0.294% 。2019年……”、“25-羟基维生素D：7.65ng/ML”，共获得如下4个已标注医学实体：“U/ML”、“g/L”、“%”、“ng/ML”，对这4个已标注医学实体分别进行分词处理后，统计其中出现频率大于50%的字符作为高频字符，发现“M”、“l”、“/”和“g”为高频字符。以处理高频字符“M”为例，在其相关内容正则表达式中，“m”前的正则表达式为“Ng/”、“U/”，最终合并为“[NgU]{0,2}/{0 ,1}”；“m”后的正则表达式为“L”、“L”和“g”，最终合并为“[Lg]{1}”。因此，[NgU]{0,2}/{0,1}、m和[Lg]{1}进行拼接即构成了一个医学实体标注模板的高频字符“m”的中间部分表达式带M的实体中间部分为 [NgU]{0,2}/{0,1}M[Lg]{1}。同理可以基于高频字符L和/分别生成对应的实体标注模板的中间部分表达式n{0,1}[Ug]{0,1}/{1}[mM]{0,1}L、n{0,1}[Ug]{1}/[mM]{0,1}L{1}和n{0,1}g/{1}M{0,1}L{1}。最终，基于“检验单位”这一标签下的已标注实体所生成中间部分表达式为[NgU]{0,2}/{0,1}M[L]{1}|n{0,1}[Ug]{0,1}/{1}[mM]{0,1}|n{0,1}[Ug]{1}/[mM]{0,1}L{1}|n{0,1}g/{1}M{0,1}L{1}{0,1}|n{0,1}[Ug]{1}/[mM]{0,1}L{1}。

本发明实施例提供的非医学实体标注模板的确定方法，基于医学文本标注任务中非医学实体的语法特性，提取非医学实体的高频字符，并基于不同高频字符及其相关内容构建不同形式的正则表达式，从而实现非医学实体标注模板的分析提取，进而能够实现医学文本中非医学实体的准确标注。

基于上述任一实施例，附图3示出了本发明实施例提供的实体标注模板前面部分表达式和后面部分表达式的确定方法的流程示意图，所述根据每一已标注实体的上下文信息确定每一已标注实体对应的前面部分表达式和后面部分表达式，具体包括如下内容。

步骤S310，对每一已标注实体，获取用于表征所述已标注实体的上下文信息的前字符串集合和后字符串集合，并对所述前字符串集合和所述后字符串集合中的每一字符串进行分词处理，得到前文分词处理结果和后文分词处理结果；其中，所述前字符串集合和后字符串集合中的字符串由所述已标注实体对应的目标搜索窗口的邻近字符组成。

本发明实施例体现出了在确定实体标注模板时，基于医学文本中实体的语义特征，需要考虑到实体的上下文信息，以使得所确定的实体标注模板更加准确。该上下文信息就是通过本发明实施例中所确定的前面部分表达式和后面部分表达式来实现的。

本步骤中首先要在已标注医学文本中获取所述已标注实体对应的前字符串集合和后字符串集合。前字符串集合和后字符串集合中的字符串由与所述已标注实体邻近的不同预设数量的字符组成。举例说明，已标注医学文本中包括如下片段“不适后多次行胸腔穿刺为血性胸水”，对于其中的已标注为标签“手术”的实体“胸腔穿刺”而言，在已标注医学文本中分别获取其前1个字符“行”、前2个字符“次行”、前3个字符“多次行”、前4个字符“后多次行”、前5个字符 “适后多次行”，将按照上述方式获取的5个字符串共同构成了前字符串集合。同理可以获得已标注实体“胸腔穿刺”的后字符串集合。

上述实例中预设数量的字符为1~5个，即对已标注实体的上下文进行搜索时最大的搜索窗口为5，即设置为了预设的定值。本发明实施例还可以根据不同标签下实体的标注历史自动计算最适宜的向前搜索窗口和向后搜索窗口的大小，具体在后续实施例中进行说明。

在获取了已标注实体对应的前字符串集合和后字符串集合后，需要进一步分析前字符串集合和后字符串集合中一般包含哪些词汇，因此需要对前字符串集合和后字符串集合中的每一字符串进行分词处理，得到前文分词处理结果和后文分词处理结果。分词处理可以采用jieba、SnowNLP、THULAC等第三方分词工具。前文分词处理结果和后文分词处理结果可以理解为带有分词信息的前字符串集合和后字符串集合。值得说明的是，字符串的提取过程可能会人为地把具有特定语义的词汇切分开导致语义信息的丢失，本步骤中采用不同预设数量的字符构成字符串后再进行分词处理，可以有效地避免该问题。

步骤S320，根据与所述已标注实体属于同一标签的所有已标注实体对应的前文分词处理结果和所述后文分词处理结果，分别统计得到出现频率大于预设频率值的前关键词列表和后关键词列表。

在获取到前文分词处理结果和所述后文分词处理结果后，需要进一步确定各个分词中出现的高频字符得到关键词列表，作为与已标注实体高度关联的上下文信息。具体而言，对于所有对应同一已标注实体的前文分词处理结果和所述后文分词处理结果中的各分词，可以统计某一分词出现的频率是否大于预设频率值，若是，则将该分词作为相应的前关键词或后关键词。然后，可以根据该已标注实体对应的所有前关键词或后关键词，生成该已标注实体对应的前关键词列表和后关键词列表。

此外，对于某一已标注实体的前关键词或后关键词，还可以在生成前关键词列表和后关键词列表时进行去重处理，对于多个相互之间具有包含关系的关键词，仅保留最大语义范围的关键词加入到关键词列表中，其他语义范围较小的关键词可以排除。

以下用一个实例说明本步骤中后关键词列表的生成过程：针对已标注医学文本集合中的“腹泻”这一已标注实体，得到后文分词处理结果后，统计其中出现频率大于预设频率值10%的高频字符有：“痛”、“腹痛”、“吐”、“呕吐”、“发烧”。根据去重原则，“痛”和“腹痛”之间保留最大语义范围的“痛”，“吐”和“呕吐”之间保留最大语义范围的“吐”。因此，得到的“腹泻”这一已标注医学实体对应的后关键词列表为“痛”、“吐”和“发烧”。同理可以根据类似的过程确定前关键词列表。

步骤S330，根据每一已标注实体对应的所述前关键词列表和后关键词列表，确定每一已标注实体对应的前面部分表达式和后面部分表达式。

在获得前关键词列表和后关键词列表之后，需要将该信息表达为正则表达式的形式，分别为前面部分表达式和后面部分表达式。具体地，各前关键词可以用“|”符号隔开，从而生成以正则表达式形式表示的前面部分表达式和后面部分表达式，例如“痛|吐|发烧”。可以理解的是，基于前面部分表达式和后面部分表达式，在使用所生成的医学实体标注模板对医学文本进行医学实体“腹泻”的标注时，不仅能够匹配医学实体本身，还可以根据前面部分表达式和后面部分表达式以及对应的搜索窗口大小进行匹配，进一步提高医学实体“腹泻”的标注准确率。

基于前述实施例中提到的“检验单位”这一标签下生成实体标注模板中间部分表达式的实例，此处进一步结合该实例说明其前面部分表达式和后面部分表达式的生成过程。

在该实例中，前期得到了“检验单位”这一标签下生成实体标注模板中间部分表达式[NgU]{0,2}/{0,1}M[L]{1}|n{0,1}[Ug]{0,1}/{1}[mM]{0,1}|n{0,1}[Ug]{1}/[mM]{0,1}L{1}|n{0,1}g/{1}M{0,1}L{1}{0,1}|n{0,1}[Ug]{1}/[mM]{0,1}L{1}。基于前后搜索窗口为1~5个字符，并以出现频率10%为前后关键词的筛选标准，前面部分搜索窗口为1~3时字符串中均为不同的数值和“.”，搜索窗口取到4~5时开始有空格和“:”，被认定为关键词，因此最终生成的前面部分表达式可以为[： ][\d.]{1,4}。同理，向后的搜索窗口1~5的字符串中，发现只有“,”和空格出现比例高，被认定为关键词，最终所生成的后面部分表达式为[， ]{1,2}。由于实体标注模板由前面部分表达式、中间部分表达式和后面部分表达式根据语序顺序拼接而成，因此“检验单位”这一标签下所生成的基于正则表达式的实体标注模板可以为[： ][\d.]{1,4}([NgU]{0,2}/{0,1}M[L]{1}|n{0,1}[Ug]{0,1}/{1}[mM]{0,1}|n{0,1}[Ug]{1}/[mM]{0,1}L{1}|n{0,1}g/{1}M{0,1}L{1})[， ]{1,2}。

本发明实施例提供的实体标注模板的前面部分表达式和所述后面部分表达的确定方法，基于已标注不同实体的上下文信息的特点，通过生成已标注实体前后搜索窗口内对应的前后关键词列表，能够使得所生成的实体标注模板更加匹配医学文本中实体的语义特征，体现出了医学文本实体标注任务的特殊语义场景，且所生成的实体标注模板具有多样性，会进一步适配不同标签下实体的个性化语义特征，进而使得所生成的实体标注模板对医学文本进行实体标注更加准确。

基于上述任一实施例，附图4示出了本发明实施例提供的在确定实体标注模板前面部分表达式和后面部分表达式时目标搜索窗口的确定方法的流程示意图，具体包括如下内容。

步骤S410，根据与所述已标注实体属于同一标签的所有已标注实体对应的实体标注模板，统计所述所有已标注实体的前关键词和后关键词的搜索窗口的大小。

前述实施例中提到，在确定实体标注模板前面部分表达式和后面部分表达式时，目标搜索窗口可以是预设数量的字符，即最大搜索窗口为预设的定值；也可以根据不同标签下实体的标注历史自动计算最适宜的向前搜索窗口和向后搜索窗口的大小。其原因在于，不同标签下实体对应的前后关键词具有不同的常见出现位置，搜索窗口过小会导致漏掉前后关键词的信息，搜索窗口过大会降低关键词搜索效率，甚至会将语义关联程度较小的词汇引入到前后关键词列表中，使得所生成的前面部分表达式和后面部分表达式用于实体标注时不够准确。因此，根据不同标签下实体的语义特征自动计算最适宜的向前搜索窗口和向后搜索窗口的大小，可以解决上述问题。

本步骤中根据不同标签下实体的标注历史自动计算最适宜的向前搜索窗口和向后搜索窗口的大小，具体是指，首先需要根据与所述已标注实体属于同一标签的所有已标注实体对应的实体标注模板，统计所述所有已标注实体前关键词和后关键词的最大搜索窗口。据同类标签下的实体标注模板的统计信息，关键词一般会出现的搜索窗口内固定的位置，本发明实施例根据该信息不断调整搜索窗口的大小，从而使得搜索窗口大小不断逼近合适的值。

接下来以标签“手术”下的已标注实体为例进行说明。在为该标签下的已标注实体生成前面部分表达式和后面部分表达式时，初始的搜索窗口大小可以设置为5。然而，该标签下已标注实体相关的文本内容一般为“患者于2020年3月行阑尾切除术，于次年6月行腹腔镜探查术，术后恢复良好”等形式。经统计发现，关键词“月行”位于手术前长度为2搜索窗口中，且该情形能涵盖90%以上情况，则可以认为“手术”标签下的已标注实体前关键词的最大搜索窗口为2。同理可以确定“手术”标签下的已标注实体后关键词的最大搜索窗口。

步骤S420，在所述属于同一标签的所有已标注实体各自的前关键词和后关键词的搜索窗口大小中，获取所述前关键词和所述后关键词的搜索窗口的最大值，作为所述已标注实体邻近的目标搜索窗口。

在确定了同一标签下所有已标注实体前关键词和后关键词的最大搜索窗口之后，可以将前关键词和后关键词的最大搜索窗口确定为已标注实体邻近的目标搜索窗口。可以理解的是，本发明实施例中目标搜索窗口可以在初始时设置为一个较大的值，例如前关键词和后关键词的目标搜索窗口均设置为5，经过本实施例根据特定标签下实体的语义特征，对目标搜索窗口进行不断调整，最终确定前关键词和后关键词的目标搜索窗口分别为2和3。

本发明实施例提供的在确定实体标注模板前面部分表达式和后面部分表达式时目标搜索窗口的确定方法，基于不同标签下已标注实体上下文的不同文本特征，通过同类标签下的实体标注模板的统计信息，不断调整搜索窗口的大小，从而使得搜索窗口大小不断逼近合适的值，实现了实体标准模板生成的准确和高效。

基于上述任一实施例，附图5示出了本发明实施例提供的实体标注模板前面部分表达式和后面部分表达式的确定方法的另一流程示意图，具体包括如下内容。

步骤S510，根据与所述已标注实体属于同一标签的所有已标注实体对应的实体标注模板，统计所述所有已标注实体对应的实体标注模板是否包含前面部分表达式和后面部分表达式。

在医学文本标注任务中待标注的实体存在不同的语义特征，例如基于时间、日期、邮箱等非医学术语的非医学实体，以及基于疾病、症状、体征、检验、手术、药品、化疗、家族史等医学术语的医学实体。

非医学实体在语法上具有一定的独立性，与上下文之间的关联较弱；医学实体在语法上与上下文之间的关联较强，例如“症状”标签下的实体前后通常会有一些关于症状描述的表述，“检验单位”标签下的实体前后通常会有一些关于检验名的表述。

因此，尽管前述实施例中提到，本发明实施例中一种通用的实施方式为实体标注模板由前面部分表达式、中间部分表达式和后面部分表达式构成；其中中间部分表达式是基于已标注实体本身所生成的，前面部分表达式和后面部分表达式是基于已标注实体的上下文信息生成的。然而基于上述论述的非医学实体的语义的独立性，其前面部分表达式和后面部分表达式往往不存在，即为空。也就是说，实际生成的非医学实体对应的实体标注模板中会存在仅包含中间部分表达式的情况。相对而言，医学实体由于其语义上与上下文的强关联性，其对应的实体标注模板包含前面部分表达式和/或后面部分表达式的部分更常见一些。

此外，尽管医学实体在语义上与上下文具有强关联性，但不同标签下的医学实体对应的实体标注模板也会存在前面部分表达式和/或后面部分表达式不存在的情况。

基于上述原因，本发明实施例可以基于已标注实体对应的实体标注模板的构成，根据其历史统计信息，快速地将特定标签下实体对应的实体标注模板的前面部分表达式和/或后面部分表达式设置为空，实现实体标注模板个性化地生成。

因此，本步骤首先根据与所述已标注实体属于同一标签的所有已标注实体对应的实体标注模板，统计所述所有已标注实体对应的实体标注模板是否包含前面部分表达式和后面部分表达式。例如对于实体标注过程中所生成的所有“日期”标签下对应的实体标注模板，经统计90%以上的实体标注模板都不包含前面部分表达式和后面部分表达式，仅包含中间部分表达式，体现出了非医学实体在语义上的独立性。又例如对于实体标注过程中所生成的所有“手术”标签下对应的实体标注模板，经统计80%以上的实体标注模板都不包含后面部分表达式，仅包含前面部分表达式和中间部分表达式，体现出“手术”标签下的实体个性化的语义特点。

步骤S520，所述所有已标注实体对应的实体标注模板中，若前面部分表达式和/或后面部分表达式为空的比例超过预设占比，则将所述已标注实体对应的前面部分表达式和/或后面部分表达式设置为空。

在得到某一特定标签下，所有已标注实体对应的实体标注模板是否包含前面部分表达式和后面部分表达式的统计信息后，可以将该统计信息与预设占比的值进行对比。如果超过预设占比，可以在确定该标签下已标注实体对应的实体标注模板时，直接将所述已标注实体对应的前面部分表达式和/或后面部分表达式设置为空，使得后续在确定和更新相应的实体标注模板时跳过前面部分表达式和/或后面部分表达式字符串搜索、关键词列表确定、前后部分正则表达式的生成等步骤，提高了实体标注模板确定的效率。

举例说明，在涉及“日期”语境中，“年”、“月”、“日”等作为非医学实体作为高频词语，在确定“日期”标签下对应的实体标注模板时，只需要根据由该高频词语而确定的中间部分表达式确定实体标注模板；因为在涉及“手术”语境中，“手术”作为医学实体该通常位于句尾，在确定“手术”标签下对应的实体标注模板时，只需要根据其前面部分表达式和中间部分表达式确定实体标注模板。本步骤中的不同标签下对应的预设占比可以根据用户的实际需求进行设置。

可以理解的是，本发明实施例所生成实体标注模板集合中，部分实体标注模板可以由前面部分表达式+中间部分表达式+后面部分表达式构成，部分实体标注模板可以由前面部分表达式+中间部分表达式构成，部分实体标注模板可以由中间部分表达式+后面部分表达式构成，部分实体标注模板可以仅由中间部分表达式构成。由此可见，针对不同标签下的已标注实体的不同语义特征，本发明实施例所确定出的实体标注模板可以适应性地表现出不同的内容构成，从而匹配医学文本中不同实体标注的需求。除中间部分表达式是实体标注模板的固定组成部分外，其他组成部分都是可选的。

本发明实施例提供的实体标注模板前面部分表达式和后面部分表达式的确定方法，基于同一标签下已标注实体对应的实体标注模板的历史统计信息，可以解析出不同的实体标注模板的内容构成，选择性地将前面部分表达式和/或后面部分表达式设置为空，从而适配医学文本中不同实体标注的需求，提高了医学文本实体标注的效率。

基于上述任一实施例，附图6示出了本发明实施例提供的医学文本标注方法的又一流程示意图，所述根据所有已标注实体对应的实体标注模板构成的实体标注模板集合，对目标医学文本集合中所述第一预设数量的医学文本以外的医学文本进行实体标注，具体包括如下内容。

步骤S610，根据所述实体标注模板集合，对目标医学文本集合中第二预设数量的医学文本进行实体标注，并将所述第二预设数量的医学文本更新至所述已标注医学文本集合，并基于更新后的已标注医学文本集合更新所述实体标注模板集合中实体标注模板的前面部分表达式、中间部分表达式和/或后面部分表达式。

在前述实施例中对目标医学文本集合中第一预设数量的医学文本进行了预标注，进而确定了每一已标注实体对应的实体标注模板共同构成的实体标注模板集合。具体地，本实施例中对目标医学文本集合中所述第一预设数量的医学文本以外的医学文本进行自动实体标注，并不是直接对目标医学文本集合中的剩余所有医学文本都进行自动标注，而是采用了循环更新实体标注模板集合的机制，每标注第二预设数量的医学文本后将新的已标注医学文本更新至已标注医学文本合集，进而根据更新后的已标注医学文本合集同步更新实体标注模板集合。

由于每标注一部分医学文本后，由于不同医学文本的具体用语之间的多样性，新标注完的医学文本中可以提取出新的实体标注模板，进而可以加入到实体标注模板集合中，同时预标注的医学文本提取出的实体标注模板集合存在不准确的情形，也可以在该更新过程中被删除或替换，由此实现自动标注规则的逐步完善。相应地，新标注完的医学文本也应该逐步更新到已标注医学文本集合中。具体地，第二预设数量可以根据用户的实际需求进行设置，例如设置为100，即每自动标注100份医学文本后对实体标注模板集合进行一次更新。

可以理解的是，由于医学文本个体之间的差异性，目标医学文本集合中的第1~100份、第101~200份、第201~300份，……，第901~1000份的不同文本子集之间的文本特性也是存在差异的。面对这些子集文本特性差异，对实体标注规则予以相适应的循环调整更新，相较于现有技术的正则表达式的通用、固定的实体标注模板，使得通过预标注而确定实体标注模板集合适时更加贴合目标医学文本的客观实际的文本特性。

具体地，由于实体标注模板由前面部分表达式、中间部分表达式和后面部分表达式构成。在具体对实体标注模板进行更新时，可以仅更新需要改变的表达式部分，以提高模板更新的效率。例如标签“日期”下的实体标注模板仅包含中间部分表达式部分，则在需要对其更新时更新其中间部分表达式即可；又例如标签“手术”下的实体标注模板仅包含前面部分表达式和中间部分表达式两部分，则在需要对其更新时更新其前面部分表达式和中间部分表达式即可。

步骤S610，重复上述更新过程，直到目标医学文本集合中的所有医学文本标注完成。

由于本发明实施例采用了循环更新实体标注模板集合的机制，步骤S601表示每次循环需要执行的相应步骤，且每次循环需要处理的医学文本数量为第二预设数量。每次循环的更新过程中，实现实体标注模板集合以及已标注医学文本集合的同步更新。最终在若干次循环后，将目标医学文本集合中的所有医学文本标注处理完成，结束本实施例的循环过程，得到目标医学文本集合中所有医学文本的标注结果。

在另一种实施方式中，也可以无需循环至目标医学文本集合中的所有医学文本标注完成，而是设置相应的循环终止条件，以防止循环执行若干次后，实体标注模板集合出现无效更新的情形。例如对于10000份医学文本的标注任务，第一预设数量设置为200，设置第二预设数量为100，可能在循环执行至20次左右之后，即已经实现了200份医学文本的预标注以及2000份医学文本的自动标注后，后续的更新过程中实体标注模板集合中的内容已经趋于稳定，预标注过程中产生的标注错误已经被基本修复，医学文本中可以提取的标注规则也都生成了相应的基于正则表达式的实体标注模板，体现在了实体标注模板集合中。此时，一种使得标注更高效的实施方式为及时终止更新，直接采用实体标注模板将剩余的7800份医学文本自动标注完成即可。

具体地，可以当每次所述实体标注模板集合更新完成后，判断所述实体标注模板集合中正则表达式产生变化的数量是否大于预设变化量。若是，则重复所述更新过程；否则，基于更新后的实体标注模板集合，对目标医学文本集合中的剩余医学文本进行实体标注。预设变化量可以设置为0或其他本领域技术人员需要的预设值，代表实体标注模板集合中的内容趋于稳定。本发明实施例中实体标注模板集合中正则表达式产生的变化，包括正则表达式的增加、减少或改变等。

本发明实施例提供的医学文本实体标注方法，在半监督的方式实现医学文本中实体的自动标注的基础上，明确了实体标注模板的循环更新方式及其循环终止条件，并在实体标注模板区分为前中后部分的基础上仅对实体标注模板需要更新内容的部分进行更新，提高了医学文本实体自动标注的效率，尤其适用于大批量医学文本标注的场景。

基于上述任一实施例，附图7示出了本发明实施例提供的实体标注模板的否定式前缀的确定方法的流程示意图，具体内容如下：

步骤S710，根据预设的搜索窗口大小，在与所述已标注实体左邻近字符中进行搜索，判断所述左邻接字符中是否包括目标否定式前缀。

在医学文本中，实体之前出现否定式的表述方式，例如“未见发烧现象”、“没有使用抗生素”，其中的“未”、“没有”在本发明实施例中被称为实体的否定式前缀。在医学文本的实体标注任务中，同时对否定式前缀进行标注，可以用于指示疾病与症状之间的关系、当前症状与用药之间的关系等医学信息，能够使得研究人员后续对已标注医学文本进行与研究分析时，得到更为丰富的临床诊断信息，例如某个疾病产生某类症状的概率等。

因此，要实现对医学文本中实体的否定式前缀进行自动标注，需要在实体标注模板中考虑否定式前缀的因素。因此，本发明实施例中实体标注模板的正则表达式中除了前面部分表达式、中间部分表达式和后面部分表达式之外，还可以包括否定式前缀部分。在医学文本中，部分实体前可能会出现否定式的表达方式，部分实体前不会出现否定式的表达方式，因此，否定式前缀用于指示某一实体前面是否可能出现否定式的表达方式。

为了分析得到实体标注模板的正则表达式的否定式前缀部分，本步骤首先根据预设的搜索窗口大小，在与所述已标注实体左邻近字符中进行搜索，判断所述左邻接字符中是否包括目标否定式前缀。目标否定式前缀是指医学文本的常见的所有否定式表达，例如未、没有、无、排除、不、非等。举例说明，可以在实体“头疼”左邻近的5个字符范围的搜索窗口内搜索是否出现了未、没有、无、排除、不、非等字符。具体可以采用现有的文本匹配方式实现。

步骤S720，若是，则进一步判断所述目标否定式前缀与所述已标注实体之间是否存在其他已标注实体。

在判断已标注实体左邻近字符中存在目标否定式前缀的情况下，本步骤需要进一步判断该否定式前缀是否与该已标注实体相关，而不是与其他已标注实体相关。具体的判断方法为判断所述目标否定式前缀与所述已标注实体之间是否存在其他已标注实体。

以下通过实例进行说明，存在如下医学文本的片段“无咳嗽，疑流感”，对于已标注实体“流感”，其左邻近字符中包括目标否定式前缀“无”。接下来需要判断目标否定式前缀“无”是否与实体“流感”之间存在直接关系。经判断，“无”和“流感”之间还包括已标注实体“咳嗽”，表明目标否定式前缀“无”并不是已标注实体“流感”真正的否定式前缀。事实上，在基于已标注实体“咳嗽”构建实体标注模板的正则表达式时，“无”会被认定为是“咳嗽”的否定式前缀。

此外，在判断已标注实体左邻近字符中不存在目标否定式前缀的情况下，则不执行本步骤以及后续步骤。

步骤S730，若否，则在所述实体正则表达式最左侧添加否定式前缀。

在判断所述目标否定式前缀与所述已标注实体之间不存在其他已标注实体的情况下，代表目标否定式前缀是否与已标注实体之间存在直接关系。因此从已标注实体中获取的实体标注模板的正则表达式中，包含了否定式前缀、前面部分表达式、中间部分表达和后面部分表达式四部分内容。可以理解的是，在所述目标否定式前缀与所述已标注实体之间存在其他已标注实体的情况下，从已标注实体中获取的实体标注模板的正则表达式中，仅包含前面部分表达式、中间部分表达和后面部分表达式三部分内容。也就是说在判断已标注实体左邻近字符中存在目标否定式前缀的情况下，则不执行本步骤。

否定式前缀可以设置在该正则表达式的最左侧，形成“否定式前缀+前面部分表达式和/或中间部分表达和/或后面部分表达式”拼接而成的实体标注模板。其中，出于实体标注模板的精简最大化的考虑，例如，“无”会被认定为是“咳嗽”的否定式前缀，则依据“否定式前缀”拼接上其限定修饰的中间部分表达式，进行拼接即可。

相应地，在实体标注模板包含否定式前缀的情况下，一种优选的实施方式为，根据所有已标注实体对应的实体标注模板构成的实体标注模板集合，对目标医学文本集合中所述第一预设数量的医学文本以外的医学文本中的否定式前缀进行标注。也就是说，在实体标注模板存在否定式前缀的情况下，使用这样的实体标注模板对医学文本中的实体进行标注时，同时在否定式前缀也能匹配上医学文本的前提下，对医学文本中的该否定式前缀也进行标注。相当于在传统的医学文本实体标注任务的基础上，额外增加了否定式前缀的标注任务。

可以理解的是，否定式前缀既可以在预标注阶段通过手动标注等方式进行预标注；也可以在自动标注阶段通过本发明实施例中的方法，通过得到带有否定式前缀的实体标注模板，进而在自动标注阶段对否定式前缀进行自动标注。

本发明实施例提供的实体标注模板的否定式前缀的确定方法，基于医学文本中实体之前会出现否定式的表述方式的情形，在确定实体标注模板时考虑了其正则表达式是否包括否定式前缀的部分，从而实现了对医学文本进行实体标注时对实体的否定式前缀进行标注，为研究人员后续能更好地使用所标注的医学文本提供了实体之间关系的信息。

基于上述任一实施例，附图8示出了本发明实施例提供的医学文本实体标注装置的结构示意图，具体内容如下：

第一标注模块801，用于对目标医学文本集合中第一预设数量的医学文本进行实体标注，得到已标注医学文本集合；

表达式确定模块802，用于在所述已标注医学文本集合中，根据每一已标注实体确定所述每一已标注实体对应的中间部分表达式，并根据每一已标注实体的上下文信息确定每一已标注实体对应的前面部分表达式和后面部分表达式；

模板确定模块803，用于根据每一已标注实体对应的前面部分表达式、中间部分表达式和后面部分表达式，确定每一已标注实体对应的基于正则表达式的实体标注模板；

第二标注模块804，用于根据所有已标注实体对应的实体标注模板构成的实体标注模板集合，对目标医学文本集合中所述第一预设数量的医学文本以外的医学文本进行实体标注。

本发明实施例提供的医学文本实体标注装置，通过半监督的标注方法从预标注医学文本中提取了实体标注模板，实现了大批量医学文本的自动标注，并在提取实体标注模板时将其正则表达式形式区分为前中后部分，同时考虑了实体本身及其上下文的文本特性，更加符合医学文本中实体密集度高、实体之间具有关联性等文本特征，从而提高了医学文本实体标注的准确率，并减少了人工干预的工作量。

基于上述任一实施例，附图9示出了本发明实施例提供的电子设备的实体结构示意图，该电子设备可以包括：处理器(processor)910、通信接口(CommunicationsInterface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行如下方法：步骤S110，对目标医学文本集合中第一预设数量的医学文本进行实体标注，得到已标注医学文本集合；步骤S120，在所述已标注医学文本集合中，根据每一已标注实体确定所述每一已标注实体对应的中间部分表达式，并根据每一已标注实体的上下文信息确定每一已标注实体对应的前面部分表达式和后面部分表达式；步骤S130，根据每一已标注实体对应的前面部分表达式、中间部分表达式和后面部分表达式，确定每一已标注实体对应的基于正则表达式的实体标注模板；步骤S140，根据所有已标注实体对应的实体标注模板构成的实体标注模板集合，对目标医学文本集合中所述第一预设数量的医学文本以外的医学文本进行实体标注。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：步骤S110，对目标医学文本集合中第一预设数量的医学文本进行实体标注，得到已标注医学文本集合；步骤S120，在所述已标注医学文本集合中，根据每一已标注实体确定所述每一已标注实体对应的中间部分表达式，并根据每一已标注实体的上下文信息确定每一已标注实体对应的前面部分表达式和后面部分表达式；步骤S130，根据每一已标注实体对应的前面部分表达式、中间部分表达式和后面部分表达式，确定每一已标注实体对应的基于正则表达式的实体标注模板；步骤S140，根据所有已标注实体对应的实体标注模板构成的实体标注模板集合，对目标医学文本集合中所述第一预设数量的医学文本以外的医学文本进行实体标注。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种医学文本实体标注方法，其特征在于，所述方法包括：

2.根据权利要求1所述的医学文本实体标注方法，其特征在于，所述根据每一已标注实体确定每一已标注实体对应的中间部分表达式，具体包括：

3.根据权利要求1所述的医学文本实体标注方法，其特征在于，所述根据每一已标注实体的上下文信息确定每一已标注实体对应的前面部分表达式和后面部分表达式，具体包括：

4.根据权利要求3所述的医学文本实体标注方法，其特征在于，所述已标注实体对应的目标搜索窗口通过如下方式确定：

5.根据权利要求1所述的医学文本实体标注方法，其特征在于，所述根据每一已标注实体的上下文信息确定每一已标注实体对应的前面部分表达式和后面部分表达式，具体包括：

6.根据权利要求1所述的医学文本实体标注方法，其特征在于，所述根据所有已标注实体对应的实体标注模板构成的实体标注模板集合，对目标医学文本集合中所述第一预设数量的医学文本以外的医学文本进行实体标注，具体包括：

7.根据权利要求6所述的医学文本实体标注方法，其特征在于，所述重复上述过程，直到目标医学文本集合中的所有医学文本标注完成，具体包括：

8.根据权利要求1所述的医学文本实体标注方法，其特征在于，所述已标注实体对应的实体标注模板还包括否定式前缀表达式，所述否定式前缀表达式的确定方式为：

9.根据权利要求8所述的医学文本实体标注方法，其特征在于，所述方法还包括：

10.一种医学文本实体标注装置，其特征在于，所述装置包括：