CN112364655A

CN112364655A - 命名实体识别模型建立方法及命名实体识别方法

Info

Publication number: CN112364655A
Application number: CN202011305077.1A
Authority: CN
Inventors: 周玉
Original assignee: Beijing Zhongkefan Language Technology Co ltd
Current assignee: Beijing Zhongkefan Language Technology Co ltd
Priority date: 2020-10-30
Filing date: 2020-11-20
Publication date: 2021-02-12
Anticipated expiration: 2040-11-20
Also published as: CN113807097B; CN112364655B; CN113807097A; CN113807097A8

Abstract

本公开提供一种命名实体识别模型建立方法，其包括：获取目标领域的训练文本集；基于所述目标领域的领域特征构建命名实体种类集以及文本段落类别集；基于所述文本段落类别集以及所述命名实体种类集构建“文本段落类别‑命名实体种类”映射字典；使用所述“文本段落类别‑命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注，获得每个训练文本的标注序列集；以及至少基于所述训练文本集的所有训练文本的标注序列集进行命名实体识别模型训练，获得命名实体识别模型。本公开还提供一种命名实体识别方法、实体识别模型建立装置、命名实体识别装置、电子设备及存储介质。

Description

命名实体识别模型建立方法及命名实体识别方法

技术领域

本公开属于自然语言处理/信息化技术领域，本公开尤其涉及一种命名实体识别模型建立方法、命名实体识别方法、实体识别模型建立装置、命名实体识别装置、电子设备及存储介质。

背景技术

各个专业领域的专业文本存在大量的专业技术术语，例如医疗领域，电子病历文本中包含大量医疗专业术语，术语词典作为一个非常重要的资源，对于命名实体的识别有着重要作用。然而，现有技术中的基于词典的方法无法穷举所有的实体。现有技术中的编写匹配规则仅基于出现的语境、上下文编写，无法对未出现的上下文进行规则总结。

在一些专业领域，尤其是一些标注语料稀缺的专业领域，基于现有技术中的方法的命名实体识别的效果较差，容易出现实体识别错误、不准确的问题。

发明内容

为了解决上述技术问题中的至少一个，本公开提供了一种命名实体识别模型建立方法、命名实体识别方法、实体识别模型建立装置、命名实体识别装置、电子设备及存储介质。

根据本公开的一个方面，提供一种命名实体识别模型建立方法，包括：S1、获取目标领域的训练文本集；S2、基于所述目标领域的领域特征构建命名实体种类集以及文本段落类别集；S3、基于所述文本段落类别集以及所述命名实体种类集构建“文本段落类别-命名实体种类”映射字典；S4、使用所述“文本段落类别-命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注，获得每个训练文本的标注序列集；以及S5、至少基于所述训练文本集的所有训练文本的标注序列集进行命名实体识别模型训练，获得命名实体识别模型。

根据本公开的至少一个实施方式的命名实体识别模型建立方法，步骤S4中，使用所述“文本段落类别-命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注，获得每个训练文本的标注序列集，包括：S41、基于所述文本段落类别集以及所述训练文本集的每个所述训练文本的各个自然段落的段落特征对每个所述训练文本进行段落类别划分，获得每个所述训练文本的至少一个类别段落；S42、使用所述“文本段落类别-命名实体种类”映射字典确定所述训练文本集的每个所述训练文本的各个类别段落所对应的命名实体种类；以及S43、基于每个训练文本的各个类别段落所对应的命名实体种类，对各个类别段落进行标注，获得每个类别段落的标注序列，进而获得每个训练文本的标注序列集。

根据本公开的至少一个实施方式的命名实体识别模型建立方法，所述段落特征包括字符串特征、格式特征和/或记录模式特征。

根据本公开的至少一个实施方式的命名实体识别模型建立方法，步骤S5中，优选地，使用Bi-LSTM+CRF进行所述命名实体识别模型训练。

根据本公开的至少一个实施方式的命名实体识别模型建立方法，步骤S4中，使用所述“文本段落类别-命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注，优选地，使用BIO序列标注算法进行所述标注。

根据本公开的至少一个实施方式的命名实体识别模型建立方法，步骤S4中，获得每个训练文本的标注序列集之后，还对每个训练文本的标注序列集进行修正，获得修正后的标注序列集，以使得步骤S5中至少基于所述训练文本集的所有训练文本的修正后的标注序列集进行所述命名实体识别模型训练。

根据本公开的至少一个实施方式的命名实体识别模型建立方法，所述修正包括以下步骤：S44、逐个字符地读取所述标注序列集的每个标注序列的字符以及字符所对应的标签，将读取的每个标注序列的字符以及字符对应的标签分别存放至字符记录队列以及标签记录队列，直至读取到句间分隔符，获得当前语句的语句字符序列以及语句标签序列，进而获得每个标注序列的所有语句的语句字符序列以及语句标签序列；以及S45、基于每个标注序列的每个语句的至少一个实体种类，对每个语句的语句字符序列以及语句标签序列进行修正，更新每个语句的语句字符序列以及语句标签序列。

根据本公开的至少一个实施方式的命名实体识别模型建立方法，步骤S45还包括：判断句间分隔符的左侧若干字符与右侧若干字符是否为关联信息，如果是，则忽略该句间分隔符，将该句间分隔符左侧的语句以及该句间分隔符右侧的语句作为一个语句重新进行标注。

根据本公开的至少一个实施方式的命名实体识别模型建立方法，判断句间分隔符的左侧若干字符与右侧若干字符是否为关联信息，优选地通过语义分析进行判断。

根据本公开的至少一个实施方式的命名实体识别模型建立方法，S41、基于所述文本段落类别集以及所述训练文本集的每个所述训练文本的各个自然段落的段落特征对每个所述训练文本进行段落类别划分，获得每个所述训练文本的至少一个类别段落，包括：判断各个自然段落是否具有段落特征，如果某一自然段落具有段落特征，则判断段落特征的特征类型，如果特征类型既包括字符串特征和/或格式特征，还包括记录模式特征，则基于字符串特征和/或格式特征判断该自然段落的段落类别；如果特征类型为字符串特征和/或格式特征，则基于字符串特征和/或格式特征判断该自然段落的段落类别；如果特征类型为记录模式特征，则基于记录模式特征判断该自然段落的段落类别。

根据本公开的至少一个实施方式的命名实体识别模型建立方法，如果某一自然段落不具有段落特征，则将该自然段落的段落类别设置为该自然段落的前一个自然段落的段落类别。

根据本公开的至少一个实施方式的命名实体识别模型建立方法，所述目标领域为医疗领域。

根据本公开的至少一个实施方式的命名实体识别模型建立方法，每个标注序列为一个类别段落。

根据本公开的至少一个实施方式的命名实体识别模型建立方法，所述句间分隔符为逗号、分号或者句号。

根据本公开的至少一个实施方式的命名实体识别模型建立方法，所述标签包括字符的类型。

根据本公开的另一个方面，提供一种命名实体识别方法，使用上述任一项所述的方法建立的命名实体识别模型进行命名实体识别，包括：SS1、对输入的目标领域的目标文本进行段落类别划分，获得目标文本的至少一个类别段落；确定所述目标文本的各个类别段落所对应的命名实体种类；以及SS2、基于各个类别段落所对应的命名实体种类，使用所述命名实体识别模型识别所述目标文本中的命名实体。

根据本公开的又一个方面，提供一种命名实体识别方法，使用上述任一项所述的方法建立的命名实体识别模型进行命名实体识别，包括：SZ1、使用所述命名实体识别模型对输入的目标领域的目标文本进行命名实体识别，获得初步识别结果；对所述目标文本进行段落类别划分，获得所述目标文本的至少一个类别段落，确定所述目标文本的各个类别段落所对应的命名实体种类；以及SZ2、基于所述目标文本的各个类别段落所对应的命名实体种类，对所述初步识别结果进行校正。

根据本公开的又一个方面，提供一种命名实体识别模型建立装置，包括：映射字典构建模块，所述映射字典构建模块获取目标领域的训练文本集，基于所述目标领域的领域特征构建命名实体种类集以及文本段落类别集，基于所述文本段落类别集以及所述命名实体种类集构建“文本段落类别-命名实体种类”映射字典；标注模块，所述标注模块使用所述“文本段落类别-命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注，获得每个训练文本的标注序列集；以及模型训练模块，所述模型训练模块至少基于所述训练文本集的所有训练文本的标注序列集进行命名实体识别模型训练，获得命名实体识别模型。

根据本公开的至少一个实施方式的命名实体识别模型建立装置，还包括修正模块，所述修正模块对每个训练文本的标注序列集进行修正，获得修正后的标注序列集，以使得所述模型训练模块至少基于所述训练文本集的所有训练文本的修正后的标注序列集进行所述命名实体识别模型训练。

根据本公开的至少一个实施方式的命名实体识别模型建立装置，所述修正模块包括读取模块、语句字符序列及语句标签序列存储模块、实体种类判断模块以及多个修正子模块；所述读取模块逐个字符地读取所述标注序列集的每个标注序列的字符以及字符所对应的标签，将读取的每个标注序列的字符以及字符对应的标签分别存放至所述语句字符序列及语句标签序列存储模块，直至读取到句间分隔符，获得当前语句的语句字符序列以及语句标签序列；所述实体种类判断模块判断当前语句的至少一个实体种类，调用多个修正子模块中的与实体种类对应的修正子模块对当前语句的语句字符序列以及语句标签序列进行修正，更新当前语句的语句字符序列以及语句标签序列。

根据本公开的至少一个实施方式的命名实体识别模型建立装置，所述修正模块还包括关联信息处理子模块，所述关联信息处理子模块判断所述句间分隔符的左侧若干字符与右侧若干字符是否为关联信息，如果是，则忽略该句间分隔符，将该句间分隔符左侧的语句以及该句间分隔符右侧的语句作为一个语句重新进行标注。

根据本公开的又一个方面，提供一种命名实体识别装置，使用上述任一项的命名实体识别模型建立装置建立的命名实体识别模型进行命名实体识别，包括：段落类别划分模块，对输入的目标领域的目标文本进行段落类别划分，获得所述目标文本的至少一个类别段落；命名实体种类确定模块，基于“文本段落类别-命名实体种类”映射字典确定所述目标文本的各个类别段落所对应的命名实体种类；命名实体识别模型，基于各个类别段落所对应的命名实体种类，所述命名实体识别模型识别所述目标文本中的命名实体。

根据本公开的又一个方面，提供一种命名实体识别装置，使用上述任一项的命名实体识别模型建立装置建立的命名实体识别模型进行命名实体识别，包括：命名实体识别模型，所述命名实体识别模型对输入的目标领域的目标文本进行命名实体识别，获得初步识别结果；段落类别划分模块，所述段落类别划分模块对所述目标文本进行段落类别划分，获得所述目标文本的至少一个类别段落；命名实体种类确定模块，所述命名实体种类确定模块基于“文本段落类别-命名实体种类”映射字典确定所述目标文本的各个类别段落所对应的命名实体种类；校正模块，所述校正模块基于各个类别段落所对应的命名实体种类，对所述初步识别结果进行校正。

根据本公开的再一个方面，提供一种电子设备，其包括：存储器，所述存储器存储执行指令；以及处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行上述的方法。

根据本公开的再一个方面，提供一种可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现上述的方法。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是本公开的一个实施方式的命名实体识别模型建立方法的流程图。

图2是本公开的又一个实施方式的命名实体识别模型建立方法的流程示意图。

图3是本公开的一个实施方式的命名实体识别方法的流程示意图。

图4是本公开的又一个实施方式的命名实体识别方法的流程示意图。

图5是本公开的一个实施方式的具有命名实体识别模型建立装置和命名实体识别装置的电子设备的结构示意图。

附图标记说明

1000 电子设备

1002 映射字典构建模块

1004 标注模块

1006 模型训练模块

1008 修正模块

1010 段落类别划分模块

1012 命名实体种类确定模块

1014 校正模块

1100 总线

1200 处理器

1300 存储器

1400 其他电路。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此，除非说明，否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外，在附图中，为了清楚和/或描述性的目的，可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时，可以以不同于所描述的顺序来执行具体的工艺顺序。例如，可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外，同样的附图标记表示同样的部件。

当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时，该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件，或者可以存在中间部件。然而，当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时，不存在中间部件。为此，术语“连接”可以指物理连接、电气连接等，并且具有或不具有中间部件。

为了描述性目的，本公开可使用诸如“在……之下”、“在……下方”、“在……下”、“下”、“在……上方”、“上”、“在……之上”、“较高的”和“侧(例如，如在“侧壁”中)”等的空间相对术语，从而来描述如附图中示出的一个部件与另一(其它)部件的关系。除了附图中描绘的方位之外，空间相对术语还意图包含设备在使用、操作和/或制造中的不同方位。例如，如果附图中的设备被翻转，则被描述为“在”其它部件或特征“下方”或“之下”的部件将随后被定位为“在”所述其它部件或特征“上方”。因此，示例性术语“在……下方”可以包含“上方”和“下方”两种方位。此外，设备可被另外定位(例如，旋转90度或者在其它方位处)，如此，相应地解释这里使用的空间相对描述语。

这里使用的术语是为了描述具体实施例的目的，而不意图是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

图1是本公开的一个实施方式的命名实体识别模型建立方法的流程示意图。

如图1所示，本实施方式的命名实体识别模型建立方法，包括：S1、获取目标领域的训练文本集；S2、基于所述目标领域的领域特征构建命名实体种类集以及文本段落类别集；S3、基于所述文本段落类别集以及所述命名实体种类集构建“文本段落类别-命名实体种类”映射字典；S4、使用所述“文本段落类别-命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注，获得每个训练文本的标注序列集；以及S5、至少基于所述训练文本集的所有训练文本的标注序列集进行命名实体识别模型训练，获得命名实体识别模型。

优选地，步骤S4中，使用所述“文本段落类别-命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注，获得每个训练文本的标注序列集，包括：S41、基于所述文本段落类别集以及所述训练文本集的每个所述训练文本的各个自然段落的段落特征对每个所述训练文本进行段落类别划分，获得每个所述训练文本的至少一个类别段落；S42、使用所述“文本段落类别-命名实体种类”映射字典确定所述训练文本集的每个所述训练文本的各个类别段落所对应的命名实体种类；以及S43、基于每个训练文本的各个类别段落所对应的命名实体种类，对各个类别段落进行标注，获得每个类别段落的标注序列，进而获得每个训练文本的标注序列集。

其中，所述S41中的类别段落与训练文本的自然段落存在区别，即该类别段落包括至少一个自然段落。所述段落特征为该类别段落所具有的特征，包括字符串特征、格式特征和/或记录模式特征。

以电子病历文本作为一个示例，所述命名实体种类集包括电子病历文本中出现的医疗命名实体种类，即定义电子病历文本中需要识别的命名实体，例如，“症状”、“时间”、“诊断”、“治疗”、“病史”、“手术”等。

以电子病历中的“入院记录”来展开说明。

一般而言，入院记录文本包括：患者基本信息、主诉、现病史、既往史、个人史、家族史、体格检查、化验及特殊检查、初步诊断等类别段落集。

在构建“文本段落类别-命名实体种类”映射字典时：在患者基本信息类别段落中，所映射的命名实体种类为“时间”；在主诉类别段落中，所映射的命名实体种类为“症状”和“时间”；在现病史类别段落中，所映射的命名实体种类为“症状”、“时间”、“医院名称”、“检查”、“诊断”和“治疗”；在既往史类别段落中，所映射的命名实体种类为“病史”、“时间”、“手术”、“过敏食物”和“过敏药物”等等。

作为一个实现形式，S4中，使用所述“文本段落类别-命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注，优选地，使用BIO序列标注算法进行所述标注。

换句话说，S43中，基于每个训练文本的各个类别段落所对应的命名实体种类，对各个类别段落进行标注时所使用的方法为BIO序列标注算法。

例如，现病史类别段落出现文本“患者2009年于我院急诊科诊断为‘心房颤动、高血压3级，极高危’”，对应的标记文本为“O O B-TIME I-TIME I-TIME I-TIME I-TIME O OO O O O O O O O B-DISP I-DISP I-DISP I-DISP O B-DISP I-DISP I-DISP I-DISP I-DISP O B-DISP I-DISP I-DISP O”。

图2是本公开的又一个实施方式的命名实体识别模型建立方法的流程图。

如图2所示，命名实体识别模型建立方法，包括：S1、获取目标领域的训练文本集；S2、基于所述目标领域的领域特征构建命名实体种类集以及文本段落类别集；S3、基于所述文本段落类别集以及所述命名实体种类集构建“文本段落类别-命名实体种类”映射字典；S4、使用所述“文本段落类别-命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注，获得每个训练文本的标注序列集，对每个训练文本的标注序列集进行修正，获得修正后的标注序列集；以及

S5、至少基于所述训练文本集的所有训练文本的修正后的标注序列集进行命名实体识别模型训练，获得命名实体识别模型。

优选地，上述实施方式中的修正包括：S44、逐个字符地读取所述标注序列集的每个标注序列的字符以及字符所对应的标签，将读取的每个标注序列的字符以及字符对应的标签分别存放至字符记录队列以及标签记录队列，直至读取到句间分隔符，获得当前语句的语句字符序列以及语句标签序列，进而获得每个标注序列的所有语句的语句字符序列以及语句标签序列；以及S45、基于每个标注序列的每个语句的至少一个命名实体种类，对每个语句的语句字符序列以及语句标签序列进行修正，更新每个语句的语句字符序列以及语句标签序列。

其中，S45中，当标注序列的语句中不包括命名实体种类时，无需对该语句进行修正。

其中，所述命名实体种类可以包括“症状”、“时间”、“诊断”、“治疗”、“病史”、“手术”等。

而且，针对于标注序列而言，每个标注序列为一个类别段落，所述句间分隔符为逗号、分号或者句号；所述标签包括字符的类型。

更优选地，步骤S45还包括：判断句间分隔符的左侧若干字符与右侧若干字符是否为关联信息，如果是，则忽略该句间分隔符，将该句间分隔符左侧的语句以及该句间分隔符右侧的语句作为一个语句重新进行标注，以此对语句字符序列和语句标签序列进行修正。

作为一种优选，判断句间分隔符的左侧若干字符与右侧若干字符是否为关联信息，通过语义分析进行判断。

以上述BIO标注之后的现病史类别段落为例，由于上述标记文本中的“高血压3级，极高危”中的“，”是连接前后的字符，不应作为分隔符将前后关联信息分割开，因此，上述标记文本需要修正为“O O B-TIME I-TIME I-TIME I-TIME I-TIME O O O O O O O O O OB-DISP I-DISP I-DISP I-DISP O B-DISP I-DISP I-DISP I-DISP I-DISP I-DISP I-DISP I-DISP I-DISP O”，在将该句子修正后，返回修正后的标注数据。

上述实施方式中，S41中的“基于所述文本段落类别集以及所述训练文本集的每个所述训练文本的各个自然段落的段落特征对每个所述训练文本进行段落类别划分，获得每个所述训练文本的至少一个类别段落”包括：

判断各个自然段落是否具有段落特征，如果某一自然段落具有段落特征，则判断段落特征的特征类型，如果特征类型既包括字符串特征和/或格式特征，还包括记录模式特征，则基于字符串特征和/或格式特征判断该自然段落的段落类别；如果特征类型为字符串特征和/或格式特征，则基于字符串特征和/或格式特征判断该自然段落的段落类别；如果特征类型为记录模式特征，则基于记录模式特征判断该自然段落的段落类别。

示例性地，电子病历文本包括：n自然段落(P1、P2、P3、……、Pn)，段落类别有k种(C1、C2、C3、……、Ck，其中C1设为基本信息段落，C2设为主诉段落类别，C3设为现病史段落类别，C4设为既往史段落类别，C5设为体格检查段落类别，C6设为化验及特殊检查段落类别，C7设为初步诊断段落类别等)，其中，n，k均为自然数，且n>k。

在初始状态下，可以将电子病历文本的每一段的初始状态均定义为一预设值，例如“0”。

从头到尾依次遍历文本各个自然段落，每个自然段落初始化一个段落类别打分数组，数组元素个数为k，每个元素数值是对应段落类别的打分，初始分数均为0，ArrayPn＝[0,0,0,0,……,0]。

其中，当自然段落以“主诉：”、“现病史：”、“既往史：”、“体格检查”、“化验及特殊检查”、“初步诊断：”等字符串特征作为段落起始；或者段落以加粗(<b></b>)、居中(<divalign＝"center"></div>)等格式特征作为段落起始时，将段落类别打分数组对应段落元素数值+1。此时，如果打分数组存在不为0元素，直接返回不为0元素索引值+1(索引值从0开始，因此要+1与段落类别编号保持一致)作为该段落类别。

以下以入院记录为例来说明所述记录模式特征，“入院记录”是指患者入院后，由诊治医师通过问诊、查体、辅助检查获得有关资料，并对这些资料归纳分析书写而成的记录。不同的类别段落有其不同的记录模式特征。

一般而言：“基本信息”类别段落记录患者的姓名、性别、年龄、民族、婚姻状况、出生地、职业、工作单位、住址、入院时间等信息。

“主诉”类别段落记录促使患者就诊的主要症状(或体征)及持续时间，当自然段落识别出{“症状”、“时间”}两类实体组成的模式句时，可作为“主诉”类别段落特征。

“现病史”类别段落记录患者本次疾病发生、演变、诊疗等方面的详细情况，按时间顺序书写，当自然段落识别出{“时间”、“症状”、“医院名称”、“检查”、“诊断”、“治疗”}一系列实体组成的模式句时，可作为“现病史”类别段落特征。

“既往史”类别段落记录患者过去的健康和疾病情况。一般包括健康状况、疾病史、传染病史、预防接种史、手术外伤史、输血史、食物或药物过敏史，当自然段落识别出“病史”、“过敏食物”、“过敏药物”这些典型“既往史”类别段落实体时，可作为“既往史”类别段落特征。

“体格检查”类别段落按照人体系统循序进行书写，内容包括体温、脉搏、呼吸、血压，一般情况，皮肤、黏膜，全身浅表淋巴结，头部及其器官，颈部，胸部(胸廓、肺部、心脏、血管)，腹部(肝、脾等)，直肠肛门，外生殖器，脊柱，四肢，神经系统等。当在同一自然段落识别出如上系统相关描述句，可作为“体格检查”类别段落特征。

“化验及特殊检查”类别段落指入院前所做的与本次疾病相关的主要实验室检查和器械检查及其结果，如在其他医疗机构所作检查，应当写明该机构名称及检查编号。当自然段落识别出{“检查”、“医院”(若有)、“检查结果”}一系列实体组成的模式句时，可作为“化验及特殊检查”类别段落特征。

“初步诊断”类别段落是指经诊治医师根据病人入院情况，综合分析所做出的诊断。当自然段落识别出“诊断”的比重(诊断类实体字符数量/段落字符数量*100％)超过设定阈值时，可作为“初步诊断”类别段落特征。

当使用正则匹配到性别、年龄、民族等信息，该段落类别打分数组第一个元素数值+1；当使用正则匹配到自然段落同时出现头、颈、胸、腹、上肢、下肢等器官/部位描述字符串时，该段落类别打分数组第五个元素数值+1；对段落整体进行命名实体识别，若诊断类别实体字符数占全段字符数比例超过50％，该段落类别打分数组第七个元素数值+1。此时，如果段落类别打分数组存在不为0元素，直接返回不为0元素索引值+1作为该段落类别。

否则，进行逐句遍历：根据句尾标点符号(以句号为例)对自然段落进行切分，采用整体命名识别模型对自然段落第一句进行命名实体识别，若该句仅包含{“症状”、“时间”}两类实体，该段落类别打分数组第二个元素数值+1；若该句包含{“时间”、“症状”、“医院名称”、“检查”、“诊断”、“治疗”}实体组合，该段落类别打分数组第三个元素数值+1；若该句包含“病史”、“过敏食物”、“过敏药物”任一实体类型，该段落类别打分数组第四个元素数值+1；若该句包含{“检查”、“医院”(若有)、“检查结果”}实体组合，该段落类别打分数组第六个元素数值+1。

重复上述句子遍历操作。取段落类别打分数组中数值最大元素索引值+1作为该段落类别。

以此，将电子病历文本的自然段落标记为“1 2 0 0 0 3 0 0 4 0 0 0”。

根据本公开的优选实施方式，如果某一自然段落不具有段落特征，则将该自然段落的段落类别设置为该自然段落的前一个自然段落的段落类别。

当获得电子病历文本的自然段落标记后，再遍历文本对应自然段落类别编号，若当前自然段落类别编号为0，前一自然段落类别编号不为0，则将该自然段落类别编号赋值为前一自然段落类别编号，从而将前述段落标记修改为“1 2 2 2 2 3 3 3 4 4 4 4”；由此，将电子病历文本划分为多个类别段落。

本公开中，所述目标领域可以为医疗领域，即对电子病历文本的命名实体进行识别。

为便于理解本公开的内容，本公开提供一个示例性的电子病历文本，其内容如下：

第1次入院记录

***，女，**岁，*族，已婚。于****-**-****:**入院，当日采集病史，患者本人陈述病史，可靠。

主诉：发作性胸痛、胸闷30余年，加重10天。

现病史：患者于****年活动后出现心前区闷痛，无伴随症状，无放散，口服“速效救心丸”可缓解，每月发作1-2次。****年**月于****行冠脉造影结果左主干50％狭窄，右冠中段狭窄50％。给予口服药物治疗。多年病情平稳。****年**月出现活动后胸闷憋气，夜间不能平卧，以冠心病、慢性心功能不全住****，后多次因胸闷憋气加重住****，感冒后症状加重，双下肢间断水肿，日常活动明显受限。**天前受凉后出现发热、咳嗽、咳痰，胸闷憋气加重，为黄痰，夜间不能平卧，有夜间阵发性呼吸困难，坐起后症状缓解。于****发热门诊给予抗炎、退热等治疗，体温降至正常，咳嗽、咳痰减轻，仍感胸闷憋气，夜间不能平卧。****就诊于*****急诊科，胸部CT示支气管炎或肺水肿可能、双侧胸腔积液。血生化示尿素15.39mmol/L↑、肌酐190.0umol/L↑、钾5.92mmol/L↑、血清白蛋白34.3g/L↓、其余正常。给予利尿、抗感染、扩血管等治疗，*****复查血钾5.45mmol/L。为进一步检查治疗入院。患者目前精神状态尚可，体力差，食欲差，睡眠差，体重无明显变化，大便干燥，排尿正常。

既往史：高血压病史20多年，血压最高为180/90mmHg，目前服用培哚普利4mg/日、苯磺酸氨氯地平5mg/日，血压控制可；糖尿病史20多年，曾用胰岛素治疗，近3个月未用降糖药物，空腹血糖波动在5mmol/l，餐后血糖波动在10mmol/l左右；慢性肾功能不全1余年；双侧股骨头坏死、右股骨颈陈旧性骨折10余年；****年曾在***行胆囊切除术及左侧乳腺癌切除术。否认肝炎、结核、疟疾病史，否认其他手术、外伤、输血史，有磺胺类药物过敏史，否认其他食物、药物过敏史，预防接种史不详。

个人史：生于*****，久居于本地，无疫区、疫情、疫水居住史，无牧区、矿山、高氟区、低碘区居住史，无化学性物质、放射物、毒物接触史，无毒品接触史，无吸烟史，无饮酒史。适龄结婚，育有3子3女，子女身体健康，配偶已故，原因不详。

家族史：父母已故，原因不详，家族中无传染病及遗传病史。

体格检查

体温：36℃，脉搏：68次/分，呼吸：18次/分，血压：174/63mmHg，身高：168cm，体重：45kg，BMI：15.9。神志清楚，精神尚可，贫血貌，发育正常，营养差，形体匀称，推入病房，半卧位，查体合作，对答切题。全身皮肤粘膜正常，无黄染，未见皮下出血点，未见皮疹,无肝掌，未见蜘蛛痣。皮肤有弹性，未见明显水肿,全身浅表淋巴结无肿大及压痛.头部无畸形.眼睑无浮肿，巩膜无黄染，结膜无充血水肿，双侧瞳孔等大等圆，直径约为3mm，对光反射灵敏，耳廓正常，无畸形，外耳道无异常分泌物，听力下降明显，乳突正常。鼻外形正常，无鼻翼煽动，双侧鼻腔通畅，无异常分泌物及出血。口唇红润，牙龈无溃疡，舌体运动灵活，无偏斜，口腔粘膜无异常，扁桃体无肿大，咽部无充血水肿。颈软，无抵抗，未见颈静脉怒张，颈动脉搏动正常,未闻及明显血管杂音，气管居中,甲状腺正常无肿大，未触及明显震颤。胸廓正常无畸形，胸骨无压痛，肋间隙正常，胸壁静脉无扩张。呼吸均匀，语颤两侧对称，未触及胸膜摩擦感。双肺叩诊呈清音，右肺呼吸音粗,左肺呼吸音低，双肺底可闻及少许湿性啰音。心前区无隆起，心尖搏动位置于第五肋间左锁骨中线外0.5cm，未触及震颤，心包摩擦感未触及。心界向左扩大，心脏相对浊音界如下：

注：左锁骨中线至前正中线的距离为9cm。

心率68次/分，律齐，心音：S1正常S2正常S3无S4无，A2>P2,二尖瓣区可闻及2/6级收缩期杂音，其余各瓣膜听诊区未闻及杂音，心包摩擦音未闻及。腹部正常，腹壁静脉不明显,全腹未触及包块。无压痛反跳痛，肝脾肋下未触及，肝-颈静脉回流征阴性，胆囊未触及明显异常，墨菲氏征(-)，双肾未触及。移动性浊音(-),双侧肾区叩击痛(-)。肠鸣音正常。肛门与直肠及生殖器：无明显异常。脊柱：发育正常，无畸形。四肢无畸形，无水肿，无下肢静脉曲张，活动自如。生理反射存在，病理反射未引出。

化验及特殊检查

心电图(****-**-**，****)：窦性心律，V2-V5导联ST段轻微上抬、T波倒置。

血生化(****-**-**，****)：尿素15.34mmol/L↑、肌酐215.7umol/L↑、血清白蛋白33.3g/L↓、钾5.45mmol/L、脑利钠肽前体15503pg/ml↑、肌钙蛋白T0.057ng/ml、肌酸激酶23.7U/L、乳酸脱氢酶101.6U/L、肌酸激酶同工酶定量测定1.32ng/ml。

血常规(****-**-**，****)：血红蛋白测定74.0g/L↓、红细胞计数2.64×10^12/L↓、白细胞计数3.27×10^9/L↓、中性粒细胞0.838↑、淋巴细胞0.138↓、红细胞比积测定0.234L/L↓、平均红细胞血红蛋白浓度316.0g/L↓、红细胞体积分布宽度测定CV17.6％↑、C-反应蛋白测定5.4mg/dl↑、血小板计数213×10^9/L。

胸片(****-**-**，****)：老年性心肺改变，右肺炎，左胸水，请结合临床。

肺CT(****-**-**，****)：支气管炎或肺水肿可能，请结合临床；双侧胸腔积液。

图3是本公开的一个实施方式的命名实体识别方法，使用上述任一个实施方式的命名实体识别模型建立方法建立的命名实体识别模型进行命名实体识别，包括：SS1、对输入的目标领域的目标文本进行段落类别划分，获得目标文本的至少一个类别段落；确定所述目标文本的各个类别段落所对应的命名实体种类；以及SS2、基于各个类别段落所对应的命名实体种类，使用所述命名实体识别模型识别所述目标文本中的命名实体。

本实施方式的命名实体识别方法中，首先获取目标文本的类别段落，确定各个类别段落所对应的命名实体种类，并利用上述的命名实体识别模型进行命名实体的识别，从而能有效利用病历书写的要求、规范对命名实体识别过程进行优化，有效地提高命名实体识别的准确度。

图4是本公开的又一个实施方式的命名实体识别方法，使用上述任一个实施方式的命名实体识别模型建立方法建立的命名实体识别模型进行命名实体识别，包括：SZ1、使用所述命名实体识别模型对输入的目标领域的目标文本进行命名实体识别，获得初步识别结果；对所述目标文本进行段落类别划分，获得所述目标文本的至少一个类别段落，确定所述目标文本的各个类别段落所对应的命名实体种类；以及SZ2、基于所述目标文本的各个类别段落所对应的命名实体种类，对所述初步识别结果进行校正。

本公开在命名实体识别方法，可以先获得待识别的目标文本的类别段落，然后识别命名实体；也可以先识别目标文本中的命名实体，然后划分目标文本的段落类别，当获得目标文本的段落类别后，对目标文本的序列集进行校正，以使得目标文本中的命名实体的识别结果更精确。

本公开的一个实施方式的命名实体识别模型建立装置，包括：映射字典构建模块1002，所述映射字典构建模块1002获取目标领域的训练文本集，基于所述目标领域的领域特征构建命名实体种类集以及文本段落类别集，基于所述文本段落类别集以及所述命名实体种类集构建“文本段落类别-命名实体种类”映射字典；标注模块1004，所述标注模块1004使用所述“文本段落类别-命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注，获得每个训练文本的标注序列集(每个类别段落作为一个标注序列)；以及模型训练模块1006，所述模型训练模块1006至少基于所述训练文本集的所有训练文本的标注序列集进行命名实体识别模型训练，获得命名实体识别模型。

根据本公开的优选实施方式，命名实体识别模型建立装置还包括修正模块1008，所述修正模块1008对每个训练文本的标注序列集进行修正，获得修正后的标注序列集，以使得所述模型训练模块1006至少基于所述训练文本集的所有训练文本的修正后的标注序列集进行所述命名实体识别模型训练。

根据本公开的优选实施方式，所述修正模块104包括读取模块、语句字符序列及语句标签序列存储模块、实体种类判断模块以及多个修正子模块；所述读取模块逐个字符地读取所述标注序列集的每个标注序列的字符以及字符所对应的标签，将读取的每个标注序列的字符以及字符对应的标签分别存放至所述语句字符序列及语句标签序列存储模块，直至读取到句间分隔符，获得当前语句的语句字符序列以及语句标签序列；所述实体种类判断模块判断当前语句的至少一个实体种类，调用多个修正子模块中的与实体种类对应的修正子模块对当前语句的语句字符序列以及语句标签序列进行修正，更新当前语句的语句字符序列以及语句标签序列。

根据本公开的优选实施方式，所述修正模块1008还包括关联信息处理子模块，所述关联信息处理子模块判断所述句间分隔符的左侧若干字符与右侧若干字符是否为关联信息，如果是，则忽略该句间分隔符，将该句间分隔符左侧的语句以及该句间分隔符右侧的语句作为一个语句重新进行标注。

根据本公开的一个实施方式的命名实体识别装置，使用上述的命名实体识别模型建立装置建立的命名实体识别模型进行命名实体识别，包括：段落类别划分模块1010，对输入的目标领域的目标文本进行段落类别划分，获得所述目标文本的至少一个类别段落；命名实体种类确定模块1012，基于“文本段落类别-命名实体种类”映射字典确定所述目标文本的各个类别段落所对应的命名实体种类；命名实体识别模型，基于各个类别段落所对应的命名实体种类，所述命名实体识别模型识别所述目标文本中的命名实体。

根据本公开的又一个实施方式的命名实体识别装置，使用上述的命名实体识别模型建立装置建立的命名实体识别模型进行命名实体识别，包括：命名实体识别模型，所述命名实体识别模型对输入的目标领域的目标文本进行命名实体识别，获得初步识别结果；段落类别划分模块1010，所述段落类别划分模块1010对所述目标文本进行段落类别划分，获得所述目标文本的至少一个类别段落；命名实体种类确定模块1012，所述命名实体种类确定模块基于“文本段落类别-命名实体种类”映射字典确定所述目标文本的各个类别段落所对应的命名实体种类；校正模块1014，所述校正模块1014基于各个类别段落所对应的命名实体种类，对所述初步识别结果进行校正。

如图5所示，电子设备1000可以包括执行上述方法中各个或几个步骤的相应模块。因此，可以由相应模块执行上述方法中的每个步骤或几个步骤，并且该电子设备1000可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。

该电子设备1000的硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器，这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路1400连接。

总线1100可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，Peripheral Component)总线或扩展工业标准体系结构(EISA，Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条连接线表示，但并不表示仅有一根总线或一种类型的总线。

在本说明书的描述中，参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.一种命名实体识别模型建立方法，其特征在于，包括：

S1、获取目标领域的训练文本集；

S2、基于所述目标领域的领域特征构建命名实体种类集以及文本段落类别集；

S3、基于所述文本段落类别集以及所述命名实体种类集构建“文本段落类别-命名实体种类”映射字典；

S4、使用所述“文本段落类别-命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注，获得每个训练文本的标注序列集；以及

S5、至少基于所述训练文本集的所有训练文本的标注序列集进行命名实体识别模型训练，获得命名实体识别模型。

2.根据权利要求1所述的命名实体识别模型建立方法，其特征在于，步骤S4中，使用所述“文本段落类别-命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注，获得每个训练文本的标注序列集，包括：

S41、基于所述文本段落类别集以及所述训练文本集的每个所述训练文本的各个自然段落的段落特征对每个所述训练文本进行段落类别划分，获得每个所述训练文本的至少一个类别段落；

S42、使用所述“文本段落类别-命名实体种类”映射字典确定所述训练文本集的每个所述训练文本的各个类别段落所对应的命名实体种类；以及

S43、基于每个训练文本的各个类别段落所对应的命名实体种类，对各个类别段落进行标注，获得每个类别段落的标注序列，进而获得每个训练文本的标注序列集。

3.根据权利要求2所述的命名实体识别模型建立方法，其特征在于，所述段落特征包括字符串特征、格式特征和/或记录模式特征。

4.一种命名实体识别方法，使用权利要求1至3中任一项所述的方法建立的命名实体识别模型进行命名实体识别，其特征在于，包括：

SS1、对输入的目标领域的目标文本进行段落类别划分，获得目标文本的至少一个类别段落；确定所述目标文本的各个类别段落所对应的命名实体种类；以及

SS2、基于各个类别段落所对应的命名实体种类，使用所述命名实体识别模型识别所述目标文本中的命名实体。

5.一种命名实体识别方法，使用权利要求1至4中任一项所述的方法建立的命名实体识别模型进行命名实体识别，其特征在于，包括：

SZ1、使用所述命名实体识别模型对输入的目标领域的目标文本进行命名实体识别，获得初步识别结果；对所述目标文本进行段落类别划分，获得所述目标文本的至少一个类别段落，确定所述目标文本的各个类别段落所对应的命名实体种类；以及

SZ2、基于所述目标文本的各个类别段落所对应的命名实体种类，对所述初步识别结果进行校正。

6.一种命名实体识别模型建立装置，其特征在于，包括：

映射字典构建模块，所述映射字典构建模块获取目标领域的训练文本集，基于所述目标领域的领域特征构建命名实体种类集以及文本段落类别集，基于所述文本段落类别集以及所述命名实体种类集构建“文本段落类别-命名实体种类”映射字典；

标注模块，所述标注模块使用所述“文本段落类别-命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注，获得每个训练文本的标注序列集；以及

模型训练模块，所述模型训练模块至少基于所述训练文本集的所有训练文本的标注序列集进行命名实体识别模型训练，获得命名实体识别模型。

7.一种命名实体识别装置，使用所述权利要求6所述的命名实体识别模型建立装置建立的命名实体识别模型进行命名实体识别，其特征在于，包括：

段落类别划分模块，对输入的目标领域的目标文本进行段落类别划分，获得所述目标文本的至少一个类别段落；

命名实体种类确定模块，基于“文本段落类别-命名实体种类”映射字典确定所述目标文本的各个类别段落所对应的命名实体种类；以及

命名实体识别模型，基于各个类别段落所对应的命名实体种类，所述命名实体识别模型识别所述目标文本中的命名实体。

8.一种命名实体识别装置，使用所述权利要求6所述的命名实体识别模型建立装置建立的命名实体识别模型进行命名实体识别，其特征在于，包括：

命名实体识别模型，所述命名实体识别模型对输入的目标领域的目标文本进行命名实体识别，获得初步识别结果；

段落类别划分模块，所述段落类别划分模块对所述目标文本进行段落类别划分，获得所述目标文本的至少一个类别段落；

命名实体种类确定模块，所述命名实体种类确定模块基于“文本段落类别-命名实体种类”映射字典确定所述目标文本的各个类别段落所对应的命名实体种类；以及

校正模块，所述校正模块基于各个类别段落所对应的命名实体种类，对所述初步识别结果进行校正。

9.一种电子设备，其特征在于，包括：

存储器，所述存储器存储执行指令；以及

处理器，所述处理器执行所述存储器存储的执行指令，使得所述处理器执行如权利要求1至5中任一项所述的方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现如权利要求1至5中任一项所述的方法。