CN109859813A

CN109859813A - 一种实体修饰词识别方法及装置

Info

Publication number: CN109859813A
Application number: CN201910093768.0A
Authority: CN
Inventors: 王李鹏
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2019-06-07
Anticipated expiration: 2039-01-30
Also published as: CN109859813B

Abstract

本申请实施例提供了一种实体修饰词识别方法及装置，包括：将待识别文本转换为词单元序列，得到多个词单元，多个词单元包括实体对应的特征词单元和非实体对应的非特征词单元；为词单元序列中每个词单元分配对应的属性标签，得到属性标签序列；确定词单元序列中每个词单元对应的至少一种修饰词标签，得到多种修饰词标签序列；基于词单元序列、属性标签序列以及预先训练的条件概率预测模型，确定词单元序列被标记为每种修饰词标签序列的条件概率；将符合预设条件的条件概率对应的修饰词标签序列确定为目标修饰词标签序列，并基于目标修饰词标签序列，确定词单元序列中每个特征词单元的修饰词类型。本申请实施例提高了对实体修饰词的识别准确度。

Description

一种实体修饰词识别方法及装置

技术领域

本申请涉及大数据技术领域，具体而言，涉及一种实体修饰词识别方法及装置。

背景技术

在自然语言识别技术中，针对一些实体的修饰词类型的识别至关重要，因为这些修饰词类型往往能够对语义进行关键影响，目前在对这些实体的修饰词类型进行识别时，具有一定的难度。

以电子病历文本为例，医生在描述患者的疾病和症状时，通常都表达出不同的确定程度，比如肯定发生的、肯定不发生的(否认的)、可能发生等，这些能够表达不同确定程度的词就是用来描述患者疾病和病症这类实体的一些修饰词类型，这是诊断过程中的非常重要的信息，这一修饰词类型的识别在电子病历文本研究中被称为实体修饰词识别。

由于电子病历中包含很多非结构化文本数据，例如病史记录、病程记录以及病历小结等，导致现有技术对这种非结构化文本中的实体修饰词识别较为困难且识别准确度较低。

发明内容

有鉴于此，本申请的目的在于提供一种实体修饰词识别方法及装置，以提高对实体修饰词的识别准确度。

第一方面，本申请实施例提供了一种实体修饰词识别方法，包括：

将待识别文本转换为词单元序列，其中，所述词单元序列中包括多个词单元，所述多个词单元包括实体对应的特征词单元和非实体对应的非特征词单元；

为所述词单元序列中每个词单元分配对应的属性标签，得到属性标签序列；

确定所述词单元序列中每个词单元对应的至少一种修饰词标签，得到多种修饰词标签序列；

基于所述词单元序列、所述属性标签序列以及预先训练的条件概率预测模型，确定所述词单元序列被标记为每种修饰词标签序列的条件概率；

将符合预设条件的条件概率对应的修饰词标签序列确定为目标修饰词标签序列，并基于所述目标修饰词标签序列，确定所述词单元序列中每个特征词单元的修饰词类型。

第二方面，本申请实施例提供了一种实体修饰词识别装置，包括：

词单元转换模块，用于将待识别文本转换为词单元序列，其中，所述词单元序列中包括多个词单元，所述多个词单元包括实体对应的特征词单元和非实体对应的非特征词单元；

属性标签确定模块，用于为所述词单元序列中每个词单元分配对应的属性标签，得到属性标签序列；

修饰词标签确定模块，用于确定所述词单元序列中每个词单元对应的至少一种修饰词标签，得到多种修饰词标签序列；

条件概率确定模块，用于基于所述词单元序列、所述属性标签序列以及预先训练的条件概率预测模型，确定所述词单元序列被标记为每种修饰词标签序列的条件概率；

修饰词类型确定模块，用于将符合预设条件的条件概率对应的修饰词标签序列确定为目标修饰词标签序列，并基于所述目标修饰词标签序列，确定所述词单元序列中每个特征词单元的修饰词类型。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如第一方面所述的实体修饰词识别方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如第一方面所述的实体修饰词识别方法的步骤。

本申请实施例提供的实体修饰词识别方法及装置，获取到待识别文本时，首先将该待识别文本转换为词单元序列，这里的词单元序列中包括多个词单元，其中，多个词单元包括实体对应的特征词单元和非实体对应的非特征词单元，这里的实体对应的特征词单元是完整未被拆分的词单元，这样减少了分词出现的错误，在后续对实体的修饰词类型进行识别时，首先能够准确地找到这部分特征词单元的修饰词，进而可以提高对待识别文本中实体修饰词类型的识别准确度。

然后经由上述方法得到的特征词单元和非特征词单元组成的词单元序列、确定的每个词单元对应的属性标签构成的属性标签序列以及预先训练的条件概率预测模型，找到词单元序列对应的目标修饰词标签序列，进而确定待识别文本中实体修饰词类型，通过考虑属性标签序列中属性标签与词单元的关联关系，可以提高对待识别文本中的实体修饰词类型的识别准确度，另外引入条件概率预测模型，预测在给定词单元序列的情况下，每种修饰词标签序列的条件概率，这样通过基于序列的识别方法，可以直接得到待识别文本中所有实体的修饰词标签，提高了实体修饰词识别的效率。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种实体修饰词识别方法流程图；

图2示出了本申请实施例所提供的一种待识别文本转换为词单元序列的方法流程图；

图3示出了本申请实施例所提供的一种确定词单元序列被标记为每种修饰词标签序列的条件概率的方法流程图；

图4示出了本申请实施例所提供的一种条件概率预测模型的训练方法流程图；

图5示出了本申请实施例所提供的一种实体修饰词识别装置结构图；

图6示出了本申请实施例所提供的一种电子设备结构实体图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在自然语言识别技术中，针对一些实体的修饰词类型的识别至关重要，因为这些修饰词类型往往能够对语义进行关键影响，比如对文本“虽然天气凉了，李明还是不喜欢穿棉服”，该文本中实体可以为“棉服”，其修饰词即为“不喜欢”，能否准确识别“不喜欢”为否定类型，则能够掌握该文本的正确语义，这里的文本可以包括多种类型，本申请实施例以电子病历文本为例进行说明：

电子病历是指医务专业人员在医疗活动中，使用医疗机构信息系统生成的文字、符合、图表、图形、数据等数字化，并能实现存储、管理、传输和重现的医疗记录，通过分析这些医疗数据能够挖掘出与患者密切相关的医疗知识。

比如，在某患者的电子病历中记录着“头CT检查显示腔隙性脑梗塞”，从这句话中可以推出，“头CT”是一种检查手段，“腔隙性脑梗塞”是一种疾病，这二者在电子病历文本抽取研究中被称为实体识别，从这句话中还可以推出，“头CT”这种检查证实了“腔隙性脑梗塞”这种疾病的发生，这二者的关系识别在电子病历文本抽取研究中被称为关系抽取，然而，在电子病历文本中，医生在描述患者的疾病和症状时，通常都表达出不同的确定程度，比如肯定发生的、肯定不发生的、可能发生的等等，这也是诊断过程中非常重要的信息。若将以上的“头CT”和“腔隙性脑梗塞”称为实体，将表示肯定发生的、肯定不发生的、可能发生的含义称为实体的修饰词类型，本申请实施例将以对电子病历文本中的实体的修饰词类型的识别为例进行详细阐述。

本申请实施例提供了一种实体修饰词识别方法，如图1所示，包括以下步骤S101～S105：

S101，将待识别文本转换为词单元序列，其中，词单元序列中包括多个词单元，多个词单元包括实体对应的特征词单元和非实体对应的非特征词单元。

这里的待识别文本为非结构化文本，本申请实施例以电子病历文本为例进行说明。实体对应的特征词单元即上述提到的能完整表示实体的特征词单元，比如“头CT”和“腔隙性脑梗塞”，具体地，就是在电子病历文本中出现的表述患者疾病、症状、治疗手段或者检查方式的词。

这里的非特征词即表示非结构化文本中除了实体之外的其他词。

在获取到待识别文本后，需要对待识别文本进行分词处理，因为要对实体修饰词进行识别，就需要获取到实体对应的特征词单元，且不能对这些特征词单元进行分词处理，具体地，将待识别文本转换为词单元序列，如图2所示，具体包括以下步骤S201～S203：

S201，识别待识别文本中实体对应的特征词单元。

比如，一个电子病历文本为“查体：心肺听诊无异常，腹平，对称，可见手术瘢痕，未见明显肠型及蠕动波。”，可以先通过医学词典，识别出该电子病历文本中实体对应的特征词单元，如：“心肺听诊”(检查方式)；“手术瘢痕”(症状)；“明显肠型”(症状)；“蠕动波”(症状)，这些特征词单元不参与分词处理。

S202，对待识别文本中除特征词单元以外的文本进行分词，得到多个非实体对应的非特征词单元。

上述识别出来的特征词单元不参与分词处理，对这些特征词单元以外的文本进行分词处理，得到多个非实体对应的非特征词单元。

S203，将每个特征词单元和每个非特征词单元按照在待识别文本中的排列顺序，构成词单元序列。

得到特征词单元和非特征词单元后，按照它们在待识别文本中的排列顺序进行排列，得到词单元序列，比如上述电子病历文本“查体：心肺听诊无异常，腹平，对称，可见手术瘢痕，未见明显肠型及蠕动波。”经过处理后得到的词单元序列为：“查体”、“：”、“心肺听诊”、“无”、“异常”、“，”、“腹平”、“，”、“对称”、“，”、“可见”、“手术瘢痕”、“，”、“未”、“见”、“明显肠型”、“及”、“蠕动波”、“。”。

S102，为词单元序列中每个词单元分配对应的属性标签，得到属性标签序列。

这里的属性标签可以分为两类：为词单元序列中每个词单元分配对应的用于表征段落特征的第一属性标签，得到第一属性标签序列；以及，为词单元序列中每个词单元分配对应的用于表征实体类型的第二属性标签，得到第二属性标签序列。

其中，第一属性标签是文本的半结构化特征，划分用于表示多个段落部分中每个段落部分的段落特征。根据不同领域的文本，其可以划分相应的段落特征，本申请对此不做限制。例如，在电子病例文本中，主诉、现病史、既往史、提个检查、诊断等可以作为段落特征，不同的段落特征记录了患者不同的信息，如既往史主要是描述患者之前的患病情况，出现的实体一般为可能的或否定的，本申请实施例中，根据中文电子病历文本的半结构化特性，定义了7种不同的段落特征，分别为主诉(ZS)；现病史(XBS)；既往史(JWS)；体格检查(JWS)；初步诊断(TGJC)；鉴别诊断(JBZD)和诊疗计划(ZLJH)。

第二属性标签是基于实体提出的实体类型，用于表示每个实体对应的类型。在电子病例文中，实体类型比如是疾病类型、症状类型等，第二属性标签对实体修饰词的识别也是至关重要的，其能够确定哪些词单元是实体对应的特征词单元，在确定了特征词单元的基础上，才能够进一步对这些表示实体的特征词单元进行修饰词识别。在中文电子病历文本中，第二属性标签可以包括：疾病(disease)、症状(symptom)、治疗手段(treatment)和检查方式(test)这几种。

确定词单元序列中每个词单元对应的第一属性标签时，可以根据该词单元在电子病历文本中出现的段落位置确定；确定词单元序列中每个词单元对应的第二属性标签时，可以根据医学词典确定每个词单元对应的实体类型，一般情况下，特征词单元会对应上述提到的疾病、症状、治疗手段和检查方式这四种类型的一种，其他非特征词单元对应的类型可以通过无文本属性的标签表示，具体可以用“o”来表示无文本属性的标签情况。

本申请实施例中的文本属性标签序列包括的第一文本属性标签序列和第二文本属性标签序列，具体地，即可以称为段落特征序列和实体类型序列，本申请实施例中段落特征序列中的每个段落特征可以为上述七种类型的段落特征中的一种，实体类型序列中特征词单元对应的实体类型可以为上述四种类别的实体类型中的一种，非特征词单元对应的实体类型可以用o来表示。

S103，确定词单元序列中每个词单元对应的至少一种修饰词标签，得到多种修饰词标签序列。

这里的修饰词标签序列是由词单元序列中每个词单元对应的修饰词标签组成的，这里的修饰词标签用来表示实体的修饰词的类别，比如用来表示上述提到的在电子病历文本“查体：心肺听诊无异常，腹平，对称，可见手术瘢痕，未见明显肠型及蠕动波。”中“心肺听诊”、“手术瘢痕”、“明显肠型”和“蠕动波”的修饰词的类别，本申请实施例中这些类别包括以下几种：

否认的(absent)、非患者本人的(family)、当前的(present)、有条件的(conditional)、可能的(possible)、待证实的(hypothetical)、偶有的(occasional)、既往的(history)和无修饰类别(o)。

具体地，确定词单元序列中每个词单元对应的至少一种修饰词标签，得到多种修饰词标签序列，包括：

确定词单元序列中每个词单元对应的至少一种修饰词标签。

从每个词单元对应的至少一种修饰词标签中任意选择一种修饰词标签作为目标修饰词标签，并将各个词单元分别对应的目标修饰词标签所组成的序列作为一种修饰词标签序列。

这里的修饰词标签序列可以有多种，具体地，因为在本申请实施例中，每个词单元对应的修饰词标签类型可以有9种，即上述提到的否认的(absent)、非患者本人的(family)、当前的(present)、有条件的(conditional)、可能的(possible)、待证实的(hypothetical)、偶有的(occasional)、既往的(history)和无修饰类别(o)，故修饰词标签序列也包括很多种，比如，当待识别的电子病历文本“查体：心肺听诊无异常，腹平，对称，可见手术瘢痕，未见明显肠型及蠕动波。”中共有19个词单元，则可以共有9¹⁹种修饰词标签序列，当然，为了进一步简化计算过程，可以只基于待识别的电子病历文本中的特征词单元进行预设修饰词标签序列，其他非特征词单元的修饰词标签均设为“o”，比如，针对上述同样的待识别的电子病历文本，因为有4个特征词单元，则可以共有9⁴种修饰词标签序列。

以其中一种修饰词标签序列为例，得到如下表1所示数据集，该数据集包括词单元序列、段落特征序列、实体类型序列和其中一个修饰词标签序列。

表1数据集

为了便于后文对词单元序列、段落特征序列和实体类型序列的描述，将词单元序列、段落特征序列和实体类型序列称为统称为x序列，将修饰词标签序列称为y序列。

S104，基于词单元序列、属性标签序列以及预先训练的条件概率预测模型，确定词单元序列被标记为每种修饰词标签序列的条件概率。

为了对这里的条件概率预测模型进行描述，引入条件随机场的概念，条件随机场是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型，模型的假设条件是输出随机变量构成马尔可夫随机场，针对本申请实施例中，在给定词单元序列和属性标签序列x的条件下，修饰词标签序列y的条件概率通过以下公式(1)和公式(2)表示：

在上述公式(1)中，p(y|x)表示由词单元序列、段落特征序列和实体类型序列组成的二维序列x被标注为修饰词标签序列y的条件概率，其中x的维度包括横向维度即表示具体x序列中的行数，以及纵向维度即表示具体x序列中的列数。

i表示词单元序列、段落特征序列或实体类型序列中的第i个位置；

j表示二维序列x的列数，j＝0时，表示二维序列x中的词单元序列，j＝1时，表示二维序列x中的段落特征序列，j＝2，表示二维序列x中的实体类型序列；

p表示词单元序列中包含的词单元个数、还可以表示段落特征序列中包含的段落特征个数，还可以表示实体类型序列中包含的实体类型的个数以及还可以表示修饰词标签序列中包含的修饰词标签的个数；

M为对词单元序列中的每个词单元标注修饰词标签后得到的修饰词标签序列y的总数量；

Z(x)是规范化因子；

s_l(y,x,i,j)表示第l个状态函数，L表示根据一元模板生成的状态函数的总个数，其中，一元模板可以包括词单元特征模板、属性特征模板、复合特征模板中的至少一种，假设一元模板的个数为e₁个，那么L＝e₁*W*p，W为修饰词标签的种类；

t_k(y,x,i,j)表示第k个转移函数，K表示根据二元模板生成的转移函数的总个数，其中，二元模板可以包括词单元特征模板、属性特征模板、复合特征模板中的至少一种，假设二元模板的个数为e₂个，那么K＝e₂*W*W*p，W的含义同上。

其中，μ_l为状态函数的第一权重。λ_k为转移函数的第二权重。转移函数和状态函数的权值λ_k和μ_l是通过对条件概率预测模型进行训练而求解到的，具体求解过程将在后文中具体说明。

在一种实施方式中，步骤S104中基于词单元序列、属性标签序列以及预先训练的条件概率预测模型，确定词单元序列被标记为每种修饰词标签序列的条件概率，如图3所示，包括以下具体步骤S301～S304：

S301，根据词单元序列、第一属性标签序列和第二属性标签序列中的至少一种，确定多个特征模板；

S302，根据确定的多个特征模板，生成至少一个状态函数和至少一个转移函数；

S303，确定在词单元序列被标记为每种修饰词标签序列的情况下各个状态函数的取值和各个转移函数的取值；

S304，将每种修饰词标签序列对应的各个状态函数的取值和各个转移函数的取值输入至预先训练的条件概率预测模型中，分别计算词单元序列被标记为每种修饰词标签序列的条件概率。

参考上表1中的数据集，这里的第一属性标签序列和第二属性标签序列即为上述提到的段落特征序列以及实体类型序列，由上述表1可以看出词单元序列、段落特征序列和实体类型序列的长度均为19，词单元序列中特征词单元有4个。

这里的特征模板按照对词单元序列、段落特征序列和实体类型序列的关联关系的表达，可以包括以下模板中的至少一种：

用于表示词单元序列中单个词单元的词单元特征模板；

用于表示词单元序列中不同词单元的关联关系的词单元特征模板；

用于表示第一属性标签序列中单个属性标签的属性特征模板；

用于表示第二属性标签序列中单个属性标签的属性特征模板；

用于表示第一属性标签序列中不同属性标签之间的关联关系的属性特征模板；

用于表示第二属性标签序列中不同属性标签之间的关联关系的属性特征模板；

用于表示第一属性标签序列中的属性标签和第二属性标签序列中的属性标签之间的关联关系的属性特征模板；

由词单元特征模板和所述属性特征模板组成的复合特征模板。

以上三种特征模板还可以分为一元模板(Unigram template)或二元模板(Bigramtemplate)

下面结合具体实施例给出解释：

一元模板可以用于确定状态函数，模板格式为：Uk：％x[i,j]，其中字母U表示特征模板为一元模板，k表示该一元模板的序号；x表示由词单元序列、段落特征序列和实体类型序列组成的二维序列；在本申请中，j表示列的位置，当j＝0时，表明是x列中的第一列，第一列指二维序列中的词单元序列，当j＝1时表明是x列中的第二列，第二列指二维序列中的段落特征序列，当j＝2时表明是x列中的第三列，第三列指二维序列中的实体类型序列，在本申请中，i表示词单元序列、段落标记序列或实体类型序列中的第i个位置，也即当前位置，当j＝0时，x[i,0]表示二维序列中的词单元序列中第i个位置的词单元，当j＝1时，x[i,1]表示二维序列中的段落特征序列中第i个位置的段落特征。

二元模板用于确定转移函数，模板格式为：Bk：％x[i,j]，其中字母B表示特征模板为二元模板，其它参数可参见上述一元模板的说明，这里不再赘述。

示例性的，沿用上述表1中示出的电子病历文本的词单元序列、段落特征序列以及与对应的实体类型序列之间的对应关系，对上述特征模板进行示例性说明。

如下表2所示，为本申请实施例中设定的特征模板的类型：

表2：特征模板

其中，上述表2中的U01～U17均为一元模板；B01为二元模板。

可以看出U01～U05为用于表示词单元序列中单个词单元的词单元特征模板，例如，U01:％x[i-2,0]表示词单元序列中第i-2个位置的词单元，即在当前位置之前、且与当前位置间隔两个词单元的位置的词单元；U03:％x[i,0]表示词单元序列中第i个位置的词单元，即当前位置的词单元；U05:％x[i+2,0]表示词单元序列中的第i+2个位置的词单元，即在当前位置之后、且与当前位置间隔两个词单元的位置的词单元。

U06～U12为用于表示词单元序列中不同词单元的关联关系的词单元特征模板，例如，U06:％x[i-2,0]/％x[i-1,0]表示词单元序列中第i-2个位置的词单元、以及词单元序列中第i-1个位置的词单元；U07:％x[i-1,0]/％x[i,0]表示词单元序列中第i-1个位置的词单元、以及词单元序列中第i个位置的词单元。

U13为用于表示第一属性标签序列中单个属性标签的属性特征模板，即为用于表示段落特征序列中单个段落特征的段落特征模板，例如，U13:％x[i,1]可以表示段落特征序列中第i个位置的段落特征。

U14为用于表示第二属性标签序列中单个属性标签的属性特征模板，即为用于表示实体类型序列中单个实体类型的实体类型模板，例如，U14:％x[i,2]可以表示实体类型序列中第i个位置的实体类型。

U15为用于表示词单元特征模板和属性特征模板组成的复合特征模板，具体指词单元特征模板和段落特征模板组成的复合特征模板，例如，U15:％x[i,0]/％x[i,1]表示词单元序列中第i个位置的词单元、以及段落特征序列中第i个位置的段落特征。

U16为用于表示第一属性标签序列中属性标签和第二属性标签序列中属性标签之间的关联关系的属性特征模板，具体为段落特征模板和实体类型模板组成的属性特征模板，例如，U16:％x[i,1]/％x[i,2]表示段落特征序列中第i个位置的段落特征、以及实体类型序列中第i个位置的实体类型。

U17为用于表示词单元特征模板和属性特征模板组成的复合特征模板，具体指词单元特征模板、段落特征模板和实体类型模板组成的复合特征模板，例如，U17:％x[i,0]/％x[i,1]/％x[i,2]表示词单元序列中第i个位置的词单元、段落特征序列中第i个位置的段落特征、以及实体类型序列中第i个位置的实体类型。

B01为二元模板，且B01也可以归属为用于表示词单元序列中单个词单元的词单元特征模板。B01:％x[i,0]可以表示词单元序列中第i个位置的词单元。当然，实际应用中属性特征模板和复合特征模板也构成二元模板，本申请对此并不限定。

以上设计的特征模板，设计了当前位置的词单元与附近位置的词单元之间的关联关系、当前位置的词单元与段落特征的关联关系、当前位置的词单元与实体类型的关联关系，这样就可以通过词单元序列中词单元之间的相互关系、词单元对应的段落特征以及词单元对应的实体类型来对待识别文本中的实体的修饰词类型进行识别，因为在电子病历文本中，段落特征标签记录了患者的不同信息，实体类型记录了实体的特征类型，故在对实体的修饰词类型进行识别时，通过考虑段落特征序列和实体类型序列，可以提高对实体修饰词类型的识别准确度。

本申请实施例中，一元模板可以生成状态函数s(y,x,i,j)，每个一元模板可以生成W*p个状态函数，其中，p表示词单元序列中包含的词单元个数、还可以表示段落特征序列中包含的段落特征个数，还可以表示实体类型序列中包含的实体类型个数，以及还可以表示修饰词标签序列中包含的修饰词标签的个数，词单元个数、段落特征个数、实体类型个数以及修饰词标签个数四者相同，W表示修饰词标签的种类，本公开中，W＝9，即上述提到的否认的(absent)、非患者本人的(family)、当前的(present)、有条件的(conditional)、可能的(possible)、待证实的(hypothetical)、偶有的(occasional)、既往的(history)和无修饰类别(o)这9种修饰词标签。

沿用上述示例，如表1所示，词单元序列为：“查体”、“：”、“心肺听诊”、“无”、“异常”、“，”、“腹平”、“，”、“对称”、“，”、“可见”、“手术瘢痕”、“，”、“未”、“见”、“明显肠型”、“及”、“蠕动波”、“。”这19个词单元，即p＝19，修饰词标签的种类包括否认的(absent)、非患者本人的(family)、当前的(present)、有条件的(conditional)、可能的(possible)、待证实的(hypothetical)、偶有的(occasional)、既往的(history)和无修饰类别(o)这9种修饰词标签，即W＝9，因此可以得出每个一元模板可以生成19*9＝171个状态函数。

其中，二元模板可以生成转移函数t(y,x,i,j)，每个二元模板可以生成W*W*p个状态函数，其中，p、W含义同上。

继续沿用上述示例，如表1所示，可以得出每个二元模板可以生成19*9*9＝1539个转移函数。

进一步地，在确定出上述各类特征模板之后，可以基于一元模板生成状态函数，还可以基于二元模板生成转移函数，具体实施方式如下：

由于上述一元模板可以是词单元特征模板、段落特征模板、实体类型模板和复合特征模板中的一种或多种，故基于上述一元模板生成的状态函数s(y,x,i,j)包括如下几种情况：

首先，假设词单元序列包含p个词单元，段落特征序列包含p个段落特征，实体类型序列包含p个实体类型，修饰词标签序列包含p个修饰词标签，四者相等。

情况1：若特征模板包括词单元特征模板，则根据词单元特征模板，生成的状态函数s(y,x,i,j)为：

其中，x表示由词单元序列、段落特征序列和实体类型序列组成的二维序列；j＝0时，表示二维序列中的词单元序列；x_i±d,j＝0表示词单元序列的第i±d个位置的词单元，i取1至p中任意整数，d取0至p-i中的任意正整数；y表示修饰词标签序列；y_i表示修饰词标签序列y的第i个修饰词标签；

s(y,x,i,j)在满足词单元序列的第i±d个位置的词单元为m、且修饰词标签序列y的第i个修饰词标签为n₁的条件下取值为k₁，反之，s(y,x,i,j)取值为k₂。

情况2：若特征模板包括属性特征模板，则根据属性特征模板，生成的状态函数s(y,x,i,j)包括至少一种：

具体地，情况2又包括以下3种情况，如下：

情况2-1：若特征模板包括段落特征模板，则根据段落特征模板，生成的状态函数s(y,x,i,j)为：

其中，j＝1时，表示二维序列中的段落特征序列；x_i±d,j＝1表示段落特征序列的第i±d个位置的段落特征，i取1至p中任意整数，d取0至p-i中的任意正整数；其他参数含义同上。

s(y,x,i,j)在满足段落特征序列的第i±d个位置的段落特征为h₁、且修饰词标签序列y的第i个修饰词标签为n₁的条件下取值为k₁，反之，s(y,x,i,j)取值为k₂。

情况2-2：若特征模板包括实体类型模板，则根据实体类型模板，生成的状态函数s(y,x,i,j)为：

其中，j＝2时，表示二维序列中的实体类型序列；x_i±d,j＝1表示实体类型序列的第i±d个位置的实体类型，i取1至p中任意整数，d取0至p-i中的任意正整数；其他参数含义同上。

s(y,x,i,j)在满足实体类型序列的第i±d个位置的实体类型为h₂、且修饰词标签序列y的第i个修饰词标签为n₁的条件下取值为k₁，反之，s(y,x,i,j)取值为k₂。

情况2-3：若特征模板包括段落特征模板和实体类型模板的属性特征模板，则根据该属性特征模板，生成的状态函数s(y,x,i,j)为：

其中，s(y,x,i,j)在满足段落特征序列的第i±d个位置的段落特征为h₁、且实体类型序列的第i±d个位置的实体类型为h₂、且修饰词标签序列y的第i个修饰词标签为n₁的条件下取值为k₁，反之，s(y,x,i,j)取值为k₂。

情况3：若特征模板包括复合特征模板，则根据复合特征模板，生成的状态函数s(y,x,i,j)包括至少一种：

这种情况下，s(y,x,i,j)在满足词单元序列的第i±d个位置的词单元为m、段落特征序列的第i±d个位置的段落特征为h₁、且修饰词标签序列y的第i个修饰词标签为n₁的条件下取值为k₁，反之，s(y,x,i,j)取值为k₂。

这种情况下，s(y,x,i,j)在满足词单元序列的第i±d个位置的词单元为m、实体类型序列的第i±d个位置的段落特征为h₂、且修饰词标签序列y的第i个修饰词标签为n₁的条件下取值为k₁，反之，s(y,x,i,j)取值为k₂。

这种情况下，s(y,x,i,j)在满足词单元序列的第i±d个位置的词单元为m、段落特征序列的第i±d个位置的段落特征为h₁、实体类型序列的第i±d个位置的段落特征为h₂、且修饰词标签序列y的第i个修饰词标签为n₁的条件下取值为k₁，反之，s(y,x,i,j)取值为k₂。

其中，k₁例如可以取值为1，k₂例如可以取值为0。当然，实际应用中，也可以根据实际情况来配置k₁和k₂的取值，本申请对此并不限定。

其中，修饰词标签n₁和n₂可以是上述否认的(absent)、非患者本人的(family)、当前的(present)、有条件的(conditional)、可能的(possible)、待证实的(hypothetical)、偶有的(occasional)、既往的(history)和无修饰类别(o)这9种修饰词标签中的任一种。

为便于理解，下面结合表1和表2的内容，以几种特征模板为例对生成的状态函数s(y,x,i,j)进行举例说明。

(1)假设词单元特征模板为U03:％x[i,0]，词单元序列中第i个位置的词单元指向词单元“手术瘢痕”，那么利用U03:％x[i,0]，生成的状态函数s(y,x,i,j)为以下九种情况：

针对模板U03:％x[i,0]确定出的上述九个状态函数s₁至s₉，对于词单元序列确定出的多个修饰词标签序列中的任意一个修饰词标签序列，需要确定该修饰词标签序列对应的状态函数的值s₁至s₉，那么，需要依次遍历词单元序列中的每个词单元，确定每个词单元对应的状态函数的值，假设当前遍历到的词单元为“手术瘢痕”，若该修饰词标签序列中对应词单元“手术瘢痕”的修饰词标签为“present”，上述九个状态函数中的s₃取值1，其它状态函数取值为0。关于其它特征模板生成的状态函数的取值确定方式，也可以参照上述过程，这里不再逐一介绍。

(2)：假设词单元特征模板为U02:％x[i-1,0]，词单元序列中第i-1个位置的词单元指向词单元“心肺听诊”，那么利用U02:％x[i-1,0]，生成的状态函数s(y,x,i,j)为以下九种情况：

同样，假设当前遍历到的词单元为“无”，词单元序列中第i-1个位置的词单元为“心肺听诊”时，且修饰词标签序列y的第i个修饰词标签为“o”时，上述九个状态函数中的s₁₈取值1，其它状态函数s₁₀至s₁₇取值为0。

(3)假设词单元特征模板为U07:％x[i-1,0]/％x[i,0]，词单元序列中第i-1个位置的词单元指向词单元“可见”，词单元序列中第i个位置的词单元指向词单元“手术瘢痕”，那么利用U07:％x[i-1,0]/％x[i,0]，生成的状态函数s(y,x,i,j)为以下九种情况：

同样，假设当前遍历到的第i个位置的词单元为“手术瘢痕”，词单元序列中第i-1个位置的词单元为“可见”时，且修饰词标签序列y的第i个修饰词标签为“present”时，上述九个状态函数中的s₂₁取值1，其它状态函数取值为0。

当然，对于一元模板中的其它词单元特征模板，也可以参照上述方式(1)至(3)生成状态函数，具体不再展开说明。

(4)：假设段落特征模板为U13:％x[i,1]，段落特征序列中第i个位置的段落特征指向段落特征“TGJC”，那么利用U13:％x[i,1]，生成的状态函数s(y,x,i,j)为以下九种情况：

同样，以上述表1为例，假设当前遍历到段落特征序列中的第一个位置对应的段落特征为“TGJC”，若该修饰词标签序列中对应该段落特征“TGJC”的修饰词标签为“o”，上述九个状态函数中的s₃₆取值1，其它状态函数s₂₈至s₃₅为0。

(5)：假设实体类型模板为U14:％x[i,2]，实体类型序列中第i个位置的实体类型指向段落特征“symptom”，那么利用U14:％x[i,2]，生成的状态函数s(y,x,i,j)为以下九种情况：

同样，以上述表1为例，假设当前遍历到实体类型序列中的第十二个位置的实体类型为“symptom”，若该修饰词标签序列中对应该实体类型“symptom”的修饰词标签为“present”，上述s₃₆～s₄₅九个状态函数中的s₃₉取值1，其它状态函数取值为0。

当然，对于一元模板中的其它属性特征模板，也可以参照上述(4)和(5)的方式生成状态函数，具体不再展开说明。

(6)假设复合特征模板为U15:％x[i,0]/％x[i,1]，词单元序列中第i个位置的词单元指向词单元“可见”，段落特征序列中第i个位置的段落特征指向段落特征“TGJC”，那么利用U15:％x[i,0]/％x[i,1]，生成的状态函数s(y,x,i,j)为以下九种情况：

同样，以上述表1为例，假设当前遍历到词单元序列中的第11个位置的词单元为“可见”，对应的段落特征序列中第11个位置的段落特征为“TGJC”时，且修饰词标签序列y的第i个修饰词标签为“o”时，上述九个状态函数中的s₅₄取值1，其它状态函数取值为0。

当然，对于一元模板中的其它复合特征模板，也可以参照上述方式(6)生成状态函数，具体不再展开说明。

可选地，如果一个待识别文本中，包含多个重复的词单元，且这些重复的词单元对应的段落特征和实体类型均相同，在对该待识别文本进行识别过程中，若当前位置处的词单元在之前出现过，且当前位置的词单元对应的段落特征和实体类型与前面出现过的词单元对应的段落特征和实体类型也相同，则可以不必重复计算当前位置对应的状态特征，比如上述表1中的第7个词单元、第9个词单元、第11个词单元以及第14个词单元，其词单元均为“，”，若当前位置对应的词单元的为第二个“，”，且第二个“，”对应的段落特征与第一个“，”对应的段落特征均为“TGJC”，对应的实体类型与第一个“，”对应的实体类型均为“o”，则在计算第二个“，”，不需要再计算这里第二个“，”的状态函数的取值，同理，若当前位置对应的词单元为第三个“，”或者第四个“，”时，与第二个“，”的处理过程相同，均不需要再计算其对应的状态函数的取值，这样可以避免重复运算，以提高运算速度。

上述二元模板也可以是词单元特征模板、段落特征模板和实体类型模板中的一种或多种。基于上述二元模板生成的转移函数包括并不局限于如下几种情况：

词单元序列包含p个词单元，段落特征序列包括P个段落特征，实体类型序列包含p个实体类型，修饰词标签序列包含p个修饰词标签；

情况1：若特征模板包括词单元特征模板，则根据词单元特征模板，生成的转移函数t(y,x,i,j)为：

其中，x表示由所述词单元序列、所述第一属性标签序列和第二属性标签序列组成的序列；y表示修饰词标签序列；j＝0时，x表示词单元序列；i取1至p中任意整数，d取0至p-i中的任意正整数；x_i±d,j＝0＝m表示词单元序列的第i±d个位置的词单元为m；y_i＝n₁表示修饰词标签序列y的第i个修饰词标签为n₁；y_i-1＝n₂表示修饰词标签序列y的第i-1个修饰词标签为n₂。

t(y,x,i,j)在满足词单元序列的第i±d个位置的词单元为m、且修饰词标签序列y的第i个修饰词标签为n₁、修饰词标签序列y的第i-1个修饰词标签为n₂的条件下取值为k₁，反之，t(y,x,i,j)取值为k₂。

情况2：若特征模板包括段落特征模板，则根据段落特征模板，生成的转移函数t(y,x,i,j)为：

其中，x表示由所述词单元序列、所述第一属性标签序列和第二属性标签序列组成的二维序列；j＝1时，表示二维序列中的段落特征序列；x_i±d,j＝1表示段落特征序列的第i±d个位置的段落特征，i取1至p中任意整数，p为词单元序列中包含的词单元总个数，d取0至p-i中的任意正整数；y表示修饰词标签序列；y_i表示修饰词标签序列y的第i个修饰词标签；y_i-1表示修饰词标签序列y的第i-1个修饰词标签；

t(y,x,i,j)在满足段落特征序列的第i±d个位置的段落特征为h₁、且修饰词标签序列y的第i个修饰词标签为n₁、修饰词标签序列y的第i-1个修饰词标签为n₂的条件下取值为k₁，反之，t(y,x,i,j)取值为k₂。

情况3：若特征模板包括复合特征模板，则根据复合特征模板，生成的转移函数t(y,x,i,j)为：

其中，t(y,x,i,j)在满足词单元序列的第i±d个位置的词单元为m、段落特征序列的第i±d个位置的段落特征为h₁、且修饰词标签序列y的第i个修饰词标签为n₁、修饰词标签序列y的第i-1个修饰词标签为n₂的条件下取值为k₁，反之，t(y,x,i,j)取值为k₂。

为便于理解，下面结合表1和表2的内容，对生成的转移函数t(y,x,i,j)进行举例说明。

假设词单元特征模板为B01:％x[i,0]，词单元序列中第i个位置的词单元指向词单元“手术瘢痕”，那么利用B01:％x[i,0]，生成的转移函数t(y,x,i,j)包括81种情况，其中，以y_i-1＝absent这种情况，可生成的九种转移函数t(y,x,i,j)为：

当然，还可以针对、y_i-1＝family、y_i-1＝present、y_i-1＝conditional、y_i-1＝possible、y_i-1＝hypothetical、y_i-1＝occasional、y_i-1＝history和y_i-1＝o这八种情况，还可以分别生成9转移函数t(y,x,i,j)，具体不再展开说明。

进一步地，在根据上述方式得到状态函数和转移函数之后，还可以确定在词单元序列被标记为每种修饰词标签序列的情况下各个状态函数的取值和各个转移函数的取值。进而将每种词单元标签序列对应的各个状态函数的取值和各个转移函数的取值输入至预先训练的条件概率预测模型中，分别计算词单元序列被标记为每种修饰词标签序列的条件概率。

本申请实施例中确定实体修饰词类型的过程，实际可以转换为预测词单元序列被标记为每种修饰词标签序列的条件概率的问题。其中，预测出的条件概率越大的修饰词标签序列，说明是正确的修饰词标签序列的可能性越大，然后根据预测出的修饰词标签序列和词单元序列的对应关系，就可以确定出词单元序列中实体对应的特征词单元的修饰词标签，即可以确定出每个特征词单元的修饰词类型。

本申请实施例中条件概率预测模型的训练与上文引入的条件随机场相关，下面详细介绍对条件概率预测模型进行训练得到条件概率预测模型的具体过程，如图4所示，包括以下具体步骤S401～S405：

S401，获取样本集合，样本集合中包括多组样本，每组样本中包括待识别样本文本对应的样本词单元序列、样本属性标签序列和至少一种样本修饰词标签序列。

在本申请实施例中，样本可以为待训练电子病历文本，比如样本集合中可以包括100个待训练的电子病历文本，每组待训练的电子病历文本包括对应的样本词单元序列、样本属性标签序列以及至少一种样本修饰词标签序列。

同样，这里的样本属性标签序列包括第一样本属性标签序列和第二样本属性标签序列，其中第一样本属性标签序列可以为样本段落特征序列，第二样本属性标签序列可以为样本实体类型序列。

S402，针对每组样本，根据样本词单元序列和样本属性标签序列中的至少一种，确定该组样本中的样本词单元序列被标记为每种样本修饰词标签序列的情况下各个状态函数的取值和各个转移函数的取值。

其中，以待训练样本集合中的一个待训练电子病历文本为例，下表3给出该待训练电子病历文本对应的词单元序列、段落特征序列、实体类型序列和真实的修饰词标签序列，则这里的待训练样本集合中需要确定该待训练的电子病历文本中样本词单元被标记为每种样本修饰词标签序列的情况下各个状态函数的取值和各个转移函数的取值。

表3数据集

针对这里的表3和上表2中的特征模板，仍然以特征模板U03:x[i,0]为例，当表3中的样本词单元序列中第i个待训练词单元为“双肺”，且样本修饰词标签序列y的第i个样本修饰词标签为“o”时，此时的状态函数的取值为1，被标记为的其余样本修饰词标签的状态函数的取值均为0；以这样的方式可以确定出该样本对应的所有状态函数的取值和各个转移函数的取值，具体确定过程与上述预测过程确定状态函数的取值以及确定转移函数的取值过程类似，在此不再赘述，具体地，以这里的表3对应的待训练电子病历文本为例，以表2对应的特征模板为例，因为词单元序列中的词单元个数为15个，一元模板的个数为17个，修饰词标签的种类为9个，故这里所有状态函数的取值应该共有L＝17*9*15＝2295个，其对应的转移函数的取值应该共有K＝1*9*9*15＝1215个。

同样地，按照上述方式，计算出样本集中所有的状态函数的取值以及转移函数的取值。

S403，将通过每组样本确定出的各个状态函数的取值和各个转移函数的取值输入至待训练的条件概率预测模型中，确定每组样本对应的条件概率函数，条件概率函数中包括状态函数的第一权重和转移函数的第二权重。

这里的条件概率预测模型即可以通过上述公式(1)表示，将上述100组待训练的电子病历文本分别按照每组待训练的电子病历文本的状态函数的取值以及转移函数的取值分别输入至待训练的条件概率预测模型后，即可以得到这100组待训练的电子病历文本的条件概率函数，这里每个条件概率函数均包括第一权值μ_l和第二权值λ_k。

S404，将确定出的每组样本对应的条件概率函数作为自变量输入至预设损失函数中，通过调整预设损失函数中包括的第一权重的取值和第二权重的取值，确定预设损失函数的损失值。

S405，在损失值符合预设收敛条件时，确定第一权重的第一当前值和第二权重的第二当前值，并确定在第一权重为所述第一当前值、第二权重为第二当前值的情况下得到的条件概率预测模型。

具体的，在将条件概率函数作为自变量输入至预设损失函数中之后，可以给上述λ_k和μ_l两种待训练参数赋初始值，按照牛顿迭代法或者梯度下降法对待训练参数λ_k和μ_l进行调整更新，直至预设损失函数的损失值符合预设收敛条件时停止更新，这样就得到待训练参数λ_k和μ_l的取值，从而就确定了条件随机场公式中的λ_k和μ_l，即得到条件概率预测模型。

S105，将符合预设条件的条件概率对应的修饰词标签序列确定为目标修饰词标签序列，并基于目标修饰词标签序列，确定词单元序列中每个特征词单元的修饰词类型。

这里通过给定词单元序列的情况下，确定每种候选修饰词标签序列的条件概率，来确定词单元序列对应的修饰词标签序列。

具体地，步骤S105中，将符合预设条件的条件概率对应的修饰词标签序列确定为目标修饰词标签序列，包括：

将条件概率最大时对应的修饰词标签序列确定为目标修饰词标签序列。

在给定词单元序列时，条件概率越大的修饰词标签序越接近真实的修饰词标签序列，故可以将条件概率最大时对应的修饰词标签序列作为目标修饰词标签序列，该目标修饰词标签序列中即包括了与各个实体对应的修饰词标签类型。

比如上述表1中给出的修饰词标签序列的条件概率最大的，则目标修饰词标签序列即为表1中给出的修饰词标签序列，则可以确定特征词单元“心肺听诊”对应的修饰词类型为“o”；特征词单元“手术瘢痕”对应的修饰词类型为“present”；特征词单元“明显肠型”对应的修饰词类型为“absent”；特征词单元“蠕动波”对应的修饰词类型为“absent”。

本申请实施例中引入条件概率预测模型，在训练条件概率预测模型的过程中，由于文本的属性标签序列也会作为预测修饰词标签序列的参考因素，可以加快模型收敛，也就是说，可以采用相对少量的训练样本便可以训练得到条件概率预测模型，由此可以无需大量带有人工标注的修饰词标签的样本，可节省人力成本，提升训练样本的构建效率，从而进一步提高实体修饰词识别效率。

此外，引入条件概率预测模型，可以预测在给定词单元序列的情况下，每种修饰词标签序列的条件概率，这样通过基于序列的识别方法，可以直接得到待识别文本中所有实体的修饰词标签，提高了实体修饰词识别的效率。

在得到条件概率预测模型后，可以通过测试样本集合，对该条件概率预测模型的预测准确度进行测试，经测试，本申请实施例对测试样本集合中的实体的修饰词标签的预测准确率较现有的技术有显著提高。

基于同一申请构思，本申请实施例中还提供了与实体修饰词识别方法对应的实体修饰词识别装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述实体修饰词识别方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

如图5所示，即为本申请实施例提供的实体修饰词识别装置500的结构示意图，包括：

词单元转换模块501，用于将待识别文本转换为词单元序列，其中，词单元序列中包括多个词单元，多个词单元包括实体对应的特征词单元和非实体对应的非特征词单元；

属性标签确定模块502，用于为词单元序列中每个词单元分配对应的属性标签，得到属性标签序列；

修饰词标签确定模块503，用于确定词单元序列中每个词单元对应的至少一种修饰词标签，得到多种修饰词标签序列；

条件概率确定模块504，用于基于词单元序列、属性标签序列以及预先训练的条件概率预测模型，确定词单元序列被标记为每种修饰词标签序列的条件概率；

修饰词类型确定模块505，用于将符合预设条件的条件概率对应的修饰词标签序列确定为目标修饰词标签序列，并基于目标修饰词标签序列，确定词单元序列中每个特征词单元的修饰词类型。

在一种实施方式中，词单元转换模块501，具体用于：

识别待识别文本中实体对应的特征词单元；

对待识别文本中除特征词单元以外的文本进行分词，得到多个非实体对应的非特征词单元；

将每个特征词单元和每个非特征词单元按照在所述待识别文本中的排列顺序，构成词单元序列。

在一种实施方式中，属性标签确定模块502，具体用于：

为词单元序列中每个词单元分配对应的用于表征段落特征的第一属性标签，得到第一属性标签序列；以及，

为词单元序列中每个词单元分配对应的用于表征实体类型的第二属性标签，得到第二属性标签序列。

在一种实施方式中，条件概率确定模块504，具体用于：

根据词单元序列、第一属性标签序列和所述第二属性标签序列中的至少一种，确定多个特征模板；

根据确定的多个特征模板，生成至少一个状态函数和至少一个转移函数；

确定在词单元序列被标记为每种修饰词标签序列的情况下各个状态函数的取值和各个转移函数的取值；

将每种修饰词标签序列对应的各个状态函数的取值和各个转移函数的取值输入至预先训练的条件概率预测模型中，分别计算所述词单元序列被标记为每种修饰词标签序列的条件概率。

在一种实施方式中，特征模板包括以下模板中的至少一种：

用于表示词单元序列中单个词单元的词单元特征模板；

由词单元特征模板和属性特征模板组成的复合特征模板。

在一种实施方式中，词单元序列包含p个词单元，第一属性标签序列包含p个属性标签，第二属性标签序列中包含p个属性标签，修饰词标签序列包含p个修饰词标签；

若特征模板包括所述词单元特征模板，则条件概率确定模块504根据词单元特征模板，生成的状态函数s(y,x,i,j)为：

若特征模板包括属性特征模板，则条件概率确定模块504根据属性特征模板，生成的状态函数s(y,x,i,j)包括至少一种：

若特征模板包括复合特征模板，则条件概率确定模块504根据复合特征模板，生成的状态函数s(y,x,i,j)包括至少一种：

其中，x表示由词单元序列、第一属性标签序列和第二属性标签序列组成的序列；y表示修饰词标签序列；j＝0时，x表示词单元序列；j＝1时，x表示第一属性标签序列；j＝2时，x表示第二属性标签序列；i取1至p中任意整数，d取0至p-i中的任意正整数；x_i±d,j＝0＝m表示词单元序列的第i±d个位置的词单元为m，x_i±d,j＝1＝h₁表示所述第一属性标签序列的第i±d个位置的属性标签为h₁；x_i±d,j＝2＝h₂表示所述第二属性标签序列的第i±d个位置的属性标签为h₂；y_i＝n₁表示修饰词标签序列y的第i个修饰词标签为n₁。

在一种实施方式中，词单元序列包含p个词单元，修饰词标签序列包含p个修饰词标签；

若特征模板包括词单元特征模板，则条件概率确定模块504根据词单元特征模板，生成的转移函数t(y,x,i,j)为：

其中，x表示由词单元序列、第一属性标签序列和第二属性标签序列组成的序列；y表示修饰词标签序列；j＝0时，x表示词单元序列；i取1至p中任意整数，d取0至p-i中的任意正整数；x_i±d,j＝0＝m表示所述词单元序列的第i±d个位置的词单元为m；y_i＝n₁表示修饰词标签序列y的第i个修饰词标签为n₁；y_i-1＝n₂表示修饰词标签序列y的第i-1个修饰词标签为n₂。

在一种实施方式中，实体修饰词识别装置500还包括预测模型训练模块506，预测模型训练模块506用于：

获取样本集合，样本集合中包括多组样本，每组样本中包括待识别样本文本对应的样本词单元序列、样本属性标签序列和至少一种样本修饰词标签序列；

针对每组样本，根据样本词单元序列和所述样本属性标签序列中的至少一种，确定该组样本中的样本词单元序列被标记为每种样本修饰词标签序列的情况下各个状态函数的取值和各个转移函数的取值；

将通过每组样本确定出的各个状态函数的取值和各个转移函数的取值输入至待训练的条件概率预测模型中，确定每组样本对应的条件概率函数，条件概率函数中包括所述状态函数的第一权重和转移函数的第二权重；

将确定出的每组样本对应的条件概率函数作为自变量输入至预设损失函数中，通过调整预设损失函数中包括的第一权重的取值和所述第二权重的取值，确定预设损失函数的损失值；

在损失值符合预设收敛条件时，确定第一权重的第一当前值和第二权重的第二当前值，并确定在第一权重为所述第一当前值、第二权重为第二当前值的情况下得到的条件概率预测模型。

在一种实施方式中，修饰词标签确定模块503，具体用于：

确定所述词单元序列中每个词单元对应的至少一种修饰词标签；

本申请实施例提供了一种电子设备600，如图6所示，包括：处理器601、存储介质602和总线603，存储介质602存储有处理器601可执行的机器可读指令，当电子设备运行时，处理器601与存储介质602之间通过总线603通信，处理器执行机器可读指令，以执行时执行如上述实施例提出的实体修饰词识别方法的步骤。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述实施例提出的实体修饰词识别方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述实体修饰词识别方法，从而解决现有技术中的电子病历文本中的实体修饰词类型识别困难，且识别准确度较低的问题。

本申请实施例所提供的进行实体修饰词识别方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

本申请实施例所提供的实体修饰词识别装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种实体修饰词识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述将待识别文本转换为词单元序列，包括：

识别所述待识别文本中实体对应的特征词单元；

对所述待识别文本中除所述特征词单元以外的文本进行分词，得到多个非实体对应的非特征词单元；

将每个特征词单元和每个非特征词单元按照在所述待识别文本中的排列顺序，构成所述词单元序列。

3.如权利要求1所述的方法，其特征在于，所述为所述词单元序列中每个词单元分配对应的属性标签，得到属性标签序列，包括：

为所述词单元序列中每个词单元分配对应的用于表征段落特征的第一属性标签，得到第一属性标签序列；以及，

为所述词单元序列中每个词单元分配对应的用于表征实体类型的第二属性标签，得到第二属性标签序列。

4.如权利要求3所述的方法，其特征在于，所述基于所述词单元序列、所述属性标签序列以及预先训练的条件概率预测模型，确定所述词单元序列被标记为每种修饰词标签序列的条件概率，包括：

根据所述词单元序列、所述第一属性标签序列和所述第二属性标签序列中的至少一种，确定多个特征模板；

确定在所述词单元序列被标记为每种修饰词标签序列的情况下各个状态函数的取值和各个转移函数的取值；

5.如权利要求4所述的方法，其特征在于，所述特征模板包括以下模板中的至少一种：

用于表示所述词单元序列中单个词单元的词单元特征模板；

用于表示所述词单元序列中不同词单元的关联关系的词单元特征模板；

由所述词单元特征模板和所述属性特征模板组成的复合特征模板。

6.如权利要求5所述的方法，其特征在于，所述词单元序列包含p个词单元，所述第一属性标签序列包含p个属性标签，所述第二属性标签序列中包含p个属性标签，所述修饰词标签序列包含p个修饰词标签；

若所述特征模板包括所述词单元特征模板，则根据所述词单元特征模板，生成的状态函数s(y,x,i,j)为：

若所述特征模板包括所述属性特征模板，则根据所述属性特征模板，生成的状态函数s(y,x,i,j)包括至少一种：

若所述特征模板包括所述复合特征模板，则根据所述复合特征模板，生成的状态函数s(y,x,i,j)包括至少一种：

其中，x表示由所述词单元序列、所述第一属性标签序列和第二属性标签序列组成的序列；y表示所述修饰词标签序列；j＝0时，x表示所述词单元序列；j＝1时，x表示所述第一属性标签序列；j＝2时，x表示所述第二属性标签序列；i取1至p中任意整数，d取0至p-i中的任意正整数；x_i±d,j＝0＝m表示所述词单元序列的第i±d个位置的词单元为m，x_i±d,j＝1＝h₁表示所述第一属性标签序列的第i±d个位置的属性标签为h₁；x_i±d,j＝2＝h₂表示所述第二属性标签序列的第i±d个位置的属性标签为h₂；y_i＝n₁表示所述修饰词标签序列y的第i个修饰词标签为n₁。

7.如权利要求5所述的方法，其特征在于，所述词单元序列包含p个词单元，所述修饰词标签序列包含p个修饰词标签；

若所述特征模板包括所述词单元特征模板，则根据所述词单元特征模板，生成的转移函数t(y,x,i,j)为：

其中，x表示由所述词单元序列、所述第一属性标签序列和第二属性标签序列组成的序列；y表示所述修饰词标签序列；j＝0时，x表示所述词单元序列；i取1至p中任意整数，d取0至p-i中的任意正整数；x_i±d,j＝0＝m表示所述词单元序列的第i±d个位置的词单元为m；y_i＝n₁表示所述修饰词标签序列y的第i个修饰词标签为n₁；y_i-1＝n₂表示所述修饰词标签序列y的第i-1个修饰词标签为n₂。

8.如权利要求1所述的方法，其特征在于，根据以下方式训练得到所述条件概率预测模型：

获取样本集合，所述样本集合中包括多组样本，每组样本中包括待识别样本文本对应的样本词单元序列、样本属性标签序列和至少一种样本修饰词标签序列；

针对每组样本，根据所述样本词单元序列和所述样本属性标签序列中的至少一种，确定该组样本中的样本词单元序列被标记为每种样本修饰词标签序列的情况下各个状态函数的取值和各个转移函数的取值；

将通过每组样本确定出的各个状态函数的取值和各个转移函数的取值输入至待训练的条件概率预测模型中，确定每组样本对应的条件概率函数，所述条件概率函数中包括所述状态函数的第一权重和所述转移函数的第二权重；

将确定出的每组样本对应的条件概率函数作为自变量输入至预设损失函数中，通过调整所述预设损失函数中包括的所述第一权重的取值和所述第二权重的取值，确定所述预设损失函数的损失值；

在所述损失值符合预设收敛条件时，确定所述第一权重的第一当前值和所述第二权重的第二当前值，并确定在所述第一权重为所述第一当前值、所述第二权重为所述第二当前值的情况下得到的条件概率预测模型。

9.如权利要求1所述的方法，其特征在于，所述确定所述词单元序列中每个词单元对应的至少一种修饰词标签，得到多种修饰词标签序列，包括：

10.一种实体修饰词识别装置，其特征在于，包括：

11.如权利要求10所述的装置，其特征在于，所述词单元转换模块，具体用于：

识别所述待识别文本中实体对应的特征词单元；

12.如权利要求10所述的装置，其特征在于，所述属性标签确定模块，具体用于：

13.如权利要求12所述的装置，其特征在于，所述条件概率确定模块，具体用于：

14.如权利要求10所述的装置，其特征在于，还包括预测模型训练模块，所述预测模型训练模块用于：

15.如权利要求10所述的装置，其特征在于，所述修饰词标签确定模块，具体用于：