CN107122582B

CN107122582B - 面向多数据源的诊疗类实体识别方法及装置

Info

Publication number: CN107122582B
Application number: CN201710101829.4A
Authority: CN
Inventors: 李雪莉; 黄玉丽; 关毅
Original assignee: Heilongjiang Teshi Information Technology Co Ltd; Harbin Institute of Technology
Current assignee: Yi Bao Interconnected Medical Information Technology (Beijing) Co., Ltd.; Harbin Institute of Technology
Priority date: 2017-02-24
Filing date: 2017-02-24
Publication date: 2019-12-06
Anticipated expiration: 2037-02-24
Also published as: CN107122582A

Abstract

本发明提供了一种面向多数据源的诊疗类实体识别方法及装置，涉及医疗实体识别技术领域。方法包括：获取原始数据中的待处理语句；将待处理语句进行单字切分，确定待处理语句中的每个文字；根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；根据预先设置的诊疗类术语切分策略，对待处理语句进行术语切分，确定第二组候选实体；对各候选实体进行筛选，分别形成第一组诊疗类候选实体和第二组诊疗类候选实体；根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果。

Description

面向多数据源的诊疗类实体识别方法及装置

技术领域

本发明涉及医疗实体识别技术领域，尤其涉及一种面向多数据源的诊疗类实体识别方法及装置。

背景技术

目前，随着网络和医疗信息技术的发展、中国人口逐渐趋于老年化、互联网医疗逐渐兴起，医疗卫生行业大数据也相继产生。在实际临床诊治过程中，每天都会产生大量的诊疗信息，对这些诊疗信息的利用和研究，在例如医学统计、科研、教学、医疗管理等领域中有着重要的作用。由于诊疗信息的海量化和多各种结构化，仅靠人工力量识别诊疗信息，再进行研究和利用几乎是不可能的，必须借助计算机对其识别和利用。但由于医疗过程中产生的诊疗信息属于自然语言，格式复杂多样，没有统一的标准，例如，采用多种语言混合表达、使用不规范语法、录入有误信息、采用缩略语或俗称代替标准术语、文字中夹杂符号等杂乱信息等等，就使得计算机识别诊疗信息具有相当大的难度。

近年来，医疗健康领域的蓬勃发展使得该领域的研究逐渐增多，例如医疗问答、智能诊断、诊疗预警等。作为医疗健康数据分析的重要的一步，医疗实体识别(例如诊疗类的实体识别)可以抽取出相关文本中存在的医疗术语，对后续研究的性能起到重要的作用。目前常见的实体识别技术有基于词表的医学实体识别和基于条件随机场(ConditionalRandom Fields，简称CRF)的医学实体识别，然而基于词表的医学实体识别仅仅依靠术语库匹配，缺少上下文语境识别，且术语库匹配存在较大局限性。而基于CRF的医学实体识别技术，缺少大数据语料库和语言规则的应用，语料均为人工标注后的语料，而没有利用半监督学习等方法，增加对数量更庞大的未标注数据的使用，使得模型不够完善，缺少基于语言学与医疗信息的规则，仅仅依靠模型，对数据的针对性不够强。可见，当前的实体识别方案并不能准确进行诊疗类实体识别。

发明内容

本发明的实施例提供一种面向多数据源的诊疗类实体识别方法及装置，以解决当前的实体识别方案并不能准确进行诊疗类实体识别的问题。

为达到上述目的，本发明采用如下技术方案：

一种面向多数据源的诊疗类实体识别方法，包括：

获取原始数据中的待处理语句；

将所述待处理语句进行单字切分，确定待处理语句中的每个文字；

根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；

根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；

根据预先设置的诊疗类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体；

根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组诊疗类候选实体和第二组诊疗类候选实体；

若第一组诊疗类候选实体和第二组诊疗类候选实体不相同，根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果。

具体的，所述根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果，包括：

确定待处理语句在进行术语切分时，是否通过预先设置的切分规则进行切分；

若待处理语句在进行术语切分时，通过预先设置的切分规则进行切分，则选择所述第二组诊疗类候选实体中的候选实体作为诊疗类实体结果；

若待处理语句在进行术语切分时，未通过预先设置的切分规则进行切分，则选择所述第一组诊疗类候选实体中的候选实体作为诊疗类实体结果；

或者，确定来源于相同待处理语句的原始字符串的第一组诊疗类候选实体和第二组诊疗类候选实体中，实体个数少，且实体包含的字符数多的一组实体作为诊疗类实体结果；

所述诊疗类实体结果中的实体类型包括手术操作实体、辅助检查实体和其他类诊疗实体；

在所述第一组诊疗类候选实体和第二组诊疗类候选实体中相对应的实体的实体类型不一致时，识别所述相对应的实体末尾字符串所表示的术语，并根据所述末尾字符串所表示的术语确定所述相对应的实体的实体类型；

若未成功识别所述相对应的实体末尾字符串所表示的术语，则选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。

具体的，所述原始数据包括结构化数据；所述结构化数据包括结算单数据、门诊处置数据、门诊检查检验数据、住院手术记录数据、住院处置数据、住院检查检验数据、电子病历数据、手术操作知识库及文献库数据。

具体的，根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列，包括：

从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值；所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别；所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值；

根据每个字在各语句中的CRF统计特征值，确定一训练模型；所述训练模型为：

根据所述训练模型，计算待处理语句中的每个文字的实体标记y_j；

将每个文字的实体标记进行组合，形成待处理语句的实体标记序列；其中，x表示所述待处理语句；y_j表示待处理语句中j位置对应的文字的实体标记；f_i(y_j,y_j-1,x)表示待处理语句中分词特征i的函数值；λ_i为模型参数；m表示分词特征的个数；n表示待处理语句中的文字位置个数；Z(x)表示归一化因子；p(y|x)表示文字在待处理语句中的标记概率。

具体的，根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体，包括：

在实体标记序列中确定各文字对应的分词特征值，并根据所述分词特征值确定待处理语句的第一组候选实体。

进一步的，该面向多数据源的诊疗类实体识别方法，还包括：

在所述待处理语句未在预先设置的语料库中被标注，根据公式：确定待处理语句中各实体的不确定值；其中，IE_k为第k个实体的不确定值；k_start为第k个实体的实体标记的开始位置；k_end为第k个实体的实体标记的尾部位置；为待处理语句中s位置的文字对应第j个实体标记的概率；

将待处理语句中不确定值为1的实体与预先设置的诊疗本体库匹配，若匹配成功，则将匹配成功的实体的实体标记进行保存；

确定待处理语句的预测置信度和字典匹配标记的实体比例；

将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中，以进行语料库更新；

其中，所述预测置信度为待处理语句中各文字对应的标记概率的乘积；

所述字典匹配标记的实体比例为：其中，C为待处理语句中预测出的实体总数中出现在预设字典中的实体数；B为待处理语句中预测出的实体总数。

具体的，根据预先设置的诊疗类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体，包括：

将待处理语句中的标点符号转换为半角，并将英文字母统一为大写英文字母；

调用预先设置的非医学术语表，检查待处理语句中的原始字符串是否存在非医学术语表中的术语，并将待处理语句中存在的非医学术语表中的术语删除，形成预处理后的待处理语句；

将预处理后的待处理语句采用逆向最大匹配原则与预先设置的诊疗本体库中的标准术语名称或同义词进行匹配，将预处理后的待处理语句中与标准术语名称或同义词相匹配的字符串作为初步实体抽出，并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型；

若在待处理语句中所述初步实体之前相邻接有用于表示方位的字符串，则将用于表示方位的字符串与所述初步实体作为整体抽出，形成重新筛选实体；

若在待处理语句中所述初步实体之前相邻接有用于表示解剖部位的字符串，则将用于表示解剖部位的字符串与所述初步实体作为整体抽出，形成重新筛选实体；

若在待处理语句中所述初步实体之后相邻接有表示带有预设符号的词汇的字符串，则将表示带有预设符号的词汇的字符串与所述初步实体作为整体抽出，形成重新筛选实体；

将待处理语句中的各重新筛选实体的组合作为所述第二组候选实体。

具体的，根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组诊疗类候选实体和第二组诊疗类候选实体，包括：

判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非诊疗术语字符；

若各候选实体的末尾字符为预先设置的非诊疗术语字符，将所述候选实体舍弃。

一种面向多数据源的诊疗类实体识别装置，包括：

待处理语句获取单元，用于获取原始数据中的待处理语句；

单字切分单元，用于将所述待处理语句进行单字切分，确定待处理语句中的每个文字；

实体标记序列确定单元，用于根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；

第一组候选实体确定单元，用于根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；

第二组候选实体确定单元，用于根据预先设置的诊疗类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体；

候选实体筛选单元，用于根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组诊疗类候选实体和第二组诊疗类候选实体；

诊疗类实体结果确定单元，用于在第一组诊疗类候选实体和第二组诊疗类候选实体不相同时，根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果。

具体的，所述诊疗类实体结果确定单元，包括：

术语切分判断模块，用于确定待处理语句在进行术语切分时，是否通过预先设置的切分规则进行切分；

诊疗类实体结果确定模块，用于在待处理语句在进行术语切分时，通过预先设置的切分规则进行切分，则选择所述第二组诊疗类候选实体中的候选实体作为诊疗类实体结果；在待处理语句在进行术语切分时，未通过预先设置的切分规则进行切分，则选择所述第一组诊疗类候选实体中的候选实体作为诊疗类实体结果；

所述诊疗类实体结果确定模块，还用于确定来源于相同待处理语句的原始字符串的第一组诊疗类候选实体和第二组诊疗类候选实体中，实体个数少，且实体包含的字符数多的一组实体作为诊疗类实体结果；所述诊疗类实体结果中的实体类型包括手术操作实体、辅助检查实体和其他类诊疗实体；

实体类型确定模块，用于在所述第一组诊疗类候选实体和第二组诊疗类候选实体中相对应的实体的实体类型不一致时，识别所述相对应的实体末尾字符串所表示的术语，并根据所述末尾字符串所表示的术语确定所述相对应的实体的实体类型；在未成功识别所述相对应的实体末尾字符串所表示的术语时，选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。

具体的，所述待处理语句获取单元中的原始数据包括结构化数据；所述结构化数据包括结算单数据、门诊处置数据、门诊检查检验数据、住院手术记录数据、住院处置数据、住院检查检验数据、电子病历数据、手术操作知识库及文献库数据。

进一步的，所述实体标记序列确定单元，包括：

CRF统计特征值提取模块，用于从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值；所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别；所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值；

训练模型确定模块，用于根据每个字在各语句中的CRF统计特征值，确定一训练模型；所述训练模型为：

实体标记计算模块，用于根据所述训练模型，计算待处理语句中的每个文字的实体标记y_j；

实体标记序列确定模块，用于将每个文字的实体标记进行组合，形成待处理语句的实体标记序列；其中，x表示所述待处理语句；y_j表示待处理语句中j位置对应的文字的实体标记；f_i(y_j,y_j-1,x)表示待处理语句中分词特征i的函数值；λ_i为模型参数；m表示分词特征的个数；n表示待处理语句中的文字位置个数；Z(x)表示归一化因子；p(y|x)表示文字在待处理语句中的标记概率。

此外，所述第一组候选实体确定单元，具体用于：

进一步的，所述的面向多数据源的诊疗类实体识别装置，还包括语料库更新单元，用于：

将待处理语句中不确定值为1的实体与预先设置的诊疗本体库匹配，在匹配成功时，将匹配成功的实体的实体标记进行保存；

确定待处理语句的预测置信度和字典匹配标记的实体比例；

此外，所述第二组候选实体确定单元，包括：

预处理模块，用于将待处理语句中的标点符号转换为半角，并将英文字母统一为大写英文字母；调用预先设置的非医学术语表，检查待处理语句中的原始字符串是否存在非医学术语表中的术语，并将待处理语句中存在的非医学术语表中的术语删除，形成预处理后的待处理语句；

诊疗本体库匹配模块，用于将预处理后的待处理语句采用逆向最大匹配原则与预先设置的诊疗本体库中的标准术语名称或同义词进行匹配，将预处理后的待处理语句中与标准术语名称或同义词相匹配的字符串作为初步实体抽出，并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型；

实体重新筛选模块，用于在待处理语句中所述初步实体之前相邻接有用于表示方位的字符串时，将用于表示方位的字符串与所述初步实体作为整体抽出，形成重新筛选实体；在待处理语句中所述初步实体之前相邻接有用于表示解剖部位的字符串，将用于表示解剖部位的字符串与所述初步实体作为整体抽出，形成重新筛选实体；在待处理语句中所述初步实体之后相邻接有表示带有预设符号的词汇的字符串时，将表示带有预设符号的词汇的字符串与所述初步实体作为整体抽出，形成重新筛选实体；

第二组候选实体确定模块，用于将待处理语句中的各重新筛选实体的组合作为所述第二组候选实体。

此外，所述候选实体筛选单元，包括：

非诊疗术语字符判断模块，用于判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非诊疗术语字符；

候选实体舍弃模块，用于在各候选实体的末尾字符为预先设置的非诊疗术语字符时，将所述候选实体舍弃。

本发明实施例提供的一种面向多数据源的诊疗类实体识别方法及装置，首先，获取原始数据中的待处理语句；将所述待处理语句进行单字切分，确定待处理语句中的每个文字；根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；然后，根据预先设置的诊疗类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体；根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组诊疗类候选实体和第二组诊疗类候选实体；若第一组诊疗类候选实体和第二组诊疗类候选实体不相同，根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果。本发明将条件随机场CRF统计机器学习方法与术语切分方法相结合，能够自动识别诊疗类实体，克服了当前的实体识别的数据源较为单一，实体识别不准确的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种面向多数据源的诊疗类实体识别方法的流程图一；

图2为本发明实施例提供的一种面向多数据源的诊疗类实体识别方法的流程图二的A部分；

图3为本发明实施例提供的一种面向多数据源的诊疗类实体识别方法的流程图二的B部分；

图4为本发明实施例提供的一种面向多数据源的诊疗类实体识别装置的结构示意图一；

图5为本发明实施例提供的一种面向多数据源的诊疗类实体识别装置的结构示意图二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供一种面向多数据源的诊疗类实体识别方法，包括：

步骤101、获取原始数据中的待处理语句。

步骤102、将所述待处理语句进行单字切分，确定待处理语句中的每个文字。

步骤103、根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列。

步骤104、根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体。

步骤105、根据预先设置的诊疗类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体。

步骤106、根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组诊疗类候选实体和第二组诊疗类候选实体。

步骤107、若第一组诊疗类候选实体和第二组诊疗类候选实体不相同，根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果。

本发明实施例提供的一种面向多数据源的诊疗类实体识别方法，首先，获取原始数据中的待处理语句；将所述待处理语句进行单字切分，确定待处理语句中的每个文字；根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；然后，根据预先设置的诊疗类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体；根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组诊疗类候选实体和第二组诊疗类候选实体；若第一组诊疗类候选实体和第二组诊疗类候选实体不相同，根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果。本发明将条件随机场CRF统计机器学习方法与术语切分方法相结合，能够自动识别诊疗类实体，克服了当前的实体识别的数据源较为单一，实体识别不准确的问题。

为了使本领域的技术人员更好的了解本发明，下面结合具体的实例来说明本发明。如图2和图3所示(其中，图2为一种面向多数据源的诊疗类实体识别方法的A部分，图3为一种面向多数据源的诊疗类实体识别方法的B部分，此处分为A、B部分是由于本发明实施例的步骤较多，并非表示实际意义上的区别，A部分与B部分形成整个步骤201至步骤222，其中图2示出了步骤201至步骤211，图3示出了步骤212至步骤222。)，本发明实施例提供一种面向多数据源的诊疗类实体识别方法，包括：

步骤201、获取原始数据中的待处理语句。

步骤202、将所述待处理语句进行单字切分，确定待处理语句中的每个文字。

例如，待处理语句为“急查患者：血脂常规检查隐血试验”，则单字切分后，每个文字为：“急”“查”“患”“者”“：”“血”“脂”“常”“规”“检”“查”“隐”“血”“试”“验”。

步骤203、从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值。

所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别；所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值。

对于预先设置的语料库可以由人为预先标注，例如语句：

“急查患者：血脂常规检查隐血试验”

“稳定后行肺减容手术右侧肺修补术”

则对于诊疗类实体，可以分别标注出：

c＝血脂常规检查 P＝1:51:10 t＝辅助检查

c＝隐血试验 P＝1:111:14 t＝辅助检查

c＝肺减容手术 P＝2:42:8 t＝手术操作

c＝右侧肺修补术 P＝2:92:14 t＝手术操作

其中，c表示诊疗类实体，P表示诊疗类实体所在语料中句子的行号及句子中字符位置，t表示诊疗实体类别(在本发明中诊疗实体类别包括可以包括手术操作实体、辅助检查实体和其他类诊疗实体)。

对于CRF统计特征值，例如语句“急查患者：血脂常规检查隐血试验。”，其实体标记序列为“OOOOOBIIIIEBIIEO”。例如，对于“血脂”中的“血”字，CRF统计特征说明如下表1所示：

表1：

步骤204、根据每个字在各语句中的CRF统计特征值，确定一训练模型。

其中，所述训练模型为：

步骤205、根据所述训练模型，计算待处理语句中的每个文字的实体标记y_j。

其中，x表示所述待处理语句；y_j表示待处理语句中j位置对应的文字的实体标记；f_i(y_j,y_j-1,x)表示待处理语句中分词特征i的函数值；λ_i为模型参数，训练得到的模型参数可使句子的训练模型p(y|x)的和达到最大；m表示分词特征的个数；n表示待处理语句中的文字位置个数；Z(x)表示归一化因子；p(y|x)表示文字在待处理语句中的标记概率。

对于f_i(y_j,y_j-1,x)，其表示若y_j、y_j-1、x均出现在语料中，则f_i(y_j,y_j-1,x)＝1，否则为0。

步骤206、将每个文字的实体标记进行组合，形成待处理语句的实体标记序列。

例如语句“急查患者：血脂常规检查隐血试验。”，其实体标记序列为“OOOOOBIIIIEBIIEO”。

步骤207、在实体标记序列中确定各文字对应的分词特征值，并根据所述分词特征值确定待处理语句的第一组候选实体。

例如，对于“急查患者：血脂常规检查隐血试验。”，其实体标记序列为“OOOOOBIIIIEBIIEO”，因此，可识别出第一组候选实体为“血脂常规检查”和“隐血试验”。

步骤208、将待处理语句中的标点符号转换为半角，并将英文字母统一为大写英文字母。

步骤209、调用预先设置的非医学术语表，检查待处理语句中的原始字符串是否存在非医学术语表中的术语，并将待处理语句中存在的非医学术语表中的术语删除，形成预处理后的待处理语句。

步骤210、将预处理后的待处理语句采用逆向最大匹配原则与预先设置的诊疗本体库中的标准术语名称或同义词进行匹配，将预处理后的待处理语句中与标准术语名称或同义词相匹配的字符串作为初步实体抽出，并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型。

值得说明的是，该预先设置的诊疗本体库是在全国医疗服务价格项目规范、国际手术操作编码ICD9两个标准词表基础上扩充构建而成的，诊疗本体库中包含词与词之间的同义关系、词与词之间的概念属分关系等，具体表现为表1中的标准词、同义词、上位词，参见下表2所示。

表2：

例如，原始数据为“患者进行大便常规检查和肾穿刺术”，通过步骤210可抽出的实体为“大便常规检查【辅助检查】；肾穿刺术【手术操作】”。

步骤211、若在待处理语句中所述初步实体之前相邻接有用于表示方位的字符串，则将用于表示方位的字符串与所述初步实体作为整体抽出，形成重新筛选实体。

该用于表示方位的字符串中的方位可以是例如“双侧”、“单侧”等方位词。

例如，原始数据为：“双侧肺修补术”。

基于上述步骤210抽取后的结果为：肺修补术【手术操作】。

而基于步骤211的规则重新得到的实体结果为：双侧肺修补术【手术操作】。

可见，经过规则重新得到的实体结果更为细致和精确。

步骤212、若在待处理语句中所述初步实体之前相邻接有用于表示解剖部位的字符串，则将用于表示解剖部位的字符串与所述初步实体作为整体抽出，形成重新筛选实体。

值得说明的是，该用于表示解剖部位的字符串中的解剖部位可以为“骨盆”、“胆囊”、“胃部”等人体组织解剖部位，但不仅局限于此。

例如，原始数据为“胆囊切除术”。

基于上述步骤210抽取后的实体结果为：切除术【手术操作】；

而基于步骤212处的规则重新得到的实体结果为：胆囊切除术【手术操作】。

步骤213、若在待处理语句中所述初步实体之后相邻接有表示带有预设符号的词汇的字符串，则将表示带有预设符号的词汇的字符串与所述初步实体作为整体抽出，形成重新筛选实体。

该带有预设符号的词汇可以是例如“(XXX)”“——XXX”，其中XXX为预设词汇。

例如原始数据为：螺旋CT平扫(盆腔)，磁共振平扫(1T以上，不含1T)，截肢标本病理检查与诊断--不脱钙直接切片标本。

基于步骤210抽取后的实体结果为：

螺旋CT平扫【辅助检查】；

磁共振平扫【辅助检查】；

截肢标本病理检查与诊断【辅助检查】；

基于此处步骤213的规则重新得到的实体结果为：

螺旋CT平扫(盆腔)【辅助检查】；

磁共振平扫(1T以上，不含1T)【辅助检查】；

截肢标本病理检查与诊断--不脱钙直接切片标本【辅助检查】。

步骤214、将待处理语句中的各重新筛选实体的组合作为所述第二组候选实体。

步骤215、判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非诊疗术语字符。

该预先设置的非诊疗术语字符可以是例如“病、药”等。

步骤216、若各候选实体的末尾字符为预先设置的非诊疗术语字符，将所述候选实体舍弃。

在步骤216之后，执行步骤217或者步骤220。

步骤217、在第一组诊疗类候选实体和第二组诊疗类候选实体不相同时，确定待处理语句在进行术语切分时，是否通过预先设置的切分规则进行切分。

即是否通过上述步骤211、212、213的处理。

在步骤217之后，执行步骤218或者步骤219。

步骤218、若待处理语句在进行术语切分时，通过预先设置的切分规则进行切分，则选择所述第二组诊疗类候选实体中的候选实体作为诊疗类实体结果。

步骤219、若待处理语句在进行术语切分时，未通过预先设置的切分规则进行切分，则选择所述第一组诊疗类候选实体中的候选实体作为诊疗类实体结果。

例如，原始数据为“磁共振平扫(骨盆)--超过1T低于1.5T”，

第一组诊疗类候选实体为“磁共振平扫(骨盆)【辅助检查】”；

第二组诊疗类候选实体为“磁共振平扫(骨盆)--超过1T低于1.5T【辅助检查】”，即第二组诊疗类候选实体是经过切分规则切分形成的。

则，最终结果为“磁共振平扫(骨盆)--超过1T低于1.5T【辅助检查】”。

步骤220、在第一组诊疗类候选实体和第二组诊疗类候选实体不相同时，确定来源于相同待处理语句的原始字符串的第一组诊疗类候选实体和第二组诊疗类候选实体中，实体个数少，且实体包含的字符数多的一组实体作为诊疗类实体结果。

例如，原始数据“广泛性子宫切除术”，第一组诊疗类候选实体为“广泛性子宫切除【手术操作】”，第二组诊疗类候选实体为“子宫切除术【手术操作】”，则最终结果为“广泛性子宫切除【手术操作】”。

在步骤218、219和步骤220之后，执行步骤221。

步骤221、在所述第一组诊疗类候选实体和第二组诊疗类候选实体中相对应的实体的实体类型不一致时，识别所述相对应的实体末尾字符串所表示的术语，并根据所述末尾字符串所表示的术语确定所述相对应的实体的实体类型。

例如，若实体末尾字符串所表示的术语为“手术、术”等术语时，则实体类型为手术操作。若实体末尾字符串所表示的术语为“检查、检测、测定”等术语时，则实体类型为辅助检查。

步骤222、若未成功识别所述相对应的实体末尾字符串所表示的术语，则选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。

通过上述步骤201至步骤222，最终可以得到诊疗类实体识别结果。

另外，为了实现对语料库进行更新，可以由人工总结发现新的句型特征，并人工标注加入到语料库中；另外，还可以在所述待处理语句未在预先设置的语料库中被标注，根据公式：确定待处理语句中各实体的不确定值；其中，IE_k为第k个实体的不确定值；k_start为第k个实体的实体标记的开始位置；k_end为第k个实体的实体标记的尾部位置；为待处理语句中s位置的文字对应第j个实体标记的概率。

例如，“双侧肺修补术的注意事项？”，实体标记序列为“O O B I I E O OOOOO”，位置序列为“0 1 2 3 4 5 6 7 8 9 10 11”，看出实体为肺修补术，位置为“2 3 4 5”，因此，K_start为2，K_end为5。

将待处理语句中不确定值为1的实体与预先设置的诊疗本体库匹配，若匹配成功，则将匹配成功的实体的实体标记进行保存。

确定待处理语句的预测置信度和字典匹配标记的实体比例。

将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中，以进行语料库更新。

其中，所述预测置信度为待处理语句中各文字对应的标记概率的乘积。

可见，通过语料库的更新，可以实现实体识别所需语料数据利用半监督自学习方法，实现语料库不断丰富，解决了语料库数目不足、不完整的问题。

对应于上述图1、图2和图3所示的方法实施例，如图4所示，本发明实施例提供一种面向多数据源的诊疗类实体识别装置，包括：

待处理语句获取单元31，用于获取原始数据中的待处理语句。

单字切分单元32，用于将所述待处理语句进行单字切分，确定待处理语句中的每个文字。

实体标记序列确定单元33，用于根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列。

第一组候选实体确定单元34，用于根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体。

第二组候选实体确定单元35，用于根据预先设置的诊疗类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体。

候选实体筛选单元36，用于根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组诊疗类候选实体和第二组诊疗类候选实体。

诊疗类实体结果确定单元37，用于在第一组诊疗类候选实体和第二组诊疗类候选实体不相同时，根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果。

具体的，如图5所示，所述诊疗类实体结果确定单元37，包括：

术语切分判断模块371，用于确定待处理语句在进行术语切分时，是否通过预先设置的切分规则进行切分。

诊疗类实体结果确定模块372，用于在待处理语句在进行术语切分时，通过预先设置的切分规则进行切分，则选择所述第二组诊疗类候选实体中的候选实体作为诊疗类实体结果；在待处理语句在进行术语切分时，未通过预先设置的切分规则进行切分，则选择所述第一组诊疗类候选实体中的候选实体作为诊疗类实体结果。

所述诊疗类实体结果确定模块372，还用于确定来源于相同待处理语句的原始字符串的第一组诊疗类候选实体和第二组诊疗类候选实体中，实体个数少，且实体包含的字符数多的一组实体作为诊疗类实体结果；所述诊疗类实体结果中的实体类型包括手术操作实体、辅助检查实体和其他类诊疗实体。

实体类型确定模块373，用于在所述第一组诊疗类候选实体和第二组诊疗类候选实体中相对应的实体的实体类型不一致时，识别所述相对应的实体末尾字符串所表示的术语，并根据所述末尾字符串所表示的术语确定所述相对应的实体的实体类型；在未成功识别所述相对应的实体末尾字符串所表示的术语时，选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。

具体的，所述待处理语句获取单元31中的原始数据包括结构化数据；所述结构化数据包括结算单数据、门诊处置数据、门诊检查检验数据、住院手术记录数据、住院处置数据、住院检查检验数据、电子病历数据、手术操作知识库及文献库数据。

进一步的，如图5所示，所述实体标记序列确定单元33，包括：

CRF统计特征值提取模块331，用于从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值；所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别；所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值。

训练模型确定模块332，用于根据每个字在各语句中的CRF统计特征值，确定一训练模型；所述训练模型为：

实体标记计算模块333，用于根据所述训练模型，计算待处理语句中的每个文字的实体标记y_j。

实体标记序列确定模块334，用于将每个文字的实体标记进行组合，形成待处理语句的实体标记序列；其中，x表示所述待处理语句；y_j表示待处理语句中j位置对应的文字的实体标记；f_i(y_j,y_j-1,x)表示待处理语句中分词特征i的函数值；λ_i为模型参数；m表示分词特征的个数；n表示待处理语句中的文字位置个数；Z(x)表示归一化因子；p(y|x)表示文字在待处理语句中的标记概率。

此外，所述第一组候选实体确定单元34，具体用于：

进一步的，如图5所示，所述的面向多数据源的诊疗类实体识别装置，还包括语料库更新单元38用于：

在所述待处理语句未在预先设置的语料库中被标注，根据公式：确定待处理语句中各实体的不确定值；其中，IE_k为第k个实体的不确定值；k_start为第k个实体的实体标记的开始位置；k_end为第k个实体的实体标记的尾部位置；为待处理语句中s位置的文字对应第j个实体标记的概率。

将待处理语句中不确定值为1的实体与预先设置的诊疗本体库匹配，在匹配成功时，将匹配成功的实体的实体标记进行保存。

确定待处理语句的预测置信度和字典匹配标记的实体比例。

此外，如图5所示，所述第二组候选实体确定单元35，包括：

预处理模块351，用于将待处理语句中的标点符号转换为半角，并将英文字母统一为大写英文字母；调用预先设置的非医学术语表，检查待处理语句中的原始字符串是否存在非医学术语表中的术语，并将待处理语句中存在的非医学术语表中的术语删除，形成预处理后的待处理语句。

诊疗本体库匹配模块352，用于将预处理后的待处理语句采用逆向最大匹配原则与预先设置的诊疗本体库中的标准术语名称或同义词进行匹配，将预处理后的待处理语句中与标准术语名称或同义词相匹配的字符串作为初步实体抽出，并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型。

实体重新筛选模块353，用于在待处理语句中所述初步实体之前相邻接有用于表示方位的字符串时，将用于表示方位的字符串与所述初步实体作为整体抽出，形成重新筛选实体；在待处理语句中所述初步实体之前相邻接有用于表示解剖部位的字符串，将用于表示解剖部位的字符串与所述初步实体作为整体抽出，形成重新筛选实体；在待处理语句中所述初步实体之后相邻接有表示带有预设符号的词汇的字符串时，将表示带有预设符号的词汇的字符串与所述初步实体作为整体抽出，形成重新筛选实体。

第二组候选实体确定模块354，用于将待处理语句中的各重新筛选实体的组合作为所述第二组候选实体。

此外，如图5所示，所述候选实体筛选单元36，包括：

非诊疗术语字符判断模块361，用于判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非诊疗术语字符。

候选实体舍弃模块362，用于在各候选实体的末尾字符为预先设置的非诊疗术语字符时，将所述候选实体舍弃。

值得说明的是，本发明实施例提供的一种面向多数据源的诊疗类实体识别装置的具体实现方式可以参见上述的方法实施例，此处不再赘述。

本发明实施例提供的一种面向多数据源的诊疗类实体识别装置，首先，获取原始数据中的待处理语句；将所述待处理语句进行单字切分，确定待处理语句中的每个文字；根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；然后，根据预先设置的诊疗类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体；根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组诊疗类候选实体和第二组诊疗类候选实体；若第一组诊疗类候选实体和第二组诊疗类候选实体不相同，根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果。本发明将条件随机场CRF统计机器学习方法与术语切分方法相结合，能够自动识别诊疗类实体，克服了当前的实体识别的数据源较为单一，实体识别不准确的问题。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种面向多数据源的诊疗类实体识别方法，其特征在于，包括：

获取原始数据中的待处理语句；

2.根据权利要求1所述的面向多数据源的诊疗类实体识别方法，其特征在于，所述根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果，包括：

3.根据权利要求2所述的面向多数据源的诊疗类实体识别方法，其特征在于，所述原始数据包括结构化数据；所述结构化数据包括结算单数据、门诊处置数据、门诊检查检验数据、住院手术记录数据、住院处置数据、住院检查检验数据、电子病历数据、手术操作知识库及文献库数据。

4.根据权利要求3所述的面向多数据源的诊疗类实体识别方法，其特征在于，根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列，包括：

从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值；所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别；所述CRF统计特征值包括每个文字在各语句中的分词特征值；

5.根据权利要求4所述的面向多数据源的诊疗类实体识别方法，其特征在于，根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体，包括：

6.根据权利要求5所述的面向多数据源的诊疗类实体识别方法，其特征在于，还包括：

确定待处理语句的预测置信度和字典匹配标记的实体比例；

7.根据权利要求6所述的面向多数据源的诊疗类实体识别方法，其特征在于，根据预先设置的诊疗类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体，包括：

8.根据权利要求7所述的面向多数据源的诊疗类实体识别方法，其特征在于，根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组诊疗类候选实体和第二组诊疗类候选实体，包括：

9.一种面向多数据源的诊疗类实体识别装置，其特征在于，包括：

待处理语句获取单元，用于获取原始数据中的待处理语句；

10.根据权利要求9所述的面向多数据源的诊疗类实体识别装置，其特征在于，所述诊疗类实体结果确定单元，包括：

11.根据权利要求10所述的面向多数据源的诊疗类实体识别装置，其特征在于，所述待处理语句获取单元中的原始数据包括结构化数据；所述结构化数据包括结算单数据、门诊处置数据、门诊检查检验数据、住院手术记录数据、住院处置数据、住院检查检验数据、电子病历数据、手术操作知识库及文献库数据。

12.根据权利要求11所述的面向多数据源的诊疗类实体识别装置，其特征在于，所述实体标记序列确定单元，包括：

CRF统计特征值提取模块，用于从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值；所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别；所述CRF统计特征值包括每个文字在各语句中的分词特征值；

13.根据权利要求12所述的面向多数据源的诊疗类实体识别装置，其特征在于，所述第一组候选实体确定单元，具体用于：

14.根据权利要求13所述的面向多数据源的诊疗类实体识别装置，其特征在于，还包括语料库更新单元，用于：

确定待处理语句的预测置信度和字典匹配标记的实体比例；

15.根据权利要求14所述的面向多数据源的诊疗类实体识别装置，其特征在于，所述第二组候选实体确定单元，包括：

16.根据权利要求15所述的面向多数据源的诊疗类实体识别装置，其特征在于，所述候选实体筛选单元，包括：