CN106844351B

CN106844351B - 一种面向多数据源的医疗机构组织类实体识别方法及装置

Info

Publication number: CN106844351B
Application number: CN201710101839.8A
Authority: CN
Inventors: 关毅; 李雪莉; 徐国春
Original assignee: Yi Bao Interconnected Medical Information Technology Beijing Co Ltd; Harbin Institute of Technology
Current assignee: Yi Bao Interconnected Medical Information Technology (Beijing) Co., Ltd.; Harbin Institute of Technology
Priority date: 2017-02-24
Filing date: 2017-02-24
Publication date: 2020-02-21
Anticipated expiration: 2037-02-24
Also published as: CN106844351A

Abstract

本发明提供了一种面向多数据源的医疗机构组织类实体识别方法及装置，涉及医疗实体识别技术领域。方法包括：获取原始数据中的待处理语句；将待处理语句进行单字切分，确定每个文字；根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；根据预先设置的医疗机构组织类术语切分策略，对待处理语句进行术语切分，确定第二组候选实体；对各候选实体进行筛选，分别形成第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体；根据预先设置的判断策略确定医疗机构组织类实体结果。

Description

一种面向多数据源的医疗机构组织类实体识别方法及装置

技术领域

本发明涉及医疗实体识别技术领域，尤其涉及一种面向多数据源的医疗机构组织类实体识别方法及装置。

背景技术

目前，随着网络和医疗信息技术的发展、中国人口逐渐趋于老年化、互联网医疗逐渐兴起，医疗卫生行业大数据也相继产生。医学机器翻译、智能医学问答、智能导诊、辅助诊疗等应用越来越普遍，作用也越来越凸显出来。在智能医学问答、智能导诊等应用过程中，医疗机构组织例如医院名称、科室名称、地址等是频繁出现的词汇，因此可以说医疗机构组织类的实体识别是智能医学问答、智能导诊等的技术基础。由于医学数据是海量的、书写格式复杂多样的自然语言形式，计算机自动准确识别这些医疗机构组织难度较大。而如何提高计算机识别医疗机构组织类词汇的成功率和准确率，成为一个亟待解决的问题。

近年来，作为医疗健康数据分析的重要的一步，医疗实体识别(例如医疗机构组织类的实体识别)可以抽取出相关文本中存在的医疗术语，对后续研究的性能起到重要的作用。目前常见的实体识别技术有基于词表的医学实体识别和基于条件随机场(ConditionalRandom Fields，简称CRF)的医学实体识别，然而基于词表的医学实体识别仅仅依靠术语库匹配，缺少上下文语境识别，且术语库匹配存在较大局限性。而基于CRF的医学实体识别技术，缺少大数据语料库和语言规则的应用，语料均为人工标注后的语料，而没有利用半监督学习等方法，增加对数量更庞大的未标注数据的使用，使得模型不够完善，缺少基于语言学与医疗信息的规则，仅仅依靠模型，对数据的针对性不够强。可见，当前的实体识别方案并不能准确进行医疗机构组织类实体识别。

发明内容

本发明的实施例提供一种面向多数据源的医疗机构组织类实体识别方法及装置，以解决当前的实体识别方案并不能准确进行医疗机构组织类实体识别的问题。

为达到上述目的，本发明采用如下技术方案：

一种面向多数据源的医疗机构组织类实体识别方法，包括：

获取原始数据中的待处理语句；

将所述待处理语句进行单字切分，确定待处理语句中的每个文字；

根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；

根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；

根据预先设置的医疗机构组织类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体；

根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体；

若第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体不相同，根据预先设置的判断策略从第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体中确定医疗机构组织类实体结果。

具体的，所述根据预先设置的判断策略从第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体中确定医疗机构组织类实体结果，包括：

确定待处理语句在进行术语切分时，是否通过预先设置的切分规则进行切分；

若待处理语句在进行术语切分时，通过预先设置的切分规则进行切分，则选择所述第二组医疗机构组织类候选实体中的候选实体作为医疗机构组织类实体结果；

若待处理语句在进行术语切分时，未通过预先设置的切分规则进行切分，则选择所述第一组医疗机构组织类候选实体中的候选实体作为医疗机构组织类实体结果；

或者，确定来源于相同待处理语句的原始字符串的第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体中，实体个数少，且实体包含的字符数多的一组实体作为医疗机构组织类实体结果；

所述医疗机构组织类实体结果中的实体类型包括医院名称实体、药店名称实体、科室名称实体、生产企业名称实体、其他机构名称实体；

在所述第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体中相对应的实体的实体类型不一致时，选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。

具体的，所述原始数据包括结算单数据、电子病历数据、网络问答数据库数据、网络知识库数据、文献库数据。

具体的，根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列，包括：

从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值；所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别；所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值；

根据每个字在各语句中的CRF统计特征值，确定一训练模型；所述训练模型为：

根据所述训练模型，计算待处理语句中的每个文字的实体标记y_j；

将每个文字的实体标记进行组合，形成待处理语句的实体标记序列；其中，x表示所述待处理语句；y_j表示待处理语句中j位置对应的文字的实体标记；f_i(y_j,y_j-1,x)表示待处理语句中分词特征i的函数值；λ_i为模型参数；m表示分词特征的个数；n表示待处理语句中的文字位置个数；Z(x)表示归一化因子；p(y|x)表示文字在待处理语句中的标记概率。

具体的，根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体，包括：

在实体标记序列中确定各文字对应的分词特征值，并根据所述分词特征值确定待处理语句的第一组候选实体。

进一步的，该面向多数据源的医疗机构组织类实体识别方法，还包括：

在所述待处理语句未在预先设置的语料库中被标注，根据公式：

确定待处理语句中各实体的不确定值；其中，IE_k为第k个实体的不确定值；k_start为第k个实体的实体标记的开始位置；k_end为第k个实体的实体标记的尾部位置；

为待处理语句中s位置的文字对应第j个实体标记的概率；

将待处理语句中不确定值为1的实体与预先设置的医疗机构组织本体库匹配，若匹配成功，则将匹配成功的实体的实体标记进行保存；

确定待处理语句的预测置信度和字典匹配标记的实体比例；

将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中，以进行语料库更新；

其中，所述预测置信度为待处理语句中各文字对应的标记概率的乘积；

所述字典匹配标记的实体比例为：其中，C为待处理语句中预测出的实体总数中出现在预设字典中的实体数；B为待处理语句中预测出的实体总数。

具体的，根据预先设置的医疗机构组织类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体，包括：

将待处理语句中的标点符号转换为半角，并将英文字母统一为大写英文字母；

调用预先设置的非医学术语表，检查待处理语句中的原始字符串是否存在非医学术语表中的术语，并将待处理语句中存在的非医学术语表中的术语删除，形成预处理后的待处理语句；

将预处理后的待处理语句采用逆向最大匹配原则与预先设置的医疗机构组织本体库、解剖词库、疾病词库、机构特征词库进行匹配，将预处理后的待处理语句中与医疗机构组织本体库、解剖词库、疾病词库、机构特征词库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出，并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型；

在预处理后的待处理语句中的初步实体中，若存在疾病名称实体或解剖名称实体之后相邻连接有科室特征词实体，则将所述疾病名称实体或解剖名称实体与所述科室特征词实体作为整体抽出，形成重新筛选后的科室名称实体；

在预处理后的待处理语句中的初步实体中，若存在疾病名称实体或解剖名称实体之后相邻连接有科室名称实体，则将所述疾病名称实体或解剖名称实体与所述科室名称实体作为整体抽出，形成重新筛选后的科室名称实体；

在预处理后的待处理语句中的初步实体中，若存在其他机构名称实体，且所述其他机构名称实体的末尾字符串为机构特征词库中的词，则将所述其他机构名称实体确定为与机构特征词库中的词对应的实体。

具体的，根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体，包括：

判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非医疗机构组织术语字符；

若各候选实体的末尾字符为预先设置的非医疗机构组织术语字符，将所述候选实体舍弃。

一种面向多数据源的医疗机构组织类实体识别装置，包括：

待处理语句获取单元，用于获取原始数据中的待处理语句；

单字切分单元，用于将所述待处理语句进行单字切分，确定待处理语句中的每个文字；

实体标记序列确定单元，用于根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；

第一组候选实体确定单元，用于根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；

第二组候选实体确定单元，用于根据预先设置的医疗机构组织类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体；

候选实体筛选单元，用于根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体；

医疗机构组织类实体结果确定单元，用于在第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体不相同时，根据预先设置的判断策略从第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体中确定医疗机构组织类实体结果。

具体的，所述医疗机构组织类实体结果确定单元，包括：

术语切分判断模块，用于确定待处理语句在进行术语切分时，是否通过预先设置的切分规则进行切分；

医疗机构组织类实体结果确定模块，用于在待处理语句在进行术语切分时，通过预先设置的切分规则进行切分，则选择所述第二组医疗机构组织类候选实体中的候选实体作为医疗机构组织类实体结果；在待处理语句在进行术语切分时，未通过预先设置的切分规则进行切分，则选择所述第一组医疗机构组织类候选实体中的候选实体作为医疗机构组织类实体结果；

所述医疗机构组织类实体结果确定模块，还用于确定来源于相同待处理语句的原始字符串的第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体中，实体个数少，且实体包含的字符数多的一组实体作为医疗机构组织类实体结果；所述医疗机构组织类实体结果中的实体类型包括医院名称实体、药店名称实体、科室名称实体、生产企业名称实体、其他机构名称实体；

实体类型确定模块，用于在所述第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体中相对应的实体的实体类型不一致时，选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。

具体的，所述待处理语句获取单元中的原始数据包括结算单数据、电子病历数据、网络问答数据库数据、网络知识库数据、文献库数据。

进一步的，所述实体标记序列确定单元，包括：

CRF统计特征值提取模块，用于从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值；所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别；所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值；

训练模型确定模块，用于根据每个字在各语句中的CRF统计特征值，确定一训练模型；所述训练模型为：

实体标记计算模块，用于根据所述训练模型，计算待处理语句中的每个文字的实体标记y_j；

实体标记序列确定模块，用于将每个文字的实体标记进行组合，形成待处理语句的实体标记序列；其中，x表示所述待处理语句；y_j表示待处理语句中j位置对应的文字的实体标记；f_i(y_j,y_j-1,x)表示待处理语句中分词特征i的函数值；λ_i为模型参数；m表示分词特征的个数；n表示待处理语句中的文字位置个数；Z(x)表示归一化因子；p(y|x)表示文字在待处理语句中的标记概率。

此外，所述第一组候选实体确定单元，具体用于：

进一步的，所述的面向多数据源的医疗机构组织类实体识别装置，还包括语料库更新单元，用于：

为待处理语句中s位置的文字对应第j个实体标记的概率；

将待处理语句中不确定值为1的实体与预先设置的医疗机构组织本体库匹配，在匹配成功时，将匹配成功的实体的实体标记进行保存；

确定待处理语句的预测置信度和字典匹配标记的实体比例；

所述字典匹配标记的实体比例为：

其中，C为待处理语句中预测出的实体总数中出现在预设字典中的实体数；B为待处理语句中预测出的实体总数。

此外，所述第二组候选实体确定单元，包括：

预处理模块，用于将待处理语句中的标点符号转换为半角，并将英文字母统一为大写英文字母；调用预先设置的非医学术语表，检查待处理语句中的原始字符串是否存在非医学术语表中的术语，并将待处理语句中存在的非医学术语表中的术语删除，形成预处理后的待处理语句；

医疗机构组织本体库匹配模块，用于将预处理后的待处理语句采用逆向最大匹配原则与预先设置的医疗机构组织本体库、解剖词库、疾病词库、机构特征词库进行匹配，将预处理后的待处理语句中与医疗机构组织本体库、解剖词库、疾病词库、机构特征词库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出，并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型；

实体重新筛选模块，用于在预处理后的待处理语句中的初步实体中，若存在疾病名称实体或解剖名称实体之后相邻连接有科室特征词实体，则将所述疾病名称实体或解剖名称实体与所述科室特征词实体作为整体抽出，形成重新筛选后的科室名称实体；在预处理后的待处理语句中的初步实体中，若存在疾病名称实体或解剖名称实体之后相邻连接有科室名称实体，则将所述疾病名称实体或解剖名称实体与所述科室名称实体作为整体抽出，形成重新筛选后的科室名称实体；在预处理后的待处理语句中的初步实体中，若存在其他机构名称实体，且所述其他机构名称实体的末尾字符串为机构特征词库中的词，则将所述其他机构名称实体确定为与机构特征词库中的词对应的实体。

此外，所述候选实体筛选单元，包括：

非医疗机构组织术语字符判断模块，用于判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非医疗机构组织术语字符；

候选实体舍弃模块，用于在各候选实体的末尾字符为预先设置的非医疗机构组织术语字符时，将所述候选实体舍弃。

本发明实施例提供的一种面向多数据源的医疗机构组织类实体识别方法及装置，首先，获取原始数据中的待处理语句；将所述待处理语句进行单字切分，确定待处理语句中的每个文字；根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；然后，根据预先设置的医疗机构组织类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体；根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体；若第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体不相同，根据预先设置的判断策略从第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体中确定医疗机构组织类实体结果。本发明将条件随机场CRF统计机器学习方法与术语切分方法相结合，能够自动识别医疗机构组织类实体，克服了当前的实体识别的数据源较为单一，实体识别不准确的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种面向多数据源的医疗机构组织类实体识别方法的流程图一；

图2为本发明实施例提供的一种面向多数据源的医疗机构组织类实体识别方法的流程图二的A部分；

图3为本发明实施例提供的一种面向多数据源的医疗机构组织类实体识别方法的流程图二的B部分；

图4为本发明实施例提供的一种面向多数据源的医疗机构组织类实体识别装置的结构示意图一；

图5为本发明实施例提供的一种面向多数据源的医疗机构组织类实体识别装置的结构示意图二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供一种面向多数据源的医疗机构组织类实体识别方法，包括：

步骤101、获取原始数据中的待处理语句。

步骤102、将所述待处理语句进行单字切分，确定待处理语句中的每个文字。

步骤103、根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列。

步骤104、根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体。

步骤105、根据预先设置的医疗机构组织类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体。

步骤106、根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体。

步骤107、若第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体不相同，根据预先设置的判断策略从第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体中确定医疗机构组织类实体结果。

本发明实施例提供的一种面向多数据源的医疗机构组织类实体识别方法，首先，获取原始数据中的待处理语句；将所述待处理语句进行单字切分，确定待处理语句中的每个文字；根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；然后，根据预先设置的医疗机构组织类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体；根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体；若第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体不相同，根据预先设置的判断策略从第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体中确定医疗机构组织类实体结果。本发明将条件随机场CRF统计机器学习方法与术语切分方法相结合，能够自动识别医疗机构组织类实体，克服了当前的实体识别的数据源较为单一，实体识别不准确的问题。

为了使本领域的技术人员更好的了解本发明，下面结合具体的实例来说明本发明。如图2和图3所示(其中，图2为一种面向多数据源的医疗机构组织类实体识别方法的A部分，图3为一种面向多数据源的医疗机构组织类实体识别方法的B部分，此处分为A、B部分是由于本发明实施例的步骤较多，并非表示实际意义上的区别，A部分与B部分形成整个步骤201至步骤221，其中图2示出了步骤201至步骤211，图3示出了步骤212至步骤221。)，本发明实施例提供一种面向多数据源的医疗机构组织类实体识别方法，包括：

步骤201、获取原始数据中的待处理语句。

具体的，所述原始数据包括结算单数据、电子病历数据、网络问答数据库数据、网络知识库数据、文献库数据等，但不仅局限于此。

步骤202、将所述待处理语句进行单字切分，确定待处理语句中的每个文字。

例如，待处理语句为“建议到北京来我院眼科就诊”，则单字切分后，每个文字为：“建”“议”“到”“北”“京”“来”“我”“院”“眼”“科”“就”“诊”。

步骤203、从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值。

所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别；所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值。

对于预先设置的语料库可以由人为预先标注，例如语句：

“于2013年11月份在北京天坛糖尿病医院住院治疗”

“建议到北京来我院眼科就诊”

则对于医疗机构组织类实体，可以分别标注出：

c＝北京天坛糖尿病医院 P＝1:12 1:20 t＝医院名称；

c＝眼科 P＝2:9 2:10 t＝科室名称；

其中，c表示医疗机构组织类实体，P表示医疗机构组织类实体所在语料中句子的行号及句子中字符位置，t表示医疗机构组织实体类别(在本发明中医疗机构组织实体类别包括医院名称实体、药店名称实体、科室名称实体、生产企业名称实体、其他机构名称实体)。

对于CRF统计特征值，例如语句“建议到北京来我院眼科就诊”，其实体标记序列为“OOOOOOOOBEOO”。例如，对于“眼”字，CRF统计特征说明如下表1所示：

表1：

步骤204、根据每个字在各语句中的CRF统计特征值，确定一训练模型。

其中，所述训练模型为：

步骤205、根据所述训练模型，计算待处理语句中的每个文字的实体标记y_j。

其中，x表示所述待处理语句；y_j表示待处理语句中j位置对应的文字的实体标记；f_i(y_j,y_j-1,x)表示待处理语句中分词特征i的函数值；λ_i为模型参数，训练得到的模型参数可使句子的训练模型p(y|x)的和达到最大；m表示分词特征的个数；n表示待处理语句中的文字位置个数；Z(x)表示归一化因子；p(y|x)表示文字在待处理语句中的标记概率。

对于f_i(y_j,y_j-1,x)，其表示若y_j、y_j-1、x均出现在语料中，则f_i(y_j,y_j-1,x)＝1，否则为0。

步骤206、将每个文字的实体标记进行组合，形成待处理语句的实体标记序列。

例如语句“建议到北京来我院眼科就诊”，其实体标记序列为“OOOOOOOOBEOO”。

步骤207、在实体标记序列中确定各文字对应的分词特征值，并根据所述分词特征值确定待处理语句的第一组候选实体。

例如，对于“北京积水潭医院的骨科在全国排名如何？”，其实体标记序列为“BIIIIIEOBEOOOOOOOO”，因此，可识别出第一组候选实体为“北京积水潭医院【医院名称】”和“骨科【科室名称】”。

步骤208、将待处理语句中的标点符号转换为半角，并将英文字母统一为大写英文字母。

步骤209、调用预先设置的非医学术语表，检查待处理语句中的原始字符串是否存在非医学术语表中的术语，并将待处理语句中存在的非医学术语表中的术语删除，形成预处理后的待处理语句。

步骤210、将预处理后的待处理语句采用逆向最大匹配原则与预先设置的医疗机构组织本体库、解剖词库、疾病词库、机构特征词库进行匹配，将预处理后的待处理语句中与医疗机构组织本体库、解剖词库、疾病词库、机构特征词库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出，并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型。

值得说明的是，预先设置的医疗机构组织本体库中可以包括例如科室词表、医疗相关机构表等。其中科室词表是在国家标准《医疗机构诊疗科目名录》为基础上构建而成。其他机构词表是在采集了全国各类事实型数据后整理加工而成的。

例如，分别如下表2和表3所示：

表2：科室词表：

标准术语名称	同义词	术语编码	上位词名称	术语类型
					心血管内科	心内科；心血管科	KS001.002	内科	科室名称
肝胆外科	肝胆科；肝脏外科	KS002.001.004	普外科	科室名称
					眼科		KS004.001	五官科	科室名称

表3：医疗相关机构表：

另外，该解剖词库、疾病词库、机构特征词库可以分别包括解剖词表、疾病词表以及机构特征词表，分别可以如下表4、表5和表6所示。

表4：解剖词表：

标准术语名称	同义词	术语类型
			口腔	解剖名称
牙体牙髓		解剖名称
			皮肤	解剖名称
咽喉		解剖名称

表5：疾病词表：

表6：机构特征词表：是指机构名称中具有标志性字符和词组成的词表：

标准术语名称	类型
		专科	科室特征词
门诊	科室特征词
		中心	科室特征词
科	科室特征词
		医院	医院特征词
厂	生成企业特征词
		药店	药店特征词

这样，将预处理后的待处理语句中与医疗机构组织本体库、解剖词库、疾病词库、机构特征词库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出，并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型，从而得到初步实体。

例如：

原始数据为“北京积水潭医院的肾积水专科在全国排名如何？”，通过步骤210抽出的实体结果为“北京积水潭医院【医院名称】”，“肾积水”【疾病名称】，“专科”【科室特征词】。

步骤211、在预处理后的待处理语句中的初步实体中，若存在疾病名称实体或解剖名称实体之后相邻连接有科室特征词实体，则将所述疾病名称实体或解剖名称实体与所述科室特征词实体作为整体抽出，形成重新筛选后的科室名称实体。

例如，原始数据为“肾积水专科”。

基于步骤210抽取得到的实体结果为：“肾积水”【疾病名称】，“专科”【科室特征词】

通过此处步骤211重新筛选后得到的实体为：肾积水专科【科室名称】。

步骤212、在预处理后的待处理语句中的初步实体中，若存在疾病名称实体或解剖名称实体之后相邻连接有科室名称实体，则将所述疾病名称实体或解剖名称实体与所述科室名称实体作为整体抽出，形成重新筛选后的科室名称实体。

例如，原始数据为“血管外科”。

基于步骤210抽取得到的结果为：“血管”【解剖名称】，“外科”【科室名称】。

通过此处步骤212重新筛选后的实体结果为：血管外科【科室名称】。

步骤213、在预处理后的待处理语句中的初步实体中，若存在其他机构名称实体，且所述其他机构名称实体的末尾字符串为机构特征词库中的词，则将所述其他机构名称实体确定为与机构特征词库中的词对应的实体。

例如，原始数据为“中医心血管科”。

基于步骤210抽出的实体的类别为“其他机构名称”，但其最后字符为“科”，在特征词表中为科室的特征词，因此，根据此处的步骤213确定实体类别为“科室名称”。

步骤214、形成第二组候选实体。

该步骤210之后，通过步骤211至步骤213的具体的规则，即可形成最终的第二组候选实体。

步骤215、判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非医疗机构组织术语字符。

该预先设置的非医疗机构组织术语字符可以是例如“病、药、手术、术、检查”等。

步骤216、若各候选实体的末尾字符为预先设置的非医疗机构组织术语字符，将所述候选实体舍弃。

在步骤216之后，执行步骤217或者步骤220。

步骤217、在第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体不相同时，确定待处理语句在进行术语切分时，是否通过预先设置的切分规则进行切分。

即是否通过上述步骤211、212、213的处理。

在步骤217之后，执行步骤218或者步骤219。

步骤218、若待处理语句在进行术语切分时，通过预先设置的切分规则进行切分，则选择所述第二组医疗机构组织类候选实体中的候选实体作为医疗机构组织类实体结果。

例如，原始数据为：血管外科。

第一组医疗机构组织类候选实体为：外科【科室名称】。

第二组医疗机构组织类候选实体为：血管外科【科室名称】。第二组医疗机构组织类候选实体是经过预先设置的切分规则进行切分得到的。

则医疗机构组织类实体结果选择第二组医疗机构组织类候选实体：血管外科【科室名称】。

步骤219、若待处理语句在进行术语切分时，未通过预先设置的切分规则进行切分，则选择所述第一组医疗机构组织类候选实体中的候选实体作为医疗机构组织类实体结果。

例如，原始数据为“广州市海珠区中医院”。

第一组医疗机构组织类候选实体为“广州市海珠区中医院【医院名称】”；

第二组医疗机构组织类候选实体为“海珠区中医院【医院名称】。第二组医疗机构组织类候选实体未经过切分规则进行切分。

则，最终结果为“广州市海珠区中医院【医院名称】”。

步骤220、在第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体不相同时，确定来源于相同待处理语句的原始字符串的第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体中，实体个数少，且实体包含的字符数多的一组实体作为医疗机构组织类实体结果。

例如，原始数据为“广州市海珠区中医院”。

第二组医疗机构组织类候选实体为“海珠区中医院【医院名称】

则，最终结果为“广州市海珠区中医院【医院名称】”。

在步骤218、219和步骤220之后，执行步骤221。

步骤221、在所述第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体中相对应的实体的实体类型不一致时，选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。

通过上述步骤201至步骤221，最终可以得到医疗机构组织类实体识别结果。

另外，为了实现对语料库进行更新，可以由人工总结发现新的句型特征，并人工标注加入到语料库中；另外，还可以在所述待处理语句未在预先设置的语料库中被标注，根据公式：

确定待处理语句中各实体的不确定值；其中，IE_k为第k个实体的不确定值；k_start为第k个实体的实体标记的开始位置；k_end为第k个实体的实体标记的尾部位置；为待处理语句中s位置的文字对应第j个实体标记的概率。

例如，“北京积水潭医院的骨科在全国排名如何？”，实体标记序列为“BIIIIIEOBEOOOOOOOO”，位置序列为“0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1718”，看出实体为北京积水潭医院，位置为“0 1 2 3 4 5 6”，因此，K_start为0，K_end为6。实体骨科，位置为“8 9”，因此K_start为8，K_end为9。

将待处理语句中不确定值为1的实体与预先设置的医疗机构组织本体库匹配，若匹配成功，则将匹配成功的实体的实体标记进行保存。

确定待处理语句的预测置信度和字典匹配标记的实体比例。

将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中，以进行语料库更新。

其中，所述预测置信度为待处理语句中各文字对应的标记概率的乘积。

所述字典匹配标记的实体比例为：

可见，通过语料库的更新，可以实现实体识别所需语料数据利用半监督自学习方法，实现语料库不断丰富，解决了语料库数目不足、不完整的问题。

对应于上述图1、图2和图3所示的方法实施例，如图4所示，本发明实施例提供一种面向多数据源的医疗机构组织类实体识别装置，包括：

待处理语句获取单元31，用于获取原始数据中的待处理语句。

单字切分单元32，用于将所述待处理语句进行单字切分，确定待处理语句中的每个文字。

实体标记序列确定单元33，用于根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列。

第一组候选实体确定单元34，用于根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体。

第二组候选实体确定单元35，用于根据预先设置的医疗机构组织类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体。

候选实体筛选单元36，用于根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体。

医疗机构组织类实体结果确定单元37，用于在第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体不相同时，根据预先设置的判断策略从第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体中确定医疗机构组织类实体结果。

具体的，如图5所示，所述医疗机构组织类实体结果确定单元37，包括：

术语切分判断模块371，用于确定待处理语句在进行术语切分时，是否通过预先设置的切分规则进行切分。

医疗机构组织类实体结果确定模块372，用于在待处理语句在进行术语切分时，通过预先设置的切分规则进行切分，则选择所述第二组医疗机构组织类候选实体中的候选实体作为医疗机构组织类实体结果；在待处理语句在进行术语切分时，未通过预先设置的切分规则进行切分，则选择所述第一组医疗机构组织类候选实体中的候选实体作为医疗机构组织类实体结果。

所述医疗机构组织类实体结果确定模块372，还用于确定来源于相同待处理语句的原始字符串的第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体中，实体个数少，且实体包含的字符数多的一组实体作为医疗机构组织类实体结果；所述医疗机构组织类实体结果中的实体类型包括医院名称实体、药店名称实体、科室名称实体、生产企业名称实体、其他机构名称实体；

实体类型确定模块373，用于在所述第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体中相对应的实体的实体类型不一致时，选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。

具体的，所述待处理语句获取单元31中的原始数据包括结算单数据、电子病历数据、网络问答数据库数据、网络知识库数据、文献库数据。

进一步的，如图5所示，所述实体标记序列确定单元33，包括：

CRF统计特征值提取模块331，用于从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值；所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别；所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值。

训练模型确定模块332，用于根据每个字在各语句中的CRF统计特征值，确定一训练模型；所述训练模型为：

实体标记计算模块333，用于根据所述训练模型，计算待处理语句中的每个文字的实体标记y_j。

实体标记序列确定模块334，用于将每个文字的实体标记进行组合，形成待处理语句的实体标记序列；其中，x表示所述待处理语句；y_j表示待处理语句中j位置对应的文字的实体标记；f_i(y_j,y_j-1,x)表示待处理语句中分词特征i的函数值；λ_i为模型参数；m表示分词特征的个数；n表示待处理语句中的文字位置个数；Z(x)表示归一化因子；p(y|x)表示文字在待处理语句中的标记概率。

此外，所述第一组候选实体确定单元34，具体用于：

进一步的，如图5所示，所述的面向多数据源的医疗机构组织类实体识别装置，还包括语料库更新单元38用于：

为待处理语句中s位置的文字对应第j个实体标记的概率。

将待处理语句中不确定值为1的实体与预先设置的医疗机构组织本体库匹配，在匹配成功时，将匹配成功的实体的实体标记进行保存。

确定待处理语句的预测置信度和字典匹配标记的实体比例。

所述字典匹配标记的实体比例为：

此外，如图5所示，所述第二组候选实体确定单元35，包括：

预处理模块351，用于将待处理语句中的标点符号转换为半角，并将英文字母统一为大写英文字母；调用预先设置的非医学术语表，检查待处理语句中的原始字符串是否存在非医学术语表中的术语，并将待处理语句中存在的非医学术语表中的术语删除，形成预处理后的待处理语句。

医疗机构组织本体库匹配模块352，用于将预处理后的待处理语句采用逆向最大匹配原则与预先设置的医疗机构组织本体库、解剖词库、疾病词库、机构特征词库进行匹配，将预处理后的待处理语句中与医疗机构组织本体库、解剖词库、疾病词库、机构特征词库中的标准术语名称或同义词相匹配的字符串作为初步实体抽出，并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型。

实体重新筛选模块353，用于在预处理后的待处理语句中的初步实体中，若存在疾病名称实体或解剖名称实体之后相邻连接有科室特征词实体，则将所述疾病名称实体或解剖名称实体与所述科室特征词实体作为整体抽出，形成重新筛选后的科室名称实体；在预处理后的待处理语句中的初步实体中，若存在疾病名称实体或解剖名称实体之后相邻连接有科室名称实体，则将所述疾病名称实体或解剖名称实体与所述科室名称实体作为整体抽出，形成重新筛选后的科室名称实体；在预处理后的待处理语句中的初步实体中，若存在其他机构名称实体，且所述其他机构名称实体的末尾字符串为机构特征词库中的词，则将所述其他机构名称实体确定为与机构特征词库中的词对应的实体。

此外，如图5所示，所述候选实体筛选单元36，包括：

非医疗机构组织术语字符判断模块361，用于判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非医疗机构组织术语字符。

候选实体舍弃模块362，用于在各候选实体的末尾字符为预先设置的非医疗机构组织术语字符时，将所述候选实体舍弃。

值得说明的是，本发明实施例提供的一种面向多数据源的医疗机构组织类实体识别装置的具体实现方式可以参见上述的方法实施例，此处不再赘述。

本发明实施例提供的一种面向多数据源的医疗机构组织类实体识别装置，首先，获取原始数据中的待处理语句；将所述待处理语句进行单字切分，确定待处理语句中的每个文字；根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列；根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体；然后，根据预先设置的医疗机构组织类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体；根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体；若第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体不相同，根据预先设置的判断策略从第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体中确定医疗机构组织类实体结果。本发明将条件随机场CRF统计机器学习方法与术语切分方法相结合，能够自动识别医疗机构组织类实体，克服了当前的实体识别的数据源较为单一，实体识别不准确的问题。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种面向多数据源的医疗机构组织类实体识别方法，其特征在于，包括：

获取原始数据中的待处理语句；

2.根据权利要求1所述的面向多数据源的医疗机构组织类实体识别方法，其特征在于，所述根据预先设置的判断策略从第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体中确定医疗机构组织类实体结果，包括：

3.根据权利要求2所述的面向多数据源的医疗机构组织类实体识别方法，其特征在于，所述原始数据包括结算单数据、电子病历数据、网络问答数据库数据、网络知识库数据、文献库数据。

4.根据权利要求3所述的面向多数据源的医疗机构组织类实体识别方法，其特征在于，根据预先训练完成的CRF训练模型，确定待处理语句中的每个文字在待处理语句中的实体标记，并确定待处理语句的实体标记序列，包括：

从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值；所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别；所述CRF统计特征值包括每个文字在各语句中的分词特征值；

5.根据权利要求4所述的面向多数据源的医疗机构组织类实体识别方法，其特征在于，根据待处理语句的实体标记序列，确定待处理语句的第一组候选实体，包括：

6.根据权利要求5所述的面向多数据源的医疗机构组织类实体识别方法，其特征在于，还包括：

为待处理语句中s位置的文字对应第j个实体标记的概率；

确定待处理语句的预测置信度和字典匹配标记的实体比例；

所述字典匹配标记的实体比例为：

7.根据权利要求6所述的面向多数据源的医疗机构组织类实体识别方法，其特征在于，根据预先设置的医疗机构组织类术语切分策略，对所述待处理语句进行术语切分，确定第二组候选实体，包括：

8.根据权利要求7所述的面向多数据源的医疗机构组织类实体识别方法，其特征在于，根据第一组候选实体和第二组候选实体中各候选实体的末尾字符，对各候选实体进行筛选，分别形成第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体，包括：

9.一种面向多数据源的医疗机构组织类实体识别装置，其特征在于，包括：

待处理语句获取单元，用于获取原始数据中的待处理语句；

10.根据权利要求9所述的面向多数据源的医疗机构组织类实体识别装置，其特征在于，所述医疗机构组织类实体结果确定单元，包括：

所述医疗机构组织类实体结果确定模块，还用于确定来源于相同待处理语句的原始字符串的第一组医疗机构组织类候选实体和第二组医疗机构组织类候选实体中，实体个数少，且实体包含的字符数多的一组实体作为医疗机构组织类实体结果；所述医疗机构组织类实体结果中的实体类型包括手术操作实体、辅助检查实体和其他类医疗机构组织实体；

11.根据权利要求10所述的面向多数据源的医疗机构组织类实体识别装置，其特征在于，所述待处理语句获取单元中的原始数据包括结算单数据、电子病历数据、网络问答数据库数据、网络知识库数据、文献库数据。

12.根据权利要求11所述的面向多数据源的医疗机构组织类实体识别装置，其特征在于，所述实体标记序列确定单元，包括：

CRF统计特征值提取模块，用于从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值；所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别；所述CRF统计特征值包括每个文字在各语句中的分词特征值；

13.根据权利要求12所述的面向多数据源的医疗机构组织类实体识别装置，其特征在于，所述第一组候选实体确定单元，具体用于：

14.根据权利要求13所述的面向多数据源的医疗机构组织类实体识别装置，其特征在于，还包括语料库更新单元，用于：

为待处理语句中s位置的文字对应第j个实体标记的概率；

确定待处理语句的预测置信度和字典匹配标记的实体比例；

所述字典匹配标记的实体比例为：

15.根据权利要求14所述的面向多数据源的医疗机构组织类实体识别装置，其特征在于，所述第二组候选实体确定单元，包括：

16.根据权利要求15所述的面向多数据源的医疗机构组织类实体识别装置，其特征在于，所述候选实体筛选单元，包括：