一种面向多数据源的医疗器材类实体识别方法及装置
技术领域
本发明涉及医疗实体识别技术领域,尤其涉及一种面向多数据源的医疗器材类实体识别方法及装置。
背景技术
目前,随着网络和医疗信息技术的发展、中国人口逐渐趋于老年化、互联网医疗逐渐兴起,医疗器械市场得到空前的发展,相继出现医疗器械相关数据,如医疗器械治疗数据、销售数据、研发数据等等呈爆炸式增长。由于医疗器材的种类繁多,且规格不一,计算机自动准确识别这些医疗器材难度较大。而如何提高计算机识别医疗器材类词汇的成功率和准确率,成为一个亟待解决的问题。
近年来,作为医疗健康数据分析的重要的一步,医疗实体识别(例如医疗器材类的实体识别)可以抽取出相关文本中存在的医疗术语,对后续研究的性能起到重要的作用。目前常见的实体识别技术有基于词表的医学实体识别和基于条件随机场(ConditionalRandom Fields,简称CRF)的医学实体识别,然而基于词表的医学实体识别仅仅依靠术语库匹配,缺少上下文语境识别,且术语库匹配存在较大局限性。而基于CRF的医学实体识别技术,缺少大数据语料库和语言规则的应用,语料均为人工标注后的语料,而没有利用半监督学习等方法,增加对数量更庞大的未标注数据的使用,使得模型不够完善,缺少基于语言学与医疗信息的规则,仅仅依靠模型,对数据的针对性不够强。可见,当前的实体识别方案并不能准确进行医疗器材类实体识别。
发明内容
本发明的实施例提供一种面向多数据源的医疗器材类实体识别方法及装置,以解决当前的实体识别方案并不能准确进行医疗器材类实体识别的问题。
为达到上述目的,本发明采用如下技术方案:
一种面向多数据源的医疗器材类实体识别方法,包括:
获取原始数据中的待处理语句;
将所述待处理语句进行单字切分,确定待处理语句中的每个文字;
根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;
根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;
根据预先设置的医疗器材类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;
根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组医疗器材类候选实体和第二组医疗器材类候选实体;
若第一组医疗器材类候选实体和第二组医疗器材类候选实体不相同,根据预先设置的判断策略从第一组医疗器材类候选实体和第二组医疗器材类候选实体中确定医疗器材类实体结果。
具体的,所述根据预先设置的判断策略从第一组医疗器材类候选实体和第二组医疗器材类候选实体中确定医疗器材类实体结果,包括:
确定待处理语句在进行术语切分时,是否通过预先设置的切分规则进行切分;
若待处理语句在进行术语切分时,通过预先设置的切分规则进行切分,则选择所述第二组医疗器材类候选实体中的候选实体作为医疗器材类实体结果;
若待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述第一组医疗器材类候选实体中的候选实体作为医疗器材类实体结果;
或者,确定来源于相同待处理语句的原始字符串的第一组医疗器材类候选实体和第二组医疗器材类候选实体中,实体个数少,且实体包含的字符数多的一组实体作为医疗器材类实体结果;
所述医疗器材类实体结果中的实体类型包括医疗器材名称实体、器材规格型号实体;
在所述第一组医疗器材类候选实体和第二组医疗器材类候选实体中相对应的实体的实体类型不一致时,选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。
具体的,所述原始数据包括医疗器材临床治疗数据、医疗器材研发实验数据、医疗器材销售数据、医疗器材科技文献数据、医疗器材电子商务数据。
具体的,根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列,包括:
从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值;所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别;所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值;
根据每个字在各语句中的CRF统计特征值,确定一训练模型;所述训练模型为:
根据所述训练模型,计算待处理语句中的每个文字的实体标记yj;
将每个文字的实体标记进行组合,形成待处理语句的实体标记序列;其中,x表示所述待处理语句;yj表示待处理语句中j位置对应的文字的实体标记;fi(yj,yj-1,x)表示待处理语句中分词特征i的函数值;λi为模型参数;m表示分词特征的个数;n表示待处理语句中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在待处理语句中的标记概率。
具体的,根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体,包括:
在实体标记序列中确定各文字对应的分词特征值,并根据所述分词特征值确定待处理语句的第一组候选实体。
进一步的,该面向多数据源的医疗器材类实体识别方法,还包括:
在所述待处理语句未在预先设置的语料库中被标注,根据公式:
确定待处理语句中各实体的不确定值;其中,IE
k为第k个实体的不确定值;k
start为第k个实体的实体标记的开始位置;k
end为第k个实体的实体标记的尾部位置;
为待处理语句中s位置的文字对应第j个实体标记的概率;
将待处理语句中不确定值为1的实体与预先设置的医疗器材本体库匹配,若匹配成功,则将匹配成功的实体的实体标记进行保存;
确定待处理语句的预测置信度和字典匹配标记的实体比例;
将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中,以进行语料库更新;
其中,所述预测置信度为待处理语句中各文字对应的标记概率的乘积;
所述字典匹配标记的实体比例为:
其中,C为待处理语句中预测出的实体总数中出现在预设字典中的实体数;B为待处理语句中预测出的实体总数。
具体的,根据预先设置的医疗器材类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体,包括:
将待处理语句中的标点符号转换为半角,并将英文字母统一为大写英文字母;
调用预先设置的非医学术语表,检查待处理语句中的原始字符串是否存在非医学术语表中的术语,并将待处理语句中存在的非医学术语表中的术语删除,形成预处理后的待处理语句;
将预处理后的待处理语句采用逆向最大匹配原则与预先设置的医疗器材规格型号数据库进行匹配,将预处理后的待处理语句中与医疗器材规格型号数据库中的规格型号数据相匹配的字符串作为器材规格型号实体抽出;
将预处理后的待处理语句中除器材规格型号实体之外的其他字符串与预先设置的医疗器材名称数据库进行匹配,将预处理后的待处理语句中与医疗器材名称数据库中的医疗器材名称数据相匹配的字符串作为医疗器材名称实体抽出。
具体的,根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组医疗器材类候选实体和第二组医疗器材类候选实体,包括:
判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非医疗器材术语字符;
若各候选实体的末尾字符为预先设置的非医疗器材术语字符,将所述候选实体舍弃。
一种面向多数据源的医疗器材类实体识别装置,包括:
待处理语句获取单元,用于获取原始数据中的待处理语句;
单字切分单元,用于将所述待处理语句进行单字切分,确定待处理语句中的每个文字;
实体标记序列确定单元,用于根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;
第一组候选实体确定单元,用于根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;
第二组候选实体确定单元,用于根据预先设置的医疗器材类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;
候选实体筛选单元,用于根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组医疗器材类候选实体和第二组医疗器材类候选实体;
医疗器材类实体结果确定单元,用于在第一组医疗器材类候选实体和第二组医疗器材类候选实体不相同时,根据预先设置的判断策略从第一组医疗器材类候选实体和第二组医疗器材类候选实体中确定医疗器材类实体结果。
具体的,所述医疗器材类实体结果确定单元,包括:
术语切分判断模块,用于确定待处理语句在进行术语切分时,是否通过预先设置的切分规则进行切分;
医疗器材类实体结果确定模块,用于在待处理语句在进行术语切分时,通过预先设置的切分规则进行切分,则选择所述第二组医疗器材类候选实体中的候选实体作为医疗器材类实体结果;在待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述第一组医疗器材类候选实体中的候选实体作为医疗器材类实体结果;
所述医疗器材类实体结果确定模块,还用于确定来源于相同待处理语句的原始字符串的第一组医疗器材类候选实体和第二组医疗器材类候选实体中,实体个数少,且实体包含的字符数多的一组实体作为医疗器材类实体结果;所述医疗器材类实体结果中的实体类型包括医疗器材名称实体、器材规格型号实体;
实体类型确定模块,用于在所述第一组医疗器材类候选实体和第二组医疗器材类候选实体中相对应的实体的实体类型不一致时,选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。
具体的,所述待处理语句获取单元中的原始数据包括医疗器材临床治疗数据、医疗器材研发实验数据、医疗器材销售数据、医疗器材科技文献数据、医疗器材电子商务数据。
进一步的,所述实体标记序列确定单元,包括:
CRF统计特征值提取模块,用于从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值;所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别;所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值;
训练模型确定模块,用于根据每个字在各语句中的CRF统计特征值,确定一训练模型;所述训练模型为:
实体标记计算模块,用于根据所述训练模型,计算待处理语句中的每个文字的实体标记yj;
实体标记序列确定模块,用于将每个文字的实体标记进行组合,形成待处理语句的实体标记序列;其中,x表示所述待处理语句;yj表示待处理语句中j位置对应的文字的实体标记;fi(yj,yj-1,x)表示待处理语句中分词特征i的函数值;λi为模型参数;m表示分词特征的个数;n表示待处理语句中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在待处理语句中的标记概率。
此外,所述第一组候选实体确定单元,具体用于:
在实体标记序列中确定各文字对应的分词特征值,并根据所述分词特征值确定待处理语句的第一组候选实体。
进一步的,所述的面向多数据源的医疗器材类实体识别装置,还包括语料库更新单元,用于:
在所述待处理语句未在预先设置的语料库中被标注,根据公式:
确定待处理语句中各实体的不确定值;其中,IE
k为第k个实体的不确定值;k
start为第k个实体的实体标记的开始位置;k
end为第k个实体的实体标记的尾部位置;
为待处理语句中s位置的文字对应第j个实体标记的概率;
将待处理语句中不确定值为1的实体与预先设置的医疗器材本体库匹配,在匹配成功时,将匹配成功的实体的实体标记进行保存;
确定待处理语句的预测置信度和字典匹配标记的实体比例;
将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中,以进行语料库更新;
其中,所述预测置信度为待处理语句中各文字对应的标记概率的乘积;
所述字典匹配标记的实体比例为:
其中,C为待处理语句中预测出的实体总数中出现在预设字典中的实体数;B为待处理语句中预测出的实体总数。
此外,所述第二组候选实体确定单元,包括:
预处理模块,用于将待处理语句中的标点符号转换为半角,并将英文字母统一为大写英文字母;调用预先设置的非医学术语表,检查待处理语句中的原始字符串是否存在非医学术语表中的术语,并将待处理语句中存在的非医学术语表中的术语删除,形成预处理后的待处理语句;
医疗器材本体库匹配模块,用于将将预处理后的待处理语句采用逆向最大匹配原则与预先设置的医疗器材规格型号数据库进行匹配,将预处理后的待处理语句中与医疗器材规格型号数据库中的规格型号数据相匹配的字符串作为器材规格型号实体抽出;将预处理后的待处理语句中除器材规格型号实体之外的其他字符串与预先设置的医疗器材名称数据库进行匹配,将预处理后的待处理语句中与医疗器材名称数据库中的医疗器材名称数据相匹配的字符串作为医疗器材名称实体抽出。
此外,所述候选实体筛选单元,包括:
非医疗器材术语字符判断模块,用于判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非医疗器材术语字符;
候选实体舍弃模块,用于在各候选实体的末尾字符为预先设置的非医疗器材术语字符时,将所述候选实体舍弃。
本发明实施例提供的一种面向多数据源的医疗器材类实体识别方法及装置,首先,获取原始数据中的待处理语句;将所述待处理语句进行单字切分,确定待处理语句中的每个文字;根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;然后,根据预先设置的医疗器材类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组医疗器材类候选实体和第二组医疗器材类候选实体;若第一组医疗器材类候选实体和第二组医疗器材类候选实体不相同,根据预先设置的判断策略从第一组医疗器材类候选实体和第二组医疗器材类候选实体中确定医疗器材类实体结果。本发明将条件随机场CRF统计机器学习方法与术语切分方法相结合,能够自动识别医疗器材类实体,克服了当前的实体识别的数据源较为单一,实体识别不准确的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种面向多数据源的医疗器材类实体识别方法的流程图一;
图2为本发明实施例提供的一种面向多数据源的医疗器材类实体识别方法的流程图二的A部分;
图3为本发明实施例提供的一种面向多数据源的医疗器材类实体识别方法的流程图二的B部分;
图4为本发明实施例提供的一种面向多数据源的医疗器材类实体识别装置的结构示意图一;
图5为本发明实施例提供的一种面向多数据源的医疗器材类实体识别装置的结构示意图二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供一种面向多数据源的医疗器材类实体识别方法,包括:
步骤101、获取原始数据中的待处理语句。
步骤102、将所述待处理语句进行单字切分,确定待处理语句中的每个文字。
步骤103、根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列。
步骤104、根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体。
步骤105、根据预先设置的医疗器材类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体。
步骤106、根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组医疗器材类候选实体和第二组医疗器材类候选实体。
步骤107、若第一组医疗器材类候选实体和第二组医疗器材类候选实体不相同,根据预先设置的判断策略从第一组医疗器材类候选实体和第二组医疗器材类候选实体中确定医疗器材类实体结果。
本发明实施例提供的一种面向多数据源的医疗器材类实体识别方法,首先,获取原始数据中的待处理语句;将所述待处理语句进行单字切分,确定待处理语句中的每个文字;根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;然后,根据预先设置的医疗器材类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组医疗器材类候选实体和第二组医疗器材类候选实体;若第一组医疗器材类候选实体和第二组医疗器材类候选实体不相同,根据预先设置的判断策略从第一组医疗器材类候选实体和第二组医疗器材类候选实体中确定医疗器材类实体结果。本发明将条件随机场CRF统计机器学习方法与术语切分方法相结合,能够自动识别医疗器材类实体,克服了当前的实体识别的数据源较为单一,实体识别不准确的问题。
为了使本领域的技术人员更好的了解本发明,下面结合具体的实例来说明本发明。如图2和图3所示(其中,图2为一种面向多数据源的医疗器材类实体识别方法的A部分,图3为一种面向多数据源的医疗器材类实体识别方法的B部分,此处分为A、B部分是由于本发明实施例的步骤较多,并非表示实际意义上的区别,A部分与B部分形成整个步骤201至步骤219,其中图2示出了步骤201至步骤211,图3示出了步骤212至步骤219。),本发明实施例提供一种面向多数据源的医疗器材类实体识别方法,包括:
步骤201、获取原始数据中的待处理语句。
具体的,所述原始数据包括医疗器材临床治疗数据、医疗器材研发实验数据、医疗器材销售数据、医疗器材科技文献数据、医疗器材电子商务数据等,但不仅局限于此。
步骤202、将所述待处理语句进行单字切分,确定待处理语句中的每个文字。
例如,待处理语句为“一次性负压引流球”,则单字切分后,每个文字为:“一”“次”“性”“负”“压”“引”“流”“球”。
步骤203、从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值。
所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别;所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值。
对于预先设置的语料库可以由人为预先标注,例如语句:
“一次性负压引流球(100ml)(南通三利)”
则对于医疗器材类实体,可以分别标注出:
c=一次性负压引流球P=1:0 1:7t=医疗器材名称;
c=100ml P=1:9 1:13t=医疗器材规格型号;
其中,c表示医疗器材类实体,P表示医疗器材类实体所在语料中句子的行号及句子中字符位置,t表示医疗器材实体类别(在本发明中医疗器材实体类别包括医疗器材名称实体、器材规格型号实体)。
对于CRF统计特征值,例如语句“一次性负压引流球(100ml)(南通三利)”,其实体标记序列为“BIIIIIIEOBIIIEOOOOOOO”。例如,对于“球”字,CRF统计特征说明如下表1所示:
表1:
步骤204、根据每个字在各语句中的CRF统计特征值,确定一训练模型。
其中,所述训练模型为:
步骤205、根据所述训练模型,计算待处理语句中的每个文字的实体标记yj。
其中,x表示所述待处理语句;yj表示待处理语句中j位置对应的文字的实体标记;fi(yj,yj-1,x)表示待处理语句中分词特征i的函数值;λi为模型参数,训练得到的模型参数可使句子的训练模型p(y|x)的和达到最大;m表示分词特征的个数;n表示待处理语句中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在待处理语句中的标记概率。
对于fi(yj,yj-1,x),其表示若yj、yj-1、x均出现在语料中,则fi(yj,yj-1,x)=1,否则为0。
步骤206、将每个文字的实体标记进行组合,形成待处理语句的实体标记序列。
例如语句“一次性负压引流球(100ml)(南通三利)”,其实体标记序列为“BIIIIIIEOBIIIEOOOOOOO”。
步骤207、在实体标记序列中确定各文字对应的分词特征值,并根据所述分词特征值确定待处理语句的第一组候选实体。
例如,对于“一次性负压引流球(100ml)(南通三利)”,其实体标记序列为“BIIIIIIEOBIIIEOOOOOOO”,因此,可识别出第一组候选实体为“一次性负压引流球【医疗器材名称】”,“100ml【医疗器材规格型号】”。
步骤208、将待处理语句中的标点符号转换为半角,并将英文字母统一为大写英文字母。
步骤209、调用预先设置的非医学术语表,检查待处理语句中的原始字符串是否存在非医学术语表中的术语,并将待处理语句中存在的非医学术语表中的术语删除,形成预处理后的待处理语句。
步骤210、将预处理后的待处理语句采用逆向最大匹配原则与预先设置的医疗器材规格型号数据库进行匹配,将预处理后的待处理语句中与医疗器材规格型号数据库中的规格型号数据相匹配的字符串作为器材规格型号实体抽出。
此处,预先设置的医疗器材规格型号数据库可以包括如下表2所示的医疗器材规格型号表:
表2:
医疗器材规格型号 |
100ml |
2*1000-3 |
9534HP |
14*17 |
步骤211、将预处理后的待处理语句中除器材规格型号实体之外的其他字符串与预先设置的医疗器材名称数据库进行匹配,将预处理后的待处理语句中与医疗器材名称数据库中的医疗器材名称数据相匹配的字符串作为医疗器材名称实体抽出。
此处的预先设置的医疗器材名称数据库可以包括如下表3所示的医疗器材名称表:
表3:
医疗器材名称 |
扁桃体刀 |
真空采血管 |
一次性真空采血器 |
一次性留置针 |
鼻氧管(双腔) |
干式激光片 |
胸骨手钻 |
例如:
原始数据为“一次性负压引流球(100ml)(南通三利)”,通过步骤210先抽出的实体结果为“100ml【医疗器材规格型号】”。之后,通过步骤211抽出的实体结果为“一次性负压引流球【医疗器材名称】”。
步骤212、形成第二组候选实体。
通过上述步骤210和步骤211的具体规则,即可形成最终的第二组候选实体。
步骤213、判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非医疗器材术语字符。
该预先设置的非医疗器材术语字符可以是例如“病、药、手术、术、检查”等。
步骤214、若各候选实体的末尾字符为预先设置的非医疗器材术语字符,将所述候选实体舍弃。
在步骤214之后,执行步骤215或者步骤218。
步骤215、在第一组医疗器材类候选实体和第二组医疗器材类候选实体不相同时,确定待处理语句在进行术语切分时,是否通过预先设置的切分规则进行切分。
即是否通过上述步骤210、211的处理。
在步骤215之后,执行步骤216或者步骤217。
步骤216、若待处理语句在进行术语切分时,通过预先设置的切分规则进行切分,则选择所述第二组医疗器材类候选实体中的候选实体作为医疗器材类实体结果。
步骤217、若待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述第一组医疗器材类候选实体中的候选实体作为医疗器材类实体结果。
步骤218、在第一组医疗器材类候选实体和第二组医疗器材类候选实体不相同时,确定来源于相同待处理语句的原始字符串的第一组医疗器材类候选实体和第二组医疗器材类候选实体中,实体个数少,且实体包含的字符数多的一组实体作为医疗器材类实体结果。
例如,原始数据为“一次性真空采血器(黄色管)”。
第一组医疗器材类候选实体为“一次性真空采血器(黄色管)【医疗器材名称】”;
第二组医疗器材类候选实体为“真空采血器【医疗器材名称】”;
则,最终结果为“一次性真空采血器(黄色管)【医疗器材名称】”。
在步骤216、217和步骤218之后,执行步骤219。
步骤219、在所述第一组医疗器材类候选实体和第二组医疗器材类候选实体中相对应的实体的实体类型不一致时,选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。
通过上述步骤201至步骤219,最终可以得到医疗器材类实体识别结果。
另外,为了实现对语料库进行更新,可以由人工总结发现新的句型特征,并人工标注加入到语料库中;另外,还可以在所述待处理语句未在预先设置的语料库中被标注,根据公式:
确定待处理语句中各实体的不确定值;其中,IE
k为第k个实体的不确定值;k
start为第k个实体的实体标记的开始位置;k
end为第k个实体的实体标记的尾部位置;
为待处理语句中s位置的文字对应第j个实体标记的概率。
例如,“一次性负压引流球(100ml)(南通三利)”,实体标记序列为“BIIIIIIEOBIIIEOOOOOOO”,位置序列为“0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1617 18 19 20”,看出实体为一次性负压引流球,位置为“0 1 2 3 4 6 7”,因此,Kstart为0,Kend为7。
将待处理语句中不确定值为1的实体与预先设置的医疗器材本体库匹配,若匹配成功,则将匹配成功的实体的实体标记进行保存。
确定待处理语句的预测置信度和字典匹配标记的实体比例。
将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中,以进行语料库更新。
其中,所述预测置信度为待处理语句中各文字对应的标记概率的乘积。
所述字典匹配标记的实体比例为:
其中,C为待处理语句中预测出的实体总数中出现在预设字典中的实体数;B为待处理语句中预测出的实体总数。
可见,通过语料库的更新,可以实现实体识别所需语料数据利用半监督自学习方法,实现语料库不断丰富,解决了语料库数目不足、不完整的问题。
本发明实施例提供的一种面向多数据源的医疗器材类实体识别方法,首先,获取原始数据中的待处理语句;将所述待处理语句进行单字切分,确定待处理语句中的每个文字;根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;然后,根据预先设置的医疗器材类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组医疗器材类候选实体和第二组医疗器材类候选实体;若第一组医疗器材类候选实体和第二组医疗器材类候选实体不相同,根据预先设置的判断策略从第一组医疗器材类候选实体和第二组医疗器材类候选实体中确定医疗器材类实体结果。本发明将条件随机场CRF统计机器学习方法与术语切分方法相结合,能够自动识别医疗器材类实体,克服了当前的实体识别的数据源较为单一,实体识别不准确的问题。
对应于上述图1、图2和图3所示的方法实施例,如图4所示,本发明实施例提供一种面向多数据源的医疗器材类实体识别装置,包括:
待处理语句获取单元31,用于获取原始数据中的待处理语句。
单字切分单元32,用于将所述待处理语句进行单字切分,确定待处理语句中的每个文字。
实体标记序列确定单元33,用于根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列。
第一组候选实体确定单元34,用于根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体。
第二组候选实体确定单元35,用于根据预先设置的医疗器材类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体。
候选实体筛选单元36,用于根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组医疗器材类候选实体和第二组医疗器材类候选实体。
医疗器材类实体结果确定单元37,用于在第一组医疗器材类候选实体和第二组医疗器材类候选实体不相同时,根据预先设置的判断策略从第一组医疗器材类候选实体和第二组医疗器材类候选实体中确定医疗器材类实体结果。
具体的,如图5所示,所述医疗器材类实体结果确定单元37,包括:
术语切分判断模块371,用于确定待处理语句在进行术语切分时,是否通过预先设置的切分规则进行切分。
医疗器材类实体结果确定模块372,用于在待处理语句在进行术语切分时,通过预先设置的切分规则进行切分,则选择所述第二组医疗器材类候选实体中的候选实体作为医疗器材类实体结果;在待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述第一组医疗器材类候选实体中的候选实体作为医疗器材类实体结果。
所述医疗器材类实体结果确定模块372,还用于确定来源于相同待处理语句的原始字符串的第一组医疗器材类候选实体和第二组医疗器材类候选实体中,实体个数少,且实体包含的字符数多的一组实体作为医疗器材类实体结果;所述医疗器材类实体结果中的实体类型包括医疗器材名称实体、器材规格型号实体。
实体类型确定模块373,用于在所述第一组医疗器材类候选实体和第二组医疗器材类候选实体中相对应的实体的实体类型不一致时,选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。
具体的,所述待处理语句获取单元31中的原始数据包括医疗器材临床治疗数据、医疗器材研发实验数据、医疗器材销售数据、医疗器材科技文献数据、医疗器材电子商务数据。
进一步的,如图5所示,所述实体标记序列确定单元33,包括:
CRF统计特征值提取模块331,用于从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值;所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别;所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值。
训练模型确定模块332,用于根据每个字在各语句中的CRF统计特征值,确定一训练模型;所述训练模型为:
实体标记计算模块333,用于根据所述训练模型,计算待处理语句中的每个文字的实体标记yj。
实体标记序列确定模块334,用于将每个文字的实体标记进行组合,形成待处理语句的实体标记序列;其中,x表示所述待处理语句;yj表示待处理语句中j位置对应的文字的实体标记;fi(yj,yj-1,x)表示待处理语句中分词特征i的函数值;λi为模型参数;m表示分词特征的个数;n表示待处理语句中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在待处理语句中的标记概率。
此外,所述第一组候选实体确定单元34,具体用于:
在实体标记序列中确定各文字对应的分词特征值,并根据所述分词特征值确定待处理语句的第一组候选实体。
进一步的,如图5所示,所述的面向多数据源的医疗器材类实体识别装置,还包括语料库更新单元38用于:
在所述待处理语句未在预先设置的语料库中被标注,根据公式:
确定待处理语句中各实体的不确定值;其中,IE
k为第k个实体的不确定值;k
start为第k个实体的实体标记的开始位置;k
end为第k个实体的实体标记的尾部位置;
为待处理语句中s位置的文字对应第j个实体标记的概率。
将待处理语句中不确定值为1的实体与预先设置的医疗器材本体库匹配,在匹配成功时,将匹配成功的实体的实体标记进行保存。
确定待处理语句的预测置信度和字典匹配标记的实体比例。
将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中,以进行语料库更新。
其中,所述预测置信度为待处理语句中各文字对应的标记概率的乘积。
所述字典匹配标记的实体比例为:其中,C为待处理语句中预测出的实体总数中出现在预设字典中的实体数;B为待处理语句中预测出的实体总数。
此外,如图5所示,所述第二组候选实体确定单元35,包括:
预处理模块351,用于将待处理语句中的标点符号转换为半角,并将英文字母统一为大写英文字母;调用预先设置的非医学术语表,检查待处理语句中的原始字符串是否存在非医学术语表中的术语,并将待处理语句中存在的非医学术语表中的术语删除,形成预处理后的待处理语句。
医疗器材本体库匹配模块352,用于将将预处理后的待处理语句采用逆向最大匹配原则与预先设置的医疗器材规格型号数据库进行匹配,将预处理后的待处理语句中与医疗器材规格型号数据库中的规格型号数据相匹配的字符串作为器材规格型号实体抽出;将预处理后的待处理语句中除器材规格型号实体之外的其他字符串与预先设置的医疗器材名称数据库进行匹配,将预处理后的待处理语句中与医疗器材名称数据库中的医疗器材名称数据相匹配的字符串作为医疗器材名称实体抽出。
此外,如图5所示,所述候选实体筛选单元36,包括:
非医疗器材术语字符判断模块361,用于判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非医疗器材术语字符。
候选实体舍弃模块362,用于在各候选实体的末尾字符为预先设置的非医疗器材术语字符时,将所述候选实体舍弃。
值得说明的是,本发明实施例提供的一种面向多数据源的医疗器材类实体识别装置的具体实现方式可以参见上述的方法实施例,此处不再赘述。
本发明实施例提供的一种面向多数据源的医疗器材类实体识别装置,首先,获取原始数据中的待处理语句;将所述待处理语句进行单字切分,确定待处理语句中的每个文字;根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;然后,根据预先设置的医疗器材类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组医疗器材类候选实体和第二组医疗器材类候选实体;若第一组医疗器材类候选实体和第二组医疗器材类候选实体不相同,根据预先设置的判断策略从第一组医疗器材类候选实体和第二组医疗器材类候选实体中确定医疗器材类实体结果。本发明将条件随机场CRF统计机器学习方法与术语切分方法相结合,能够自动识别医疗器材类实体,克服了当前的实体识别的数据源较为单一,实体识别不准确的问题。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。