CN107122582B - 面向多数据源的诊疗类实体识别方法及装置 - Google Patents

面向多数据源的诊疗类实体识别方法及装置 Download PDF

Info

Publication number
CN107122582B
CN107122582B CN201710101829.4A CN201710101829A CN107122582B CN 107122582 B CN107122582 B CN 107122582B CN 201710101829 A CN201710101829 A CN 201710101829A CN 107122582 B CN107122582 B CN 107122582B
Authority
CN
China
Prior art keywords
entity
processed
sentence
treatment
diagnosis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710101829.4A
Other languages
English (en)
Other versions
CN107122582A (zh
Inventor
李雪莉
黄玉丽
关毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yi Bao Interconnected Medical Information Technology (Beijing) Co., Ltd.
Harbin Institute of Technology
Original Assignee
Heilongjiang Teshi Information Technology Co Ltd
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heilongjiang Teshi Information Technology Co Ltd, Harbin Institute of Technology filed Critical Heilongjiang Teshi Information Technology Co Ltd
Priority to CN201710101829.4A priority Critical patent/CN107122582B/zh
Publication of CN107122582A publication Critical patent/CN107122582A/zh
Application granted granted Critical
Publication of CN107122582B publication Critical patent/CN107122582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种面向多数据源的诊疗类实体识别方法及装置,涉及医疗实体识别技术领域。方法包括:获取原始数据中的待处理语句;将待处理语句进行单字切分,确定待处理语句中的每个文字;根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;根据预先设置的诊疗类术语切分策略,对待处理语句进行术语切分,确定第二组候选实体;对各候选实体进行筛选,分别形成第一组诊疗类候选实体和第二组诊疗类候选实体;根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果。

Description

面向多数据源的诊疗类实体识别方法及装置
技术领域
本发明涉及医疗实体识别技术领域,尤其涉及一种面向多数据源的诊疗类实体识别方法及装置。
背景技术
目前,随着网络和医疗信息技术的发展、中国人口逐渐趋于老年化、互联网医疗逐渐兴起,医疗卫生行业大数据也相继产生。在实际临床诊治过程中,每天都会产生大量的诊疗信息,对这些诊疗信息的利用和研究,在例如医学统计、科研、教学、医疗管理等领域中有着重要的作用。由于诊疗信息的海量化和多各种结构化,仅靠人工力量识别诊疗信息,再进行研究和利用几乎是不可能的,必须借助计算机对其识别和利用。但由于医疗过程中产生的诊疗信息属于自然语言,格式复杂多样,没有统一的标准,例如,采用多种语言混合表达、使用不规范语法、录入有误信息、采用缩略语或俗称代替标准术语、文字中夹杂符号等杂乱信息等等,就使得计算机识别诊疗信息具有相当大的难度。
近年来,医疗健康领域的蓬勃发展使得该领域的研究逐渐增多,例如医疗问答、智能诊断、诊疗预警等。作为医疗健康数据分析的重要的一步,医疗实体识别(例如诊疗类的实体识别)可以抽取出相关文本中存在的医疗术语,对后续研究的性能起到重要的作用。目前常见的实体识别技术有基于词表的医学实体识别和基于条件随机场(ConditionalRandom Fields,简称CRF)的医学实体识别,然而基于词表的医学实体识别仅仅依靠术语库匹配,缺少上下文语境识别,且术语库匹配存在较大局限性。而基于CRF的医学实体识别技术,缺少大数据语料库和语言规则的应用,语料均为人工标注后的语料,而没有利用半监督学习等方法,增加对数量更庞大的未标注数据的使用,使得模型不够完善,缺少基于语言学与医疗信息的规则,仅仅依靠模型,对数据的针对性不够强。可见,当前的实体识别方案并不能准确进行诊疗类实体识别。
发明内容
本发明的实施例提供一种面向多数据源的诊疗类实体识别方法及装置,以解决当前的实体识别方案并不能准确进行诊疗类实体识别的问题。
为达到上述目的,本发明采用如下技术方案:
一种面向多数据源的诊疗类实体识别方法,包括:
获取原始数据中的待处理语句;
将所述待处理语句进行单字切分,确定待处理语句中的每个文字;
根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;
根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;
根据预先设置的诊疗类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;
根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组诊疗类候选实体和第二组诊疗类候选实体;
若第一组诊疗类候选实体和第二组诊疗类候选实体不相同,根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果。
具体的,所述根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果,包括:
确定待处理语句在进行术语切分时,是否通过预先设置的切分规则进行切分;
若待处理语句在进行术语切分时,通过预先设置的切分规则进行切分,则选择所述第二组诊疗类候选实体中的候选实体作为诊疗类实体结果;
若待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述第一组诊疗类候选实体中的候选实体作为诊疗类实体结果;
或者,确定来源于相同待处理语句的原始字符串的第一组诊疗类候选实体和第二组诊疗类候选实体中,实体个数少,且实体包含的字符数多的一组实体作为诊疗类实体结果;
所述诊疗类实体结果中的实体类型包括手术操作实体、辅助检查实体和其他类诊疗实体;
在所述第一组诊疗类候选实体和第二组诊疗类候选实体中相对应的实体的实体类型不一致时,识别所述相对应的实体末尾字符串所表示的术语,并根据所述末尾字符串所表示的术语确定所述相对应的实体的实体类型;
若未成功识别所述相对应的实体末尾字符串所表示的术语,则选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。
具体的,所述原始数据包括结构化数据;所述结构化数据包括结算单数据、门诊处置数据、门诊检查检验数据、住院手术记录数据、住院处置数据、住院检查检验数据、电子病历数据、手术操作知识库及文献库数据。
具体的,根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列,包括:
从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值;所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别;所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值;
根据每个字在各语句中的CRF统计特征值,确定一训练模型;所述训练模型为:
根据所述训练模型,计算待处理语句中的每个文字的实体标记yj
将每个文字的实体标记进行组合,形成待处理语句的实体标记序列;其中,x表示所述待处理语句;yj表示待处理语句中j位置对应的文字的实体标记;fi(yj,yj-1,x)表示待处理语句中分词特征i的函数值;λi为模型参数;m表示分词特征的个数;n表示待处理语句中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在待处理语句中的标记概率。
具体的,根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体,包括:
在实体标记序列中确定各文字对应的分词特征值,并根据所述分词特征值确定待处理语句的第一组候选实体。
进一步的,该面向多数据源的诊疗类实体识别方法,还包括:
在所述待处理语句未在预先设置的语料库中被标注,根据公式:确定待处理语句中各实体的不确定值;其中,IEk为第k个实体的不确定值;kstart为第k个实体的实体标记的开始位置;kend为第k个实体的实体标记的尾部位置;为待处理语句中s位置的文字对应第j个实体标记的概率;
将待处理语句中不确定值为1的实体与预先设置的诊疗本体库匹配,若匹配成功,则将匹配成功的实体的实体标记进行保存;
确定待处理语句的预测置信度和字典匹配标记的实体比例;
将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中,以进行语料库更新;
其中,所述预测置信度为待处理语句中各文字对应的标记概率的乘积;
所述字典匹配标记的实体比例为:其中,C为待处理语句中预测出的实体总数中出现在预设字典中的实体数;B为待处理语句中预测出的实体总数。
具体的,根据预先设置的诊疗类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体,包括:
将待处理语句中的标点符号转换为半角,并将英文字母统一为大写英文字母;
调用预先设置的非医学术语表,检查待处理语句中的原始字符串是否存在非医学术语表中的术语,并将待处理语句中存在的非医学术语表中的术语删除,形成预处理后的待处理语句;
将预处理后的待处理语句采用逆向最大匹配原则与预先设置的诊疗本体库中的标准术语名称或同义词进行匹配,将预处理后的待处理语句中与标准术语名称或同义词相匹配的字符串作为初步实体抽出,并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型;
若在待处理语句中所述初步实体之前相邻接有用于表示方位的字符串,则将用于表示方位的字符串与所述初步实体作为整体抽出,形成重新筛选实体;
若在待处理语句中所述初步实体之前相邻接有用于表示解剖部位的字符串,则将用于表示解剖部位的字符串与所述初步实体作为整体抽出,形成重新筛选实体;
若在待处理语句中所述初步实体之后相邻接有表示带有预设符号的词汇的字符串,则将表示带有预设符号的词汇的字符串与所述初步实体作为整体抽出,形成重新筛选实体;
将待处理语句中的各重新筛选实体的组合作为所述第二组候选实体。
具体的,根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组诊疗类候选实体和第二组诊疗类候选实体,包括:
判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非诊疗术语字符;
若各候选实体的末尾字符为预先设置的非诊疗术语字符,将所述候选实体舍弃。
一种面向多数据源的诊疗类实体识别装置,包括:
待处理语句获取单元,用于获取原始数据中的待处理语句;
单字切分单元,用于将所述待处理语句进行单字切分,确定待处理语句中的每个文字;
实体标记序列确定单元,用于根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;
第一组候选实体确定单元,用于根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;
第二组候选实体确定单元,用于根据预先设置的诊疗类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;
候选实体筛选单元,用于根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组诊疗类候选实体和第二组诊疗类候选实体;
诊疗类实体结果确定单元,用于在第一组诊疗类候选实体和第二组诊疗类候选实体不相同时,根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果。
具体的,所述诊疗类实体结果确定单元,包括:
术语切分判断模块,用于确定待处理语句在进行术语切分时,是否通过预先设置的切分规则进行切分;
诊疗类实体结果确定模块,用于在待处理语句在进行术语切分时,通过预先设置的切分规则进行切分,则选择所述第二组诊疗类候选实体中的候选实体作为诊疗类实体结果;在待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述第一组诊疗类候选实体中的候选实体作为诊疗类实体结果;
所述诊疗类实体结果确定模块,还用于确定来源于相同待处理语句的原始字符串的第一组诊疗类候选实体和第二组诊疗类候选实体中,实体个数少,且实体包含的字符数多的一组实体作为诊疗类实体结果;所述诊疗类实体结果中的实体类型包括手术操作实体、辅助检查实体和其他类诊疗实体;
实体类型确定模块,用于在所述第一组诊疗类候选实体和第二组诊疗类候选实体中相对应的实体的实体类型不一致时,识别所述相对应的实体末尾字符串所表示的术语,并根据所述末尾字符串所表示的术语确定所述相对应的实体的实体类型;在未成功识别所述相对应的实体末尾字符串所表示的术语时,选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。
具体的,所述待处理语句获取单元中的原始数据包括结构化数据;所述结构化数据包括结算单数据、门诊处置数据、门诊检查检验数据、住院手术记录数据、住院处置数据、住院检查检验数据、电子病历数据、手术操作知识库及文献库数据。
进一步的,所述实体标记序列确定单元,包括:
CRF统计特征值提取模块,用于从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值;所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别;所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值;
训练模型确定模块,用于根据每个字在各语句中的CRF统计特征值,确定一训练模型;所述训练模型为:
实体标记计算模块,用于根据所述训练模型,计算待处理语句中的每个文字的实体标记yj
实体标记序列确定模块,用于将每个文字的实体标记进行组合,形成待处理语句的实体标记序列;其中,x表示所述待处理语句;yj表示待处理语句中j位置对应的文字的实体标记;fi(yj,yj-1,x)表示待处理语句中分词特征i的函数值;λi为模型参数;m表示分词特征的个数;n表示待处理语句中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在待处理语句中的标记概率。
此外,所述第一组候选实体确定单元,具体用于:
在实体标记序列中确定各文字对应的分词特征值,并根据所述分词特征值确定待处理语句的第一组候选实体。
进一步的,所述的面向多数据源的诊疗类实体识别装置,还包括语料库更新单元,用于:
在所述待处理语句未在预先设置的语料库中被标注,根据公式:确定待处理语句中各实体的不确定值;其中,IEk为第k个实体的不确定值;kstart为第k个实体的实体标记的开始位置;kend为第k个实体的实体标记的尾部位置;为待处理语句中s位置的文字对应第j个实体标记的概率;
将待处理语句中不确定值为1的实体与预先设置的诊疗本体库匹配,在匹配成功时,将匹配成功的实体的实体标记进行保存;
确定待处理语句的预测置信度和字典匹配标记的实体比例;
将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中,以进行语料库更新;
其中,所述预测置信度为待处理语句中各文字对应的标记概率的乘积;
所述字典匹配标记的实体比例为:其中,C为待处理语句中预测出的实体总数中出现在预设字典中的实体数;B为待处理语句中预测出的实体总数。
此外,所述第二组候选实体确定单元,包括:
预处理模块,用于将待处理语句中的标点符号转换为半角,并将英文字母统一为大写英文字母;调用预先设置的非医学术语表,检查待处理语句中的原始字符串是否存在非医学术语表中的术语,并将待处理语句中存在的非医学术语表中的术语删除,形成预处理后的待处理语句;
诊疗本体库匹配模块,用于将预处理后的待处理语句采用逆向最大匹配原则与预先设置的诊疗本体库中的标准术语名称或同义词进行匹配,将预处理后的待处理语句中与标准术语名称或同义词相匹配的字符串作为初步实体抽出,并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型;
实体重新筛选模块,用于在待处理语句中所述初步实体之前相邻接有用于表示方位的字符串时,将用于表示方位的字符串与所述初步实体作为整体抽出,形成重新筛选实体;在待处理语句中所述初步实体之前相邻接有用于表示解剖部位的字符串,将用于表示解剖部位的字符串与所述初步实体作为整体抽出,形成重新筛选实体;在待处理语句中所述初步实体之后相邻接有表示带有预设符号的词汇的字符串时,将表示带有预设符号的词汇的字符串与所述初步实体作为整体抽出,形成重新筛选实体;
第二组候选实体确定模块,用于将待处理语句中的各重新筛选实体的组合作为所述第二组候选实体。
此外,所述候选实体筛选单元,包括:
非诊疗术语字符判断模块,用于判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非诊疗术语字符;
候选实体舍弃模块,用于在各候选实体的末尾字符为预先设置的非诊疗术语字符时,将所述候选实体舍弃。
本发明实施例提供的一种面向多数据源的诊疗类实体识别方法及装置,首先,获取原始数据中的待处理语句;将所述待处理语句进行单字切分,确定待处理语句中的每个文字;根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;然后,根据预先设置的诊疗类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组诊疗类候选实体和第二组诊疗类候选实体;若第一组诊疗类候选实体和第二组诊疗类候选实体不相同,根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果。本发明将条件随机场CRF统计机器学习方法与术语切分方法相结合,能够自动识别诊疗类实体,克服了当前的实体识别的数据源较为单一,实体识别不准确的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种面向多数据源的诊疗类实体识别方法的流程图一;
图2为本发明实施例提供的一种面向多数据源的诊疗类实体识别方法的流程图二的A部分;
图3为本发明实施例提供的一种面向多数据源的诊疗类实体识别方法的流程图二的B部分;
图4为本发明实施例提供的一种面向多数据源的诊疗类实体识别装置的结构示意图一;
图5为本发明实施例提供的一种面向多数据源的诊疗类实体识别装置的结构示意图二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供一种面向多数据源的诊疗类实体识别方法,包括:
步骤101、获取原始数据中的待处理语句。
步骤102、将所述待处理语句进行单字切分,确定待处理语句中的每个文字。
步骤103、根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列。
步骤104、根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体。
步骤105、根据预先设置的诊疗类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体。
步骤106、根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组诊疗类候选实体和第二组诊疗类候选实体。
步骤107、若第一组诊疗类候选实体和第二组诊疗类候选实体不相同,根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果。
本发明实施例提供的一种面向多数据源的诊疗类实体识别方法,首先,获取原始数据中的待处理语句;将所述待处理语句进行单字切分,确定待处理语句中的每个文字;根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;然后,根据预先设置的诊疗类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组诊疗类候选实体和第二组诊疗类候选实体;若第一组诊疗类候选实体和第二组诊疗类候选实体不相同,根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果。本发明将条件随机场CRF统计机器学习方法与术语切分方法相结合,能够自动识别诊疗类实体,克服了当前的实体识别的数据源较为单一,实体识别不准确的问题。
为了使本领域的技术人员更好的了解本发明,下面结合具体的实例来说明本发明。如图2和图3所示(其中,图2为一种面向多数据源的诊疗类实体识别方法的A部分,图3为一种面向多数据源的诊疗类实体识别方法的B部分,此处分为A、B部分是由于本发明实施例的步骤较多,并非表示实际意义上的区别,A部分与B部分形成整个步骤201至步骤222,其中图2示出了步骤201至步骤211,图3示出了步骤212至步骤222。),本发明实施例提供一种面向多数据源的诊疗类实体识别方法,包括:
步骤201、获取原始数据中的待处理语句。
具体的,所述原始数据包括结构化数据;所述结构化数据包括结算单数据、门诊处置数据、门诊检查检验数据、住院手术记录数据、住院处置数据、住院检查检验数据、电子病历数据、手术操作知识库及文献库数据。
步骤202、将所述待处理语句进行单字切分,确定待处理语句中的每个文字。
例如,待处理语句为“急查患者:血脂常规检查隐血试验”,则单字切分后,每个文字为:“急”“查”“患”“者”“:”“血”“脂”“常”“规”“检”“查”“隐”“血”“试”“验”。
步骤203、从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值。
所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别;所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值。
对于预先设置的语料库可以由人为预先标注,例如语句:
“急查患者:血脂常规检查隐血试验”
“稳定后行肺减容手术右侧肺修补术”
则对于诊疗类实体,可以分别标注出:
c=血脂常规检查 P=1:51:10 t=辅助检查
c=隐血试验 P=1:111:14 t=辅助检查
c=肺减容手术 P=2:42:8 t=手术操作
c=右侧肺修补术 P=2:92:14 t=手术操作
其中,c表示诊疗类实体,P表示诊疗类实体所在语料中句子的行号及句子中字符位置,t表示诊疗实体类别(在本发明中诊疗实体类别包括可以包括手术操作实体、辅助检查实体和其他类诊疗实体)。
对于CRF统计特征值,例如语句“急查患者:血脂常规检查隐血试验。”,其实体标记序列为“OOOOOBIIIIEBIIEO”。例如,对于“血脂”中的“血”字,CRF统计特征说明如下表1所示:
表1:
步骤204、根据每个字在各语句中的CRF统计特征值,确定一训练模型。
其中,所述训练模型为:
步骤205、根据所述训练模型,计算待处理语句中的每个文字的实体标记yj
其中,x表示所述待处理语句;yj表示待处理语句中j位置对应的文字的实体标记;fi(yj,yj-1,x)表示待处理语句中分词特征i的函数值;λi为模型参数,训练得到的模型参数可使句子的训练模型p(y|x)的和达到最大;m表示分词特征的个数;n表示待处理语句中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在待处理语句中的标记概率。
对于fi(yj,yj-1,x),其表示若yj、yj-1、x均出现在语料中,则fi(yj,yj-1,x)=1,否则为0。
步骤206、将每个文字的实体标记进行组合,形成待处理语句的实体标记序列。
例如语句“急查患者:血脂常规检查隐血试验。”,其实体标记序列为“OOOOOBIIIIEBIIEO”。
步骤207、在实体标记序列中确定各文字对应的分词特征值,并根据所述分词特征值确定待处理语句的第一组候选实体。
例如,对于“急查患者:血脂常规检查隐血试验。”,其实体标记序列为“OOOOOBIIIIEBIIEO”,因此,可识别出第一组候选实体为“血脂常规检查”和“隐血试验”。
步骤208、将待处理语句中的标点符号转换为半角,并将英文字母统一为大写英文字母。
步骤209、调用预先设置的非医学术语表,检查待处理语句中的原始字符串是否存在非医学术语表中的术语,并将待处理语句中存在的非医学术语表中的术语删除,形成预处理后的待处理语句。
步骤210、将预处理后的待处理语句采用逆向最大匹配原则与预先设置的诊疗本体库中的标准术语名称或同义词进行匹配,将预处理后的待处理语句中与标准术语名称或同义词相匹配的字符串作为初步实体抽出,并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型。
值得说明的是,该预先设置的诊疗本体库是在全国医疗服务价格项目规范、国际手术操作编码ICD9两个标准词表基础上扩充构建而成的,诊疗本体库中包含词与词之间的同义关系、词与词之间的概念属分关系等,具体表现为表1中的标准词、同义词、上位词,参见下表2所示。
表2:
例如,原始数据为“患者进行大便常规检查和肾穿刺术”,通过步骤210可抽出的实体为“大便常规检查【辅助检查】;肾穿刺术【手术操作】”。
步骤211、若在待处理语句中所述初步实体之前相邻接有用于表示方位的字符串,则将用于表示方位的字符串与所述初步实体作为整体抽出,形成重新筛选实体。
该用于表示方位的字符串中的方位可以是例如“双侧”、“单侧”等方位词。
例如,原始数据为:“双侧肺修补术”。
基于上述步骤210抽取后的结果为:肺修补术【手术操作】。
而基于步骤211的规则重新得到的实体结果为:双侧肺修补术【手术操作】。
可见,经过规则重新得到的实体结果更为细致和精确。
步骤212、若在待处理语句中所述初步实体之前相邻接有用于表示解剖部位的字符串,则将用于表示解剖部位的字符串与所述初步实体作为整体抽出,形成重新筛选实体。
值得说明的是,该用于表示解剖部位的字符串中的解剖部位可以为“骨盆”、“胆囊”、“胃部”等人体组织解剖部位,但不仅局限于此。
例如,原始数据为“胆囊切除术”。
基于上述步骤210抽取后的实体结果为:切除术【手术操作】;
而基于步骤212处的规则重新得到的实体结果为:胆囊切除术【手术操作】。
步骤213、若在待处理语句中所述初步实体之后相邻接有表示带有预设符号的词汇的字符串,则将表示带有预设符号的词汇的字符串与所述初步实体作为整体抽出,形成重新筛选实体。
该带有预设符号的词汇可以是例如“(XXX)”“——XXX”,其中XXX为预设词汇。
例如原始数据为:螺旋CT平扫(盆腔),磁共振平扫(1T以上,不含1T),截肢标本病理检查与诊断--不脱钙直接切片标本。
基于步骤210抽取后的实体结果为:
螺旋CT平扫【辅助检查】;
磁共振平扫【辅助检查】;
截肢标本病理检查与诊断【辅助检查】;
基于此处步骤213的规则重新得到的实体结果为:
螺旋CT平扫(盆腔)【辅助检查】;
磁共振平扫(1T以上,不含1T)【辅助检查】;
截肢标本病理检查与诊断--不脱钙直接切片标本【辅助检查】。
步骤214、将待处理语句中的各重新筛选实体的组合作为所述第二组候选实体。
步骤215、判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非诊疗术语字符。
该预先设置的非诊疗术语字符可以是例如“病、药”等。
步骤216、若各候选实体的末尾字符为预先设置的非诊疗术语字符,将所述候选实体舍弃。
在步骤216之后,执行步骤217或者步骤220。
步骤217、在第一组诊疗类候选实体和第二组诊疗类候选实体不相同时,确定待处理语句在进行术语切分时,是否通过预先设置的切分规则进行切分。
即是否通过上述步骤211、212、213的处理。
在步骤217之后,执行步骤218或者步骤219。
步骤218、若待处理语句在进行术语切分时,通过预先设置的切分规则进行切分,则选择所述第二组诊疗类候选实体中的候选实体作为诊疗类实体结果。
步骤219、若待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述第一组诊疗类候选实体中的候选实体作为诊疗类实体结果。
例如,原始数据为“磁共振平扫(骨盆)--超过1T低于1.5T”,
第一组诊疗类候选实体为“磁共振平扫(骨盆)【辅助检查】”;
第二组诊疗类候选实体为“磁共振平扫(骨盆)--超过1T低于1.5T【辅助检查】”,即第二组诊疗类候选实体是经过切分规则切分形成的。
则,最终结果为“磁共振平扫(骨盆)--超过1T低于1.5T【辅助检查】”。
步骤220、在第一组诊疗类候选实体和第二组诊疗类候选实体不相同时,确定来源于相同待处理语句的原始字符串的第一组诊疗类候选实体和第二组诊疗类候选实体中,实体个数少,且实体包含的字符数多的一组实体作为诊疗类实体结果。
例如,原始数据“广泛性子宫切除术”,第一组诊疗类候选实体为“广泛性子宫切除【手术操作】”,第二组诊疗类候选实体为“子宫切除术【手术操作】”,则最终结果为“广泛性子宫切除【手术操作】”。
在步骤218、219和步骤220之后,执行步骤221。
步骤221、在所述第一组诊疗类候选实体和第二组诊疗类候选实体中相对应的实体的实体类型不一致时,识别所述相对应的实体末尾字符串所表示的术语,并根据所述末尾字符串所表示的术语确定所述相对应的实体的实体类型。
例如,若实体末尾字符串所表示的术语为“手术、术”等术语时,则实体类型为手术操作。若实体末尾字符串所表示的术语为“检查、检测、测定”等术语时,则实体类型为辅助检查。
步骤222、若未成功识别所述相对应的实体末尾字符串所表示的术语,则选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。
通过上述步骤201至步骤222,最终可以得到诊疗类实体识别结果。
另外,为了实现对语料库进行更新,可以由人工总结发现新的句型特征,并人工标注加入到语料库中;另外,还可以在所述待处理语句未在预先设置的语料库中被标注,根据公式:确定待处理语句中各实体的不确定值;其中,IEk为第k个实体的不确定值;kstart为第k个实体的实体标记的开始位置;kend为第k个实体的实体标记的尾部位置;为待处理语句中s位置的文字对应第j个实体标记的概率。
例如,“双侧肺修补术的注意事项?”,实体标记序列为“O O B I I E O OOOOO”,位置序列为“0 1 2 3 4 5 6 7 8 9 10 11”,看出实体为肺修补术,位置为“2 3 4 5”,因此,Kstart为2,Kend为5。
将待处理语句中不确定值为1的实体与预先设置的诊疗本体库匹配,若匹配成功,则将匹配成功的实体的实体标记进行保存。
确定待处理语句的预测置信度和字典匹配标记的实体比例。
将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中,以进行语料库更新。
其中,所述预测置信度为待处理语句中各文字对应的标记概率的乘积。
所述字典匹配标记的实体比例为:其中,C为待处理语句中预测出的实体总数中出现在预设字典中的实体数;B为待处理语句中预测出的实体总数。
可见,通过语料库的更新,可以实现实体识别所需语料数据利用半监督自学习方法,实现语料库不断丰富,解决了语料库数目不足、不完整的问题。
本发明实施例提供的一种面向多数据源的诊疗类实体识别方法,首先,获取原始数据中的待处理语句;将所述待处理语句进行单字切分,确定待处理语句中的每个文字;根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;然后,根据预先设置的诊疗类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组诊疗类候选实体和第二组诊疗类候选实体;若第一组诊疗类候选实体和第二组诊疗类候选实体不相同,根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果。本发明将条件随机场CRF统计机器学习方法与术语切分方法相结合,能够自动识别诊疗类实体,克服了当前的实体识别的数据源较为单一,实体识别不准确的问题。
对应于上述图1、图2和图3所示的方法实施例,如图4所示,本发明实施例提供一种面向多数据源的诊疗类实体识别装置,包括:
待处理语句获取单元31,用于获取原始数据中的待处理语句。
单字切分单元32,用于将所述待处理语句进行单字切分,确定待处理语句中的每个文字。
实体标记序列确定单元33,用于根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列。
第一组候选实体确定单元34,用于根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体。
第二组候选实体确定单元35,用于根据预先设置的诊疗类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体。
候选实体筛选单元36,用于根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组诊疗类候选实体和第二组诊疗类候选实体。
诊疗类实体结果确定单元37,用于在第一组诊疗类候选实体和第二组诊疗类候选实体不相同时,根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果。
具体的,如图5所示,所述诊疗类实体结果确定单元37,包括:
术语切分判断模块371,用于确定待处理语句在进行术语切分时,是否通过预先设置的切分规则进行切分。
诊疗类实体结果确定模块372,用于在待处理语句在进行术语切分时,通过预先设置的切分规则进行切分,则选择所述第二组诊疗类候选实体中的候选实体作为诊疗类实体结果;在待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述第一组诊疗类候选实体中的候选实体作为诊疗类实体结果。
所述诊疗类实体结果确定模块372,还用于确定来源于相同待处理语句的原始字符串的第一组诊疗类候选实体和第二组诊疗类候选实体中,实体个数少,且实体包含的字符数多的一组实体作为诊疗类实体结果;所述诊疗类实体结果中的实体类型包括手术操作实体、辅助检查实体和其他类诊疗实体。
实体类型确定模块373,用于在所述第一组诊疗类候选实体和第二组诊疗类候选实体中相对应的实体的实体类型不一致时,识别所述相对应的实体末尾字符串所表示的术语,并根据所述末尾字符串所表示的术语确定所述相对应的实体的实体类型;在未成功识别所述相对应的实体末尾字符串所表示的术语时,选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。
具体的,所述待处理语句获取单元31中的原始数据包括结构化数据;所述结构化数据包括结算单数据、门诊处置数据、门诊检查检验数据、住院手术记录数据、住院处置数据、住院检查检验数据、电子病历数据、手术操作知识库及文献库数据。
进一步的,如图5所示,所述实体标记序列确定单元33,包括:
CRF统计特征值提取模块331,用于从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值;所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别;所述CRF统计特征值包括每个文字在各语句中的分词特征值、词性特征值、字符特征值、上下文特征值以及术语表特征值。
训练模型确定模块332,用于根据每个字在各语句中的CRF统计特征值,确定一训练模型;所述训练模型为:
实体标记计算模块333,用于根据所述训练模型,计算待处理语句中的每个文字的实体标记yj
实体标记序列确定模块334,用于将每个文字的实体标记进行组合,形成待处理语句的实体标记序列;其中,x表示所述待处理语句;yj表示待处理语句中j位置对应的文字的实体标记;fi(yj,yj-1,x)表示待处理语句中分词特征i的函数值;λi为模型参数;m表示分词特征的个数;n表示待处理语句中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在待处理语句中的标记概率。
此外,所述第一组候选实体确定单元34,具体用于:
在实体标记序列中确定各文字对应的分词特征值,并根据所述分词特征值确定待处理语句的第一组候选实体。
进一步的,如图5所示,所述的面向多数据源的诊疗类实体识别装置,还包括语料库更新单元38用于:
在所述待处理语句未在预先设置的语料库中被标注,根据公式:确定待处理语句中各实体的不确定值;其中,IEk为第k个实体的不确定值;kstart为第k个实体的实体标记的开始位置;kend为第k个实体的实体标记的尾部位置;为待处理语句中s位置的文字对应第j个实体标记的概率。
将待处理语句中不确定值为1的实体与预先设置的诊疗本体库匹配,在匹配成功时,将匹配成功的实体的实体标记进行保存。
确定待处理语句的预测置信度和字典匹配标记的实体比例。
将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中,以进行语料库更新。
其中,所述预测置信度为待处理语句中各文字对应的标记概率的乘积。
所述字典匹配标记的实体比例为:其中,C为待处理语句中预测出的实体总数中出现在预设字典中的实体数;B为待处理语句中预测出的实体总数。
此外,如图5所示,所述第二组候选实体确定单元35,包括:
预处理模块351,用于将待处理语句中的标点符号转换为半角,并将英文字母统一为大写英文字母;调用预先设置的非医学术语表,检查待处理语句中的原始字符串是否存在非医学术语表中的术语,并将待处理语句中存在的非医学术语表中的术语删除,形成预处理后的待处理语句。
诊疗本体库匹配模块352,用于将预处理后的待处理语句采用逆向最大匹配原则与预先设置的诊疗本体库中的标准术语名称或同义词进行匹配,将预处理后的待处理语句中与标准术语名称或同义词相匹配的字符串作为初步实体抽出,并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型。
实体重新筛选模块353,用于在待处理语句中所述初步实体之前相邻接有用于表示方位的字符串时,将用于表示方位的字符串与所述初步实体作为整体抽出,形成重新筛选实体;在待处理语句中所述初步实体之前相邻接有用于表示解剖部位的字符串,将用于表示解剖部位的字符串与所述初步实体作为整体抽出,形成重新筛选实体;在待处理语句中所述初步实体之后相邻接有表示带有预设符号的词汇的字符串时,将表示带有预设符号的词汇的字符串与所述初步实体作为整体抽出,形成重新筛选实体。
第二组候选实体确定模块354,用于将待处理语句中的各重新筛选实体的组合作为所述第二组候选实体。
此外,如图5所示,所述候选实体筛选单元36,包括:
非诊疗术语字符判断模块361,用于判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非诊疗术语字符。
候选实体舍弃模块362,用于在各候选实体的末尾字符为预先设置的非诊疗术语字符时,将所述候选实体舍弃。
值得说明的是,本发明实施例提供的一种面向多数据源的诊疗类实体识别装置的具体实现方式可以参见上述的方法实施例,此处不再赘述。
本发明实施例提供的一种面向多数据源的诊疗类实体识别装置,首先,获取原始数据中的待处理语句;将所述待处理语句进行单字切分,确定待处理语句中的每个文字;根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;然后,根据预先设置的诊疗类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组诊疗类候选实体和第二组诊疗类候选实体;若第一组诊疗类候选实体和第二组诊疗类候选实体不相同,根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果。本发明将条件随机场CRF统计机器学习方法与术语切分方法相结合,能够自动识别诊疗类实体,克服了当前的实体识别的数据源较为单一,实体识别不准确的问题。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (16)

1.一种面向多数据源的诊疗类实体识别方法,其特征在于,包括:
获取原始数据中的待处理语句;
将所述待处理语句进行单字切分,确定待处理语句中的每个文字;
根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;
根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;
根据预先设置的诊疗类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;
根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组诊疗类候选实体和第二组诊疗类候选实体;
若第一组诊疗类候选实体和第二组诊疗类候选实体不相同,根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果。
2.根据权利要求1所述的面向多数据源的诊疗类实体识别方法,其特征在于,所述根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果,包括:
确定待处理语句在进行术语切分时,是否通过预先设置的切分规则进行切分;
若待处理语句在进行术语切分时,通过预先设置的切分规则进行切分,则选择所述第二组诊疗类候选实体中的候选实体作为诊疗类实体结果;
若待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述第一组诊疗类候选实体中的候选实体作为诊疗类实体结果;
或者,确定来源于相同待处理语句的原始字符串的第一组诊疗类候选实体和第二组诊疗类候选实体中,实体个数少,且实体包含的字符数多的一组实体作为诊疗类实体结果;
所述诊疗类实体结果中的实体类型包括手术操作实体、辅助检查实体和其他类诊疗实体;
在所述第一组诊疗类候选实体和第二组诊疗类候选实体中相对应的实体的实体类型不一致时,识别所述相对应的实体末尾字符串所表示的术语,并根据所述末尾字符串所表示的术语确定所述相对应的实体的实体类型;
若未成功识别所述相对应的实体末尾字符串所表示的术语,则选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。
3.根据权利要求2所述的面向多数据源的诊疗类实体识别方法,其特征在于,所述原始数据包括结构化数据;所述结构化数据包括结算单数据、门诊处置数据、门诊检查检验数据、住院手术记录数据、住院处置数据、住院检查检验数据、电子病历数据、手术操作知识库及文献库数据。
4.根据权利要求3所述的面向多数据源的诊疗类实体识别方法,其特征在于,根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列,包括:
从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值;所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别;所述CRF统计特征值包括每个文字在各语句中的分词特征值;
根据每个字在各语句中的CRF统计特征值,确定一训练模型;所述训练模型为:
根据所述训练模型,计算待处理语句中的每个文字的实体标记yj
将每个文字的实体标记进行组合,形成待处理语句的实体标记序列;其中,x表示所述待处理语句;yj表示待处理语句中j位置对应的文字的实体标记;fi(yj,yj-1,x)表示待处理语句中分词特征i的函数值;λi为模型参数;m表示分词特征的个数;n表示待处理语句中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在待处理语句中的标记概率。
5.根据权利要求4所述的面向多数据源的诊疗类实体识别方法,其特征在于,根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体,包括:
在实体标记序列中确定各文字对应的分词特征值,并根据所述分词特征值确定待处理语句的第一组候选实体。
6.根据权利要求5所述的面向多数据源的诊疗类实体识别方法,其特征在于,还包括:
在所述待处理语句未在预先设置的语料库中被标注,根据公式:确定待处理语句中各实体的不确定值;其中,IEk为第k个实体的不确定值;kstart为第k个实体的实体标记的开始位置;kend为第k个实体的实体标记的尾部位置;为待处理语句中s位置的文字对应第j个实体标记的概率;
将待处理语句中不确定值为1的实体与预先设置的诊疗本体库匹配,若匹配成功,则将匹配成功的实体的实体标记进行保存;
确定待处理语句的预测置信度和字典匹配标记的实体比例;
将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中,以进行语料库更新;
其中,所述预测置信度为待处理语句中各文字对应的标记概率的乘积;
所述字典匹配标记的实体比例为:其中,C为待处理语句中预测出的实体总数中出现在预设字典中的实体数;B为待处理语句中预测出的实体总数。
7.根据权利要求6所述的面向多数据源的诊疗类实体识别方法,其特征在于,根据预先设置的诊疗类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体,包括:
将待处理语句中的标点符号转换为半角,并将英文字母统一为大写英文字母;
调用预先设置的非医学术语表,检查待处理语句中的原始字符串是否存在非医学术语表中的术语,并将待处理语句中存在的非医学术语表中的术语删除,形成预处理后的待处理语句;
将预处理后的待处理语句采用逆向最大匹配原则与预先设置的诊疗本体库中的标准术语名称或同义词进行匹配,将预处理后的待处理语句中与标准术语名称或同义词相匹配的字符串作为初步实体抽出,并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型;
若在待处理语句中所述初步实体之前相邻接有用于表示方位的字符串,则将用于表示方位的字符串与所述初步实体作为整体抽出,形成重新筛选实体;
若在待处理语句中所述初步实体之前相邻接有用于表示解剖部位的字符串,则将用于表示解剖部位的字符串与所述初步实体作为整体抽出,形成重新筛选实体;
若在待处理语句中所述初步实体之后相邻接有表示带有预设符号的词汇的字符串,则将表示带有预设符号的词汇的字符串与所述初步实体作为整体抽出,形成重新筛选实体;
将待处理语句中的各重新筛选实体的组合作为所述第二组候选实体。
8.根据权利要求7所述的面向多数据源的诊疗类实体识别方法,其特征在于,根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组诊疗类候选实体和第二组诊疗类候选实体,包括:
判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非诊疗术语字符;
若各候选实体的末尾字符为预先设置的非诊疗术语字符,将所述候选实体舍弃。
9.一种面向多数据源的诊疗类实体识别装置,其特征在于,包括:
待处理语句获取单元,用于获取原始数据中的待处理语句;
单字切分单元,用于将所述待处理语句进行单字切分,确定待处理语句中的每个文字;
实体标记序列确定单元,用于根据预先训练完成的CRF训练模型,确定待处理语句中的每个文字在待处理语句中的实体标记,并确定待处理语句的实体标记序列;
第一组候选实体确定单元,用于根据待处理语句的实体标记序列,确定待处理语句的第一组候选实体;
第二组候选实体确定单元,用于根据预先设置的诊疗类术语切分策略,对所述待处理语句进行术语切分,确定第二组候选实体;
候选实体筛选单元,用于根据第一组候选实体和第二组候选实体中各候选实体的末尾字符,对各候选实体进行筛选,分别形成第一组诊疗类候选实体和第二组诊疗类候选实体;
诊疗类实体结果确定单元,用于在第一组诊疗类候选实体和第二组诊疗类候选实体不相同时,根据预先设置的判断策略从第一组诊疗类候选实体和第二组诊疗类候选实体中确定诊疗类实体结果。
10.根据权利要求9所述的面向多数据源的诊疗类实体识别装置,其特征在于,所述诊疗类实体结果确定单元,包括:
术语切分判断模块,用于确定待处理语句在进行术语切分时,是否通过预先设置的切分规则进行切分;
诊疗类实体结果确定模块,用于在待处理语句在进行术语切分时,通过预先设置的切分规则进行切分,则选择所述第二组诊疗类候选实体中的候选实体作为诊疗类实体结果;在待处理语句在进行术语切分时,未通过预先设置的切分规则进行切分,则选择所述第一组诊疗类候选实体中的候选实体作为诊疗类实体结果;
所述诊疗类实体结果确定模块,还用于确定来源于相同待处理语句的原始字符串的第一组诊疗类候选实体和第二组诊疗类候选实体中,实体个数少,且实体包含的字符数多的一组实体作为诊疗类实体结果;所述诊疗类实体结果中的实体类型包括手术操作实体、辅助检查实体和其他类诊疗实体;
实体类型确定模块,用于在所述第一组诊疗类候选实体和第二组诊疗类候选实体中相对应的实体的实体类型不一致时,识别所述相对应的实体末尾字符串所表示的术语,并根据所述末尾字符串所表示的术语确定所述相对应的实体的实体类型;在未成功识别所述相对应的实体末尾字符串所表示的术语时,选择第二组候选实体中的实体的实体类型作为所述相对应的实体的实体类型。
11.根据权利要求10所述的面向多数据源的诊疗类实体识别装置,其特征在于,所述待处理语句获取单元中的原始数据包括结构化数据;所述结构化数据包括结算单数据、门诊处置数据、门诊检查检验数据、住院手术记录数据、住院处置数据、住院检查检验数据、电子病历数据、手术操作知识库及文献库数据。
12.根据权利要求11所述的面向多数据源的诊疗类实体识别装置,其特征在于,所述实体标记序列确定单元,包括:
CRF统计特征值提取模块,用于从预先设置的语料库中提取待处理语句中的每个文字的CRF统计特征值;所述预先设置的语料库中记录有原始数据中各语句、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别;所述CRF统计特征值包括每个文字在各语句中的分词特征值;
训练模型确定模块,用于根据每个字在各语句中的CRF统计特征值,确定一训练模型;所述训练模型为:
实体标记计算模块,用于根据所述训练模型,计算待处理语句中的每个文字的实体标记yj
实体标记序列确定模块,用于将每个文字的实体标记进行组合,形成待处理语句的实体标记序列;其中,x表示所述待处理语句;yj表示待处理语句中j位置对应的文字的实体标记;fi(yj,yj-1,x)表示待处理语句中分词特征i的函数值;λi为模型参数;m表示分词特征的个数;n表示待处理语句中的文字位置个数;Z(x)表示归一化因子;p(y|x)表示文字在待处理语句中的标记概率。
13.根据权利要求12所述的面向多数据源的诊疗类实体识别装置,其特征在于,所述第一组候选实体确定单元,具体用于:
在实体标记序列中确定各文字对应的分词特征值,并根据所述分词特征值确定待处理语句的第一组候选实体。
14.根据权利要求13所述的面向多数据源的诊疗类实体识别装置,其特征在于,还包括语料库更新单元,用于:
在所述待处理语句未在预先设置的语料库中被标注,根据公式:确定待处理语句中各实体的不确定值;其中,IEk为第k个实体的不确定值;kstart为第k个实体的实体标记的开始位置;kend为第k个实体的实体标记的尾部位置;为待处理语句中s位置的文字对应第j个实体标记的概率;
将待处理语句中不确定值为1的实体与预先设置的诊疗本体库匹配,在匹配成功时,将匹配成功的实体的实体标记进行保存;
确定待处理语句的预测置信度和字典匹配标记的实体比例;
将预测置信度大于预设置信度阈值和字典匹配标记的实体比例大于预设比例阈值的待处理语句加入到所述语料库中,以进行语料库更新;
其中,所述预测置信度为待处理语句中各文字对应的标记概率的乘积;
所述字典匹配标记的实体比例为:其中,C为待处理语句中预测出的实体总数中出现在预设字典中的实体数;B为待处理语句中预测出的实体总数。
15.根据权利要求14所述的面向多数据源的诊疗类实体识别装置,其特征在于,所述第二组候选实体确定单元,包括:
预处理模块,用于将待处理语句中的标点符号转换为半角,并将英文字母统一为大写英文字母;调用预先设置的非医学术语表,检查待处理语句中的原始字符串是否存在非医学术语表中的术语,并将待处理语句中存在的非医学术语表中的术语删除,形成预处理后的待处理语句;
诊疗本体库匹配模块,用于将预处理后的待处理语句采用逆向最大匹配原则与预先设置的诊疗本体库中的标准术语名称或同义词进行匹配,将预处理后的待处理语句中与标准术语名称或同义词相匹配的字符串作为初步实体抽出,并将所述标准术语名称或同义词所对应的术语类型作为所述初步实体的实体类型;
实体重新筛选模块,用于在待处理语句中所述初步实体之前相邻接有用于表示方位的字符串时,将用于表示方位的字符串与所述初步实体作为整体抽出,形成重新筛选实体;在待处理语句中所述初步实体之前相邻接有用于表示解剖部位的字符串,将用于表示解剖部位的字符串与所述初步实体作为整体抽出,形成重新筛选实体;在待处理语句中所述初步实体之后相邻接有表示带有预设符号的词汇的字符串时,将表示带有预设符号的词汇的字符串与所述初步实体作为整体抽出,形成重新筛选实体;
第二组候选实体确定模块,用于将待处理语句中的各重新筛选实体的组合作为所述第二组候选实体。
16.根据权利要求15所述的面向多数据源的诊疗类实体识别装置,其特征在于,所述候选实体筛选单元,包括:
非诊疗术语字符判断模块,用于判断第一组候选实体和第二组候选实体中各候选实体的末尾字符是否为预先设置的非诊疗术语字符;
候选实体舍弃模块,用于在各候选实体的末尾字符为预先设置的非诊疗术语字符时,将所述候选实体舍弃。
CN201710101829.4A 2017-02-24 2017-02-24 面向多数据源的诊疗类实体识别方法及装置 Active CN107122582B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710101829.4A CN107122582B (zh) 2017-02-24 2017-02-24 面向多数据源的诊疗类实体识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710101829.4A CN107122582B (zh) 2017-02-24 2017-02-24 面向多数据源的诊疗类实体识别方法及装置

Publications (2)

Publication Number Publication Date
CN107122582A CN107122582A (zh) 2017-09-01
CN107122582B true CN107122582B (zh) 2019-12-06

Family

ID=59717193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710101829.4A Active CN107122582B (zh) 2017-02-24 2017-02-24 面向多数据源的诊疗类实体识别方法及装置

Country Status (1)

Country Link
CN (1) CN107122582B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107808124B (zh) * 2017-10-09 2019-03-26 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法及存储介质
CN110020005B (zh) * 2019-03-28 2021-03-26 云知声(上海)智能科技有限公司 一种病历中主诉和现病史中症状匹配方法
CN111062401A (zh) * 2019-09-27 2020-04-24 商汤国际私人有限公司 堆叠物体的识别方法及装置、电子设备和存储介质
CN113505599B (zh) * 2021-09-10 2021-12-07 北京惠每云科技有限公司 病历文书中实体概念的提取方法、装置及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1601520A (zh) * 2003-09-24 2005-03-30 国际商业机器公司 识别文本文档中的有机化学名称的系统和方法
CN104899304A (zh) * 2015-06-12 2015-09-09 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN105988989A (zh) * 2015-02-26 2016-10-05 阿里巴巴集团控股有限公司 一种汉语姓氏的识别方法、装置及服务器
CN106066866A (zh) * 2016-05-26 2016-11-02 同方知网(北京)技术有限公司 一种英文文献关键短语自动抽取方法与系统
CN106383814A (zh) * 2016-09-13 2017-02-08 电子科技大学 一种英文社交媒体短文本分词方法
CN106445921A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用二次互信息的中文文本术语抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110035210A1 (en) * 2009-08-10 2011-02-10 Benjamin Rosenfeld Conditional random fields (crf)-based relation extraction system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1601520A (zh) * 2003-09-24 2005-03-30 国际商业机器公司 识别文本文档中的有机化学名称的系统和方法
CN105988989A (zh) * 2015-02-26 2016-10-05 阿里巴巴集团控股有限公司 一种汉语姓氏的识别方法、装置及服务器
CN104899304A (zh) * 2015-06-12 2015-09-09 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN106066866A (zh) * 2016-05-26 2016-11-02 同方知网(北京)技术有限公司 一种英文文献关键短语自动抽取方法与系统
CN106383814A (zh) * 2016-09-13 2017-02-08 电子科技大学 一种英文社交媒体短文本分词方法
CN106445921A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用二次互信息的中文文本术语抽取方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
The Symptoms and Pathogenesis Entity Recognition of TCM Medical Records;Liu Honglan 等;《UIC-ATC-ScalCom-CBDCom-IoP 2015》;20150814;1479-1484 *
一种改进的TFIDF网页关键词提取方法;李静月 等;《计算机应用与软件》;20110531;第28卷(第5期);25-27 *
中文分词模型的领域适应性方法;韩冬煦,常宝宝;《计算机学报》;20150228;第38卷(第2期);272-281 *
基于堆积策略的电子病历实体识别;邓本洋 等;《智能计算机与应用》;20140228;第4卷(第1期);69-71、74 *
基于条件随机场的学术期刊中理论的自动识别方法;陈锋 等;《图书情报工作》;20160131;第60卷(第2期);122-128 *
基于高校网站内容的实体抽取研究;崔梦娇 等;《北京信息科技大学学报》;20161031;第31卷(第5期);92-96 *

Also Published As

Publication number Publication date
CN107122582A (zh) 2017-09-01

Similar Documents

Publication Publication Date Title
CN106844351B (zh) 一种面向多数据源的医疗机构组织类实体识别方法及装置
CN111274806B (zh) 分词和词性识别方法、装置及电子病历的分析方法、装置
CN110705293A (zh) 基于预训练语言模型的电子病历文本命名实体识别方法
CN108628824A (zh) 一种基于中文电子病历的实体识别方法
CN106919794B (zh) 面向多数据源的药品类实体识别方法及装置
CN112597774B (zh) 中文医疗命名实体识别方法、系统、存储介质和设备
CN109710925A (zh) 命名实体识别方法及装置
WO2021151353A1 (zh) 医学实体关系抽取方法、装置、计算机设备及可读存储介质
CN107122582B (zh) 面向多数据源的诊疗类实体识别方法及装置
CN110335653B (zh) 基于openEHR病历格式的非标准病历解析方法
CN106874643A (zh) 基于词向量自动构建知识库实现辅助诊疗的方法和系统
CN112541066B (zh) 基于文本结构化的医技报告检测方法及相关设备
CN109003677B (zh) 病历数据结构化分析处理方法
Schmidt et al. Data mining in clinical trial text: Transformers for classification and question answering tasks
CN111191456B (zh) 一种使用序列标注进行识别文本分段的方法
CN114913953B (zh) 医学实体关系的识别方法、装置、电子设备及存储介质
CN110675962A (zh) 一种基于机器学习和文本规则的中药药理作用识别方法及系统
CN111597789A (zh) 一种电子病历文本的评估方法及设备
CN115130465A (zh) 文献数据集上知识图谱实体标注错误识别方法和系统
CN106933802B (zh) 一种面向多数据源的社保类实体识别方法及装置
CN109036506A (zh) 互联网医疗问诊的监管方法、电子装置及可读存储介质
Wang et al. Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model
CN111767743B (zh) 翻译试题的机器智能评阅方法及系统
CN106933803B (zh) 一种面向多数据源的医疗器材类实体识别方法及装置
Kivotova et al. Extracting clinical information from chest X-ray reports: A case study for Russian language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200114

Address after: 100027 Chaoyang District Xinyuan 16, Beijing 14 floor 2 12B06

Co-patentee after: Harbin Institute of Technology

Patentee after: Yi Bao Interconnected Medical Information Technology (Beijing) Co., Ltd.

Address before: 150000 Heilongjiang Province, Harbin City Economic Development Zone haping Road District Road No. 9 China Songhua Valley Software Park Building 1, room 214

Co-patentee before: Harbin Institute of Technology

Patentee before: Heilongjiang Teshi Information Technology Co. Ltd.