CN109522338A

CN109522338A - 临床术语挖掘方法、装置、电子设备及计算机可读介质

Info

Publication number: CN109522338A
Application number: CN201811332118.9A
Authority: CN
Inventors: 田振华
Original assignee: Tianjin Xinkai Life Technology Co Ltd; Tianjin Happy Life Technology Co Ltd
Current assignee: Tianjin Xinkai Life Technology Co Ltd; Tianjin Happy Life Technology Co Ltd
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2019-03-26
Anticipated expiration: 2038-11-09
Also published as: CN109522338B

Abstract

本发明涉及一种临床术语挖掘方法、装置、电子设备及计算机可读介质。该方法包括：对待处理数据进行分类，并根据分类后数据进行采样得到采样样本，其中待处理数据中包括临床病例文本；通过载入术语词典、知识规则和约束以及进行模板抽取与术语抽取，并根据采样样本和种子词按照预设算法对术语词典进行迭代更新；判断是否满足迭代终止条件，如果满足迭代终止条件，则终止迭代，得到挖掘出的术语词表，并将术语词表添加到术语词典中。本发明针对临床术语挖掘任务，对模板的评分方法、种子词的扩充方法、模板的生成方法、规则冲突的消解方法、人工交互和校对进行改进，相比于经典算法在临床术语挖掘任务上能取得更好的效果。

Description

临床术语挖掘方法、装置、电子设备及计算机可读介质

技术领域

本发明涉及医疗信息处理领域，具体而言，涉及一种临床术语挖掘方法、装置、电子设备及计算机可读介质。

背景技术

目前，各大医院均采用电子病历代理传统手写病历，电子病历记录了海量真实而丰富的临床数据，是临床医生长期实践和经验的总结，可用于支持临床辅助决策、流行病学统计、临床科研和药物研发等。

然而电子病历中仍然存在大量基于自然语言的非结构化文本，这部分数据要能被计算机利用和理解应用，需要基于临床自然语言处理进行结构化信息抽取。另一方面，不同医院、不同学科、不同医生对于病历和临床术语的记录，在表达方式和书写习惯上也会有不同，给病历信息抽取带来挑战。传统经典的信息抽取任务一般分为命名术语识别和术语关系识别两个步骤。

例如，目前采用命名术语挖掘和识别的经典方法对电子病历进行信息提取，主要有以下几类：

1.基于词表的方法：其中词表的挖掘主要来源于教科书、专业词典、医学标准术语体系(如ICD9、Mesh、SnomedCT)、医疗垂直网站等。然而，基于上述来源的医学术语，与真实电子病历中的临床术语存在较大的差异，在术语覆盖面、层次粒度等方面都存在严重不足。

2.词表与人工规则结合的方法：人工规则的优势是效率高、简洁可解释，抽取准确率高。然而，人工规则是依赖小样本分析和人工经验的总结，难以分析大规模样本，存在覆盖率不足的问题；另外，大规模真实临床数据的处理，必然要面对跨医院跨病种的临床数据，数据分布和领域的差异可能导致人工规则出现错误和失配。

3.基于模型的机器学习的方法：该方法主要把命名术语识别任务建模成序列预测问题，采用条件随机场(CRF)、循环神经网络(RNN)、长短期记忆网络(LSTM)等序列标注模型识别术语的开始和结束边界。该方法的优势是在独立同分布的任务和数据上，拥有较好的泛化性能。在满足条件的多个任务和数据集上，机器学习都取得了比人工规则更好的效果。然而，基于机器学习的方法一方面依赖大量标注数据，另一方面面对跨医院跨病种(非独立同分布)的真实临床数据存在泛化推广性问题。此外，目前主流的机器学习术语识别方法，准确率大多在90％左右，还不足以满足严谨精准为特点的临床学科需求。

综上所述，现有实施例中提供的方法仍然存在一定缺陷，如：传统的基于词典的方法，由于术语的来源和规范性，难以覆盖真实临床数据，层次粒度不足。人工规则难以分析海量数据，存在覆盖率不足问题；此外，人工规则在新数据集上，需要不断重复总结新的适配规则。基于模型的机器学习的方法应用也存在挑战和瓶颈，首先是真实临床数据存在跨医院跨病种的特点，泛化推广性能存在挑战；其次，医疗数据标注依赖专家知识，导致标注成本高、标注效率低、标注质量和一致性难以保障，使得大规模训练数据获取困难；同时，目前主流学习方法的效果指标，也难以达到医学要求的精准性要求。

因此，需要一种新的临床术语挖掘方法、装置、电子设备及计算机可读介质。

在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本发明提供一种临床术语挖掘方法、装置、电子设备及计算机可读介质，能够提高相关医学术语向标准表的对应成功率和准确率，减少人工标注量。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明的一方面，提出一种临床术语挖掘方法，该方法包括：对待处理数据进行分类，并根据分类后数据进行采样得到采样样本，其中所述待处理数据中包括临床病例文本；通过载入术语词典、知识规则和约束以及进行模板抽取与术语抽取，并根据所述采样样本和种子词按照预设算法对所述术语词典进行迭代更新；以及判断是否满足迭代终止条件，如果满足所述迭代终止条件，则终止迭代，得到挖掘出的术语词表，并将所述术语词表添加到所述术语词典中。

在本发明的一种示例性实施例中，还包括：对待处理数据进行分类之前，还包括：

对所述待处理数据进行预处理。

在本发明的一种示例性实施例中，对所述待处理数据进行预处理包括：

对所述临床病例文本中的非法字符进行清理和替换；对所述临床病例文本进行规范化处理；对所述临床病例文本进行片段切分、去重和频次统计。

在本发明的一种示例性实施例中，所述临床术语文本中包括简单文本和复杂文本，所述对待处理数据进行分类包括：

对所述简单文本按照不同字段来源进行分类；对所述复杂文本进行切分得到文本片段，对所述文本片段按照预设规则或分类器进行分类。

在本发明的一种示例性实施例中，根据所述采样样本和种子词按照预设算法对所述术语词典进行迭代更新包括：

获取初始化术语词典，所述初始化术语词典为包含初始术语的词典；判断目标类型术语词是否出现在所述初始化术语词典中，如果所述目标类型术语词出现在所述初始化术语词典中，则复用所述种子词作为启动的种子词；如果所述目标类型术语词未出现在所述初始化术语词典中，则根据所述采样样本分析并生成代表性种子词；根据所述知识规则和约束进行所述模板抽取和所述术语抽取。

在本发明的一种示例性实施例中，所述模板抽取包括：

使用指定来源和分类的文本字段的代表性样本作为输入，使用目标类型种子词、所述知识规则和约束统计分析上下文；

对分析后的所述上下文进行频繁模式挖掘；

对挖掘所得频繁模式进行分组和冲突消解，生成所述抽取模板；

对所述抽取模板进行综合加权，输出加权得分最高的抽取模板完成模板抽取。

在本发明的一种示例性实施例中，所述术语抽取包括：

使用指定来源和分类的文本字段的全部样本作为输入，使用所述得分最高的抽取模板抽取候选术语词；

对候选术语词进行综合打分；

输出打分最高的术语词完成术语抽取。

在本发明的一种示例性实施例中，所述迭代终止条件为以下任一情况：

种子词数量高于第一预设数量；或迭代次数超过预设次数；或新增有效术语的数量低于第二预设数量。

在本发明的一种示例性实施例中，判断是否满足迭代终止条件还包括：

如果不满足所述迭代终止条件，且所述种子词数量少于阈值，则增量标注和添加头部术语作为种子词表，更新所述术语词典后作为所述初始化术语词典进行迭代；如果不满足所述迭代终止条件，且更新所述规则和约束。

在本发明的一种示例性实施例中，还包括：

对所述采样样本随机选取部分进行人工标注生成评估集合；根据所述术语词表在所述评估集合中计算准确率和召回率；如果所述准确率和所述召回率均未达到预设标准，则基于全量标注的术语更新所述术语词表；如果所述准确率和所述召回率均已达到所述预设标准，则终止挖掘。

根据本发明的一方面，提出一种临床术语挖掘装置，该装置包括：分类模块，用于对待处理数据进行分类，并根据分类后数据进行采样得到采样样本，其中所述待处理数据中包括临床病例文本；更新模块，用于通过载入术语词典、知识规则和约束以及进行模板抽取与术语抽取，并根据所述采样样本和种子词按照预设算法对所述术语词典进行迭代更新；迭代终止模块，用于判断是否满足迭代终止条件，如果满足所述迭代终止条件，则终止迭代，得到挖掘出的术语词表，并将所述术语词表添加到所述术语词典中。

根据本发明的一方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上文的方法。

根据本发明的一方面，提出一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中的方法。

根据本发明的临床术语挖掘方法、装置、电子设备及计算机可读介质，将包含临床病例文本的待处理数据进行采样以及迭代，从而将从临床病例文本中挖掘的术语词表添加到术语词典中，通过直接在真实临床病历数据上挖掘临床术语，相比从教材、标准、专业词典等来源挖掘词典，能够保障术语覆盖率、一致性和丰富的层次粒度。由于基于大规模海量临床电子病历进行结构化信息抽取，提高临床术语识别的准确率和覆盖率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

通过参照附图详细描述其示例实施例，本发明的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种临床术语挖掘方法及装置的系统框图。

图2是根据一示例性实施例示出的一种临床术语挖掘方法的流程图。

图3是根据一示例性实施例中对临床病例文本进行预处理的步骤流程图。

图4是根据一示例性实施例中对临床病例文本进行分类的步骤流程图。

图5是根据一示例性实施例中图2中步骤S204的步骤流程图。

图6是根据一示例性实施例中模板抽取和评分的步骤流程图。

图7是根据一示例性实施例中术语抽取和评分的步骤流程图。

图8是根据一示例性实施例中挖掘效果评估的步骤流程图。

图9是根据一示例性实施例中提供的临床术语挖掘方法的流程图。

图10是根据一示例性实施例示出的一种临床术语挖掘装置的框图。

图11是根据一示例性实施例示出的一种电子设备的框图。

图12是根据一示例性实施例示出一种计算机可读存储介质示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本发明将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，虽然本文中可能使用术语第一、第二、第三等来描述各种组件，但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此，下文论述的第一组件可称为第二组件而不偏离本发明概念的教示。如本文中所使用，术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的，因此不能用于限制本发明的保护范围。

本发明主要术语的挖掘和识别这一步骤。临床病历中涉及的术语主要是临床术语，包括疾病名称、解剖部位、操作/手术、症状、药品、耗材、化疗方案等。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、搜索类应用、即时通信工具等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所提交的临床术语挖掘请求提供支持的后台管理服务器。后台管理服务器可以对接收到的临床术语挖掘请求等进行分析等处理，并将处理结果(例如词汇集合、待处理数据标签、或者编码后的编码号)反馈给终端设备。

服务器105可例如获取用户利用终端设备101、102、103传送的待处理数据，所述待处理数据中包括临床病例文本；服务器105可例如将所述待处理数据按照不同字段来源进行分类，并根据分类后数据进行采样得到采样样本；服务器105可例如根据所述采样样本和种子词按照预设算法对术语词典进行迭代更新；服务器105可例如判断是否满足迭代终止条件，如果满足所述迭代终止条件，则终止迭代，得到挖掘出的术语词表，并将所述术语词表添加到所述术语词典中。

服务器105可以是一个实体的服务器，还可例如为多个服务器组成，需要说明的是，本发明实施例所提供的临床术语挖掘方法可以由服务器105执行，相应地，临床术语挖掘装置可以设置于服务器105中。

图2是根据一示例性实施例示出的一种临床术语挖掘方法的流程图。临床术语挖掘方法至少包括步骤S202至S208。

如图2所示，在步骤S202中，对待处理数据进行分类，并根据分类后数据进行采样得到采样样本，其中所述待处理数据中包括临床病例文本。

如图2所示，在步骤S204中，通过载入术语词典、知识规则和约束以及进行模板抽取与术语抽取，并根据所述采样样本和种子词按照预设算法对术语词典进行迭代更新。

如图2所示，在步骤S206中，判断是否满足迭代终止条件，如果满足所述迭代终止条件，则终止迭代，得到挖掘出的术语词表，并将所述术语词表添加到所述术语词典中。

以下结合图2所示的流程图对本发明提供的数据处理方法进行详细介绍，具体如下：

在步骤S202中，对待处理数据进行分类，并根据分类后数据进行采样得到采样样本。

在本发明的一种示例性实施例中，所述待处理数据中包括临床病例文本。临床病历文本中涉及的术语主要是临床术语，包括疾病名称、解剖部位、操作/手术、症状、药品、耗材、化疗方案等。本实施例将包含临床病例文本的待处理数据进行采样以及迭代，从而将从临床病例文本中挖掘的术语词表添加到术语词典中，通过直接在真实临床病历数据上挖掘临床术语，相比从教材、标准、专业词典等来源挖掘词典，这样可以在结合语言和医学背景知识库的前提下，充分利用大量的真实临床数据本身蕴含的统计信息和隐含知识，能够保障术语覆盖率、一致性和丰富的层次粒度。

在本发明的一种示例性实施例中，在该步骤中对待处理数据进行分类之前，还包括：

对所述待处理数据进行预处理，即对临床病例文本进行预处理。

其中预处理主要是对临床病例文本进行规范化和去重统计，避免挖掘过程异常错误，降低挖掘过程的复杂性，提升挖掘效率和输出结果的一致性和规范性。图3示出对临床病例文本进行预处理的步骤流程图，具体包括以下步骤：

如图3所示，在步骤S302中，对所述临床病例文本中的非法字符进行清理和替换。该步骤首先对临床病例文本的字符编码统一成Unicode格式，以便于进行非法和特殊字符清理和替换；其中非法字符主要是指不可见字符，替换成空值或者对应物理含义或者格式可见字符；特殊字符处理包括项目编号符号统一成序号、全角字符转半角、连续制表符和空格约简。

如图3所示，在步骤S304中，对所述临床病例文本进行规范化处理。该步骤中对影响模式统计分析的临床病例文本进行规范化处理，例如对具体时间日期、数量单位、序号等变量进行统一类型词替换，缓解待挖掘模式的数据稀疏性，提升其统计显著性。

如图3所示，在步骤S306中，对所述临床病例文本进行片段切分、去重和频次统计。该步骤中可以根据实际需求以及临床病历重复模式化明显的特点，按段落、句子、子句等文本单元进行切分，并添加开始和结束保留字符。通过去重和频次统计大幅减少待挖掘文本数量和规模，提升挖掘算法的效率。

在本发明的一种示例性实施例中，考虑到文本来源的不同，数据分布的不同等因素，按照来源和类型对临床病例文本进行分类，有利于提升挖掘模式的一致性和效果。同时，不同术语类型天然来源于不同的病历字段，比如免疫组化主要来源于病理报告，过敏原现病史较为多见，物理检查是解剖词和病变词的主要来源，因此需要对预处理后的临床病例文本进行组织后再进行挖掘。

图4示出对临床病例文本进行分类的步骤流程图，由于临床病例文本中包括简单文本和复杂文本，具体包括以下步骤：

如图4所示，在步骤S402中，对所述简单文本按照不同字段来源进行分类。

如图4所示，在步骤S404中，对所述复杂文本进行切分得到文本片段，对所述文本片段按照预设规则或分类器进行分类。该步骤中还可以对文本片段进行聚类，然后根据分类/聚类后数据采样样本，进行下一步模式挖掘分析，提升效率。

在步骤S204中，通过载入术语词典、知识规则和约束以及进行模板抽取与术语抽取，并根据所述采样样本和种子词按照预设算法对术语词典进行迭代更新。

该步骤中针对Bootstrapping算法依赖种子词进行迭代，根据不同任务的不同阶段，加载和使用已有术语词典。

图5示出图2中步骤S204的步骤流程图，具体包括以下步骤：

如图5所示，在步骤S502中，获取初始化术语词典，所述初始化术语词典为包含初始术语的词典。

如图5所示，在步骤S504中，判断目标类型术语词是否出现在所述初始化术语词典中，如果所述目标类型术语词出现在所述初始化术语词典中，则复用所述种子词作为启动的种子词。同时考虑到对样本的适配，可以同时加入小样本分析种子词集。

如果所述目标类型术语词未出现在所述初始化术语词典中，则根据人工经验或者所述采样样本分析并生成代表性种子词，其中人工经验可以是专家知识、教科书术语摘录等；而小样本分析则是通过对少量采样样本进行人工快速分析和提取产出。

通过医学背景知识、后验数据分析，可发现目标类型常与其他特定类型词有相近的上下文，或者抽取时有类与子类区分抽取的需求，此处通过配置指定加载其它类型的术语词，作为模板抽取评分辅助。

如图5所示，在步骤S506中，根据知识规则和约束进行模板抽取和术语抽取。

该载入初始化术语词典后，在该步骤中根据知识规则和约束进行模板抽取和术语抽取，通过对临床病例文本中的属于进行挖掘，实现术语词典的更新。

由于模板抽取的效果很大程度上依赖高质量针对性的文本来源，以及对术语上下文和术语内容的约束。本实施实例引入以下可迭代可维护的知识规则，提升模板挖掘的质量和效率，具体包括以下方面：

1)待挖掘目标类型术语与文本字段来源和分类；参考对临床病例文本分类的步骤的介绍，具体的家族史疾病挖掘，主要使用家族史文本，免疫组化主要使用病理报告，化疗方案挖掘使用现病史文本等等。

2)术语最小最大长度：用来限制候选词文本窗口的大小，提升挖掘效率和避免过短过长无意义术语词输出。

3)术语内部禁止词表：一般为标点符号、停用词、类型词、核心词和人工规则可总结的上下文字词等。

4)术语上下文禁止词表：目标类型术语词的前缀、后缀、核心主题词等。

5)待统计上下文模板窗口大小。

6)待排除的术语类型规则：常见诊断、手术、药品、解剖等前缀后缀规则。

在本发明的一种示例性实施例中，步骤S204中载入知识规则和约束之后，还包括模板提取和评分以及术语提取和评分。

其中模板质量的好坏，直接关系到最终的效果，图6示出模板抽取和评分的步骤流程图，具体包括以下步骤：

如图6所示，在步骤S602中，使用指定来源和分类的文本字段的代表性样本作为输入，使用目标类型种子词、结合图5所示的知识规则和约束，统计分析上下文；其中选用代表性样本以及约束规则，可以有效提升挖掘匹配的质量和效率。

如图6所示，在步骤S604中，对上下文进行频繁模式挖掘(Frequent PatternMining)。通过直接上下文抽取得到的模板，过于复杂、可解释性差。同时模板过多，又会对下一步术语抽取的效率产生影响。更重要的是，模板数量多而复杂，必然带来更多的模板冲突问题，因此本实施方案主要结合经典的支持度和置信度统计，同时引入基于字典树和信息熵的剪枝算法，综合模板的术语类型纯度得分，综合加权进行筛选和简化。

如图6所示，在步骤S606中，对挖掘所得频繁模式进行分组和冲突消解，生成抽取模板。通过步骤S604生成的模板，仍然有数量较多和模板冲突问题。本实施实例中，首先按照模板上下文最内侧字符组合，对模板进行分组；对于相同分组和不同分组的模板，通过重叠挖掘算法和优先级排序，对模板的上下文进行聚合。通过分组和冲突消解，有效提升了模板匹配的效果和效率。

如图6所示，在步骤S608中，按抽取术语频次、数量、纯度等多个维度进行综合加权，输出本次迭代评分质量高的抽取模板。

图7示出术语抽取和评分的步骤流程图，具体包括以下步骤：

如图7所示，在步骤S702中，使用指定来源和分类的文本字段的全部样本作为输入，使用上述步骤S608中输出的抽取模板抽取候选术语词。

如图7所示，在步骤S704中，对候选术语词，综合使用匹配的模板及评分、频次等统计指标、成词概率、医学知识和约束进行打分。

如图7所示，在步骤S706中，输出本次迭代评分质量高的术语词。

在步骤S206中，判断是否满足迭代终止条件，如果满足所述迭代终止条件，则终止迭代，得到挖掘出的术语词表，并将所述术语词表添加到所述术语词典中。

在本发明的一种示例性实施例中，针对图6得到的抽取模板和图7得到的术语词，通过人工交互和标注判断是否满足迭代终止条件，具体如下：

首先，设定迭代终止条件，可以为以下任一情况：种子词数量高于第一预设数量；或迭代次数超过预设次数；或新增有效术语的数量低于第二预设数量。之后，判断是否满足迭代终止条件，如果满足迭代终止条件，则迭代终止，得到人工全量标注挖掘的术语词表，将所述术语词表添加到所述术语词典中，使得术语词典得到更新。

但是如不满足迭代终止条件，则种子词数量较少的迭代轮次，通过人工交互，增量标注和添加头部术语作为种子词表，并更新加载的术语词典，以及通过交互标注中的数据分析，总结、修改和更新上述步骤中涉及的知识规则和约束，转至图6所示的模板抽取的步骤。

在本发明的一种示例性实施例中，还进一步对挖掘效果进行评估，

图8示挖掘效果评估的步骤流程图，具体包括以下步骤：

如图8所示，在步骤S802中，对所述采样样本随机选取部分进行人工标注生成评估集合。

如图8所示，在步骤S804中，根据所述术语词表在所述评估集合中计算准确率和召回率。

如图8所示，在步骤S806中，如果所述准确率和所述召回率均未达到预设标准，则基于全量标注的术语更新所述术语词表。

如图8所示，在步骤S808中，如果所述准确率和所述召回率均已达到所述预设标准，则终止挖掘。

基于上述，图9示出本发明提供的临床术语挖掘方法的流程图，如图9所示，主要包括以下步骤：步骤S91，临床病例文本预处理；步骤S92，临床病例文本分类；步骤S93，载入术语词典；步骤S94，载入知识规则和约束；步骤S95，模板抽取和评分；步骤S96，术语抽取和评分；步骤S97，人工交互和标注；步骤S98，挖掘效果评估，如果评估结论为大小或有效增量词有限，终止挖掘，结束流程。

根据本发明的临床术语挖掘方法，一方面，将包含临床病例文本的待处理数据进行采样以及迭代，从而将从临床病例文本中挖掘的术语词表添加到术语词典中，通过直接在真实临床病历数据上挖掘临床术语，相比从教材、标准、专业词典等来源挖掘词典，能够保障术语覆盖率、一致性和丰富的层次粒度。由于是基于大规模海量临床电子病历进行结构化信息抽取，提高临床术语识别的准确率和覆盖率。另一方面，通过机器阅读和人工交互挖掘的方式，能有效缓解人工规则在海量数据上覆盖率不足问题，并且能较快地迁移到新数据上。再一方面，该方法主要依赖少量的知识和词条校对的简单标注任务，可以避免基于模型的机器学习方法依赖大规模数据标注和较复杂的术语标注任务等问题，从而使得项目实践更为高效、低成本，术语标注和提取质量高，新数据适配性好。

本方法针对临床术语挖掘任务，对模板的评分方法、种子词的扩充方法、模板的生成方法、规则冲突的消解方法、人工交互和校对进行改进，相比于经典的Bootstrapping算法在临床术语挖掘任务上能取得更好的效果。该方法主要特点如下：1)结合语言和医学背景知识库；2)充分利用海量真实临床数据本身蕴含的统计信息和隐含知识；3)引入人工交互和词条校对保障迭代质量和数据质量；4)针对临床术语挖掘任务，针对性改进Bootstrapping算法中的语义漂移、可解释性和规则冲突问题。

应清楚地理解，本发明描述了如何形成和使用特定示例，但本发明的原理不限于这些示例的任何细节。相反，基于本发明公开的内容的教导，这些原理能够应用于许多其它实施例。

此外，需要注意的是，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

图10是根据一示例性实施例示出的一种临床术语挖掘装置的框图。临床术语挖掘装置1000包括：分类模块1002，更新模块1004，和迭代终止模块1006。

其中，分类模块1002用于对待处理数据进行分类，并根据分类后数据进行采样得到采样样本，其中所述待处理数据中包括临床病例文本；更新模块1004用于通过载入术语词典、知识规则和约束以及进行模板抽取与术语抽取，并根据所述采样样本和种子词按照预设算法对术语词典进行迭代更新；迭代终止模块1006用于判断是否满足迭代终止条件，如果满足所述迭代终止条件，则终止迭代，得到挖掘出的术语词表，并将所述术语词表添加到所述术语词典中。

根据本发明的临床术语挖掘装置，一方面，通过直接在真实临床病历数据上挖掘临床术语，相比从教材、标准、专业词典等来源挖掘词典，能够保障术语覆盖率、一致性和丰富的层次粒度。由于是基于大规模海量临床电子病历进行结构化信息抽取，提高临床术语识别的准确率和覆盖率。另一方面，通过机器阅读和人工交互挖掘的方式，能有效缓解人工规则在海量数据上覆盖率不足问题，并且能较快地迁移到新数据上。再一方面，该方法主要依赖少量的知识和词条校对的简单标注任务，可以避免基于模型的机器学习方法依赖大规模数据标注和较复杂的术语标注任务等问题，从而使得项目实践更为高效、低成本，术语标注和提取质量高，新数据适配性好。

图11是根据一示例性实施例示出的一种电子设备的框图。

下面参照图11来描述根据本发明的这种实施方式的电子设备200。图11显示的电子设备200仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于：至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元210执行，使得所述处理单元210执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元210可以执行如图2，图3中所示的步骤。

所述存储单元220可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202，还可以进一步包括只读存储单元(ROM)2203。

所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204，这样的程序模块2205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线230可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且，电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明实施方式的上述方法。

图12示意性示出本发明示例性实施例中一种计算机可读存储介质示意图。

参考图12所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品400，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如下功能：获取待处理数据，所述待处理数据中包括医学词汇；将所述待处理数据进行分词处理，生成词汇集合；将所述词汇集合与标准词汇集合进行比较，确定所述待处理数据的标签；以及根据所述标签对所述待处理数据进行ICH国际医学用语词典编码处理。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施例的方法。

以上具体地示出和描述了本发明的示例性实施例。应可理解的是，本发明不限于这里描述的详细结构、设置方式或实现方法；相反，本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

此外，本说明书说明书附图所示出的结构、比例、大小等，均仅用以配合说明书所公开的内容，以供本领域技术人员了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的技术效果及所能实现的目的下，均应仍落在本发明所公开的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“第一”、“第二”及“一”等的用语，也仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当也视为本发明可实施的范畴。

Claims

1.一种临床术语挖掘方法，其特征在于，包括：

对待处理数据进行分类，并根据分类后数据进行采样得到采样样本，其中所述待处理数据中包括临床病例文本；

通过载入术语词典、知识规则和约束以及进行模板抽取与术语抽取，并根据所述采样样本和种子词按照预设算法对所述术语词典进行迭代更新；以及

判断是否满足迭代终止条件，如果满足所述迭代终止条件，则终止迭代，得到挖掘出的术语词表，并将所述术语词表添加到所述术语词典中。

2.如权利要求1所述的方法，其特征在于，对待处理数据进行分类之前，还包括：

对所述待处理数据进行预处理。

3.如权利要求1所述的方法，其特征在于，所述临床术语文本中包括简单文本和复杂文本，所述对待处理数据进行分类包括：

对所述简单文本按照不同字段来源进行分类；

对所述复杂文本进行切分得到文本片段，对所述文本片段按照预设规则或分类器进行分类。

4.如权利要求1所述的方法，其特征在于，根据所述采样样本和种子词按照预设算法对所述术语词典进行迭代更新包括：

获取初始化术语词典，所述初始化术语词典为包含初始术语的词典；

判断目标类型术语词是否出现在所述初始化术语词典中，如果所述目标类型术语词出现在所述初始化术语词典中，则复用所述种子词作为启动的种子词；如果所述目标类型术语词未出现在所述初始化术语词典中，则根据所述采样样本分析并生成代表性种子词；

根据所述知识规则和约束进行所述模板抽取和所述术语抽取。

5.如权利要求1所述的方法，其特征在于，所述模板抽取包括：

对分析后的所述上下文进行频繁模式挖掘；

6.如权利要求5所述的方法，其特征在于，所述术语抽取包括：

对候选术语词进行综合打分；

输出打分最高的术语词完成术语抽取。

7.如权利要求1所述的方法，其特征在于，所述迭代终止条件为以下任一情况：

种子词数量高于第一预设数量；或

迭代次数超过预设次数；或

新增有效术语的数量低于第二预设数量。

8.一种临床术语挖掘装置，其特征在于，包括：

分类模块，用于对待处理数据进行分类，并根据分类后数据进行采样得到采样样本，其中所述待处理数据中包括临床病例文本；

更新模块，用于通过载入术语词典、知识规则和约束以及进行模板抽取与术语抽取，并根据所述采样样本和种子词按照预设算法对所述术语词典进行迭代更新；

迭代终止模块，用于判断是否满足迭代终止条件，如果满足所述迭代终止条件，则终止迭代，得到挖掘出的术语词表，并将所述术语词表添加到所述术语词典中。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。