CN106649256A

CN106649256A - 一种电子病历高质短语抽取方法

Info

Publication number: CN106649256A
Application number: CN201610836685.2A
Authority: CN
Inventors: 尚昭; 金涛; 王建民
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2016-09-21
Filing date: 2016-09-21
Publication date: 2017-05-10

Abstract

本发明涉及一种电子病历高质短语抽取方法，属于大数据检索技术领域，该方法分为频繁短语挖掘、短语质量评估、短语切分和先验短语集更新四个阶段。首先进行频繁短语挖掘，基于频度统计，当短语出现频度大于阈值时，认为该短语频繁；然后，根据先验短语集对生成的频繁短语候选进行短语质量评估；接着，根据评估出的短语质量值进行短语切分，并修正错误的原始频率估计；最后，将切分结果中的高质短语加入先验短语集，完成高质短语抽取及先验短语集更新，以便在下次短语切分时，达到更好的切分效果。本方法能够有效抽取电子病历中的高质短语，抽取出的短语是病历中的常用词汇，且符合医生的使用习惯。

Description

一种电子病历高质短语抽取方法

技术领域

本发明属于大数据检索技术领域，特别涉及在口腔健康数据服务平台中一种电子病历高质短语抽取的方法。

背景技术

随着互联网的高速发展和社会信息化步伐的加快，各行业的数据迅猛发展，人类已经步入大数据时代。对大数据的处理和分析，可以从中挖掘出有价值的信息，进而有效解决特定领域的问题。在医疗健康领域，“互联网+”概念的提出，使医疗信息化进程的不断推进，电子病历的使用正逐渐普及，电子记录的科研价值与应用价值也不断凸显出来。对电子病历进行高效准确的检索，可以为数据分析、决策支持等工作奠定良好的基础。

在各大医院，由于就诊患者众多，且每名患者就诊次数一般为两到三次甚至更多，电子病历数量为海量级。若能在很短的时间内，从海量电子病历中准确检索出所需的信息，将为医学领域带来极大的贡献。现有的检索系统主要为基于词库的关键词匹配和基于本体的语义查询。基于词库的关键词匹配为精确检索，检索出的结果包含与输入关键词完全匹配的内容；基于本体的语义查询为模糊检索，检索出的结果包含输入关键词的近义词、同义词等。在我国，检索系统目前主要采用第一种基于词库的关键词匹配方式，词库来源为术语词典和经验。

由于文本数据的复杂性，目前最常使用的对文档中所有出现的内容建立检索的方式是使用倒排索引技术。倒排索引，即对文档中的每个词，建立“词-文档”映射序列，当输入待检索词时，系统会定位到含有该词的文档并排序显示，以达到检索效果。已开放源代码的Lucene框架可用来直接建立倒排索引。

电子病历的全文检索效果往往依赖于中文分词是否精准。中文分词是将语句切分成能够表达完整语义的一个个词语。已有完整的中文分词工具可供直接使用，如斯坦福的分词工具，中科院的分词工具等。斯坦福的分词工具支持包含中文在内的多种语言，中科院的分词系统是目前中文分词效果最好的分词工具。同时，存在中文分词组件，如IKAnalyzer,Jieba等。在医疗领域，由于不同医院、不同医生用词习惯的个性化，无法使用统一的词典进行关键词匹配，这给病历分词增加了难度。

然而，电子病历中经常被检索的，往往是多个词语构成的短语。比如，输入“牙龈”，那么用户到底希望检索出“牙龈检索”、“牙龈红肿”还是“牙龈增生”的病历？因此，只对病历在词语层面进行分词是远远不够的，有必要将抽取上升到短语层面，以更好的满足检索需要。

高质短语满足四个特征：普遍性、一致性、信息量和完整性。目前存在一些指标，如点互信息PMI，K-L散度，倒排文档频率IDF等，用于衡量短语是否符合一致性和信息量特征。同时，使用K-means对短语进行聚类，更易根据聚类结果筛选高质短语。

发明内容

本发明的目的是为克服已有技术的不足之处，提出一种电子病历高质短语抽取的方法。本发明通过将检索从词语层面上升到短语层面，更好地满足医生的使用习惯与检索需要。

高质短语，即短语质量较高的短语。高质短语满足四个特征：普遍性、一致性、信息量和完整性。如，“牙龈红肿“这个短语在病历集中频繁出现，满足普遍性；“牙龈红肿”相较于“齿龈红肿”是更固定的搭配，更好的满足一致性；包含特定主题，短语具有信息量；表达语义完整，满足完整性。本发明认为，概率值大于0.9的短语为高质短语。短语质量由步骤2进行评估。

本发明提出的一种电子病历高质短语抽取的方法，其特征在于，该方法分为频繁短语挖掘、短语质量评估、短语切分和先验短语集更新四个阶段；具体包括以下步骤：

1)频繁短语挖掘包括以下步骤：

1-1)数据预处理：采用Jieba分词组件对电子病历进行中文分词处理，得到一系列词语；

1-2)基于原始频度，根据以往经验设定频度阈值，当词语的原始频度大于阈值时，认为该词语是频繁的；

1-3)将频繁词语组合成短语，当短语的原始频度大于阈值时，则该短语是频繁的；频繁的词语和短语，共同构成候选频繁短语；

2)短语质量评估包括以下步骤：

2-1)对候选频繁短语选取点互信息PMI，K-L散度，倒排文档频率IDF，以及停止词出现的频率次数和出现在引号、括号中的短语频次五个特征作为每个候选频繁短语的特征；

2-2)根据提取的五个特征，采用K-means方法对候选频繁短语进行聚类，将所有候选频繁短语聚为300类；

2-3)在每个聚类中挑选一个候选频繁短语，根据先验短语集对候选频繁短语进行打标处理，打标为“0”或“1”分值，1表示该短语既是候选频繁短语，又存在于先验短语集中；否则打标为0；

2-4)使用已打标候选频繁短语训练随机森林分类模型：从已打标的候选频繁短语中，每次随机挑选100个短语，再对挑选的每个短语随机挑选1至4个特征生成一棵决策树；当生成规定数目的决策树时，由这些决策树构成的随机森林分类模型训练完毕；

2-5)对电子病历中所有短语由随机森林分类模型评估质量值：随机森林分类模型中的每棵决策树为电子病历中每个短语评估“0”或“1”的质量值，该短语最终质量值是随机森林分类模型中所有决策树打出分值的均值；

3)电子病历短语切分包括以下步骤：

3-1)训练长度惩罚值：初始时设定短语长度上限值和下限值，设长度惩罚值为上限值和下限值的均值；根据长度惩罚值采用二分算法对打标为“1”的候选频繁短语进行切分；若打标为“1”的候选频繁短语长度大于长度惩罚值，则该候选频繁短语被切分，则对上限值和下限值进行调整，直到打标为“1”的候选频繁短语均被切分，则此时的长度惩罚值训练完毕；

3-2)训练修正频率：采用viterbi算法，根据训练好的长度惩罚值对电子病历所有短语进行切分，统计经过切分后的短语修正频率；对该修正频率进行归一化处理，当修正频率收敛时，修正频率训练完毕；

3-3)短语切分：根据步骤2-5)得出的短语质量值以及长度惩罚值和修正频率，应用动态规划算法获得每个短语的最优切分及切分位置；根据切分位置完成电子病历短语切分，得到切分后的短语及其质量值；

4)先验短语集更新，设定切分结果中质量值大于0.9的短语为高质短语，将该高质短语加入先验短语集，完成高质短语抽取及先验短语集更新，用于在下次短语切分时，达到更好的切分效果。

本发明提出的一种电子病历高质短语抽取方法，其优点是：

1、本发明方法对短语的原始频率进行修正，以达到更好的切分效果；

2、本发明方法将得到的高质短语添加进先验短语集。进行下一轮短语切分时，采用更新后的先验短语集评估短语质量，以得到更准确的高质短语。

3、本发明方法维护术语词典，使先验短语集更符合医生的思维方式与实际用途需要。

4、本发明方法具有很强的扩展性，可并行化。

附图说明

图1为本发明方法的处理流程框图。

具体实施方式

本发明提出的一种电子病历高质短语抽取方法，下面结合附图及实施例说明如下：

本发明定义的高质短语(即短语质量较高的短语)满足四个特征：普遍性、一致性、信息量和完整性。如，“牙龈红肿“这个短语在病历集中频繁出现，满足普遍性；“牙龈红肿”相较于“齿龈红肿”是更固定的搭配，更好的满足一致性；包含特定主题，短语具有信息量；表达语义完整，满足完整性。因此本方法中设定在病历中出现的概率值大于0.9的短语为高质短语。

本发明提出的一种电子病历高质短语抽取方法，该方法分为该方法分为频繁短语挖掘、短语质量评估、短语切分和先验短语集更新四个阶段；。首先进行频繁短语挖掘，基于频度统计，当短语出现频度大于阈值时，认为该短语频繁；然后，根据先验短语集对生成的频繁短语候选进行短语质量评估；接着，根据评估出的短语质量值进行短语切分，并修正错误的原始频率估计；最后，将切分结果中的高质短语加入先验短语集，用于在下次短语切分时，达到更好的切分效果。本方法整个过程运行于Linux系统。

该方法实现流程如图1所示，包括以下步骤：

1)频繁短语挖掘包括以下步骤：

1-2)基于原始频度(原始频度表示经过初始分词处理后，各词语出现的次数)，根据以往经验设定频度阈值(比如10)。当词语的原始频度大于阈值时，认为该词语是频繁的。

1-3)将频繁词语组合成短语，当短语的原始频度大于阈值时，则该短语是频繁的。频繁的词语和短语，共同构成候选频繁短语；

2)短语质量评估包括以下步骤：

2-3)在每个聚类中挑选一个候选频繁短语，根据先验短语集(先验短语集为口腔专科部分术语集，来源于知网)对候选频繁短语进行打标处理，打标为“0”或“1”分值，1表示该短语既是候选频繁短语，又存在于先验短语集中；否则打标为0；

2-4)使用已打标候选频繁短语训练随机森林分类模型：从已打标(打标为“0”或“1”)的候选频繁短语中，每次随机挑选100个短语，再对挑选的每个短语随机挑选1至4个特征生成一棵决策树；当生成规定数目的决策树(比如100棵)时，由这些决策树构成的随机森林分类模型训练完毕；

3)电子病历短语切分包括以下步骤：

3-2)训练修正频率：采用viterbi算法，根据训练好的长度惩罚值对电子病历所有短语进行切分，统计经过切分后的短语修正频率(即每次切分后短语的频率作为前次切分短语的修改频率)。对该修正频率进行归一化处理，当修正频率收敛时(即修正频率只在某小范围内变动)，修正频率训练完毕；

3-3)短语切分：根据2-5)得出的短语质量值、长度惩罚值、修正频率，应用动态规划算法获得每个短语的最优切分及切分位置；根据切分位置完成电子病历短语切分，得到切分后的短语及其质量值；

Claims

1.一种电子病历高质短语抽取的方法，其特征在于，该方法分为频繁短语挖掘、短语质量评估、短语切分和先验短语集更新四个阶段；具体包括以下步骤：

1)频繁短语挖掘包括以下步骤：

2)短语质量评估包括以下步骤：

3)电子病历短语切分包括以下步骤：