CN109192255A

CN109192255A - 病历结构化方法

Info

Publication number: CN109192255A
Application number: CN201810718504.5A
Authority: CN
Inventors: 胡腾
Original assignee: Beijing Kang Master Technology Co Ltd
Current assignee: Beijing Kang Master Technology Co Ltd
Priority date: 2018-07-03
Filing date: 2018-07-03
Publication date: 2019-01-11
Anticipated expiration: 2038-07-03
Also published as: CN109192255B

Abstract

本发明涉及电子病历领域，具体地涉及病历结构化方法。该方法包括：获取关于多个医学术语的术语集合；根据所述术语集合，对原始病历内容进行语义标注；以及根据标注结果，提取病历结构化信息。该方法能够从各种病历内容中提取病历结构化信息，并且能够大幅降低人工标注的工作量。

Description

病历结构化方法

技术领域

本发明涉及电子病历领域，具体地涉及病历结构化方法。

背景技术

病历结构化是指将医院产生的患者电子病历(通常为自然语言描述的文本)转换成结构化的形式，从而方便计算机进行统计建模分析，用以支持临床科研、临床辅助决策、病历质控等实际应用。

病历结构化技术根据实现方式不同可以分为病历前结构化和病历后结构化。病历前结构化是指通过改进电子病历编辑器的交互方式，医生在录入电子病历过程中通过点选、模板定义等输入方式在录入病历的过程中直接将病历信息结构化。病历后结构化则是利用自然语言处理技术，将医生以自然语言形式录入、存储的电子病历进行结构化处理。优缺点比较：病历前结构化技术是一种传统的机构化技术，由于直接采用了结构化输入的形式，生成结构化信息准确率高，但结构化录入能表示的数据维度有限，很多信息类型很难通过点选等结构化形式进行录入，此外，医生各自定义模板也存在多样性的问题。病历后结构化是近年来随着人工智能自然语言处理技术的兴起而发展起来的一种电子病历信息抽取技术，对原始病历录入与保存形态没有限制，后结构化对抽取的信息维度也没有限制，可以通过不断优化自然语言处理技术对在医学领域的理解能力来实现信息抽取维度和效果的提升。

当前，病历后结构化的实现方法多采用两种传统的自然语言处理技术：基于手写规则的信息抽取方式、基于人工标注语料训练序列标注模型。本质上，两种方式都属于有监督的方式，都需要有医学背景的专业人员进行大量的规则编写或数据标注。例如，基于手写规则的信息抽取方式是直接从病历中抽取信息，但不同医生书写的病历内容差异很大，要想提取准确的结构化性信息，必需由有医学背景的专业人员进行大量的规则编写或数据标注。

发明内容

本发明实施例的目的是提供一种病历结构化方法，该方法能够从各种病历内容中提取病历结构化信息，并且能够大幅降低人工标注的工作量。

为了实现上述目的，本发明实施例提供一种病历结构化方法，该方法包括：获取关于多个医学术语的术语集合；根据所述术语集合，对原始病历内容进行语义标注；以及根据标注结果，提取病历结构化信息。

其中，在所述对原始病历内容进行语义标注之前，该方法还包括：识别所述原始病历内容中的多个标题关键词；以及将从所述多个标题关键词中的第一标题关键词到相临的第二标题关键词之前为止的内容作为所述第一标题关键词对应的段落。其中，所述根据标注结果，提取病历结构化信息包括：对应于每一所述段落提取所述病历结构化信息。

其中，所述根据所述术语集合，对原始病历内容进行语义标注包括：根据所述术语集合，将所述原始病历内容中的字符串切分为短语；根据所述短语所匹配的所述术语集合中的医学术语，生成一个或多个候选句式，以生成候选句式集合；以及从所述候选句式集合中筛选出最优句式作为所述标注结果。

其中，该方法还包括：在所述将所述原始病历内容中的字符串切分为短语之前，识别所述原始病历内容中的无歧义短语和/或符号。

其中，所述根据所述术语集合，将所述原始病历内容中的字符串切分为短语包括：利用所述医学术语构建词典前缀树和后缀树；以及利用所述前缀树和所述后缀树对所述原始病历内容中的字符串进行正向最大匹配和逆向最大匹配，以将所述字符串切分为短语。

其中，所述从所述候选句式集合中筛选出最优句式作为标注结果包括：获取关于所述医学术语之间的关系的术语关系集合；以及根据所述术语关系集合，从所述候选句式集合中筛选出最优句式，以作为所述标注结果。

其中，所述根据所述术语关系集合，从所述候选句式集合中筛选出最优句式包括：对于针对同一字符串生成的多个候选句式，根据该多个候选句式中每一者中相邻短语所对应的所述医学术语之间的术语关系，进行加权运算，加权运算结果最高的一者为所述最优句式。

其中，所述根据所述术语关系集合，从所述候选句式集合中筛选出最优句式还包括：如果所述多个候选句式中的两者以上的加权运算结果同为最高值，则根据该两者以上的候选句式中，不相邻短语所对应的所述医学术语之间的术语关系进行扩展加权运算；将所述扩展加权运算的加权运算结果最高的一者作为所述最优句式；如果所述扩展加权运算的加权运算结果仍相同，则从所述多个候选句式或所述两者以上的候选句式中随机选取一个作为所述最优句式。

其中，所述从所述候选句式集合中筛选出最优句式作为所述标注结果包括：获取句式实例集合，所述句式实例集合中包括针对所述语义标注的正确句式实例；将所述候选句式集合中的候选句式与所述正确句式实例进行匹配；以及如果所述候选句式集合中存在与所述正确句式实例字符串完全匹配的第一候选句式，则将该第一候选句式作为所述标注结果。

其中，所述从所述候选句式集合中筛选出最优句式作为所述标注结果还可以包括：如果存在与所述正确句式实例部分匹配的第二候选句式，且所述第二候选句式的字符串比所述正确句式实例的字符串长度长，则所述该正确句式实例作为最优句式。

其中，所述从所述候选句式集合中筛选出最优句式作为所述标注结果还可以包括：获取句式实例集合，所述句式实例集合中包括针对所述语义标注的错误句式实例；将所述候选句式集合中的候选句式与所述错误句式实例进行匹配；以及如果所述候选句式集合中存在与所述错误句式实例匹配的第二候选句式，则从所述候选句式集合中过滤该第二候选句式。

其中，该方法还包括：识别所述最优句式中的否定短语和肯定短语；如果在所述原始病历内容中，所述否定短语的右侧非句子结束符，则否定语态向右传递，直至遇到所述肯定短语或句子结束符为止，对位于向右传递范围内的被标注的所有短语赋予否定分类标签；如果在所述原始病历内容中，所述否定短语的右侧为句子结束符，则否定语态向左传递，直至遇到所述肯定短语或所述句子结束符为止，对位于向左传递范围内的被标注的所有短语赋予否定分类标签。

其中，该方法还可以包括：在所述向左传递和/或所述向右传递过程中，当遇到所述句子结束符时，如果在传递方向上的一个或多个相临句子结束符的两侧短语为相同语义类型，则使传递过程跨过所述句子结束符继续进行。

其中，所述术语关系集合包括不同医学术语之间的从属关系，该方法还包括：根据所述术语关系集合配置所述短语所对应的医学术语之间的从属关系和属性内容。

其中，该方法还包括：接收针对所述术语集合、所述术语关系集合、所述语义标注和所述切分中一者或多者的反馈信息，根据所述反馈信息修正所述术语集合、所述术语关系集合、所述语义标注和所述切分中一者或多者。

根据本发明的另一方面，还提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行上述所述的病历结构化方法。

通过上述技术方案，通过建立术语集合，并进一步建立术语关系集合，可形成预先形成关于病历结构化信息的标准化知识体系，进而基于该标准化知识体系从病历内容中提取病历结构化信息，由此能够适应不同医务人员的语言习惯，并节省了大量的人工标注工作量。因而本发明提供了一种简单实用的病历结构化方法。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是根据本发明一实施例的病历结构化方法的流程图；

图2是根据本发明另一实施例的病历结构化方法的流程图；

图3是根据本发明一实施例的病历结构化方法中，获取语义标注结果的过程的流程图；

图4是根据本发明一实施例的病历结构化方法中，获取语义标注结果的过程的流程图；

图5是根据本发明一实施例的病历结构化方法中，提取病历结构化信息的流程图；

图6是根据本发明一实施例的病历结构化方法中医学术语集合的获取过程的示意图；

图7示出了根据本发明一实施例的病历结构化方法中抽取术语关系的过程的示例；以及

图8根据本发明的病历结构化方法进行结构化的病历结构的一种示例。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

图1是根据本发明一实施例的病历结构化方法的流程图。如图1所示，该方法包括以下步骤：

步骤S110，获取关于多个医学术语的术语集合。如表1所示，是术语集合的部分示例。

表1：

术语名称	术语类别标签	术语大类	数据来源
				疾病	[DISEASE]	概念	ICD10、书籍
症状	[SYMPTOM]	概念	ICD10、书籍
				药物	[DRUG]	实体/概念	CFDA药品说明书
身体部位	[SITE]	概念	书籍、SNOMED_CT本地化
				病原	[PATHOGEN]	概念	书籍
手术操作	[OPERATION]	概念	ICD9、书籍
				查体项目	[PE_ITEM]	概念	书籍、人工整理
检查项目	[RIS_ITEM]	概念	书籍、临床RIS数据
				检查描述短语	[RIS_TERM]	概念	书籍、临床RIS数据
检验项目	[LIS_ITEM]	概念	书籍、临床LIS数据库
				性质描述	[NATURE]	概念	书籍、临床EMR书籍
诱因	[FACTOR]	概念	书籍、人工整理
				单位	[UNIT]	概念	人工整理、LIS数据库
医院	[HOSIPITAL]	实体	医院名称
				普通动词	[VERB]	普通词	现代汉语词典
程度副词	[DEGREE]	普通词	人工整理
				介词	[PREP]	普通词	现代汉语词典
颜色	[COLOR]	普通词	书籍、人工整理
				代词	[PRON]	普通词	现代汉语词典
肯定词	[WITH]	普通词	人工整理
				否定词	[WITHOUT]	普通词	人工整理
时间	[TIME]	普通词	人工整理抽象时间(如：昨晚)

【注】：RIS为临床影像描述数据，LIS为临床实验室检验描述数据，EMR为临床病历数据；可以由医院等第三方提供，也可以在本地化改造时对上述三类语料进行抽取处理。

术语集合除了术语名称外，还可以为每个术语名称配置术语类别标签、术语所属大类(例如概念类术语或医疗实务中使用的实体性术语)等，也可以标明数据来源以供参考。表1中所示术语名称作为术语的分类而示出，而并非具体的术语，例如在实际的术语集合中，“疾病”可以包括心脏病、糖尿病等具体疾病名称，“症状”可以包括各种具体疾病代表的各种具体症状名称。

医学术语可从开放词典、相关书籍、临床RIS数据、药品说明书等医学语料中抽取，提取的方法例如有基于规则(正则表达)抽取、人工整理、并列关系的术语集合扩展、开放术语集本地化处理等。

基于规则抽取方法即配置抽取的具体规则，以从各种医学语料(例如书籍、词典、药品说明书等)中提取医学语术，例如，从书籍中抽取疾病术语时，可使用简单规则“第.章(.+？)的诊断”、“第.章(.+？)的治疗”等规则，这些规则可根据通常医学语料的惯用表达习惯来配置。并列关系的术语集合扩展方法例如可以将以顿号等并列句符连接的术语、或并以并列连词连接的术语作为相同类型抽取。例如，如果并列术语中已知其中部分术语均属于现有术语集合中的疾病类，则与其并列的其他术语也可以作为疾病类的医学术语抽取。

图6是根据本发明一实施例的病历结构化方法中医学术语集合的获取过程的示意图。在图6中示出了医学语料库中的部分医学语料以及抽取医学术语的部分方法。实践中还可以从其他医学语料抽取医学术语，并且生成的医学术语集合也可以作为继续抽取新的医学术语的基础。在本发明中，医学术语中的大部分可由机器抽取实现，人工抽取可只作为辅助术语抽取方法。

步骤S120，根据所述术语集合，对原始病历内容进行语义标注。语义标注是要从原始病历内容中提取对病历结构化有用的内容。在生成如上所述的术语集合时，已将医学领域中可能使用的表达方式进行了标准知识体系化，因而根据术语集合进行语义标注时，能够从不同医务人员撰写的原始病历内容中标注出用于病历结构化的语义。

步骤S130，根据标注结果，提取病历结构化信息。病历结构化信息可以包括病历内容涉及的概念或实体名称、概念或实体名称之间的关系等。例如概念或实体名称可以包括疾病名称、症状名称等，概念或实体名称之间的关系可以包括疾病与所涉及的药物之间的关系(例如用于治疗疾病的药物、该疾病的禁用药物)、疾病与症状之间的关系(有无症状、症状轻重等)、关于症状的描述(发生时间、发生部位、持续时间、性质描述、检查结果、阴阳性等)。

在一优选实施例中，在对原始病历内容进行语义标注之前，还可以对原始病历内容进行分段处理，并根据每一段落进行语义标注、提取结构化信息。

图2是根据本发明另一实施例的病历结构化方法的流程图。图2示出了一种分段方法，该分段方法可以包括以下步骤：

步骤S220，识别所述原始病历内容中的多个标题关键词。

步骤S230，将从所述多个标题关键词中的第一标题关键词到相临的第二标题关键词之前为止的内容作为所述第一标题关键词对应的段落。

如表2所示，病历根据采集信息内容不同，通常分为多个不同段落类型。

表2：

段落类型标签	段落关键词(段落类型)
		[INFO_PATIENT]	患者信息
[CHIEF_COMPLAINT]	主诉
		[PRESENT_HISTORY]	现病史
[PAST_HISTORY]	既往史
		[P&O&M&F_HISTORY]	个人&家族&月经&婚育史
[EXAM_GENERAL]	查体
		[EXAM_ADDITION]	辅助检查
[DIAGNOSE_ADMISSION]	入院诊断
		[DIAGNOSE_DIFF]	鉴别诊断
[DIAGNOSE_DIScharGE]	出院诊断
		[D&T_ADVICE]	诊疗建议
[DIAGNOSE_PROOF]	诊断依据

医生编辑病历时一般会给每个段落一个标题(如：主诉、现病史、婚育史等等)并且通常以特殊标点符号(如冒号等)同正文分割。对于XML或其他半结构化形式的电子病历存储方式通常也会为不同的段落自定义标签。因此，可以采取标题关键词的方式对病历进行段落划分，从一个标题关键词到下一标题关键词之前为止的内容可以作为与在前的标题关键词对应的段落。分段后，可以段落类型标签的形式表示在结构化的病历中。

步骤S240，对应于每一所述段落提取所述病历结构化信息。由此可将提取的病历结构化信息对应于每个段落，以使病历结构更加清晰，以有利于相关领域利用该病历结构。

语义标注也可对应于每一段落进行，从而提高语义标注效率，在进行了分段的情况下，术语集合也可以根据不同段落类型对医学术语分类，使只有与特定段落相关的医学术语指向该特定段落，从而在对特定段落进行语义标注时可减少匹配、检索术语等操作，进而提高标注效率。

图2还示出了语义标注过程示例，如图2所示，语义标注过程可以包括以下步骤：

步骤S240，根据所述术语集合，将所述原始病历内容中的字符串切分为短语。

此外，在病历的语境下，部分字符、短语不可能存在一词多义或边界切分歧义的情况，对此可以直接进行术语匹配、拆分，或进一步为其赋予语义标签。因此，在所述将所述原始病历内容中的字符串切分为短语之前，可以预先识别所述原始病历内容中的无歧义短语和/或符号，并直接对其进行标注，从而可以省去对这些无歧义短语、符号的复杂标注操作，以提高标注效率。无歧义术语包括标点符号、浮点型数字、规范的日期、医院名称或其他专用名称等。

对字符串的切分操作例如可以包括如下步骤：利用所述医学术语构建词典前缀树和后缀树；以及利用所述前缀树和所述后缀树对所述原始病历内容中的字符串进行正向最大匹配和逆向最大匹配，以将所述字符串切分为短语。对于同一字符串，正向最大匹配和逆向最大匹配可能产生不同的切分点，由此可能生成不同的候选句式，例如“无尿|频|尿急”与“无|尿频|尿急”。

正向最大匹配即利用术语集合中的医学术语从左向右匹配字符串，切分边界以匹配到的最长术语为准，没有匹配到的单个或多个连续字符单独切分。逆向最大匹配切分即利用术语集合中的医学术语从右向左匹配字符串，切分边界以匹配到的最长术语为准，没有匹配到的单个或多个连续字符单独切分。所述最长术语即对于特定待切分的字符串，其中包含的所述医学术语中字符串最长的术语，例如，如果术语集合中存在的术语为：A、AB、ABC，待切分字符串为ABCD，则切分边界为ABC|D。除了切分方式产生的不同句式外，还可以利用上述两种切分方式生成的片段，重新组合生成所有可能的字符串以作为候选句式。

步骤S250，根据所述短语所匹配的所述术语集合中的医学术语，生成一个或多个候选句式，以生成候选句式集合。举例说明切分操作如下。假设术语集合中包括如下医学术语：无、无尿、尿频、尿急、恶心、口痛、心口痛，待切分字符串为：无尿频尿急，无恶心口痛。则正向最大匹配切分结果为：无尿|频|尿急|，无|恶心|口痛|；逆向最大匹配切分结果为：无|尿频|尿急|，无|恶|心口痛|。

对上述切分生成的字符串进行组合，所生成的候选句式为：候选1，无尿|频|尿急|，无|恶心|口痛|；候选2，无尿|频|尿急|，无|恶|心口痛|；候选3，无|尿频|尿急|，无|恶心|口痛|；候选4，无|尿频|尿急|，无|恶|心口痛|。

如上所述在切分过程中，不仅不同的切分方式以及切分片段的组合会生成不同的候选句式，切分形成的短语在与术语集合中的医学术语匹配时，同一短语还可能存在多种语义，即可能与多个医学术语匹配，因而也会导致同一字符串生成多个候选句式。由同一字符串或多个字符串生成的候选句式可生成候选句式集合，以供筛选。

步骤S260，从所述候选句式集合中筛选出最优句式作为所述标注结果。无论是切分过程还是短语与医学术语匹配生成的候选句式，都存在不符合实际实语的可能性。因而在多个候选句式中存在符合实际语义的最优句式，该最优句式作为最终的语义标注结果。

图3和图4分别示出了筛选最优句式的优选方法的流程图。如图3所示，筛选最优句式的过程可以包括以下步骤：

步骤S310，获取关于所述医学术语之间的关系的术语关系集合。术语关系是指各医学术语之间的关系。表3示出了关术语关系集合中的部分术语关系的示例。

表3：

医学术语1	关系标签	医学术语2	关系说明
				疾病	<is_kind_of>	疾病	疾病上下位关系
疾病	<may_cause>	症状	疾病引发症状
				药物	<is_suit_for>	疾病	药物适应疾病
药物	<is_suit_for>	症状	药物适应症状
				药物	<is_risk_for>	疾病	药物慎用于疾病
药物	<is_risk_for>	症状	药物慎用于症状
				药物	<is_forbid_for>	疾病	药物禁用于疾病
药物	<is_forbid_for>	症状	药物禁用于症状
				药物	<is_suit_for>	病原	药物适用于病原
身体部位	<is_part_of>	身体部位	身体部位上下位关系
				疾病	<is_located_in>	身体部位	疾病发生身体部位
症状	<is_located_in>	身体部位	症状发生身体部位
				性质描述	<is_suit_for>	症状	适用于症状的性质描述
病原	<may_cause>	疾病	病原引发疾病
				诱因	<may_cause>	疾病	诱因引发疾病
诱因	<may_cause>	症状	诱因引发症状
				手术操作	<is_suit_for>	疾病	手术适用于疾病
手术操作	<is_risk_for>	疾病	手术慎用于疾病
				手术操作	<is_risk_for>	症状	手术慎用于症状
手术操作	<is_forbid_for>	疾病	手术禁用于疾病
				手术操作	<is_forbid_for>	症状	手术禁用于症状
检验项目	<is_part_of>	检验项目	检验项目包含关系
				检验指标	<is_part_of>	检验项目	检验项目包含指标
检查描述短语	<is_suit_for>	检验项目	检查描述短语适用检查项目
				检查描述短语	<is_suit_for>	部位	检查描述短语适用身体部位
单位	<is_suit_for>	检验指标	单位适用于检验指标

术语关系分为明确的术语关系和不定类型关系，明确的术语关系是指术语之间存在的明确的逻辑关系，例如药物与疾病的适用关系等，不定类型的术语关系是指，术语间没有明显的逻辑联系，但在统计学的基础上，术语之间存在一定的关联，例如两个或更多个术语经常出现在同一句话、同一段或同一篇文章中，或经常出现在关于某个疾病的描述中。例如，“手术”、“切开”、“缝合”这些术语间虽没有明确的逻辑关系，但会经常共同出现，存在某种关联，因此也可以在术语关系集合中将其配置于有关联。明确的术语关系可以为人工整理的术语图谱，或根据医疗领域通用的表达方式提取，具体关系可如表3所示进行配置。

图7示出了抽取术语关系的过程的示例。如图7所示，术语关系抽取可以采用基于规则的关系抽取、基于书籍目录的关系抽取、基于论文关键词共现的关系抽取、基于句子内共现的不定关系抽取等。基于规则的关系抽取例如可以如上述抽取医学术语时所述配置抽取规定从而抽取术语关系。基于书籍目录的关系抽取例如可以从书籍中抽取疾病与症状的关系，可使用简单规则“[DISEASE]的主要表现为[SYMPTOM]、[SYMPTOM]、[SYMPTOM]等”(“[DISEASE]”代表“疾病”，“[SYMPTOM]”代表“症状”)。类似的关系抽取方式在此不进行一一列举。

术语关系集更进一步完善了本发明中用于结构化病历的知识体系，进一步可根据所述术语关系集合，从所述候选句式集合中筛选出最优句式，以作为所述标注结果。如图3所示，基于术语关系集合筛选最优句式的过程例如可以包括如下步骤：

步骤S320，对于针对同一字符串生成的多个候选句式，根据该多个候选句式中每一者中相邻短语所对应的医学术语之间的术语关系，进行加权运算。如上所述，由于对字符串的切分方式不同和字符串中可能存在歧义位点(产生切分歧术的短语)，以及切分后的短语可能对应多个医学术语，因而同一字符串可能生成多个候选句式。歧义位点例如可能是如下情况：“无尿”与“频”、“无”与“尿频”，“频”与“尿急”、“尿频”与“尿急”。

加权运算例如可以根据相临短语所匹配的医学术语之间是否有关系来为该候选句式赋予关系权重，例如，如特定相临短语间有所述明确的术语关系，则赋予该候选句式关系权重1.0，如果有所述不定类型的关系，则赋予该候选句式关系权重0.5，如果完全不存在任何关系可以赋予关系权重0，由此进行加权运算，例如可使每个候选句式中的每两两相临的短语间的关系权重相加。以上仅仅是举例说明了加权运算的方法，具体可根据本发明公开的思想配置其它关系权重值，或加权运算，或者还可以根据不同医学术语之间的关系配置术语关系的优先等级，进而根据优选等级配置关系权重。例如，如果表示某种症状的医学术语同时与多种疾病术语存在关联，则可根据每个疾病产生该症状的可能性或频繁程度，或相关的其它症状配置优选等级。

步骤S330，判断所述多个候选句式的加权运算结果是否存在唯一最高值。

步骤S340，如果所述多个候选句式的加权运算结果存在唯一最高值，则将加权运算结最最高的一者筛选为最优句式。如果存在加权运算结果的唯一最高值，则该最高值对应的候选句式为基于术语集合和术语关系集合标注的最符合原始病历内容的结构化信息表达句式。

步骤S350，如果所述多个候选句式中的两者以上的加权运算结果同为最高值，则根据该两者以上的候选句式中，不相邻短语所对应的所述医学术语之间的术语关系进行扩展加权运算。扩展加权运算的方法也可以用如上所述的类似方法，从而从不同切分方式或语义组合方式生成的候选句式中进一步筛选最优句式。

步骤S360，将所述扩展加权运算的加权运算结果最高的一者作为所述最优句式。

步骤S370，如果所述扩展加权运算的加权运算结果仍相同，则从所述多个候选句式或所述两者以上的候选句式中随机选取一个作为所述最优句式。

上述实施例在从原始病历内容中提取结构化信息时，还充分考虑了不同医务人员的语言习惯，从而能根据术语集合和术语关系集合从不同医务人员撰写的病历中准确提取病历结构化信息，并且提取过程不需要专业人员参与，提高了本发明的病历结构化方法的适用性。

如图4所示，为另一种筛选最优句式的方法。该实施例中筛选最优句式的过程可以包括如下步骤：

步骤S410，获取句式实例集合，所述句式实例集合中可以包括针对所述语义标注的正确句式实例和/或错误句式实施。

步骤S420，当句式实例集合中包括正确句式实例时，可将所述候选句式集合中的候选句式与所述正确句式实例进行匹配。

步骤S430，判断所述候选句式集合中是否存在与所述正确句式实例字符串完全匹配第一候选句式。

步骤S440，如果所述候选句式集合中存在与所述正确句式实例字符串完全匹配第一候选句式，则将该第一候选句式作为所述标注结果。

步骤S450，判断是否存在与正确句式实例字符串部分匹配且比正确句式实例字符串长的第二候选句式。

步骤S460，如果存在与正确句式实例部分匹配的第二候选句式，但第二候选句式的字符串比正确句式实例字符串长度长，则用该正确句式实例替换第二候选句式，并将该正确句式实例作为最优句式。这是因为，如果字符串比正确句式实例长，则可能是因医务人员的语言习惯引起的，同样的句义由不同人书写时，可能加入不影响实际语义的词语而导致字符串较长，因而在该情况下，可将被匹配的正确句式实例作为标准的标注结果，并替换原来的第二候选句式以作为最优句式。

步骤S470，当句式实例集合中包括错误句式实例时，将所述候选句式集合中的候选句式与所述错误句式实例进行匹配。

步骤S480，如果所述候选句式集合中存在与所述错误句式实例匹配的第三候选句式，则从所述候选句式集合中过滤该第三候选句式。过滤与错误句式实例匹配的候选句式时，可以是完全匹配，也可以是部分匹配，也可以根据短语所匹配的医学术语的权重计算匹配权重，并根据计算结果进行过滤。

如上所述，在包括分段过程的实施例中，上述语义标注过程可对应于分段后的每个段落进行。以上筛选最优句式的实施例可以组合应用，例如，在基于术语关系集合进行最优句式筛选之前，可选利用句式实例集合进行筛选，如果基于句式实例集合能够筛选出最优句式，则可不再基于术语关系集合进行筛选；如果基于句式实例集合筛选出了部分匹配的最优句式，则可以进一步根据术语关系集合进行筛选；或者，可选利用包括错误句式实例的句式实例集合过滤部分候选句式后继续根据术语关系集合进行筛选。再例如，可根据句式实例集合筛选后，再次根据术语关系集合进行筛选。再例如，如果句式实例集合中只存在针对部分原始病历字符串的正确句式实例，针对该部分原始病历字符串根句式实施集合筛选出最优句式后，针对剩作部分再根据术语关系集合筛选最优句式。

图5是根据本发明一实施例的病历结构化方法中，提取病历结构化信息的流程图。如图5所示，提取病历结构化信息的过程可以包括如下步骤：

步骤S501，识别所述最优句式中的否定短语和肯定短语。否定短语例如可以包括：无、非、不、没有等，肯定短语可以包括：是、确定、有、需要等。

步骤S502，判断否定短语的右侧是否不是句子结束符。句子结束符号可以包括“，”、“。”、“；”、“？”、“！”等。

步骤S503，如果在所述原始病历内容中，所述否定短语的右侧非句子结束符，则否定语态向右传递。

步骤S504，判断是否遇到句子结束符。

步骤S505，到遇到所述肯定短语或句子结束符为止，对位于向右传递范围内的被标注的所有短语赋予否定分类标签。

步骤S506，如果在所述原始病历内容中，所述否定短语的右侧为句子结束符，则否定语态向左传递。无论是向左传递还是向右传递，在遇到肯定短语或句子结束符之前均可认为该部分内容为所述否定短语所修饰的内容，因而在这之间的所述短语均被赋予否定语义，即否定分类标签。

步骤S507，判断是否遇到句子结束符。

步骤S508，到遇到所述肯定短语或所述句子结束符为止，对位于向左传递范围内的被标注的所有短语赋予否定分类标签。

在原始病历撰写时，可能出现笔误或因部分人语法习惯问题而导致并列表达的短语被用句子符隔开，为了增加容错性，本发明可在所述向左传递和/或所述向右传递过程中，当遇到所述句子结束符时，如果在传递方向上的一个或多个相临句子结束符的两侧短语为相同语义类型，则使传递过程跨过所述句子结束符继续进行。例如，当遇到逗号结束符时，如果逗号的传递方向远端为单个术语再加逗号，且逗号两侧术语为并列语义的短语，则可进行跨逗号传递。即传递继续进行，直到遇到下一个句子结束符或肯定短语时终止传递，并将传递范围内的所有短语赋予否定语义。

此外，在上述向左传递或向右传递过程中，可能产生两种传递方式冲突的现象，则可使传递以向右传递的方式为主，并且向左传递只针对离所述否定短语最近的一个实体或概念性医学术语而进行。如果冲突是因上述跨句子结束符传递引起的，则向左传递只作用到最近一个句子结束符为止。需要说明的是，本发明提到的向左传递和向右传递指的是以行文表达方向为汉语言通常书写习惯的横向且从左向右为基准时的传递方向，即向左传递表示行文表达的方向的反方向传递，向右传递表示行文表达方向。如果病历书写为竖向或其他方式，向左传递或向右传递也可以等同于向上传递或向下传递或其它表达方式。

完整的结构化信息除了包括医学术语本身和否定修饰以外，还应包括医学术语之间的从属关系，因此，在一优选实施例中，本发明还可以根据所述术语关系集合配置所述短语所对应的医学术语之间的从属关系和属性内容。具体地，可以在术语关系集合中配置医学术语之间的从属关系、属性名、属性传递方向、属性传递范围等。从属关系例如可以是：时间为症状发生的时间属性、持续时间属性等。属性名例如可以是：发生时间、持续时间、严重程度、症状描述、适用药物、注意事项、功效等等。属性传递方向指的是以属性名对应的属性医学术语为起点，向行文方向的哪个方向传递，即哪个方向的内容应归入该属性名的关联内容。传递范围例如可以设置为短句、长句、段落、篇章等，例如如果设置传递范围为短句，则属性传递从属性名对应的医学术语开始至下一个逗号为止，即仅在短句范围内传递。表4示出了在术语关系集合中针对数值配置从属关系的示例。其中第一列表示医学术语或医学术语对应的术语标签，第二列属性类型表示第一列中的医学术语属于数值或单位等，第三列表示数值或单位值。

例如：基于该从属关系配置，如果标注的最优句式为：红细胞计数|5.6|*|10^9/L，(即[LIS_ITEM]|[NUM]|-|[UNIT])，则属性抽取结果为：[LIS_ITEM]为红细胞计数，<value>＝5.6，<unit>＝10^9/L。传递结果为将数值5.6×10^9/L赋予医学术语经细胞计数。从属关系的传递可以根据医学术语本身或其类别标签从术语关系集合中搜索存在从属关系的医学术语，还可以根据属性关系表中属性类型、传递方向、范围将数值性属值(属性值)传递给对应的医学术语。

表4：

医学术语/标签	属性类型	属性术语/标签	传递方向	传递范围
					[LIS_ITEM]	<value>	[NUM]	向前	句子内最近一个实体
[LIS_ITEM]	<unit>	[UNIT]	向前	句子内最近一个实体
					红细胞计数	<unit>	10*9/L	向前	句子内最近一个实体

此外，配置从属关系时，可以配置双向从属关系，例如对于药物和疾病，药物可以从属于疾病，如药物用于治疗疾病，疾病也可以从属于药物，如疾病是药物的作用功效。

如图8所示，是根据本发明的病历结构化方法进行结构化的病历结构，图8中以json(JS对象简谱)树状结构为例示出，本发明也可以采用其它方式输出结构化病历。

本发明还可以包括标注反馈过程，即用于可评估结构化抽取结果，对本发明提到的切分、语义标注、医学术语集合的抽取、术语关系集合的抽取等过程进行评估，并可以对切分结果、语义标注结果、医学术语集合、术语关系集合进行修改。因而，本发明可以接收针对所述术语集合、所述术语关系集合、所述语义标注和所述切分中一者或多者的反馈信息，并根据所述反馈信息修正所述术语集合、所述术语关系集合、所述语义标注和所述切分中一者或多者。例如，可将修正的医学术语存入术语集合、术语关系存入术语关系集合、切分或标注生成的句式实例存入句式实例集合。或根据用户的修正结果对上述各项进行更新或调整。

以上结合附图详细描述了本发明实施例的可选实施方式，但是，本发明实施例并不限于上述实施方式中的具体细节，在本发明实施例的技术构思范围内，可以对本发明实施例的技术方案进行多种简单变型，这些简单变型均属于本发明实施例的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施例对各种可能的组合方式不再另行说明。

本领域技术人员可以理解实现上述实施例装置中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述装置的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种病历结构化方法，其特征在于，该方法包括：

获取关于多个医学术语的术语集合；

根据所述术语集合，对原始病历内容进行语义标注；以及

根据标注结果，提取病历结构化信息。

2.根据权利要求1所述的方法，其特征在于，在所述对原始病历内容进行语义标注之前，该方法还包括：

识别所述原始病历内容中的多个标题关键词；以及

将从所述多个标题关键词中的第一标题关键词到相临的第二标题关键词之前为止的内容作为所述第一标题关键词对应的段落，

其中，所述根据标注结果，提取病历结构化信息包括：

对应于每一所述段落提取所述病历结构化信息。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述术语集合，对原始病历内容进行语义标注包括：

根据所述术语集合，将所述原始病历内容中的字符串切分为短语；

根据所述短语所匹配的所述术语集合中的医学术语，生成一个或多个候选句式，以生成候选句式集合；以及

从所述候选句式集合中筛选出最优句式作为所述标注结果。

4.根据权利要求3所述的方法，其特征在于，该方法还包括：

在所述将所述原始病历内容中的字符串切分为短语之前，识别所述原始病历内容中的无歧义短语和/或符号。

5.根据权利要求3所述的方法，其特征在于，所述根据所述术语集合，将所述原始病历内容中的字符串切分为短语包括：

利用所述医学术语构建词典前缀树和后缀树；以及

利用所述前缀树和所述后缀树对所述原始病历内容中的字符串进行正向最大匹配和逆向最大匹配，以将所述字符串切分为短语。

6.根据权利要求3所述的方法，其特征在于，所述从所述候选句式集合中筛选出最优句式作为标注结果包括：

获取关于所述医学术语之间的关系的术语关系集合；以及

根据所述术语关系集合，从所述候选句式集合中筛选出最优句式，以作为所述标注结果。

7.根据权利要求6所述的方法，其特征在于，所述根据所述术语关系集合，从所述候选句式集合中筛选出最优句式包括：

对于针对同一字符串生成的多个候选句式，根据该多个候选句式中每一者中相邻短语所对应的所述医学术语之间的术语关系，进行加权运算，加权运算结果最高的一者为所述最优句式。

8.根据权利要求7所述的方法，其特征在于，所述根据所述术语关系集合，从所述候选句式集合中筛选出最优句式还包括：

如果所述多个候选句式中的两者以上的加权运算结果同为最高值，则根据该两者以上的候选句式中，不相邻短语所对应的所述医学术语之间的术语关系进行扩展加权运算；

将所述扩展加权运算的加权运算结果最高的一者作为所述最优句式；

如果所述扩展加权运算的加权运算结果仍相同，则从所述多个候选句式或所述两者以上的候选句式中随机选取一个作为所述最优句式。

9.根据权利要求3所述的方法，其特征在于，所述从所述候选句式集合中筛选出最优句式作为所述标注结果包括：

获取句式实例集合，所述句式实例集合中包括针对所述语义标注的正确句式实例；

将所述候选句式集合中的候选句式与所述正确句式实例进行匹配；以及

如果所述候选句式集合中存在与所述正确句式实例字符串完全匹配的第一候选句式，则将该第一候选句式作为所述标注结果；

和/或

获取句式实例集合，所述句式实例集合中包括针对所述语义标注的错误句式实例；

将所述候选句式集合中的候选句式与所述错误句式实例进行匹配；以及

如果所述候选句式集合中存在与所述错误句式实例匹配的第二候选句式，则从所述候选句式集合中过滤该第二候选句式。

10.根据权利要求9所述的方法，其特征在于，所述从所述候选句式集合中筛选出最优句式作为所述标注结果还包括：

如果存在与所述正确句式实例部分匹配的第二候选句式，且所述第二候选句式的字符串比所述正确句式实例的字符串长度长，则所述该正确句式实例作为最优句式。

11.根据权利要求3所述的方法，其特征在于，该方法还包括：

识别所述最优句式中的否定短语和肯定短语；

如果在所述原始病历内容中，所述否定短语的右侧非句子结束符，则否定语态向右传递，直至遇到所述肯定短语或句子结束符为止，对位于向右传递范围内的被标注的所有短语赋予否定分类标签；

如果在所述原始病历内容中，所述否定短语的右侧为句子结束符，则否定语态向左传递，直至遇到所述肯定短语或所述句子结束符为止，对位于向左传递范围内的被标注的所有短语赋予否定分类标签。

12.根据权利要求11所述的方法，其特征在于，该方法还包括：

在所述向左传递和/或所述向右传递过程中，当遇到所述句子结束符时，如果在传递方向上的一个或多个相临句子结束符的两侧短语为相同语义类型，则使传递过程跨过所述句子结束符继续进行。

13.根据权利要求6所述的方法，其特征在于，所述术语关系集合包括不同医学术语之间的从属关系，该方法还包括：

根据所述术语关系集合配置所述短语所对应的医学术语之间的从属关系和属性内容。

14.根据权利要求6所述的方法，其特征在于，该方法还包括：

接收针对所述术语集合、所述术语关系集合、所述语义标注和所述切分中一者或多者的反馈信息，根据所述反馈信息修正所述术语集合、所述术语关系集合、所述语义标注和所述切分中一者或多者。

15.一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行权利要求1-14中任一项所述的方法。