CN110019820B

CN110019820B - 一种病历中主诉与现病史症状时间一致性检测方法

Info

Publication number: CN110019820B
Application number: CN201910244674.9A
Authority: CN
Inventors: 何方腾
Original assignee: Unisound Shanghai Intelligent Technology Co Ltd
Current assignee: Unisound Shanghai Intelligent Technology Co Ltd
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2023-05-30
Anticipated expiration: 2039-03-28
Also published as: CN110019820A

Abstract

本发明实施例提出一种病历中主诉与现病史症状时间一致性检测方法，涉及医疗信息化技术领域。通过规则结合统计模型的方法，优化纯规则提取时间在有较长上下文依赖的情况下确定的准确率，在病历数据有限的状况下，传统统计模型对数据量依赖少于深度学习的模型方法。规则结合统计模型的方法在系统时间响应性能上优于复杂模型方法。具有时间一致性高、准确率高和效率高的优点。

Description

一种病历中主诉与现病史症状时间一致性检测方法

技术领域

本发明涉及医疗信息化技术领域，具体而言，涉及一种病历中主诉与现病史症状时间一致性检测方法。

背景技术

病历中主诉是患者自述的症状、体征、性质，以及持续时间等内容。现病史是围绕主诉的发生时间和特点描述病后全过程。主诉和现病史是住院病历或入院记录的重要部分，因此主诉和现病史中症状时间的检测是病历质量检查的重要内容。一般通用的做法，用规则或者模型提取症状和时间部分，然后基于规则将时间赋值给对应的症状，进行时间一致性比较。

由于目前可获取的病历资源有限，病历中存在大量的专业术语，对单纯用统计模型的方法带来了限制。主诉和现病史中时间和症状的确定可以通过一系列句式模板进行提取，(类似模板：(时间)因(症状)入我院))，但是主诉和现病史中存在多种症状，每种症状对应的时间的确定可能会受其他症状时间的干扰。而且现病史描述详细，有些症状时间的确定依赖较长的上下文，对于单纯通过规则模板来确定时间的方法带来了一定困难。

发明内容

本发明的目的在于提供一种病历中主诉与现病史症状时间一致性检测方法，具有时间一致性高、准确率高和效率高的优点。

为了实现上述目的，本发明实施例采用的技术方案如下：

一种病历中主诉与现病史症状时间一致性检测方法，所述方法执行以下步骤：

步骤1：对主诉中的症状关键词和时间关键词采固定的句式模板进行分词抽取；

步骤2：通过CRF序列标注的方法确定现病史文本中存在的症状关键词和时间关键词，对症状关键词和时间关键词通过最大熵模型判断是否是匹配的症状和时间关系；

步骤3：对文本中的绝对时间和相对时间根据病历的记录时间计算出持续时间；

步骤4：检测主诉和现病史中的症状是不是缺少时间，在都有时间的前提下，对主诉中的症状在现病史的症状中遍历，采用“身体部位+描述性+症状”的模板结合词向量相似度的方法，匹配最相似的症状，进行症状对齐，进而判断时间是否一致。

进一步的，所述步骤1中：对主诉中的症状关键词和时间关键词采固定的句式模板进行分词抽取的方法执行以下步骤：利用预先构建的实体词典，在待抽取关键词的文档中进行匹配，得到实体词表；利用所述待抽取关键词的文档中各词条之间的共现关系，构建所述待抽取关键词的文档中各词条之间的关联关系矩阵；根据所述关联关系矩阵调整所述实体词表中各实体词的权重，得到关键词表；以及从所述关键词表中抽取关键词。

进一步的，所述利用所述待抽取关键词的文档中各词条之间的共现关系，构建所述待抽取关键词的文档中各词条之间的关联关系矩阵之前，还包括：从与所述待抽取关键词的文档不同的其它文档中挖掘各词条的关联，得到所述其它文档词条间的关联权重；所述利用所述待抽取关键词的文档中各词条之间的共现关系，构建所述待抽取关键词的文档中各词条之间的关联关系矩阵的步骤包括：利用所述待抽取关键词的文档中所述各词条之间的共现关系，以及所述其它文档词条间的关联权重中与所述待抽取关键词的文档中的词条对应的词条间的关联权重构建所述关联关系矩阵。

进一步的，所述步骤2中：通过CRF序列标注的方法确定现病史文本中存在的症状关键词和时间关键词，对症状关键词和时间关键词通过最大熵模型判断是否是匹配的症状和时间关系的方法执行以下步骤：将待拆分文件拆分成标题文本和正文文本两部分并分别保存；采用CRF文本处理方式对所述标题文本进行处理得到文件名和分类分本之间的对应关系，根据每个分类目录下存储的文件名进行三级分词处理并对分词结果进行分类标注，并采用CRF learn方法进行标题分类建模得到CRF模型；采用DEC文本处理方式对所述正文文本进行处理得到分词文本和分类分本之间的对应关系，根据每个分类目录下存储分词文本进行三级分词处理并对分词结果构建DEC张量并进行DEC类处理得到DEC模型；获取待分类文件并将其拆分成待分类标题文本和待分类正文文本两部分分别保存；将所述待分类标题文本进行三级分词处理并采用CRF test方法调用所述CRF模型计算得出CRF分类结果；将所述待分类正文文本进行三级分词处理并构建DEC张量后调用所述DEC模型计算得出DEC分类结果；取所述CRF分类结果中的第一个和所述DEC分类结果中的前四个并进行去重处理得到分类结果并输出；根据输出结果确定现病史文本中存在的症状关键词和时间关键词，对症状关键词和时间关键词通过最大熵模型判断是否是匹配的症状和时间关系。

进一步的，所述获取原始文件并将其转换为txt格式并作为所述待拆分文件；基础语料层，其用于存储建立规则的DEC分类模型参数、CRF模板文件以及按类记录的标注语料文件；模型层，其用于根据所述建立规则的DEC分类模型参数、所述CRF模板文件以及所述按类记录的标注语料文件建立CRF模型和DEC规则模型；应用层，其用于接收用户输入的文本文件并根据所述CRF模型和所述DEC规则模型进行分类并将分类结果输出。

本发明实施例提供的一种病历中主诉与现病史症状时间一致性检测方法，具有以下有益效果：通过规则结合统计模型的方法，优化纯规则提取时间在有较长上下文依赖的情况下确定的准确率，在病历数据有限的状况下，传统统计模型对数据量依赖少于深度学习的模型方法。规则结合统计模型的方法在系统时间响应性能上优于复杂模型方法。具有时间一致性高、准确率高和效率高的优点。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的病历中主诉与现病史症状时间一致性检测方法的方法流程示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1：

如图1所示，一种病历中主诉与现病史症状时间一致性检测方法，所述方法执行以下步骤：

上述技术方案的技术方案为：通过规则结合模型的时间确定方法，来优化传统主诉与现病史中的时间一致性比较的效果。

上述技术方案的技术效果为：准确性更高、效率跟高，时间一致性高。

实施例2：

在上一实施例的基础上，所述步骤1中：对主诉中的症状关键词和时间关键词采固定的句式模板进行分词抽取的方法执行以下步骤：利用预先构建的实体词典，在待抽取关键词的文档中进行匹配，得到实体词表；利用所述待抽取关键词的文档中各词条之间的共现关系，构建所述待抽取关键词的文档中各词条之间的关联关系矩阵；根据所述关联关系矩阵调整所述实体词表中各实体词的权重，得到关键词表；以及从所述关键词表中抽取关键词。

上述技术方案的技术方案为：通过利用预先构建的实体词典，在待抽取关键词的文档中进行匹配，得到实体词表；利用待抽取关键词的文档中各词条之间的共现关系，构建待抽取关键词的文档中各词条之间的关联关系矩阵；根据关联关系矩阵调整实体词表中各实体词的权重，得到关键词表；以及从关键词表中抽取关键词。

上述技术方案的技术效果为：不仅可以抽取到文档中的实体关键词，还能抽取到文档中非实体关键词，降低某些非核心关键词的实体词的权重，同时保留核心的实体词，提高了关键词抽取的准确率。

实施例3：

在上一实施例的基础上，所述利用所述待抽取关键词的文档中各词条之间的共现关系，构建所述待抽取关键词的文档中各词条之间的关联关系矩阵之前，还包括：从与所述待抽取关键词的文档不同的其它文档中挖掘各词条的关联，得到所述其它文档词条间的关联权重；所述利用所述待抽取关键词的文档中各词条之间的共现关系，构建所述待抽取关键词的文档中各词条之间的关联关系矩阵的步骤包括：利用所述待抽取关键词的文档中所述各词条之间的共现关系，以及所述其它文档词条间的关联权重中与所述待抽取关键词的文档中的词条对应的词条间的关联权重构建所述关联关系矩阵。

上述技术方案的技术方案为：条件随机场(CRF:Conditional Random Filed)和规则分类方法相结合，对大文本的全文进行分类。对输入大文本的标题部分采用基于语义的统计CRF分类方法；对大文本的正文部分采用基于规则的词袋分类方法；最后按照CRF分类结果为主规则分类结果为辅的方式对分类结果进行整合、去重、排序，输出语义层次和字符层次整合的最终分类结果。

上述技术方案的技术效果为：这种方法由于解决了标题的高度抽象性和正文的实体繁杂性之间的矛盾，实现了对文本不同视角的认识，满足了不同人群对大文本的个性化认识，具有全文分类整体准确度高的特点。

实施例4：

在上一实施例的基础上，所述步骤2中：通过CRF序列标注的方法确定现病史文本中存在的症状关键词和时间关键词，对症状关键词和时间关键词通过最大熵模型判断是否是匹配的症状和时间关系的方法执行以下步骤：将待拆分文件拆分成标题文本和正文文本两部分并分别保存；采用CRF文本处理方式对所述标题文本进行处理得到文件名和分类分本之间的对应关系，根据每个分类目录下存储的文件名进行三级分词处理并对分词结果进行分类标注，并采用CRF learn方法进行标题分类建模得到CRF模型；采用DEC文本处理方式对所述正文文本进行处理得到分词文本和分类分本之间的对应关系，根据每个分类目录下存储分词文本进行三级分词处理并对分词结果构建DEC张量并进行DEC类处理得到DEC模型；获取待分类文件并将其拆分成待分类标题文本和待分类正文文本两部分分别保存；将所述待分类标题文本进行三级分词处理并采用CRF test方法调用所述CRF模型计算得出CRF分类结果；将所述待分类正文文本进行三级分词处理并构建DEC张量后调用所述DEC模型计算得出DEC分类结果；取所述CRF分类结果中的第一个和所述DEC分类结果中的前四个并进行去重处理得到分类结果并输出；根据输出结果确定现病史文本中存在的症状关键词和时间关键词，对症状关键词和时间关键词通过最大熵模型判断是否是匹配的症状和时间关系。

上述技术方案的技术方案为：基于全文的大文本CRF和规则分类系统中，所述应用层包括新文献接收模块和输出结果显示模块。将类分成了意义类和字符类，满足了对大文本不同视角的分类。

上述技术方案的技术效果为：提高了全文的整体分类准确率。

实施例5：

在上一实施例的基础上，所述获取原始文件并将其转换为txt格式并作为所述待拆分文件；基础语料层，其用于存储建立规则的DEC分类模型参数、CRF模板文件以及按类记录的标注语料文件；模型层，其用于根据所述建立规则的DEC分类模型参数、所述CRF模板文件以及所述按类记录的标注语料文件建立CRF模型和DEC规则模型；应用层，其用于接收用户输入的文本文件并根据所述CRF模型和所述DEC规则模型进行分类并将分类结果输出。

上述技术方案的技术方案为：基于规则的大文本分类方法，以词袋为基础进行集合运算得到特征词，通过文本与特征词集合的比较来确定类属关系。规则方法由于破坏了以句子为载体的文本语义，一般用于确定文本字符在类中的份量，是一种字面意义的分类。但是大文本一般都有一个超越字面意义的、抽象度更高、视野更宽阔的意义类，这一般体现为文本的标题、摘要、关键词、前言、简介等部分。而这一意涵丰富的部分如果拆分成无序的词袋，将失去其凝聚为一体的高层意义，如果采用规则分类，分类准确度很低，不能满足业务需求。纯粹基于统计的分类方法，由于文本规模大，比如超过30万字，任何一种统计方法都将解析出大量的统计特征，在大数据下对这些特征进行优化计算，将耗费大量的系统资源，比如超过200G的内存都不能有效的进行分类模型的迭代计算，计算出来的模型超过5G以上，在运行时将占据大量的内存空间。因此统计的方法虽然有准确度的优势，但是却受到了计算资源的限制，也不能有效而准确的工作。采用CRF的序列标注确定关键词效率更高。

上述技术方案的技术效果为：效率更高。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个单元、程序段或代码的一部分，所述单元、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能单元可以集成在一起形成一个独立的部分，也可以是各个单元单独存在，也可以两个或两个以上单元集成形成一个独立的部分。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Onl8 Memor8)、随机存取存储器(RAM，Random Access Memor8)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

Claims

1.一种病历中主诉与现病史症状时间一致性检测方法，其特征在于，所述方法执行以下步骤：

步骤4：检测主诉和现病史中的症状是不是缺少时间，在都有时间的前提下，对主诉中的症状在现病史的症状中遍历，采用“身体部位+描述性+症状”的模板结合词向量相似度的方法，匹配最相似的症状，进行症状对齐，进而判断时间是否一致；

所述步骤1中：对主诉中的症状关键词和时间关键词采固定的句式模板进行分词抽取的方法执行以下步骤：利用预先构建的实体词典，在待抽取关键词的文档中进行匹配，得到实体词表；利用所述待抽取关键词的文档中各词条之间的共现关系，构建所述待抽取关键词的文档中各词条之间的关联关系矩阵；根据所述关联关系矩阵调整所述实体词表中各实体词的权重，得到关键词表；以及从所述关键词表中抽取关键词；

所述利用所述待抽取关键词的文档中各词条之间的共现关系，构建所述待抽取关键词的文档中各词条之间的关联关系矩阵之前，还包括：从与所述待抽取关键词的文档不同的其它文档中挖掘各词条的关联，得到所述其它文档词条间的关联权重；所述利用所述待抽取关键词的文档中各词条之间的共现关系，构建所述待抽取关键词的文档中各词条之间的关联关系矩阵的步骤包括：利用所述待抽取关键词的文档中所述各词条之间的共现关系，以及所述其它文档词条间的关联权重中与所述待抽取关键词的文档中的词条对应的词条间的关联权重构建所述关联关系矩阵；

所述步骤2中：通过CRF序列标注的方法确定现病史文本中存在的症状关键词和时间关键词，对症状关键词和时间关键词通过最大熵模型判断是否是匹配的症状和时间关系的方法执行以下步骤：将待拆分文件拆分成标题文本和正文文本两部分并分别保存；采用CRF文本处理方式对所述标题文本进行处理得到文件名和分类分本之间的对应关系，根据每个分类目录下存储的文件名进行三级分词处理并对分词结果进行分类标注，并采用CRF learn方法进行标题分类建模得到CRF模型；采用DEC文本处理方式对所述正文文本进行处理得到分词文本和分类分本之间的对应关系，根据每个分类目录下存储分词文本进行三级分词处理并对分词结果构建DEC张量并进行DEC类处理得到DEC模型；获取待分类文件并将其拆分成待分类标题文本和待分类正文文本两部分分别保存；将所述待分类标题文本进行三级分词处理并采用CRF test方法调用所述CRF模型计算得出CRF分类结果；将所述待分类正文文本进行三级分词处理并构建DEC张量后调用所述DEC模型计算得出DEC分类结果；取所述CRF分类结果中的第一个和所述DEC分类结果中的前四个并进行去重处理得到分类结果并输出；根据输出结果确定现病史文本中存在的症状关键词和时间关键词，对症状关键词和时间关键词通过最大熵模型判断是否是匹配的症状和时间关系；

其特征在于，基础语料层，其用于存储建立规则的DEC分类模型参数、CRF模板文件以及按类记录的标注语料文件；模型层，其用于根据所述建立规则的DEC分类模型参数、所述CRF模板文件以及所述按类记录的标注语料文件建立CRF模型和DEC规则模型；应用层，其用于接收用户输入的文本文件并根据所述CRF模型和所述DEC规则模型进行分类并将分类结果输出。