CN110019820B - 一种病历中主诉与现病史症状时间一致性检测方法 - Google Patents

一种病历中主诉与现病史症状时间一致性检测方法 Download PDF

Info

Publication number
CN110019820B
CN110019820B CN201910244674.9A CN201910244674A CN110019820B CN 110019820 B CN110019820 B CN 110019820B CN 201910244674 A CN201910244674 A CN 201910244674A CN 110019820 B CN110019820 B CN 110019820B
Authority
CN
China
Prior art keywords
text
time
keywords
crf
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910244674.9A
Other languages
English (en)
Other versions
CN110019820A (zh
Inventor
何方腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Shanghai Intelligent Technology Co Ltd
Original Assignee
Unisound Shanghai Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Shanghai Intelligent Technology Co Ltd filed Critical Unisound Shanghai Intelligent Technology Co Ltd
Priority to CN201910244674.9A priority Critical patent/CN110019820B/zh
Publication of CN110019820A publication Critical patent/CN110019820A/zh
Application granted granted Critical
Publication of CN110019820B publication Critical patent/CN110019820B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提出一种病历中主诉与现病史症状时间一致性检测方法,涉及医疗信息化技术领域。通过规则结合统计模型的方法,优化纯规则提取时间在有较长上下文依赖的情况下确定的准确率,在病历数据有限的状况下,传统统计模型对数据量依赖少于深度学习的模型方法。规则结合统计模型的方法在系统时间响应性能上优于复杂模型方法。具有时间一致性高、准确率高和效率高的优点。

Description

一种病历中主诉与现病史症状时间一致性检测方法
技术领域
本发明涉及医疗信息化技术领域,具体而言,涉及一种病历中主诉与现病史症状时间一致性检测方法。
背景技术
病历中主诉是患者自述的症状、体征、性质,以及持续时间等内容。现病史是围绕主诉的发生时间和特点描述病后全过程。主诉和现病史是住院病历或入院记录的重要部分,因此主诉和现病史中症状时间的检测是病历质量检查的重要内容。一般通用的做法,用规则或者模型提取症状和时间部分,然后基于规则将时间赋值给对应的症状,进行时间一致性比较。
由于目前可获取的病历资源有限,病历中存在大量的专业术语,对单纯用统计模型的方法带来了限制。主诉和现病史中时间和症状的确定可以通过一系列句式模板进行提取,(类似模板:(时间)因(症状)入我院)),但是主诉和现病史中存在多种症状,每种症状对应的时间的确定可能会受其他症状时间的干扰。而且现病史描述详细,有些症状时间的确定依赖较长的上下文,对于单纯通过规则模板来确定时间的方法带来了一定困难。
发明内容
本发明的目的在于提供一种病历中主诉与现病史症状时间一致性检测方法,具有时间一致性高、准确率高和效率高的优点。
为了实现上述目的,本发明实施例采用的技术方案如下:
一种病历中主诉与现病史症状时间一致性检测方法,所述方法执行以下步骤:
步骤1:对主诉中的症状关键词和时间关键词采固定的句式模板进行分词抽取;
步骤2:通过CRF序列标注的方法确定现病史文本中存在的症状关键词和时间关键词,对症状关键词和时间关键词通过最大熵模型判断是否是匹配的症状和时间关系;
步骤3:对文本中的绝对时间和相对时间根据病历的记录时间计算出持续时间;
步骤4:检测主诉和现病史中的症状是不是缺少时间,在都有时间的前提下,对主诉中的症状在现病史的症状中遍历,采用“身体部位+描述性+症状”的模板结合词向量相似度的方法,匹配最相似的症状,进行症状对齐,进而判断时间是否一致。
进一步的,所述步骤1中:对主诉中的症状关键词和时间关键词采固定的句式模板进行分词抽取的方法执行以下步骤:利用预先构建的实体词典,在待抽取关键词的文档中进行匹配,得到实体词表;利用所述待抽取关键词的文档中各词条之间的共现关系,构建所述待抽取关键词的文档中各词条之间的关联关系矩阵;根据所述关联关系矩阵调整所述实体词表中各实体词的权重,得到关键词表;以及从所述关键词表中抽取关键词。
进一步的,所述利用所述待抽取关键词的文档中各词条之间的共现关系,构建所述待抽取关键词的文档中各词条之间的关联关系矩阵之前,还包括:从与所述待抽取关键词的文档不同的其它文档中挖掘各词条的关联,得到所述其它文档词条间的关联权重;所述利用所述待抽取关键词的文档中各词条之间的共现关系,构建所述待抽取关键词的文档中各词条之间的关联关系矩阵的步骤包括:利用所述待抽取关键词的文档中所述各词条之间的共现关系,以及所述其它文档词条间的关联权重中与所述待抽取关键词的文档中的词条对应的词条间的关联权重构建所述关联关系矩阵。
进一步的,所述步骤2中:通过CRF序列标注的方法确定现病史文本中存在的症状关键词和时间关键词,对症状关键词和时间关键词通过最大熵模型判断是否是匹配的症状和时间关系的方法执行以下步骤:将待拆分文件拆分成标题文本和正文文本两部分并分别保存;采用CRF文本处理方式对所述标题文本进行处理得到文件名和分类分本之间的对应关系,根据每个分类目录下存储的文件名进行三级分词处理并对分词结果进行分类标注,并采用CRF learn方法进行标题分类建模得到CRF模型;采用DEC文本处理方式对所述正文文本进行处理得到分词文本和分类分本之间的对应关系,根据每个分类目录下存储分词文本进行三级分词处理并对分词结果构建DEC张量并进行DEC类处理得到DEC模型;获取待分类文件并将其拆分成待分类标题文本和待分类正文文本两部分分别保存;将所述待分类标题文本进行三级分词处理并采用CRF test方法调用所述CRF模型计算得出CRF分类结果;将所述待分类正文文本进行三级分词处理并构建DEC张量后调用所述DEC模型计算得出DEC分类结果;取所述CRF分类结果中的第一个和所述DEC分类结果中的前四个并进行去重处理得到分类结果并输出;根据输出结果确定现病史文本中存在的症状关键词和时间关键词,对症状关键词和时间关键词通过最大熵模型判断是否是匹配的症状和时间关系。
进一步的,所述获取原始文件并将其转换为txt格式并作为所述待拆分文件;基础语料层,其用于存储建立规则的DEC分类模型参数、CRF模板文件以及按类记录的标注语料文件;模型层,其用于根据所述建立规则的DEC分类模型参数、所述CRF模板文件以及所述按类记录的标注语料文件建立CRF模型和DEC规则模型;应用层,其用于接收用户输入的文本文件并根据所述CRF模型和所述DEC规则模型进行分类并将分类结果输出。
本发明实施例提供的一种病历中主诉与现病史症状时间一致性检测方法,具有以下有益效果:通过规则结合统计模型的方法,优化纯规则提取时间在有较长上下文依赖的情况下确定的准确率,在病历数据有限的状况下,传统统计模型对数据量依赖少于深度学习的模型方法。规则结合统计模型的方法在系统时间响应性能上优于复杂模型方法。具有时间一致性高、准确率高和效率高的优点。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的病历中主诉与现病史症状时间一致性检测方法的方法流程示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1:
如图1所示,一种病历中主诉与现病史症状时间一致性检测方法,所述方法执行以下步骤:
步骤1:对主诉中的症状关键词和时间关键词采固定的句式模板进行分词抽取;
步骤2:通过CRF序列标注的方法确定现病史文本中存在的症状关键词和时间关键词,对症状关键词和时间关键词通过最大熵模型判断是否是匹配的症状和时间关系;
步骤3:对文本中的绝对时间和相对时间根据病历的记录时间计算出持续时间;
步骤4:检测主诉和现病史中的症状是不是缺少时间,在都有时间的前提下,对主诉中的症状在现病史的症状中遍历,采用“身体部位+描述性+症状”的模板结合词向量相似度的方法,匹配最相似的症状,进行症状对齐,进而判断时间是否一致。
上述技术方案的技术方案为:通过规则结合模型的时间确定方法,来优化传统主诉与现病史中的时间一致性比较的效果。
上述技术方案的技术效果为:准确性更高、效率跟高,时间一致性高。
实施例2:
在上一实施例的基础上,所述步骤1中:对主诉中的症状关键词和时间关键词采固定的句式模板进行分词抽取的方法执行以下步骤:利用预先构建的实体词典,在待抽取关键词的文档中进行匹配,得到实体词表;利用所述待抽取关键词的文档中各词条之间的共现关系,构建所述待抽取关键词的文档中各词条之间的关联关系矩阵;根据所述关联关系矩阵调整所述实体词表中各实体词的权重,得到关键词表;以及从所述关键词表中抽取关键词。
上述技术方案的技术方案为:通过利用预先构建的实体词典,在待抽取关键词的文档中进行匹配,得到实体词表;利用待抽取关键词的文档中各词条之间的共现关系,构建待抽取关键词的文档中各词条之间的关联关系矩阵;根据关联关系矩阵调整实体词表中各实体词的权重,得到关键词表;以及从关键词表中抽取关键词。
上述技术方案的技术效果为:不仅可以抽取到文档中的实体关键词,还能抽取到文档中非实体关键词,降低某些非核心关键词的实体词的权重,同时保留核心的实体词,提高了关键词抽取的准确率。
实施例3:
在上一实施例的基础上,所述利用所述待抽取关键词的文档中各词条之间的共现关系,构建所述待抽取关键词的文档中各词条之间的关联关系矩阵之前,还包括:从与所述待抽取关键词的文档不同的其它文档中挖掘各词条的关联,得到所述其它文档词条间的关联权重;所述利用所述待抽取关键词的文档中各词条之间的共现关系,构建所述待抽取关键词的文档中各词条之间的关联关系矩阵的步骤包括:利用所述待抽取关键词的文档中所述各词条之间的共现关系,以及所述其它文档词条间的关联权重中与所述待抽取关键词的文档中的词条对应的词条间的关联权重构建所述关联关系矩阵。
上述技术方案的技术方案为:条件随机场(CRF:Conditional Random Filed)和规则分类方法相结合,对大文本的全文进行分类。对输入大文本的标题部分采用基于语义的统计CRF分类方法;对大文本的正文部分采用基于规则的词袋分类方法;最后按照CRF分类结果为主规则分类结果为辅的方式对分类结果进行整合、去重、排序,输出语义层次和字符层次整合的最终分类结果。
上述技术方案的技术效果为:这种方法由于解决了标题的高度抽象性和正文的实体繁杂性之间的矛盾,实现了对文本不同视角的认识,满足了不同人群对大文本的个性化认识,具有全文分类整体准确度高的特点。
实施例4:
在上一实施例的基础上,所述步骤2中:通过CRF序列标注的方法确定现病史文本中存在的症状关键词和时间关键词,对症状关键词和时间关键词通过最大熵模型判断是否是匹配的症状和时间关系的方法执行以下步骤:将待拆分文件拆分成标题文本和正文文本两部分并分别保存;采用CRF文本处理方式对所述标题文本进行处理得到文件名和分类分本之间的对应关系,根据每个分类目录下存储的文件名进行三级分词处理并对分词结果进行分类标注,并采用CRF learn方法进行标题分类建模得到CRF模型;采用DEC文本处理方式对所述正文文本进行处理得到分词文本和分类分本之间的对应关系,根据每个分类目录下存储分词文本进行三级分词处理并对分词结果构建DEC张量并进行DEC类处理得到DEC模型;获取待分类文件并将其拆分成待分类标题文本和待分类正文文本两部分分别保存;将所述待分类标题文本进行三级分词处理并采用CRF test方法调用所述CRF模型计算得出CRF分类结果;将所述待分类正文文本进行三级分词处理并构建DEC张量后调用所述DEC模型计算得出DEC分类结果;取所述CRF分类结果中的第一个和所述DEC分类结果中的前四个并进行去重处理得到分类结果并输出;根据输出结果确定现病史文本中存在的症状关键词和时间关键词,对症状关键词和时间关键词通过最大熵模型判断是否是匹配的症状和时间关系。
上述技术方案的技术方案为:基于全文的大文本CRF和规则分类系统中,所述应用层包括新文献接收模块和输出结果显示模块。将类分成了意义类和字符类,满足了对大文本不同视角的分类。
上述技术方案的技术效果为:提高了全文的整体分类准确率。
实施例5:
在上一实施例的基础上,所述获取原始文件并将其转换为txt格式并作为所述待拆分文件;基础语料层,其用于存储建立规则的DEC分类模型参数、CRF模板文件以及按类记录的标注语料文件;模型层,其用于根据所述建立规则的DEC分类模型参数、所述CRF模板文件以及所述按类记录的标注语料文件建立CRF模型和DEC规则模型;应用层,其用于接收用户输入的文本文件并根据所述CRF模型和所述DEC规则模型进行分类并将分类结果输出。
上述技术方案的技术方案为:基于规则的大文本分类方法,以词袋为基础进行集合运算得到特征词,通过文本与特征词集合的比较来确定类属关系。规则方法由于破坏了以句子为载体的文本语义,一般用于确定文本字符在类中的份量,是一种字面意义的分类。但是大文本一般都有一个超越字面意义的、抽象度更高、视野更宽阔的意义类,这一般体现为文本的标题、摘要、关键词、前言、简介等部分。而这一意涵丰富的部分如果拆分成无序的词袋,将失去其凝聚为一体的高层意义,如果采用规则分类,分类准确度很低,不能满足业务需求。纯粹基于统计的分类方法,由于文本规模大,比如超过30万字,任何一种统计方法都将解析出大量的统计特征,在大数据下对这些特征进行优化计算,将耗费大量的系统资源,比如超过200G的内存都不能有效的进行分类模型的迭代计算,计算出来的模型超过5G以上,在运行时将占据大量的内存空间。因此统计的方法虽然有准确度的优势,但是却受到了计算资源的限制,也不能有效而准确的工作。采用CRF的序列标注确定关键词效率更高。
上述技术方案的技术效果为:效率更高。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个单元、程序段或代码的一部分,所述单元、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能单元可以集成在一起形成一个独立的部分,也可以是各个单元单独存在,也可以两个或两个以上单元集成形成一个独立的部分。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Onl8 Memor8)、随机存取存储器(RAM,Random Access Memor8)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

Claims (1)

1.一种病历中主诉与现病史症状时间一致性检测方法,其特征在于,所述方法执行以下步骤:
步骤1:对主诉中的症状关键词和时间关键词采固定的句式模板进行分词抽取;
步骤2:通过CRF序列标注的方法确定现病史文本中存在的症状关键词和时间关键词,对症状关键词和时间关键词通过最大熵模型判断是否是匹配的症状和时间关系;
步骤3:对文本中的绝对时间和相对时间根据病历的记录时间计算出持续时间;
步骤4:检测主诉和现病史中的症状是不是缺少时间,在都有时间的前提下,对主诉中的症状在现病史的症状中遍历,采用“身体部位+描述性+症状”的模板结合词向量相似度的方法,匹配最相似的症状,进行症状对齐,进而判断时间是否一致;
所述步骤1中:对主诉中的症状关键词和时间关键词采固定的句式模板进行分词抽取的方法执行以下步骤:利用预先构建的实体词典,在待抽取关键词的文档中进行匹配,得到实体词表;利用所述待抽取关键词的文档中各词条之间的共现关系,构建所述待抽取关键词的文档中各词条之间的关联关系矩阵;根据所述关联关系矩阵调整所述实体词表中各实体词的权重,得到关键词表;以及从所述关键词表中抽取关键词;
所述利用所述待抽取关键词的文档中各词条之间的共现关系,构建所述待抽取关键词的文档中各词条之间的关联关系矩阵之前,还包括:从与所述待抽取关键词的文档不同的其它文档中挖掘各词条的关联,得到所述其它文档词条间的关联权重;所述利用所述待抽取关键词的文档中各词条之间的共现关系,构建所述待抽取关键词的文档中各词条之间的关联关系矩阵的步骤包括:利用所述待抽取关键词的文档中所述各词条之间的共现关系,以及所述其它文档词条间的关联权重中与所述待抽取关键词的文档中的词条对应的词条间的关联权重构建所述关联关系矩阵;
所述步骤2中:通过CRF序列标注的方法确定现病史文本中存在的症状关键词和时间关键词,对症状关键词和时间关键词通过最大熵模型判断是否是匹配的症状和时间关系的方法执行以下步骤:将待拆分文件拆分成标题文本和正文文本两部分并分别保存;采用CRF文本处理方式对所述标题文本进行处理得到文件名和分类分本之间的对应关系,根据每个分类目录下存储的文件名进行三级分词处理并对分词结果进行分类标注,并采用CRF learn方法进行标题分类建模得到CRF模型;采用DEC文本处理方式对所述正文文本进行处理得到分词文本和分类分本之间的对应关系,根据每个分类目录下存储分词文本进行三级分词处理并对分词结果构建DEC张量并进行DEC类处理得到DEC模型;获取待分类文件并将其拆分成待分类标题文本和待分类正文文本两部分分别保存;将所述待分类标题文本进行三级分词处理并采用CRF test方法调用所述CRF模型计算得出CRF分类结果;将所述待分类正文文本进行三级分词处理并构建DEC张量后调用所述DEC模型计算得出DEC分类结果;取所述CRF分类结果中的第一个和所述DEC分类结果中的前四个并进行去重处理得到分类结果并输出;根据输出结果确定现病史文本中存在的症状关键词和时间关键词,对症状关键词和时间关键词通过最大熵模型判断是否是匹配的症状和时间关系;
其特征在于,基础语料层,其用于存储建立规则的DEC分类模型参数、CRF模板文件以及按类记录的标注语料文件;模型层,其用于根据所述建立规则的DEC分类模型参数、所述CRF模板文件以及所述按类记录的标注语料文件建立CRF模型和DEC规则模型;应用层,其用于接收用户输入的文本文件并根据所述CRF模型和所述DEC规则模型进行分类并将分类结果输出。
CN201910244674.9A 2019-03-28 2019-03-28 一种病历中主诉与现病史症状时间一致性检测方法 Active CN110019820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910244674.9A CN110019820B (zh) 2019-03-28 2019-03-28 一种病历中主诉与现病史症状时间一致性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910244674.9A CN110019820B (zh) 2019-03-28 2019-03-28 一种病历中主诉与现病史症状时间一致性检测方法

Publications (2)

Publication Number Publication Date
CN110019820A CN110019820A (zh) 2019-07-16
CN110019820B true CN110019820B (zh) 2023-05-30

Family

ID=67190147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910244674.9A Active CN110019820B (zh) 2019-03-28 2019-03-28 一种病历中主诉与现病史症状时间一致性检测方法

Country Status (1)

Country Link
CN (1) CN110019820B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785386B (zh) * 2020-06-30 2024-04-05 讯飞医疗科技股份有限公司 时间区间段的划分方法、相关设备及可读存储介质
CN112541064A (zh) * 2020-12-09 2021-03-23 联仁健康医疗大数据科技股份有限公司 健康评测方法、装置、计算机设备及存储介质
CN113704428B (zh) * 2021-08-30 2023-10-24 康键信息技术(深圳)有限公司 智能问诊方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562732A (zh) * 2017-10-26 2018-01-09 北京康夫子科技有限公司 电子病历的处理方法及系统
CN109192255A (zh) * 2018-07-03 2019-01-11 北京康夫子科技有限公司 病历结构化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10360507B2 (en) * 2016-09-22 2019-07-23 nference, inc. Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562732A (zh) * 2017-10-26 2018-01-09 北京康夫子科技有限公司 电子病历的处理方法及系统
CN109192255A (zh) * 2018-07-03 2019-01-11 北京康夫子科技有限公司 病历结构化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
具有自学习能力的电子病历后结构化技术研究;陆鹏等;《世界最新医学信息文摘》;20180907(第73期);全文 *

Also Published As

Publication number Publication date
CN110019820A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
WO2017092337A1 (zh) 评论标签提取方法和装置
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN107463548B (zh) 短语挖掘方法及装置
CN110019820B (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
Khasawneh et al. Arabic sentiment polarity identification using a hybrid approach
CN110674297B (zh) 舆情文本分类模型构建和舆情文本分类方法、装置及设备
Zhang et al. Continuous word embeddings for detecting local text reuses at the semantic level
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
Weerasinghe et al. Feature Vector Difference based Authorship Verification for Open-World Settings.
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN109753646B (zh) 一种文章属性识别方法以及电子设备
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
Chader et al. Sentiment Analysis for Arabizi: Application to Algerian Dialect.
Tariku et al. Sentiment Mining and Aspect Based Summarization of Opinionated Afaan Oromoo News Text
CN109344397B (zh) 文本特征词语的提取方法及装置、存储介质及程序产品
Phan et al. Applying skip-gram word estimation and SVM-based classification for opinion mining Vietnamese food places text reviews
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
Baniata et al. Sentence representation network for Arabic sentiment analysis
CN115438147A (zh) 面向轨道交通领域的信息检索方法及系统
Rubtsova Automatic term extraction for sentiment classification of dynamically updated text collections into three classes
CN115129864A (zh) 文本分类方法、装置、计算机设备和存储介质
Rofiq Indonesian news extractive text summarization using latent semantic analysis
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant