CN108899063A - 体检数据处理方法、装置、计算机设备和存储介质 - Google Patents
体检数据处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN108899063A CN108899063A CN201810546978.6A CN201810546978A CN108899063A CN 108899063 A CN108899063 A CN 108899063A CN 201810546978 A CN201810546978 A CN 201810546978A CN 108899063 A CN108899063 A CN 108899063A
- Authority
- CN
- China
- Prior art keywords
- physical examination
- characteristic parameter
- disease label
- disease
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请涉及一种体检数据处理方法、装置、计算机设备和存储介质。该方法包括:从体检报告文件中获取体检数据;从所述体检数据中提取特征参数,提取的所述特征参数包括特征参数项和对应的特征参数值;根据提取的所述特征参数项确定疾病标签集合,其中,所述疾病标签集合中的每个疾病标签对应一个或者多个特征参数;根据对应的一个或者多个特征参数的特征参数值计算所述疾病标签集合中疾病标签的贡献度;判断所述疾病标签的贡献度是否大于设定阈值,若是,则为所述体检报告文件标记所述疾病标签。采用本方法能够实现体检报告的健康标签自动判定。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种体检数据处理方法、装置、计算机设备和存储介质。
背景技术
随着社会的进步和人们生活水平的逐步提高,全民健康意识和疾病防范意识不断增强,越来越多的人更加重视自己的身体健康,且大多数人会定期去做体检。
体检情况以体检报告的形式呈现给检查者。体检报告是指对身体进行检查,根据身体反应的数据而生成的具有一定格式的文档。目前体检报告是由医生根据专业知识去解读大量的体检参数,并为体检报告标记人工解读出来的健康标签以完成体检报告的评估。这种人工判定标记体检报告标签的方式存在评估效率低的缺陷。
发明内容
基于此,有必要针对上述技术问题,提供一种能够实现体检报告的健康标签自动判定的体检数据处理方法、装置、计算机设备和存储介质。
一种体检数据处理方法,所述方法包括:
从体检报告文件中获取体检数据;
从所述体检数据中提取特征参数,提取的所述特征参数包括特征参数项和对应的特征参数值;
根据预先学习的疾病标签与特征参数项之间的关联关系,基于提取出的所有的特征参数项匹配出相关联的多个疾病标签,匹配出的每个所述疾病标签对应一个或者多个所述特征参数;
针对每个所述疾病标签,根据所述疾病标签对应的一个或者多个所述特征参数的特征参数值计算所述疾病标签的贡献度;
判断所述疾病标签的贡献度是否大于设定阈值,若是,则为所述体检报告文件标记所述疾病标签。
在一个实施例中,所述从体检报告文件中获取体检数据,包括:
获取体检报告文件;
识别所述体检报告文件的文件格式,将非文本格式的体检报告转换成文本格式的体检报告;
从所述文本格式的体检报告中获取体检数据。
在一个实施例中,所述方法还包括:
构建病症库,所述病症库中包括疾病标签以及对应的病症描述;
获取收集的体检数据,将所述体检数据中与所述病症描述匹配的体检参数项定义为特征参数项;
将从所述疾病标签对应的病症描述中匹配出的特征参数项定义为对应疾病标签的关联参数项。
在一个实施例中,所述根据预先学习的疾病标签与特征参数项之间的关联关系,基于提取出的所有的特征参数项匹配出相关联的多个疾病标签,包括:
将本次提取的所述特征参数项与疾病标签的关联参数项进行对比,查找所述关联参数项包含在提取的所述特征参数项中的疾病标签,输出满足查找条件的疾病标签。
在一个实施例中,所述根据所述疾病标签对应的一个或者多个所述特征参数的特征参数值计算所述疾病标签的贡献度,包括:
将所述特征参数值与预先定义的对应不同贡献等级的特征参数值区间进行对比,确定所述特征参数值所在的贡献等级;
根据所述贡献等级与贡献分值之间的对应关系,计算每个所述特征参数的贡献分值;
根据对应同一疾病标签的多个所述特征参数的贡献分值计算相应疾病标签的贡献度。
一种体检数据处理装置,所述装置包括:
体检数据获取模块,用于从体检报告文件中获取体检数据;
特征参数提取模块,用于从所述体检数据中提取特征参数,提取的所述特征参数包括特征参数项和对应的特征参数值;
标签确定模块,用于根据预先学习的疾病标签与特征参数项之间的关联关系,基于提取出的所有的特征参数项匹配出相关联的多个疾病标签,匹配出的每个所述疾病标签对应一个或者多个所述特征参数;
标签贡献度计算模块,用于针对每个所述疾病标签,根据所述疾病标签对应的一个或者多个所述特征参数的特征参数值计算所述疾病标签的贡献度;
打标模块,用于判断所述疾病标签的贡献度是否大于设定阈值,若是,则为所述体检报告文件标记所述疾病标签。
在一个实施例中,所述装置还包括:关联参数项定义模块,用于构建病症库,所述病症库中包括疾病标签以及对应的病症描述;获取收集的体检数据,将所述体检数据中与所述病症描述匹配的体检参数项定义为特征参数项;将从所述疾病标签对应的病症描述中匹配出的特征参数项定义为对应疾病标签的关联参数项。
在一个实施例中,所述标签贡献度计算模块,还用于将所述特征参数值与预先定义的对应不同贡献等级的特征参数值区间进行对比,确定所述特征参数值所在的贡献等级;根据所述贡献等级与贡献分值之间的对应关系,计算每个所述特征参数的贡献分值;根据对应同一疾病标签的多个所述特征参数的贡献分值计算相应疾病标签的贡献度。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的方法的步骤。
上述体检数据处理方法、装置、计算机设备和存储介质,从体检报告文件中获取体检数据,提取特征参数,然后根据特征参数项确定疾病标签集合,通过特征参数值量化每个疾病标签,计算每个疾病标签的贡献度;贡献度越大表明体检数据与该疾病标签的贴合度越强,将根据贡献度筛选出疾病标签标记为体检报告的健康标签,实现了对体检报告的健康标签的自动判定、自动添加。
附图说明
图1为一个实施例中体检数据处理方法的应用场景图;
图2为一个实施例中体检数据处理方法的流程示意图;
图3为一个实施例中特征参数和关联参数定义所涉及的步骤的流程示意图;
图4为另一个实施例中疾病标签的贡献度计算所涉及的流程图;
图5为一个实施例中体检数据处理装置的结构框图;
图6为另一个实施例中体检数据处理装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的体检数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。终端102向服务器104上传体检报告,服务器对上传的体检报告进行数据处理和分析得到体检报告的健康标签。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种体检数据处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,从体检报告文件中获取体检数据。
服务器获取用户终端上传的体检报告文件,或者定期从体检机构拉取体检报告。
步骤204,从体检数据中提取特征参数,提取的特征参数包括特征参数项和对应的特征参数值。
从体检报告中大量的体检数据中提取部分参数作为特征参数,提取的特征数据能够最大程度体现体检数据的特性。本实施例中的体检报告健康标签的判定基于对特征参数进行数据分析和计算进行的。采用特征分析的方式能够在保证健康标签判别准确性的基础上大大减少计算资源的占用,降低计算难度。
提取的特征参数包括特征参数项和特征参数值。具体的,特征参数项可以是参数名称、当参数名称对应有英文缩写时,特征参数项包括参数名称和对应的英文缩写。此外,特征参数项还可以是检查项目名称,如检查项目名称为“牙周”。而特征参数值可以是检查结果值、检查结果描述等。当特征参数值为检查结果值时,提取的特征参数可以如“丙氨酸氨基转移酶(ALT)-31(U/L)”。当特征参数值为检查结果描述时,提取的特征参数可以是如下格式:“牙周-牙结石不同程度附着于牙颈部,牙龈缘及龈乳头充血、肿胀、点彩消失”。
步骤206:根据提取的特征参数项确定疾病标签集合,其中,疾病标签集合中的每个疾病标签对应一个或者多个特征参数。
根据预先学习的疾病标签与特征参数项之间的关联关系,基于提取所有的特征参数项匹配出相关联的多个疾病标签,匹配出的每个疾病标签对应一个或者多个特征参数。
服务器预先学习疾病标签与体检参数项之间的关联关系。在一个实施例中可以是学习疾病库中疾病描述等信息,得到与疾病相关联的参数项。如疾病库中“肾炎”的疾病描述为“多出现血尿、蛋白尿、水肿、高血压,肌酐值高等”则,参数项“肌酐”、“尿隐血”、“尿蛋白质”、“收缩压”“舒张压”作为“肾炎”的关联参数项,可指定关联参数项中的一个或者多个作为疾病标签的必要关联参数项。
查找从体检报告中提取的特征参数中是否包含有疾病标签关联的所有参数项或者必要关联参数项,若是,则输出对应的疾病标签,且获取体检报告中与该疾病标签对应的特征参数。
如体检报告中提取的特征参数包括:“肌酐”、“尿蛋白质”、“收缩压”“舒张压”,“肾炎”的必要关联参数项为“肌酐”、“尿蛋白质”,则体检报告中提取的特征参数包括的“肾炎”的所有必要关联参数项,则将“肾炎”作为该体检报告的初步诊断标签,体检报告的特征参数中,“肾炎”对应的特征参数包括:“肌酐”、“尿蛋白质”、“收缩压”“舒张压”。也即是,初步判别的疾病标签对应的特征参数为提取的特征参数中所包含的所有疾病标签的关联参数。
将特征参数项与所有的疾病标签的关联参数项进行对比,按照上述的规则确定初步判别的疾病标签集合,并确定疾病标签集合中的每个疾病标签对应的特征参数。
步骤208:针对每个疾病标签,根据疾病标签对应的一个或者多个特征参数的特征参数值计算疾病标签的贡献度。
步骤210:判断疾病标签对应的贡献度是否大于设定阈值,若是,则为体检报告文件标记疾病标签。
根据初步判别的疾病标签集合中每个疾病标签对应的特征参数的特征参数值计算疾病标签的贡献度,特征参数值偏离对应健康参考值区间越大,计算得到的疾病标签贡献度越大,疾病标签的贡献度越大表明体检患者患该疾病的风险越大,将贡献度大于设定阈值的疾病标签标记到体检报告文件中。
本实施例中,从体检报告文件中获取体检数据,提取特征参数,然后根据特征参数项确定疾病标签集合,通过特征参数值量化每个疾病标签,计算每个疾病标签的贡献度;贡献度越大表明体检数据与该疾病标签的贴合度越强,将根据贡献度筛选出疾病标签标记为体检报告的健康标签,实现了对体检报告的健康标签的自动判定、自动添加。
在一个实施例中,步骤202:从体检报告文件中获取体检数据,包括:获取体检报告文件,识别体检报告文件的文件格式,将文件格式为图片的体检报告转换成文本格式的体检报告,从文本格式的体检报告中获取体检数据。
本实施例的体检数据处理方法支持多种体检报告获取途径:(a)用户终端向服务器发送体检报告;(b)体检平台自动向服务器传输体检报告;(c)服务器定期从体检平台拉取体检报告;(d)业务端代替用户终端上传体检报告。
获取体检报告文件后,通过读取体检报告文件名后缀或者通过体检报告文件数据流中包含文件类型信息的头文件中获取体检报告的文件格式;筛选出图片等非文本格式的体检报告。具体的,对图片格式的报告,利用orc(Optical Character Recognition,光学字符识别)技术定位报告中包含文字的区域,识别区域内的文字,得到文本格式的体检报告。对PDF格式报告,需要识别是否实际是图片数据,如果是,抽取图片数据,进行ocr识别转换为文本数据。从文本格式的体检报告中获取体检数据,即得到每个体检报告对应的体检数据。
进一步的,预处理文本格式报告数据。具体为:利用模式识别技术和语义模型对体检报告中的数据进行各种形式(数值的、文字的逻辑关系的)信息进行处理和分析,进行删除冗余数据等处理。
在一个实施例中,在从体检数据提取特征参数之前,还需要进行如下数据准备的过程,具体为:
步骤302:构建病症库,病症库中包括疾病标签以及对应的病症描述。
步骤304:获取收集的体检数据,将体检数据中与病症描述匹配的体检参数定义为特征参数。
步骤306:将从疾病标签对应的病症描述中匹配出的体检参数定义为对应疾病标签的关联参数。
本实施例中,统计来自不同体检中心的体检报告数据,收集得到包括所有体检项的体检数据,即统计生成一份包括所有检查项、体检参数的体检数据。将体检数据与病症库中的病症描述进行匹配,如文字匹配、模糊匹配、同义词匹配等,查找在症状描述中涉及的体检参数,将查找出的体检参数定义为特征参数。
匹配时,记录每个疾病标签的病症描述匹配出的体检参数,匹配出的体检参数为对应疾病标签的关联参数。
基于上述定义的特征参数和定义的疾病标签的关联参数,提供了如下体检报告自动打标的方法,具体方案如下:
从体检报告文件中获取体检数据,从体检数据中提取预先定义的特征参数;判断特征参数项是否包含疾病标签的关联参数项,若是,则将对应的疾病标签作为初步判别标签,得到初步判别的疾病标签集合。从提取的特征参数中获取疾病标签集合中每个疾病标签对应的特征参数值(实质为疾病标签的关联参数值),根据疾病标签对应的特征参数值计算每个疾病标签的贡献度。判断疾病标签对应的贡献度是否大于设定阈值,若是,则为体检报告文件标记该疾病标签。
进一步的,如图4所示,步骤208:针对每个疾病标签,根据疾病标签对应的一个或者多个特征参数的特征参数值计算疾病标签的贡献度,包括:
步骤402:将特征参数值与预先定义的对应不同贡献等级的特征参数值区间进行对比,确定特征参数值所在的贡献等级。
不同的特征参数值具有不同的计量单位,本实施例中,对不同计量的特征参数值进行归一化处理。即按照预定义的归一化算法将不同的特征参数值归一化到相应的贡献等级。基于贡献等级计算疾病标签的贡献度。
预先划分贡献等级且预先定义每个疾病标签的关联参数区间与贡献等级之间的对应关系。获取疾病标签的关联参数值,判断该关联参数值所处的关联参数区间,进而确定该关联参数值所处的贡献等级。
若关联参数值为描述程度的词组,如轻度、严重等,预先定义不同贡献等级对应的描述程度的词组,以对非数值的关联参数值进行贡献等级判断。
步骤404:根据贡献等级与贡献分值之间的对应关系,计算每个特征参数的贡献分值。
为每个贡献等级定义贡献分值或者贡献分值区间。根据关联参数值所处的贡献等级后,根据每个贡献等级对应的贡献分值或者贡献分值区间确定关联参数的具体贡献分值。
举例来说,“视力低下”的关联参数包括左眼视力,右眼视力和眼压。体检报告中关于关联参数的体检数据为:左眼视力4.2,右眼视力8.3,眼压100,其中4.2、8.3和100为关联参数值,根据预先定义的贡献等级与“左眼视力”的视力值区间的对应关系,确定4.2落在了1级对应的视力值间内,因而,“左眼视力4.2”对应的贡献等级为1级;相应的,“右眼视力8.3”对应的贡献等级为2级,“眼压100”对应贡献等级为2级。若定义贡献等级1级的贡献分值为a,贡献等级2级的贡献分值为b,贡献等级3级的贡献分值为c,则“左眼视力4.2”、“右眼视力8.3”和“眼压100”对应的贡献分值分别为a,a,b。
步骤406:根据对应同一疾病标签的多个特征参数的贡献分值计算相应疾病标签的贡献度。
计算疾病标签对应的每一个关联参数的贡献分值后,根据对应的关联参数的贡献分值计算疾病标签的贡献度。
疾病标签的贡献度可以是对应的所有关联参数的贡献分值的加和,也可以是对应的所有关联参数的贡献分值加权求和。继续步骤404中的示例,“左眼视力4.2”、“右眼视力8.3”和“眼压100”对应的贡献分值分别为a,a,b,则对应的疾病标签“视力低下”的贡献度可以是:δ=λ1score1+λ2score2+…+λnscoren;其中δ为贡献度,λ为关联参数权重,score为关联参数贡献分值。
本实施例中,关联参数值偏离健康参考值区间程度越大,对应的贡献等级越大,相应的贡献分值越大。关联参数的贡献分值越大,计算得到的疾病标签的贡献度越大。通过关联参数值的归一化计算筛选由关联参数项模糊确定的疾病标签进行筛选,可提高最终标记的体检报告健康标签的准确性。
应该理解的是,虽然图1-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种体检数据处理装置,包括:
体检数据获取模块502,用于从体检报告文件中获取体检数据。
特征参数提取模块504,用于从体检数据中提取特征参数,提取的特征参数包括特征参数项和对应的特征参数值。
标签确定模块506,用于根据预先学习的疾病标签与特征参数项之间的关联关系,基于提取出的所有的特征参数项匹配出相关联的多个疾病标签,匹配出的每个疾病标签对应一个或者多个特征参数。
标签贡献度计算模块508,用于针对每个疾病标签,根据疾病标签对应的一个或者多个特征参数的特征参数值计算疾病标签的贡献度。
打标模块510,用于判断疾病标签的贡献度是否大于设定阈值,若是,则为体检报告文件标记疾病标签。
在一个实施例中,体检数据获取模块502,还用于获取体检报告文件;识别体检报告文件的文件格式,将非文本格式的体检报告转换成文本格式的体检报告;从文本格式的体检报告中获取体检数据。
在一个实施例中,如图6所示,还包括:关联参数项定义模块602,用于构建病症库,病症库中包括疾病标签以及对应的病症描述;获取收集的体检数据,将体检数据中与病症描述匹配的体检参数项定义为特征参数项;将从疾病标签对应的病症描述中匹配出的特征参数项定义为对应疾病标签的关联参数项。
在一个实施例中,标签确定模块506,还用于将本次提取的特征参数项与疾病标签的关联参数项进行对比,查找关联参数项包含在提取的特征参数项中的疾病标签,输出满足查找条件的疾病标签。
在一个实施例中,标签贡献度计算模块508,还用于将特征参数值与预先定义的对应不同贡献等级的特征参数值区间进行对比,确定特征参数值所在的贡献等级;根据贡献等级与贡献分值之间的对应关系,计算每个特征参数的贡献分值;根据对应同一疾病标签的多个特征参数的贡献分值计算相应疾病标签的贡献度。
关于体检数据处理装置的具体限定可以参见上文中对于体检数据处理方法的限定,在此不再赘述。上述体检数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储体检数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种体检数据处理方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
从体检报告文件中获取体检数据;从体检数据中提取特征参数,提取的特征参数包括特征参数项和对应的特征参数值;根据预先学习的疾病标签与特征参数项之间的关联关系,基于提取出的所有的特征参数项匹配出相关联的多个疾病标签,匹配出的每个疾病标签对应一个或者多个特征参数;针对每个疾病标签,根据疾病标签对应的一个或者多个特征参数的特征参数值计算疾病标签的贡献度;判断疾病标签的贡献度是否大于设定阈值,若是,则为体检报告文件标记疾病标签。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取体检报告文件;识别体检报告文件的文件格式,将非文本格式的体检报告转换成文本格式的体检报告;从文本格式的体检报告中获取体检数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
构建病症库,病症库中包括疾病标签以及对应的病症描述;获取收集的体检数据,将体检数据中与病症描述匹配的体检参数项定义为特征参数项;将从疾病标签对应的病症描述中匹配出的特征参数项定义为相应疾病标签的关联参数项。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将本次提取的特征参数项与疾病标签的关联参数项进行比对,查找关联参数项包含在提取的特征参数项中的疾病标签,输出满足查找条件的疾病标签。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将特征参数值与预先定义的对应不同贡献等级的特征参数值区间进行对比,确定特征参数值对应的特征参数所在的贡献等级;根据贡献等级与贡献分值之间的对应关系,计算每个特征参数的贡献分值;根据对应同一疾病标签的特征参数的贡献分值计算相应疾病标签的贡献度。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
从体检报告文件中获取体检数据;从体检数据中提取特征参数,提取的特征参数包括特征参数项和对应的特征参数值;根据预先学习的疾病标签与特征参数项之间的关联关系,基于提取出的所有的特征参数项匹配出相关联的多个疾病标签,匹配出的每个疾病标签对应一个或者多个特征参数;针对每个疾病标签,根据疾病标签对应的一个或者多个特征参数的特征参数值计算疾病标签的贡献度;判断疾病标签的贡献度是否大于设定阈值,若是,则为体检报告文件标记疾病标签。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取体检报告文件;识别体检报告文件的文件格式,将非文本格式的体检报告转换成文本格式的体检报告;从文本格式的体检报告中获取体检数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
构建病症库,病症库中包括疾病标签以及对应的病症描述;获取收集的体检数据,将体检数据中与病症描述匹配的体检参数项定义为特征参数项;将从疾病标签对应的病症描述中匹配出的特征参数项定义为相应疾病标签的关联参数项。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将本次提取的特征参数项与疾病标签的关联参数项进行比对,查找关联参数项包含在提取的特征参数项中的疾病标签,输出满足查找条件的疾病标签。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将特征参数值与预先定义的对应不同贡献等级的特征参数值区间进行对比,确定特征参数值对应的特征参数所在的贡献等级;根据贡献等级与贡献分值之间的对应关系,计算每个特征参数的贡献分值;根据对应同一疾病标签的特征参数的贡献分值计算相应疾病标签的贡献度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种体检数据处理方法,所述方法包括:
从体检报告文件中获取体检数据;
从所述体检数据中提取特征参数,所述特征参数包括特征参数项和对应的特征参数值;
根据预先学习的疾病标签与特征参数项之间的关联关系,基于提取出的所有的特征参数项匹配出相关联的多个疾病标签,匹配出的每个所述疾病标签对应一个或者多个所述特征参数;
针对每个所述疾病标签,根据所述疾病标签对应的一个或者多个所述特征参数的特征参数值计算所述疾病标签的贡献度;
判断所述疾病标签的贡献度是否大于设定阈值,若是,则为所述体检报告文件标记所述疾病标签。
2.根据权利要求1所述的方法,其特征在于,所述从体检报告文件中获取体检数据,包括:
获取体检报告文件;
识别所述体检报告文件的文件格式,将非文本格式的体检报告转换成文本格式的体检报告;
从所述文本格式的体检报告中获取体检数据。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
构建病症库,所述病症库中包括疾病标签以及对应的病症描述;
获取收集的体检数据,将所述体检数据中与所述病症描述匹配的体检参数项定义为特征参数项;
将从所述疾病标签对应的病症描述中匹配出的特征参数项定义为相应疾病标签的关联参数项。
4.根据权利要求3所述的方法,其特征在于,所述根据预先学习的疾病标签与特征参数项之间的关联关系,基于提取出的所有的特征参数项匹配出相关联的多个疾病标签,包括:
将本次提取的所述特征参数项与疾病标签的关联参数项进行比对,查找所述关联参数项包含在提取的所述特征参数项中的疾病标签,输出满足查找条件的疾病标签。
5.根据权利要求1所述的方法,其特征在于,所述根据所述疾病标签对应的一个或者多个所述特征参数的特征参数值计算所述疾病标签的贡献度,包括:
将所述特征参数值与预先定义的对应不同贡献等级的特征参数值区间进行对比,确定所述特征参数值对应的特征参数所在的贡献等级;
根据所述贡献等级与贡献分值之间的对应关系,计算每个所述特征参数的贡献分值;
根据对应同一疾病标签的所述特征参数的贡献分值计算相应所述疾病标签的贡献度。
6.一种体检数据处理装置,其特征在于,所述装置包括:
体检数据获取模块,用于从体检报告文件中获取体检数据;
特征参数提取模块,用于从所述体检数据中提取特征参数,提取的所述特征参数包括特征参数项和对应的特征参数值;
标签确定模块,用于根据预先学习的疾病标签与特征参数项之间的关联关系,基于提取出的所有的特征参数项匹配出相关联的多个疾病标签,匹配出的每个所述疾病标签对应一个或者多个所述特征参数;
标签贡献度计算模块,用于针对每个所述疾病标签,根据所述疾病标签对应的一个或者多个所述特征参数的特征参数值计算所述疾病标签的贡献度;
打标模块,用于判断所述疾病标签的贡献度是否大于设定阈值,若是,则为所述体检报告文件标记所述疾病标签。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:关联参数项定义模块,用于构建病症库,所述病症库中包括疾病标签以及对应的病症描述;获取收集的体检数据,将所述体检数据中与所述病症描述匹配的体检参数项定义为特征参数项;将从所述疾病标签对应的病症描述中匹配出的特征参数项定义为相应疾病标签的关联参数项。
8.根据权利要求6或7所述的装置,其特征在于,所述标签贡献度计算模块,还用于将所述特征参数值与预先定义的对应不同贡献等级的特征参数值区间进行对比,确定所述特征参数值对应的特征参数所在的贡献等级;根据所述贡献等级与贡献分值之间的对应关系,计算每个所述特征参数的贡献分值;根据对应同一疾病标签的多个所述特征参数的贡献分值计算相应疾病标签的贡献度。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810546978.6A CN108899063B (zh) | 2018-05-31 | 2018-05-31 | 体检数据处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810546978.6A CN108899063B (zh) | 2018-05-31 | 2018-05-31 | 体检数据处理方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108899063A true CN108899063A (zh) | 2018-11-27 |
CN108899063B CN108899063B (zh) | 2023-04-07 |
Family
ID=64343448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810546978.6A Active CN108899063B (zh) | 2018-05-31 | 2018-05-31 | 体检数据处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108899063B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110456976A (zh) * | 2019-07-29 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 检验单处理方法及装置、存储介质和电子装置 |
CN112037910A (zh) * | 2020-08-31 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 健康信息管理方法、装置、设备及存储介质 |
CN112037915A (zh) * | 2020-08-31 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 企业员工健康数据的分析方法、装置、设备及存储介质 |
CN112509661A (zh) * | 2021-02-03 | 2021-03-16 | 南京吉拉福网络科技有限公司 | 用于识别体检报告的方法、计算设备和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021915A (zh) * | 2016-05-17 | 2016-10-12 | 华南师范大学 | 基于大数据面向自动诊疗的医疗数据分析系统和装置 |
CN107145744A (zh) * | 2017-05-08 | 2017-09-08 | 合肥工业大学 | 医学知识图谱的构建方法、装置及辅助诊断方法 |
CN107993693A (zh) * | 2017-12-11 | 2018-05-04 | 泰康保险集团股份有限公司 | 体检数据管理方法、系统、存储介质及电子设备 |
-
2018
- 2018-05-31 CN CN201810546978.6A patent/CN108899063B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021915A (zh) * | 2016-05-17 | 2016-10-12 | 华南师范大学 | 基于大数据面向自动诊疗的医疗数据分析系统和装置 |
CN107145744A (zh) * | 2017-05-08 | 2017-09-08 | 合肥工业大学 | 医学知识图谱的构建方法、装置及辅助诊断方法 |
CN107993693A (zh) * | 2017-12-11 | 2018-05-04 | 泰康保险集团股份有限公司 | 体检数据管理方法、系统、存储介质及电子设备 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110456976A (zh) * | 2019-07-29 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 检验单处理方法及装置、存储介质和电子装置 |
CN110456976B (zh) * | 2019-07-29 | 2023-07-18 | 腾讯科技(深圳)有限公司 | 检验单处理方法及装置、存储介质和电子装置 |
CN112037910A (zh) * | 2020-08-31 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 健康信息管理方法、装置、设备及存储介质 |
CN112037915A (zh) * | 2020-08-31 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 企业员工健康数据的分析方法、装置、设备及存储介质 |
CN112037910B (zh) * | 2020-08-31 | 2023-04-18 | 康键信息技术(深圳)有限公司 | 健康信息管理方法、装置、设备及存储介质 |
CN112509661A (zh) * | 2021-02-03 | 2021-03-16 | 南京吉拉福网络科技有限公司 | 用于识别体检报告的方法、计算设备和介质 |
CN112509661B (zh) * | 2021-02-03 | 2021-05-25 | 南京吉拉福网络科技有限公司 | 用于识别体检报告的方法、计算设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108899063B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112037910B (zh) | 健康信息管理方法、装置、设备及存储介质 | |
Lin et al. | Enhancing dialogue symptom diagnosis with global attention and symptom graph | |
CN108899063A (zh) | 体检数据处理方法、装置、计算机设备和存储介质 | |
US8612261B1 (en) | Automated learning for medical data processing system | |
CN110910976A (zh) | 病历检测方法、装置、设备和存储介质 | |
CN110021439A (zh) | 基于机器学习的医疗数据分类方法、装置和计算机设备 | |
Carchiolo et al. | Medical prescription classification: a NLP-based approach | |
US20140343957A1 (en) | Clinical content analytics engine | |
US20130311201A1 (en) | Medical record generation and processing | |
CN110335653A (zh) | 基于openEHR病历格式的非标准病历解析方法 | |
CN111710383A (zh) | 病历质控方法、装置、计算机设备和存储介质 | |
Uddin et al. | Machine learning based diabetes detection model for false negative reduction | |
Fan et al. | Detecting glaucoma in the ocular hypertension study using deep learning | |
CN113488157B (zh) | 智能导诊处理方法、装置、电子设备及存储介质 | |
CN112541066A (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
US20230081372A1 (en) | Automated Summarization of a Hospital Stay Using Machine Learning | |
CN113707304B (zh) | 分诊数据处理方法、装置、设备及存储介质 | |
CN114783580A (zh) | 一种医疗数据质量评估方法及系统 | |
CN114238639A (zh) | 一种医学术语标准化框架的构建方法、装置、电子设备 | |
CN116469505A (zh) | 数据处理方法、装置、计算机设备及可读存储介质 | |
CN111279424B (zh) | 用于优化图像采集工作流的设备、系统和方法 | |
CN116483987A (zh) | 目标人群的圈选方法、装置、计算机设备及可读存储介质 | |
CN111180054B (zh) | 过度医疗监控系统及方法 | |
CN114550930A (zh) | 疾病预测方法、装置、设备及存储介质 | |
CN113688854A (zh) | 数据处理方法、装置及计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |