CN109920506B - 医疗统计报告生成方法、装置、设备及存储介质 - Google Patents

医疗统计报告生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109920506B
CN109920506B CN201910065018.2A CN201910065018A CN109920506B CN 109920506 B CN109920506 B CN 109920506B CN 201910065018 A CN201910065018 A CN 201910065018A CN 109920506 B CN109920506 B CN 109920506B
Authority
CN
China
Prior art keywords
statistics report
data
medical statistics
data file
medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910065018.2A
Other languages
English (en)
Other versions
CN109920506A (zh
Inventor
王帅
李响
马欣玥
贾晓雨
高群群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910065018.2A priority Critical patent/CN109920506B/zh
Publication of CN109920506A publication Critical patent/CN109920506A/zh
Application granted granted Critical
Publication of CN109920506B publication Critical patent/CN109920506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请涉及数据展示技术领域,通过生成医疗统计报告的方式将医疗数据可视化,并公开了一种医疗统计报告生成方法、装置、设备及存储介质,所述方法包括:获取医疗统计报告模板以及源数据,对源数据进行预处理以得到数据文件;对所述数据文件进行清洗以及进行统计分析以得到所述医疗统计报告模板所需要的指标文件;根据所述指标文件以及所述医疗统计报告模板生成所述医疗统计报告。通过该方法可以自动化的统计分析相关的数据并生成医疗统计报告。

Description

医疗统计报告生成方法、装置、设备及存储介质
技术领域
本申请涉及医疗数据展示技术领域,尤其涉及一种医疗统计报告生成方法、装置、计算机设备及存储介质。
背景技术
医疗行业相关统计分析包括疾病统计分析、医院就诊病人统计分析、医疗费用统计分析等等其它各个方面的情况统计,通常这些统计分析以统计分析报告的方式进行展现,报告可以在各大平台上呈现,也可以很方便的上报给各个需要的部门或者政府机关,这样方便大家很清晰的了解到过往的数据从而可以对未来的相关数据进行预测以及合理的做出相关的决策。而出具统计分析报告目前通常首先需要人工整理所有相关的数据,然后一条条数据汇总,再进行计算分析,最后人工根据需求撰写统计分析报告。这种方法从数据收集到形成报告,需要手动收集、整理、分析、写报告四个步骤,在医疗信息化全面实施的当下,效率较低且需要大量的人力。
发明内容
本申请提供了一种医疗统计报告生成方法、装置、计算机设备及存储介质,为医疗统计报告提供了自动生成方法。
第一方面,本申请提供了一种医疗统计报告生成方法,所述方法包括:
获取医疗统计报告模板,所述医疗统计报告模板为根据统计需求以及对应业务领域知识预先制作的模板;
获取源数据,对所述源数据进行预处理以得到数据文件;
对所述数据文件进行清洗以及统计分析,以得到所述医疗统计报告模板所需要的指标文件;
根据所述指标文件以及所述医疗统计报告模板生成所述医疗统计报告。
第二方面,本申请还提供了一种医疗统计报告生成装置,所述装置包括:
第一获取模块,用于获取医疗统计报告模板,所述医疗统计报告模板为根据统计需求以及对应业务领域知识预先制作的模板;
第二获取模块,用于获取源数据;
预处理模块,用于对所述源数据进行预处理以得到数据文件;
统计分析模块,用于对所述数据文件进行清洗以及统计分析,以得到所述医疗统计报告模板所需要的指标文件;
生成模块,用于据所述指标文件以及所述医疗统计报告模板生成所述医疗统计报告。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的医疗统计报告生成方法。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的医疗统计报告生成方法。
本申请公开了一种医疗统计报告生成基于方法、装置、设备及存储介质,通过获取医疗统计报告模板以及源数据,对源数据进行预处理以得到数据文件;再对所述数据文件进行清洗以及进行统计分析以得到所述医疗统计报告模板所需要的指标文件;根据所述指标文件以及所述医疗统计报告模板生成所述医疗统计报告,可以自动化的生成医疗统计报告。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种医疗统计报告生产方法步骤示意流程图;
图2为本申请实施例提供图1中医疗统计报告生产方法的子步骤的示意流程图;
图3为本申请实施例提供图2中对与查找到的类别标识相对应的数据文件进行筛选的子步骤的示意流程图;
图4为本申请实施例提供的又一种医疗统计报告生产方法步骤示意流程图;
图5为本申请实施例提供的医疗统计报告生产装置的结构示意性框图;
图6为本申请实施例提供的统计分析模块的结构示意性框图;
图7为本申请实施例提供的筛选模块的结构示意性框图;
图8为本申请实施例提供的又一医疗统计报告生成装置的结构示意性框图;
图9为本申请实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请的实施例提供了一种医疗统计报告生成方法、装置、计算机设备及存储介质。该医疗统计报告生成方法可用于医院、政府部门等其他机构为医疗相关的项目出具统计报告。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请的实施例提供的医疗统计报告生成方法的步骤示意流程图。如图1所示,该医疗统计报告生成方法,具体包括以下步骤:
S101、获取医疗统计报告模板,所述医疗统计报告模板为根据统计需求以及对应业务领域知识预先制作的模板。
具体地,根据用户获取指令从模板库中选择用户需要的医疗统计报告模板,比如某几种传染病统计报告模板。
本申请实施中,模板库中的医疗统计报告模板是根据统计需求以及对应的业务领域知识预先制作的模板。比如,根据医院或者政府部门或其他相关部门的统计需求结合对应业务领域知识制作相对应的医疗统计报告模板。其中所述医院或者政府部门或其他相关部门的统计需求包括比如疾病统计需求、医疗费用统计需求、医护人员工作负荷统计需求或者医院医疗质量评估需求等等其他需求。
对应业务领域知识,比如,如果是疾病统计需求,则相关的业务领域知识包括相关疾病的某个时间段的发病人数,发病率,同比增长人数及增长率,环比增长人数及增长率,死亡人数及死亡率,治愈人数以及治愈率,发病率最高的几种病种有哪些,发病增长最快的病种,以及结论和预防措施等等。
再比如,如果统计需求是医疗费用统计需求,则对应的业务领域知识包括某段时期内医院次均门诊费用总计,按照当年价格比上年上涨/下降了多少,涨幅/降幅增长/下降多少个百分点;人均住院费用比上年上涨/下降百分点,涨幅/降幅增长/下降百分点,医院人均门诊药费上涨/下降的百分点,占比上涨/下降百分点;医院人均住院药费上涨/下降百分点,占比上涨/下降百分点等等。
统计报告模板的类别包括:疾病统计模板、医疗费用统计模板、体检报告统计模板、医院医务人员工作负荷统计模板等等。每制定好一个模板都及时添加到模板库中。同时模板也可以根据用户需求进行修改和补充。
步骤S102、获取源数据,对所述源数据进行预处理以得到数据文件。
具体的,所述获取源数据包括各大医院源端数据、各大社康源端数据,以及体检机构、私人诊所、个人健康管理端的源端数据以及相关地区统计部门的源端数据等等,源数据具体类型包括影像数据、病历数据、检验检查结果、财务数据、统计报告、药品种类、医疗费用、医院科室、医务人员、日均就诊人数、就诊等候时间等在内的各种数据。
然后对所述源数据进行去重处理以及降噪处理以得到数据文件。具体的,对源数据进行去重处理,对内容相同的多份源数据进行去重,保留一份源数据即可,比如财务数据多联或者多份相同的病例报告等等进行去重。这样可以减少存储空间,同时避免重复后续重复统计导致的数据不准确。然后对去重后的源数据进行降噪处理,包括删除坏数据以及明显不合理的数据,比如明显不是医疗相关的数据。这样进行过预处理数据能够减少噪音,提高后续数据处理的精度。
步骤S103、对所述数据文件进行清洗以及统计分析,以得到所述医疗统计报告模板所需要的指标文件。
本实施例中,得到数据文件后对其进行清洗以及进行统计分析以得到所述医疗统计报告模板所需要的指标文件,具体地,请参考图2,步骤S103包括以下子步骤:
步骤S1031、对所述数据文件进行编号。
具体的,对每个数据文件进行唯一编号,即每个数据文件都有唯一标识ID,如表1所示,唯一标识ID可以为数字或者字母或其他唯一符号进行表示。
数据文件ID 数据文件
00001 数据文件1
00002 数据文件2
00003 数据文件3
00004 数据文件4
…… ……
步骤S1032、提取所述数据文件的标题或摘要的关键词,根据所述数据文件的标题或摘要的关键词确定数据文件对应的类别标识。
具体的,提取所述数据文件的标题或摘要的关键词,根据所述数据文件或摘要的关键词确定文件对应的类别标识和文件类别。文件类别包括收费数据、病例数据、医院工作人员工作负荷数据、体检数据等等。类别标识是对文件类别进行唯一标识的,可以用字母或者数字进行标识。例如,如表2所示,当提取到数据文件标题或者摘要的关键词为费用清单、收费票据、收费发票,则表示该数据文件为收费数据,用字母“A”表示该数据文件的类别;当提取到数据文件的标题或者摘要的关键词为病历本、门诊病例、门诊记录、病例统计等关键词时,表示该数据文件为病例数据,用字母“B”表示;当提取到数据文件的标题或者摘要的关键词为就诊人数、科室医生、就诊时长、等候时长等关键词时,表示该数据文件为医院工作人员工作负荷数据,用字母“C”表示;当提取到数据文件的标题或者摘要的关键词为体检报告、体检分析等关键词时,表示该数据文件为体检数据,用字母“D”表示……
表2数据文件标题或摘要关键词与类别标识对应表
步骤S1033、提取所述数据文件的指标信息,将所述数据文件的编号、类别标识、关键词以及指标信息以数据表的形式进行存储。
具体的,本步骤中,提取所述数据文件的指标信息,所述指标信息包括项目、各项数值以及日期等等。比如病历本中疾病名称、症状、发病时间、治疗时间等等;费用清单上的各项费用名称以及对应金额等等。
然后将所述数据文件的编号、类别标识、关键词以及指标信息以数据表的形式进行存储,如表3所示,例如文件编号为“00001”,类别表示为“B”,关键词为“病历本、门诊病例、门诊记录、病例统计”,指标信息为“诊断结果为霍乱,诊断时间2017年12月10日,症状为……”等以数据表的形式进行存储。这可以方便设备随时访问该数据表,同时可以根据数据表上的内容查找对应的数据文件。
表3数据文件编号、类别、关键词以及指标信息对应表
步骤S1034、根据所述医疗统计报告模板的类型,在存储的所述数据表中查找所述医疗统计报告模板需要的数据文件的类别标识。
本申请实施例中,根据步骤S101中获取的医疗统计报告模板的类型,在存储的数据表中选择对应的类别标识。对应的类别标识根据医疗统计报告模板实际情况选择可为1个或者多个,比如,如果医疗统计报告模板类型是统计某几种传染病的发病情况以及对应患者医疗费用,则可能需要用到表3中的类别标识为“A”以及“B”下的数据文件。
步骤S1035、对与查找到的类别标识相对应的数据文件进行筛选。
具体的,本申请实施例中,在查找到的类别标识相对应的数据文件之后,对所述相对应的数据文件进行筛选。可选的,可以根据所述医疗统计报告模板的关键词以及数据文件的标题或摘要的关键词,对与查找到的类别标识相对应的数据文件进行筛选,如果数据文件的标题或摘要的关键词与医疗统计报告模板的关键词有交集时,则选择所述对应的数据文件;如果数据文件的标题或摘要的关键词与医疗统计报告模板的关键词没有交集,则排出所述数据文件。
步骤S1036、根据对应的所述指标信息对筛选出来的数据文件进行指标统计,得到所述医疗统计报告模板所需要的指标文件。
具体地,根据筛选出来的数据文件的对应的指标信息将选中的筛选出来的数据文件进行指标统计,也是对筛选出来的数据文件进行再次分流与归类,例如,这些数据文件中关于某种疾病,比如对某一种疾病,例如肝炎或者霍乱等等,其中某一种疾病分别进行统计,包括发病人数求和、主要发病季节、患者支付费用等等,进行归类与统计。可以直接访问上述表3中存储的数据表中的指标信息,直接提取相关的指标。这样统计出各项指标之后,形成对应的指标文件,指标文件可以为txt、excel、word等格式的文件,并将指标文件进行保存,方便设备随时访问和使用。
可选的,在本步骤中,如果存储的数据表中,对应的指标不完整,则可以通过数据表中的数据文件ID再次访问预处理之后的源端文件或者直接再次访问源端文件,从源端文件中查找相应的指标,如果源文件查询失败则发出警告,用户获得警告之后可以再次上传对应的源端文件。
可选的,步骤S103中的统计分析可以基于Spark Streaming流式处理框架实现,从而提高数据处理的实时性。
步骤S104、根据所述指标文件以及所述医疗统计报告模板生成所述医疗统计报告。
具体的,所述指标文件形成后,根据指标文件将对应的指标填入医疗统计报告模板中,从而生成需要的医疗统计报告。
在一可选的实施方式中,如果医疗统计报告需要在远端客户端生成,可以基于kafka或socket接口,将指标文件发送给远端客户端,远端客户端端根据指标文件将对应的指标填入报告模板中,从而生成需要的统计报告。基于kafka或socket接口,能实现稳定可靠的远端大数据量传输,确保数据传输效率;同时具备数据漏传监测,确保数据传输的完整性。可选的,该统计报告生成可以基于FreeMarker框架实现。上述生成的统计报告里面包括根据所述指标文件生成的图表等。
可选的,本申请实施例中医疗统计报告模板以及生成的最终医疗统计报告,用户都可以根据需求进行修改。同时源端数据也可以及时更新发送给数据存储服务器,后续的统计分析也可以实时进行更新。
本申请实施例中,通过获取医疗统计报告模板以及源数据,对源数据进行预处理以得到数据文件;再对所述数据文件进行清洗以及进行统计分析以得到所述医疗统计报告模板所需要的指标文件;根据所述指标文件以及所述医疗统计报告模板生成所述医疗统计报告从数据收集到形成报告,实现了数据收集、整理、分析以及报告出具的自动化完成,提高了效率,减少了大量的人力。
对于上述实施例步骤S1035,对与查找到的类别标识相对应的数据文件进行筛选,本申请提供了一实现该步骤的实施例,请参考图3,图3为对与查找到的类别标识相对应的数据文件进行筛选的实现流程图,具体的包括以下步骤:
步骤S201、提取所述医疗统计报告模板的关键词。
具体的,可以根据医疗统计报告模板的标题、摘要关键词以及根据医疗统计报告模板具体内容里面的词频等进行关键词的提取。例如,提取到医疗统计报告模板n个关键词X1、X2......Xn,n为大于等于1的自然数。
步骤S202、根据所述医疗统计报告模板的关键词以及数据文件的标题的关键词或摘要的关键词,对与查找到的类别标识相对应的数据文件进行初步筛选。
具体的,根据所述医疗统计报告模板的关键词以及数据文件的标题或摘要的关键词,对与查找到的类别标识相对应的数据文件进行初步筛选,包括:根据所述数据表中存储的与查找到的类别标识相对应的关键词项初步筛选出含有所述医疗统计报告模板的关键词的数据文件。例如,如前述例子,若提取到n个关键词X1、X2......Xn,从所述数据表中存储的与查找到的类别标识相对应的关键词项初步筛选出含有X1、X2......Xn其中至少一个的数据文件。若初步筛选出的数据文件的个数为m,则1≤m≤n。
步骤S203、根据所述医疗统计报告模板的关键词及其频次以及所述医疗统计报告模板的关键词在数据文件中出现的频次,对初步筛选出来的数据文件进行再次筛选。
具体的,所述根据所述医疗统计报告模板的关键词及其频次以及所述医疗统计报告模板的关键词在数据文件中出现的频次,对初步筛选出来的数据文件进行再次筛选,包括:
根据所述医疗统计报告模板的关键词及其频次以及所述医疗统计报告模板的关键词在数据文件中出现的频次,利用预设距离计算公式计算初步筛选出的数据文件与所述医疗统计报告模板的距离;
根据计算出来的距离,对初步筛选出来的数据文件进行再次筛选以得到N个数据文件,N为正整数;具体为筛选出N个距离最近的对应的数据文件。
所述预设距离计算公式为:
其中,n表示从所述医疗统计报告模板中提取的关键词的总个数,m表示初步筛选出来的数据文件的个数,1≤m≤n,1≤N≤m,Dj表示第j个初步筛选出来的数据文件与所述医疗统计报告模板的距离,Cji表示所述医疗统计报告模板中提取的第i个关键词在第j个数据文件中出现的次数,Yi表示所述医疗统计报告模板中提取的第i个关键词在所述医疗统计报告模板中出现的次数。
如前述例子,统计所述医疗统计报告模板的所有关键词的各自出现的频率次数,即n个关键词X1、X2......Xn对应次数分别为Y1、Y2......Yn次;统计初步筛选出来的第m个文件中关键词X1、X2......Xn出现的次数分别为Cm1、Cm2......Cmn,根据上述计算出m个筛选出来的文件与模板文件对应的距离,然后从计算出的D1、D2......Dm,m个距离中筛选选出N个距离最小的数据文件,N≤m。数据文件与医疗统计报告模板对应的距离越小,说明该数据文件与医疗统计报告模板的需求最接近。这样就得到了N个最相关的数据文件。
本申请实施例中通过对相对应的数据文件进行二次筛选,筛选的过程中结合关键词以及距离相似度,能够精确的找出所需要的统计分析的数据文件,这样大大减少了统计的复杂度,提高了统计效率。
图4为本申请实施例提供的又一医疗统计报告生成步骤示意流程图。如图4所示,该医疗统计报告生成方法,具体包括以下步骤:
S301、获取医疗统计报告模板,所述医疗统计报告模板为根据统计需求以及对应业务领域知识预先制作的模板。
具体地,根据用户获取指令从模板库中选择用户需要的医疗统计报告模板,比如某几种传染病统计报告模板。本申请实施中,模板库中的医疗统计报告模板是根据统计需求以及对应的业务领域知识预先制作的模板。
步骤S302、获取源数据,对所述源数据进行预处理以得到数据文件。
具体的,所述获取源数据包括各大医院源端数据、各大社康源端数据,以及体检机构、私人诊所、个人健康管理端的源端数据以及相关地区统计部门的源端数据等等,源数据具体类型包括影像数据、病历数据、检验检查结果、财务数据、统计报告、药品种类、医疗费用、医院科室、医务人员、日均就诊人数、就诊等候时间等在内的各种数据。获取到源数据后,对源数据进行预处理包括去重以及降噪处理。
步骤S303、对所述数据文件进行清洗以及统计分析,以得到所述医疗统计报告模板所需要的指标文件。
具体的,对所述数据文件进行统一的编号、提取关键词、划分数据类型的类别、提取指标信息,并将编号、提取关键词、划分数据类型的类别标识、提取指标信息以数据表的形式进行存储。然后根据所述医疗统计报告模板的类型,在存储的所述数据表中查找所述医疗统计报告模板需要的数据文件的类别标识,进而查找相对应的数据文件,同时根据医疗统计报告模板关键词对查找到的相对应的数据文件进行筛选,对筛选出来的数据文件再进行指标统计,得到所述医疗统计报告模板所需要的指标文件,指标文件可以为txt、excel、word等格式的文件,并将指标文件进行保存。
步骤S304、根据所述指标文件以及所述医疗统计报告模板生成所述医疗统计报告。
具体的,所述指标文件形成后,根据指标文件将对应的指标填入医疗统计报告模板中,从而生成需要的医疗统计报告。
步骤S305、根据所述医疗统计报告的统计结论发送知识获取请求给知识库服务器。
具体的,知识获取请求是结合报告的结论生成的,比如疾病统计报告,最终统计出来霍乱发病率很高,可以发送霍乱相关的预防措施请求给知识库服务器,请求获取相关的预防知识。
在一实施例中,发送知识获取请求可以基于kafka或socket接口,实现稳定可靠的远端大数据量传输,确保数据传输效率,同时具备数据漏传监测,确保数据传输的完整性。
步骤S306、接收知识库服务器发送的知识数据,并根据所述知识数据完善所述医疗统计报告。
具体的,接收到知识库服务器发送的知识数据后,完善报告,包括增加建议等等。比如统计出来霍乱发病率很高,接收到霍乱预防知识数据后,在报告增加预防建议板块,增加霍乱预设知识。这样可以根据需求得到更加完善的医疗统计报告。
本申请实施,在医疗统计报告生成之后,可以结合知识数据疗统计报告的统计结论发送知识获取请求给知识库服务器,从而获取相关的知识数据,根据知识数据可以进一步完善医疗统计报告。
本申请还提供了一种医疗统计报告生成装置,请参考图5,图5为本申请还提供的一种医疗统计报告生成装置40的结构示意图,该医疗统计报告生成装置40用于执行前述任一项医疗统计报告生成方法。其中,该医疗统计报告生成装置40可以配置于服务器或终端中。其中,服务器可以为独立的服务器,也可以为服务器集群。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。
该医疗统计报告生成装置40包括:
第一获取模块41,用于获取医疗统计报告模板,所述医疗统计报告模板为根据统计需求以及对应业务领域知识预先制作的模板。
第二获取模块42,用于获取源数据;
预处理模块43,用于对所述源数据进行预处理以得到数据文件;
统计分析模块44,用于对所述数据文件进行清洗以及进行统计分析以得到所述医疗统计报告模板所需要的指标文件。
生成模块45,用于根据所述指标文件以及所述医疗统计报告模板生成所述医疗统计报告。
可选的,所述预处理模块43,还具体用于对所述源数据进行去重处理以及降噪处理以得到数据文件。
可选的,参见图6,图6为统计分析模块44的示意性框图,统计分析模块44还具体包括:编号模块441,用于对所述数据文件进行编号;关键词提取模块442,用于提取所述数据文件的标题或摘要的关键词;确定模块443,用于根据所述数据文件的标题或摘要的关键词确定数据文件对应的类别标识。指标信息提取模块444,用于提取所述数据文件的指标信息,存储模块445,用于将所述数据文件的编号、类别标识、关键词以及指标信息以数据表的形式进行存储。查找模块446,用于根据所述医疗统计报告模板的类型,在存储的所述数据表中查找所述医疗统计报告模板需要的数据文件的类别标识。筛选模块447,用于对与查找到的类别标识相对应的数据文件进行筛选;指标统计模块448,用于根据对应的所述指标信息对筛选出来的数据文件进行指标统计,得到所述医疗统计报告模板所需要的指标文件。
参见图7,图7为筛选模块的结构示意性框图,在一可选的实施方式中,筛选模块447包括:提取子模块4471,用于提取所述医疗统计报告模板的关键词;第一筛选子模块4472,用于根据所述医疗统计报告模板的关键词以及数据文件的标题或摘要的关键词,对与查找到的类别标识相对应的数据文件进行初步筛选;第二筛选子模块4473,用于根据所述医疗统计报告模板的关键词及其频次以及所述医疗统计报告模板的关键词在数据文件中出现的频次,对初步筛选出来的数据文件进行再次筛选。
所述指标统计模块448具体还用于:对再次筛选出来的数据文件进行指标统计,得到指标文件。
在一可选的实施方式中,第一筛选子模块4472还具体用于:根据所述数据表中存储的与查找到的类别标识相对应的关键词项初步筛选出含有所述医疗统计报告模板的关键词的数据文件。
所述第二筛选子模块4473还具体用于:
根据所述医疗统计报告模板的关键词及其频次以及所述医疗统计报告模板的关键词在数据文件中出现的频次,利用预设距离计算公式计算初步筛选出的数据文件与所述医疗统计报告模板的距离;
根据计算出来的距离,对初步筛选出来的数据文件进行再次筛选以得到N个数据文件,N为正整数;
所述预设距离计算公式为:
其中,n表示从所述医疗统计报告模板中提取的关键词的总个数,m表示初步筛选出来的数据文件的个数,1≤m≤n,1≤N≤m,Dj表示第j个初步筛选出来的数据文件与所述医疗统计报告模板的距离,Cji表示所述医疗统计报告模板中提取的第i个关键词在第j个数据文件中出现的次数,Yi表示所述医疗统计报告模板中提取的第i个关键词在所述医疗统计报告模板中出现的次数。
在另一实施例中,参见图8,图8为本申请实施例提供的又一所述医疗统计报告生成装置40,医疗统计报告生成装置40除包含上述模块以外,还包括:
发送模块46,用于根据所述医疗统计报告的统计结论发送知识获取请求给知识库服务器。
接收模块47,用于接收知识库服务器发送的知识数据。
完善模块48,用于根据所述知识数据完善所述医疗统计报告。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的医疗统计报告生成装置和各模块的具体工作过程,可以参考前述医疗统计报告生成方法实施例中的对应过程,在此不再赘述。
上述的医疗统计报告生成装置可以实现为一种计算机程序的形式,该计算机程序可以在如图9所示的计算机设备上运行。
请参阅图9,图9是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备可以是服务器或终端。
参阅图9,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行一种医疗统计报告生成方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行一种医疗统计报告生成方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取医疗统计报告模板,所述医疗统计报告模板为根据统计需求以及对应业务领域知识预先制作的模板;获取源数据,对所述源数据进行预处理以得到数据文件;对所述数据文件进行清洗以及进行统计分析以得到所述医疗统计报告模板所需要的指标文件;根据所述指标文件以及所述医疗统计报告模板生成医疗统计报告。
在一个实施例中,所述处理器在实现所述医疗统计报告生成方法,还用于实现:对所述源数据进行去重处理以及降噪处理以得到数据文件。
在一个实施例中,所述处理器在实现所述对所述数据文件进行清洗以及进行统计分析以得到所述医疗统计报告模板所需要的指标文件时,用于实现:
对所述数据文件进行编号;提取所述数据文件的标题或摘要的关键词,根据所述数据文件的标题或摘要的关键词确定数据文件对应的类别标识;提取所述数据文件的指标信息,将所述数据文件的编号、类别标识、关键词以及指标信息以数据表的形式进行存储;根据所述医疗统计报告模板的类型,在存储的所述数据表中查找所述医疗统计报告模板需要的数据文件的类别标识;对与查找到的类别标识相对应的数据文件进行筛选;根据对应的所述指标信息对筛选出来的数据文件进行指标统计,得到所述医疗统计报告模板所需要的指标文件。
在一个实施例中,所述处理器在实现所述对与所述类别标识对应的数据文件进行筛选时,用于实现:
提取所述医疗统计报告模板的关键词;根据所述医疗统计报告模板的关键词以及数据文件的标题的关键词或摘要的关键词,对与查找到的类别标识相对应的数据文件进行初步筛选;根据所述医疗统计报告模板的关键词及其频次以及所述医疗统计报告模板的关键词在数据文件中出现的频次,对初步筛选出来的数据文件进行再次筛选。
在一个实施例中,所述处理器在实现所所述提取所述医疗统计报告模板的关键词,根据所述医疗统计报告模板的关键词以及数据文件的标题或摘要的关键词,对与查找到的类别标识相对应的数据文件进行初步筛选时,用于实现:
根据所述数据表中存储的与查找到的类别标识相对应的关键词项初步筛选出含有所述医疗统计报告模板的关键词的数据文件。
在一个实施例中,所述处理器在实现所述根据所述医疗统计报告模板的关键词及其频次以及所述医疗统计报告模板的关键词在数据文件中出现的频次,对初步筛选出来的数据文件进行再次筛选时,用于实现:
根据所述医疗统计报告模板的关键词及其频次以及所述医疗统计报告模板的关键词在数据文件中出现的频次,利用预设距离计算公式计算初步筛选出的数据文件与所述医疗统计报告模板的距离;
根据计算出来的距离,对初步筛选出来的数据文件进行再次筛选以得到N个数据文件,N为正整数;
所述预设距离计算公式为:
其中,n表示从所述医疗统计报告模板中提取的关键词的总个数,m表示初步筛选出来的数据文件的个数,1≤m≤n,1≤N≤m,Dj表示第j个初步筛选出来的数据文件与所述医疗统计报告模板的距离,Cji表示所述医疗统计报告模板中提取的第i个关键词在第j个数据文件中出现的次数,Yi表示所述医疗统计报告模板中提取的第i个关键词在所述医疗统计报告模板中出现的次数。
在一个实施例中,所述处理器还用于实现:根据所述医疗统计报告的统计结论发送知识获取请求给知识库服务器;接收知识库服务器发送的知识数据,并根据所述知识数据完善所述医疗统计报告。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项医疗统计报告生成方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种医疗统计报告生成方法,其特征在于,包括:
获取医疗统计报告模板,所述医疗统计报告模板为根据统计需求以及对应业务领域知识预先制作的模板;
获取源数据,对所述源数据进行预处理以得到数据文件;
对所述数据文件进行编号;
提取所述数据文件的标题的关键词或摘要的关键词,根据所述数据文件的标题的关键词或摘要的关键词确定所述数据文件对应的类别标识;
提取所述数据文件的指标信息,将所述数据文件的编号、类别标识、关键词以及指标信息以数据表的形式进行存储;
根据所述医疗统计报告模板的类型,在存储的所述数据表中查找所述医疗统计报告模板需要的数据文件的类别标识;
提取所述医疗统计报告模板的关键词;
根据所述医疗统计报告模板的关键词以及所述数据文件的标题的关键词或摘要的关键词,对与查找到的类别标识相对应的数据文件进行初步筛选;
根据所述医疗统计报告模板的关键词及其频次以及所述医疗统计报告模板的关键词在数据文件中出现的频次,利用预设距离计算公式计算所述初步筛选出的数据文件与所述医疗统计报告模板的距离;
根据计算出来的所述距离,对所述初步筛选出来的所述数据文件进行再次筛选以得到N个数据文件,N为正整数;
根据对应的所述指标信息对所述再次筛选出来的所述N个数据文件进行指标统计,得到所述医疗统计报告模板所需要的指标文件;
根据所述指标文件以及所述医疗统计报告模板生成所述医疗统计报告。
2.根据权利要求1所述的医疗统计报告生成方法,其特征在于,所述对所述源数据进行预处理以得到数据文件,包括:
对所述源数据进行去重处理以及降噪处理以得到数据文件。
3.根据权利要求1所述的医疗统计报告生成方法,其特征在于,所述根据所述医疗统计报告模板的关键词以及所述数据文件的标题的关键词或摘要的关键词,对与查找到的类别标识相对应的数据文件进行初步筛选,包括:
根据所述数据表中存储的与查找到的类别标识相对应的关键词项初步筛选出含有所述医疗统计报告模板的关键词的数据文件。
4.根据权利要求1所述的医疗统计报告生成方法,其特征在于,所述预设距离计算公式为:
其中,表示从所述医疗统计报告模板中提取的关键词的总个数,/>表示初步筛选出来的数据文件的个数,/>,/>,/>表示第/>个初步筛选出来的数据文件与所述医疗统计报告模板的距离,/>表示所述医疗统计报告模板中提取的第/>个关键词在第/>个数据文件中出现的次数,/>表示所述医疗统计报告模板中提取的第/>个关键词在所述医疗统计报告模板中出现的次数。
5.根据权利要求1或2所述的所述的医疗统计报告生成方法,其特征在于,
所述方法还包括:
根据所述医疗统计报告的统计结论发送知识获取请求给知识库服务器;
接收所述知识库服务器发送的知识数据,并根据所述知识数据完善所述医疗统计报告。
6.一种医疗统计报告生成装置,其特征在于,包括:
第一获取模块,用于获取医疗统计报告模板,所述医疗统计报告模板为根据统计需求以及对应业务领域知识预先制作的模板;
第二获取模块,用于获取源数据;
预处理模块,用于对所述源数据进行预处理以得到数据文件;
统计分析模块,对所述数据文件进行编号;提取所述数据文件的标题的关键词或摘要的关键词,根据所述数据文件的标题的关键词或摘要的关键词确定所述数据文件对应的类别标识;提取所述数据文件的指标信息,将所述数据文件的编号、类别标识、关键词以及指标信息以数据表的形式进行存储;根据所述医疗统计报告模板的类型,在存储的所述数据表中查找所述医疗统计报告模板需要的数据文件的类别标识;提取所述医疗统计报告模板的关键词;根据所述医疗统计报告模板的关键词以及所述数据文件的标题的关键词或摘要的关键词,对与查找到的类别标识相对应的数据文件进行初步筛选;根据所述医疗统计报告模板的关键词及其频次以及所述医疗统计报告模板的关键词在数据文件中出现的频次,利用预设距离计算公式计算所述初步筛选出的数据文件与所述医疗统计报告模板的距离;根据计算出来的所述距离,对所述初步筛选出来的数据文件进行再次筛选以得到N个数据文件,N为正整数;根据对应的所述指标信息对所述再次筛选出来的所述N个数据文件进行指标统计,得到所述医疗统计报告模板所需要的指标文件;
生成模块,用于根据所述指标文件以及所述医疗统计报告模板生成所述医疗统计报告。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至5中任一项所述的医疗统计报告生成方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至5中任一项所述的医疗统计报告生成方法。
CN201910065018.2A 2019-01-23 2019-01-23 医疗统计报告生成方法、装置、设备及存储介质 Active CN109920506B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910065018.2A CN109920506B (zh) 2019-01-23 2019-01-23 医疗统计报告生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910065018.2A CN109920506B (zh) 2019-01-23 2019-01-23 医疗统计报告生成方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109920506A CN109920506A (zh) 2019-06-21
CN109920506B true CN109920506B (zh) 2024-03-08

Family

ID=66960692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910065018.2A Active CN109920506B (zh) 2019-01-23 2019-01-23 医疗统计报告生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109920506B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516219A (zh) * 2019-08-27 2019-11-29 上海美吉生物医药科技有限公司 一种基于产品集生产报告的方法及系统
CN110941687A (zh) * 2019-10-16 2020-03-31 浙江口碑网络技术有限公司 一种生成拜访报告的方法和装置
CN111028954A (zh) * 2019-11-29 2020-04-17 成都易欧科技有限公司 基于中文语义技术的传染病预警分析方法及系统
CN111400367B (zh) * 2020-02-28 2023-12-29 金蝶蝶金云计算有限公司 业务报告生成方法、装置、计算机设备和存储介质
CN111524589B (zh) * 2020-04-14 2021-04-30 重庆大学 基于cda共享文档的健康医疗大数据质控系统和终端
CN112002430A (zh) * 2020-06-30 2020-11-27 杭州杏林信息科技有限公司 一种出院前治愈医院感染例次数监测方法及系统
CN113434612B (zh) * 2021-07-09 2024-01-26 青岛海尔科技有限公司 数据统计方法及装置、存储介质及电子装置
CN114596948A (zh) * 2022-03-09 2022-06-07 深圳市长城网信息科技股份有限公司 一种医院管理统计指标源字段库的建立方法
CN115101157A (zh) * 2022-05-31 2022-09-23 医渡云(北京)技术有限公司 自动生成分析报告的方法、装置、设备及可读介质
CN115458103B (zh) * 2022-09-05 2024-03-22 北京百度网讯科技有限公司 医疗数据处理方法、装置、电子设备及可读存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976394A (zh) * 2010-10-29 2011-02-16 无锡永中软件有限公司 数据采集和统计系统及方法
CN103559415A (zh) * 2013-11-18 2014-02-05 深圳市开立科技有限公司 一种生成患者报告的方法、装置及超声设备
WO2014188476A1 (ja) * 2013-05-20 2014-11-27 株式会社日立製作所 ヘルスケア情報処理システム
CN105528529A (zh) * 2016-02-20 2016-04-27 成都中医药大学 基于大数据分析的中医临床技能评价体系的数据处理方法
CN105808712A (zh) * 2016-03-07 2016-07-27 陈宽 将文本类医疗报告转换为结构化数据的智能系统及方法
CN105844098A (zh) * 2016-03-23 2016-08-10 长沙博为软件技术股份有限公司 一种pacs系统医学诊断报告数据共享的方法
CN106845071A (zh) * 2016-12-15 2017-06-13 扬州立兴科技发展合伙企业(有限合伙) 一种跨区域医疗数据信息获取系统
CN107993727A (zh) * 2017-12-07 2018-05-04 东软熙康健康科技有限公司 一种数据处理方法、装置及系统
CN108009197A (zh) * 2017-10-26 2018-05-08 康美健康云服务有限公司 自定义医疗报表生成方法、电子设备、存储介质及系统
CN108154906A (zh) * 2018-01-17 2018-06-12 林沛杰 电子化病历报告表系统及电子化病历报告表记录方法
CN108874760A (zh) * 2018-05-23 2018-11-23 中国平安人寿保险股份有限公司 报表文件生成方法、装置、计算机设备及存储介质
CN109192261A (zh) * 2018-08-21 2019-01-11 上海商汤智能科技有限公司 信息处理方法及装置、电子设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976394A (zh) * 2010-10-29 2011-02-16 无锡永中软件有限公司 数据采集和统计系统及方法
WO2014188476A1 (ja) * 2013-05-20 2014-11-27 株式会社日立製作所 ヘルスケア情報処理システム
CN103559415A (zh) * 2013-11-18 2014-02-05 深圳市开立科技有限公司 一种生成患者报告的方法、装置及超声设备
CN105528529A (zh) * 2016-02-20 2016-04-27 成都中医药大学 基于大数据分析的中医临床技能评价体系的数据处理方法
CN105808712A (zh) * 2016-03-07 2016-07-27 陈宽 将文本类医疗报告转换为结构化数据的智能系统及方法
CN105844098A (zh) * 2016-03-23 2016-08-10 长沙博为软件技术股份有限公司 一种pacs系统医学诊断报告数据共享的方法
CN106845071A (zh) * 2016-12-15 2017-06-13 扬州立兴科技发展合伙企业(有限合伙) 一种跨区域医疗数据信息获取系统
CN108009197A (zh) * 2017-10-26 2018-05-08 康美健康云服务有限公司 自定义医疗报表生成方法、电子设备、存储介质及系统
CN107993727A (zh) * 2017-12-07 2018-05-04 东软熙康健康科技有限公司 一种数据处理方法、装置及系统
CN108154906A (zh) * 2018-01-17 2018-06-12 林沛杰 电子化病历报告表系统及电子化病历报告表记录方法
CN108874760A (zh) * 2018-05-23 2018-11-23 中国平安人寿保险股份有限公司 报表文件生成方法、装置、计算机设备及存储介质
CN109192261A (zh) * 2018-08-21 2019-01-11 上海商汤智能科技有限公司 信息处理方法及装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109920506A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN109920506B (zh) 医疗统计报告生成方法、装置、设备及存储介质
US12056718B2 (en) Fraud lead detection system for efficiently processing database-stored data and automatically generating natural language explanatory information of system results for display in interactive user interfaces
Herland et al. Big data fraud detection using multiple medicare data sources
Dixon et al. Leveraging data visualization and a statewide health information exchange to support COVID-19 surveillance and response: application of public health informatics
US20200126011A1 (en) Computer-implemented methods and systems for analyzing healthcare data
US8671112B2 (en) Methods and apparatus for automated image classification
CN113836131B (zh) 一种大数据清洗方法、装置、计算机设备及存储介质
CN111223534B (zh) 一种业财融合的精细化管理系统
US20020133441A1 (en) Methods and systems for identifying attributable errors in financial processes
US20200293528A1 (en) Systems and methods for automatically generating structured output documents based on structural rules
CN112052396A (zh) 课程匹配方法、系统、计算机设备和存储介质
CN108470312B (zh) 理赔案件的分析方法、装置、存储介质及终端
CN113948168A (zh) 医疗数据评价实际应用系统及医疗数据评价实际应用方法
CN111696656B (zh) 一种互联网医疗平台的医生评价方法、装置
CN111785383A (zh) 数据处理方法及相关设备
Mancini et al. Marked point process models for the admissions of heart failure patients
CN116304186A (zh) 一种医疗文档后结构化处理方法及系统
US20160321247A1 (en) Gender and name translation from a first to a second language
CN110335649B (zh) 一种基于Filemaker数据库的临床药物试验数据平台
JP6743116B2 (ja) 審査支援システム、審査支援方法及び審査支援プログラム
Botsis et al. Improving drug safety with adverse event detection using natural language processing
JP2015052847A (ja) 電子レセプトデータ変換システム及び電子レセプトデータ変換プログラム
CN113035338A (zh) 一种基于大数据的医疗数据分析平台
CN112884593A (zh) 一种基于图聚类分析的医保骗保行为检测方法及预警装置
CN109542890B (zh) 数据修改方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant