CN113707328A - 数据处理方法、装置及计算设备 - Google Patents
数据处理方法、装置及计算设备 Download PDFInfo
- Publication number
- CN113707328A CN113707328A CN202010430586.0A CN202010430586A CN113707328A CN 113707328 A CN113707328 A CN 113707328A CN 202010430586 A CN202010430586 A CN 202010430586A CN 113707328 A CN113707328 A CN 113707328A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- medical
- feature
- disease category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 71
- 201000010099 disease Diseases 0.000 claims abstract description 196
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 196
- 238000012545 processing Methods 0.000 claims abstract description 90
- 238000000034 method Methods 0.000 claims abstract description 58
- 238000012549 training Methods 0.000 claims description 85
- 239000013598 vector Substances 0.000 claims description 42
- 230000004927 fusion Effects 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 21
- 238000012216 screening Methods 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 abstract description 20
- 238000004891 communication Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 206010022000 influenza Diseases 0.000 description 10
- 241000700605 Viruses Species 0.000 description 9
- 238000003745 diagnosis Methods 0.000 description 9
- 230000015654 memory Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 208000015181 infectious disease Diseases 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 230000002265 prevention Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 4
- 239000008280 blood Substances 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 238000002601 radiography Methods 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 210000002700 urine Anatomy 0.000 description 3
- 208000035473 Communicable disease Diseases 0.000 description 2
- 238000005481 NMR spectroscopy Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000007721 medicinal effect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000474 nursing effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010003757 Atypical pneumonia Diseases 0.000 description 1
- 208000001490 Dengue Diseases 0.000 description 1
- 206010012310 Dengue fever Diseases 0.000 description 1
- 208000020061 Hand, Foot and Mouth Disease Diseases 0.000 description 1
- 208000025713 Hand-foot-and-mouth disease Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 208000005647 Mumps Diseases 0.000 description 1
- 101100377097 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) yth-1 gene Proteins 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 208000025729 dengue disease Diseases 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000002458 infectious effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 208000010805 mumps infectious disease Diseases 0.000 description 1
- 201000009240 nasopharyngitis Diseases 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 241000712461 unidentified influenza virus Species 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/80—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本申请实施例提供一种数据处理方法、装置及计算设备。其中,所述方法包括:获取对象的医疗数据;根据所述对象的医疗数据,利用识别模型识别所述对象所属的疾病类别。本申请实施例提供的技术方案提高了疾病检测效率。
Description
技术领域
本申请实施例涉及计算机应用技术领域,尤其涉及一种数据处理方法、装置及计算设备。
背景技术
目前,在一些流行性疾病或者传染性疾病的检测界定上,通常是以病毒检查结果为准,以流行性感冒(简称:流感)为例,患者的流感病毒检测结果为阳性时,才被检测为感染流感。
但是,传统的病毒检测方式较慢,不利于疾病的筛查和统计。
发明内容
本申请实施例提供一种数据处理方法、装置及计算设备,用以解决现有技术中疾病检测效率低的技术问题。
第一方面,本申请实施例中提供了一种数据处理方法,包括:
获取对象的医疗数据;
根据所述对象的医疗数据,利用识别模型识别所述对象所属的疾病类别。
第二方面,本申请实施例中提供了一种数据处理方法,包括:
根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别属于目标疾病类别的目标对象;
按照第一时间间隔统计所述目标地点对应的目标对象数量,构建第一时间序列数据;
利用所述第一时间序列数据,预测所述目标地点在预定时间范围内对应的目标对象预测数量。
第三方面,本申请实施例中提供了一种数据处理方法,包括:
根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别属于目标疾病类别的目标对象;
按照第一时间间隔统计所述目标地点对应的目标对象数量,构建第一时间序列数据;
利用所述第一时间序列数据,训练预测模型;
其中,所述预测模型用于预测所述目标地点在预定时间范围内的目标对象预测数量。
第四方面,本申请实施例中提供了一种数据处理方法,包括:
根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别属于目标疾病类别的目标对象;
按照第一时间间隔统计所述目标地点对应的目标对象数量,构建第一时间序列数据;
利用所述第一时间序列数据,预测所述目标地点在预定时间范围内的目标对象预测数量;
基于所述目标对象预测数量,生成预警信息。
第五方面,本申请实施例中提供了一种数据处理方法,包括:
获取样本对象的医疗样本数据及所属疾病类别;
利用所述医疗样本数据及所属疾病类别,训练识别模型;
其中,所述识别模型用于基于对象的医疗数据,识别所述对象所属的疾病类别。
第六方面,本申请实施例中提供了一种数据处理方法,包括:
获取目标疾病类别对应的正样本对象的医疗正样本数据,及负样本对象的医疗负样本数据;
分别利用所述医疗正样本数据及所述医疗负样本数据训练识别模型;
其中,所述识别模型用于基于对象的医疗数据,识别所述对象是否属于所述目标疾病类别。
第七方面,本申请实施例中提供了一种数据处理方法,包括:
根据目标地点对应的历史医疗记录中不同用户的医疗数据,利用识别模型识别属于目标疾病类别的目标用户;
按照第一时间间隔统计所述目标地点对应的目标用户数量,构建第一时间序列数据;
利用所述第一时间序列数据,预测所述目标地点在预定时间范围内的目标用户预测数量。
第八方面,本申请实施例中提供了一种数据处理装置,包括:
第一获取模块,用于获取对象的医疗数据;
第一识别模块,用于根据所述对象的医疗数据,利用识别模型识别所述对象所属的疾病类别。
第九方面,本申请实施例中提供了一种数据处理装置,包括:
第二识别模块,用于根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别属于目标疾病类别的目标对象;
第一构建模块,用于按照第一时间间隔统计所述目标地点对应的目标对象数量,构建第一时间序列数据;
预测模块,用于利用所述第一时间序列数据,预测所述目标地点在预定时间范围内对应的目标对象预测数量。
第十方面,本申请实施例中提供了一种数据处理装置,包括:
第三识别模块,用于根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别属于目标疾病类别的目标对象;
第二构建模块,用于按照第一时间间隔统计所述目标地点对应的目标对象数量,构建第一时间序列数据;
第一训练模块,用于利用所述第一时间序列数据,训练预测模型;
其中,所述预测模型用于预测所述目标地点在预定时间范围内的目标对象预测数量。
第十一方面,本申请实施例中提供了一种数据处理装置,包括:
第二获取模块,用于获取样本对象的医疗样本数据及所属疾病类别;
第二训练模块,用于利用所述医疗样本数据及所属疾病类别,训练识别模型;
其中,所述识别模型用于基于对象的医疗数据,识别所述对象所属的疾病类别。
第十二方面,本申请实施例中提供了一种数据处理装置,包括:
第三获取模块,用于获取目标疾病类别对应的正样本对象的医疗正样本数据,及负样本对象的医疗负样本数据;
第三训练模块,用于分别利用所述医疗正样本数据及所述医疗负样本数据训练识别模型;
其中,所述识别模型用于基于对象的医疗数据,识别所述对象是否属于所述目标疾病类别。
第十三方面,本申请实施例中提供了一种计算设备,包括处理组件以及存储组件;
所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行,实现如上述第一方面所述的数据处理方法。
第十四方面,本申请实施例中提供了一种计算设备,包括处理组件以及存储组件;
所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行,实现如上述第二方面所述的数据处理方法。
第十五方面,本申请实施例中提供了一种计算设备,包括处理组件以及存储组件;
所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行,实现如上述第三方面所述的数据处理方法。
第十六方面,本申请实施例中提供了一种计算设备,包括处理组件以及存储组件;
所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行,实现如上述第四方面所述的数据处理方法。
第十七方面,本申请实施例中提供了一种计算设备,包括处理组件以及存储组件;
所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行,实现如上述第五方面所述的数据处理方法。
第十八方面,本申请实施例中提供了一种计算机存储介质,存储有计算机程序,所述计算机程序被计算机执行时实现如上述第一方面所述的数据处理方法。
第十九方面,本申请实施例中提供了一种计算机存储介质,存储有计算机程序,所述计算机程序被计算机执行时实现如上述第二方面所述的数据处理方法。
第二十方面,本申请实施例中提供了一种计算机存储介质,存储有计算机程序,所述计算机程序被计算机执行时实现如上述第三方面所述的数据处理方法。
第二十一方面,本申请实施例中提供了一种计算机存储介质,存储有计算机程序,所述计算机程序被计算机执行时实现如上述第四方面所述的数据处理方法。
第二十二方面,本申请实施例中提供了一种计算机存储介质,存储有计算机程序,所述计算机程序被计算机执行时实现如上述第五方面所述的数据处理方法。
本申请实施例中,预先训练进行疾病类别筛选的识别模型,利用识别模型基于对象的医疗数据,即可以识别该对象所属的疾病类别,从而无需进行病毒检测等医院检查,可以预估对象的疾病类别,快速实现疾病筛选,提高了疾病检测效率。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请提供的一种数据处理方法一个实施例的流程示意图;
图2示出了本申请提供的一种数据处理方法又一个实施例的流程示意图;
图3示出了本申请提供的一种数据处理方法又一个实施例的流程示意图;
图4示出了本申请提供的一种数据处理方法又一个实施例的流程示意图;
图5示出了本申请提供的一种数据处理方法又一个实施例的流程示意图;
图6示出了本申请提供的一种数据处理方法又一个实施例的流程示意图;
图7示出了本申请提供的一种数据处理方法又一个实施例的流程示意图;
图8示出了本申请提供的一种数据处理方法又一个实施例的流程示意图;
图9示出了本申请实施例在一个实际应用中的数据处理交互过程示意图;
图10示出了本申请提供的一种数据处理装置一个实施例的结构示意图;
图11示出了本申请提供的一种计算设备一个实施例的结构示意图;
图12示出了本申请提供的一种数据处理装置又一个实施例的结构示意图;
图13示出了本申请提供的一种计算设备又一个实施例的结构示意图;
图14示出了本申请提供的一种数据处理装置又一个实施例的结构示意图;
图15示出了本申请提供的一种计算设备又一个实施例的结构示意图;
图16示出了本申请提供的一种数据处理装置又一个实施例的结构示意图;
图17示出了本申请提供的一种计算设备又一个实施例的结构示意图;
图18示出了本申请提供的一种数据处理装置又一个实施例的结构示意图;
图19示出了本申请提供的一种计算设备又一个实施例的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
本申请的技术方案主要应用于医疗领域中针对患病对象进行疾病类别的检测场景中,本文中所指的对象可以是指人或动物等。本申请的技术方案可以适用于医院等医疗机构、医疗卫生管理部门、或者政府相关部分等各种需求方对患病对象进行疾病类别的检测场景中。
目前,疾病类别检测通常是通过较为复杂的医学检查实现,例如对于病毒类疾病,需要通过病毒检测来确诊,医学检查方式由于较为复杂且需要专业人士进行,因此检测效率减慢。且以流感为例,很多感染流感的患者也不一定会作病毒检测,虽然具有流感症状但是可能会被当成普通感冒,因此以医学检查方式来界定是否感染了某种疾病,可能会漏掉很大一部分真实感染患者,发明人在实现本发明过程中发现,疾病类别检测一方面是为了确诊真实患者,以实现针对性的有效治疗,另一方面,同时为了统计患病人数,特别是对于流行性或传染性类的疾病,可以提前进行疾病的防控等。而按照目前医学检查方式,由于可能会漏掉真实患者,因此也无法准确统计某种疾病的真实病患数量。
为了提高疾病检测效率,发明人经过一系列研究提出了本申请的技术方案,在本申请实施例中,预先训练进行疾病类别筛选的识别模型,利用识别模型基于对象的医疗数据,即可以识别该对象所属的疾病类别,从而无需进行病毒检测,可以快速实现疾病筛选,提高了疾病检测效率。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的了一种数据处理方法一个实施例的流程图,该方法可以包括以下几个步骤:
101:获取对象的医疗数据。
其中,医疗数据可以是指对象在诊疗过程中产生的诊疗数据,其可以从病案首页数据中获取,也可以从医疗数据系统中获取,医疗数据中包括了对病患的发生、发展、转归,进行检查、诊断、治疗等医疗活动过程的记录,例如可以包括但不限于对象属性信息如年龄、性别、体重、名族、肤色、所在医疗科室等、病症记录信息如主诉症状、现病史、既往史、家族病史等、检验检查信息如血常规、尿常规、心电图、胸片、核磁共振等、诊断信息如主要诊断、次要诊断等、用药信息、手术信息、护理信息、医疗经费信息等。
其中,上文所描述的病案首页数据可以是指医疗机构中的医务人员在病人出院之后,使用文字、符号、代码、数字等方式,将病人住院期间相关信息汇总在特定的表格中,形成的数据摘要;医疗数据系统是指医疗机构中用于记录和管理病患诊疗情况的计算机系统,目前随着智能时代和数据时代的到来,医疗机构都会以电子形式来记录病患的医疗活动。
102:根据该对象的医疗数据,利用识别模型识别该对象所属的疾病类别。
作为一种可选方式,识别模型可以采用二分类方式进行训练,此时,基于目标疾病类别对应的正样本对象的医疗正样本数据以及负样本对象的医疗负样本数据训练获得。则步骤102可以具体是根据对象的医疗数据,利用识别模型识别对象是否属于目标疾病类别。
其中,进行模型训练时,模型输入为医疗正样本数据、对应的模型标签可以为概率值1,模型输入为医疗负样本数据,对应的模型标签可以为概率值1。从而根据对象的医疗数据,利用识别模型识别对象属于目标疾病类别的概率值,若概率值大于一定数值,则可以认为对象属于目标疾病类别。
作为另一种可选方式,识别模型可以采用多分类方式进行训练,用以识别识别具体属于哪一种疾病类别。
此时,识别模型可以具体是基于不同疾病类别分别对应的样本对象的医疗样本数据训练获得。模型输入为样本对象的医疗样本数据,模型标签为样本对象所属疾病类别标签,从而根据对象的医疗数据,利用识别模型可以识别对象对应的疾病类别标签。
其中,该识别模型例如可以采用逻辑回归、SVM(Support Vector Machine,支持向量机)、随机森林、GBDT(Gradient Boosting Decision Tree,梯度提升决策树)、LightGBM((Light Gradient Boosting Machine,轻量级梯度提升框架)、深度神经网络、或者融合多种机器学习模型的集成模型等实现,本申请对此不进行具体限制。
本实施例中,通过预先训练获得的识别模型,基于对象的医疗数据,即可以识别该对象所属的疾病类别,从而无需采用病毒检测等医学检查手段,可以预估对象的疾病类别,快速实现疾病筛选,提高了疾病检测效率。
由前文描述可知,医疗数据中可以包括多种医疗类型的数据,如对象属性信息、病症记录信息、检验检查信息如血常规、尿常规、心电图、胸片、核磁共振等、诊断信息、用药信息、手术信息、护理信息、医疗经费信息等等。为了提高数据处理准确度,在某些实施例中,根据对象的医疗数据,利用识别模型识别对象所属的疾病类别可以包括:
从医疗数据中提取至少一个特征类型的特征数据;
基于至少一个特征类型的特征数据,利用识别模型识别对象所属的疾病类别。
可选地,可以是从该至少一种医疗类型对应数据中,提取至少一个特征类型的特征数据。
在一个实际应用中,特征类型的划分可以与医疗类型的划分不同,例如特征类型可以包括性别和年龄,而性别和年龄同属于医疗类型中的对象属性信息。因此,可以从同一医疗类型的数据中提取不同特征类型的特征数据,也可以从不同医疗类型的数据中可以提取属于同一个特征类型的特征数据。
例如,至少一个特征类型可以包括年龄、性别、体重、名族、肤色、所在医疗科室、症状、病史、血常规、尿常规、心电图、胸片或核磁共振检查等医学设备检查结果、诊断类型、手术操作类型、医疗费用等等。特征类型的划分可以结合实际情况进行划分,本申请对此不进行具体限定。
在某些实施例中,从医疗数据中提取至少一个特征类型对应的特征数据可以包括:
从医疗数据中确定至少一个特征类型分别对应的至少一个文本;
针对任一个特征类型,分别提取其对应的至少一个文本中与该特征类型相关的关键词,获得至少一个关键词;
将至少一个关键词分别转换为特征向量,获得至少一个特征向量;
基于至少一个特征向量,确定该特征类型对应的特征数据。
由于医疗数据通常是由文本或者图像等形式构成,图像可以采用识别技术将其转换为对应文本。从而可以确定获得每个特征类型对应的文本。
由于某些文本为格式化数据,规范了数据类型和数据范围等,如身高、年龄等,则对于格式化数据可以直接作为关键词处理;对于非格式化文本,可以进行可以采用NLP(Natural Language Processing,自然语言处理)技术,对文本进行分词处理,再从中确定关键词。
其中,关键词提取可以有多种实现方式,比如对于某一个特征类型,可以采用该特征类型对应的关键词提取模型实现,关键词提取模型可以预先基于该特征类型对应的样本文本以及在样本文本中标注的属于该特征类型的关键词进行训练获得,当然模型训练也可以采用无监督训练方式实现,本申请对此不进行具体限定。
为了方便进行数据处理,关键词可以转换为特征向量,例如采用ont-hot独热编码、word2vec(word to vector,一种词向量转换技术),或者fasttext(一个词向量转换技术)等词向量模型将关键词转换为对应词向量,作为特征向量处理。当然,可以理解的是,为了便于数据处理,特征向量转换过程中还可能执行归一化、、空缺值填充或者降维等处理操作,本申请对此不进行具体限定。
在某些实施例中,基于至少一个特征类型的特征数据,利用识别模型识别对象所属的疾病类别可以包括:
将至少一个特征类型的特征数据进行融合,获得融合特征;
将融合特征输入识别模型,获得对象所属疾病类别。
作为一种可选方式,将至少一个特征类型的特征数据进行融合,获得融合特征可以是将该至少一个特征类型的特征数据进行加权融合,获得融合特征。
其中,不同特征类型对应权重系数可以预先设定,权重系数可以大于0小于1,加权融合操作可以具体为加权求和操作。
作为另一种可选方式,将至少一个特征类型的特征数据进行融合,获得融合特征可以是将该至少一个特征类型的特征数据按照至少一个特征类型的优先级顺序进行拼接获得融合特征。该至少一个特征类型的优先级顺序可以结合实际应用情况进行预先设定等。
实际应用中,本申请实施例提供的疾病类别识别方式可以作为医学检查的辅助方式,初步筛选可能感染某种疾病的对象,在必要情况下,可以对初步筛选的对象再进行医学检查;此外,也可以作为用以统计感染某种疾病的病患数量的依据,以提高病患数量统计的准确度等,从而基于统计获得的病患数量,还可以预测之后一段时间内的病患数量和趋势,以帮助相关机构进行疾病预警等。
因此,作为又一个实施例,如图2所示的数据处理方法中,该方法可以包括以下几个步骤:
201:获取对象的医疗数据。
202:根据对象的医疗数据,利用识别模型识别对象所属的疾病类别。
步骤201~步骤202的操作可以详见图1对应实施例中所述,在此不再赘述。
203:判断对象所属疾病类别是否为预定疾病类别;
204:基于判断结果,确定是否对对象进行医学检查。
可选地,若该对象所属疾病类别为预定疾病类别,则可以确定对其进行医学检查。
该预定疾病类别例如可以包括流行病类或者传染病类的疾病类别,如流行性感冒、传染性非典型肺炎、流行性腮腺炎、登革热、手足口病等。
可选地,基于判断结果,确定是否对对象进行医学检查之后,还可以生成检查提示信息。该检查提示信息可以用于提示用户是否对该对象进行医学检查等。
该检查提示信息可以通过多种通信方式告知特定人员,例如邮件、短信、即时通信等方式,本申请对此不进行限定。
通过本实施例的技术方案,可以利用识别模型进行疾病类别的初步筛选和预估,从而可以对符合预定疾病类别的对象进行进一步的医学检查,以可以降低医学检查工作量,提高疾病检测效率等。
作为又一个实施例,如图3所示的数据处理方法中,该方法可以包括以下几个步骤:
301:获取属于目标地点的对象的医疗数据。
302:根据对象的医疗数据,利用识别模型识别对象所属的疾病类别。
303:根据目标地点对应的不同对象的识别结果,统计属于目标疾病类别的目标对象的对象数量。
本实施例中,针对的对象为属于某个目标地点中的对象,该目标地点例如可以是指目标区域,如行政区域或者目标场所,如某个医疗机构等。从而结合不同对象的识别结果,可以统计属于目标疾病类别的目标对象的对象数量,以确定该目标地点发生的感染目标疾病类别的对象的对象数量。
可选地,可以对某个时间段中该目标地点对应的不同对象进行识别,从而可以确定该时间段内发生的感染目标疾病类别的对象数量,以便于了解该目标疾病类别的病患情况等。
此外,通过统计属于目标疾病类别的对象数量形成的时间序列数据,还可以对该目标疾病类别未来的病患数量作出预测,以便于可以进行防控和预警等等。而采用本实施例中的识别模型进行疾病类别识别,可以降低医学检查的漏检情况,保证对象数量统计的准确性。
因此,如图4中所示,为本申请提供的数据处理方法又一个实施例的流程图,该方法可以包括以下几个步骤:
401:根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别属于目标疾病类别的目标对象。
该目标地点例如可以是指目标区域,如行政区域或者目标场所,如某个医疗机构等。
目标地点为目标区域时,对应的历史医疗记录可以包括该目标地点所在范围内的所有医疗机构的历史医疗记录。
历史医疗记录中记录了不同对象在诊疗过程中产生的医疗数据,因此,利用识别模型即可以识别不同对象中目标疾病类别的目标对象。
一种可选方式,识别模型可以是基于目标疾病类别对应的正样本对象的医疗正样本数据以及负样本对象的医疗负样本数据训练获得;从而可以识别某个对象为目标疾病类别的概率。
另一种可选方式,识别模型可以是于不同疾病类别分别对应的样本对象的医疗样本数据训练获得。从而可以识别不同对象分别对应的疾病类别,并可以从中确定属于目标疾病类别的目标对象。
由于一个对象可能会持续长时间的诊疗,而其对应的医疗数据会根据医务人员不同的记录节点发生变化,为了方便进行统计和预测,可选地,根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别目标疾病类别的目标对象可以包括:
针对目标地点在当前时刻之前每个单位时间内对应的历史医疗记录,获取不同对象的医疗数据;
基于不同对象的医疗数据,利用识别模型识别每个单位时间对应的属于目标疾病类别的目标对象,并统计目标地点在每个单位时间内对应的目标对象数量。
该单位时间例如可以为一天、一星期、一月、一季度或者一年等。实际应用中,通常采用单位时间为一天。因此,可以是针对目标地点在当前时刻之前的每一天对应的历史医疗记录,获取不同对象的医疗数据;进而可以统计每一天发生的目标对象数量。
402:按照第一时间间隔统计目标地点的目标对象数量,构建第一时间序列数据。
403:利用第一时间序列数据,预测目标地点在预定时间范围内对应的目标对象预测数量。
本实施例中,基于识别模型可以识别目标地点历史感染目标疾病类别的目标对象,进而可以构建目标对象数量的第一时间序列数据,基于该第一时间序列数据即可以对该目标地点未来的目标对象进行预测,获得目标对象预测数量,基于该目标对象预测数量即可以对该目标疾病类别进行相应的预警工作等。
其中,该第一时间间隔可以结合实际情况进行设定,例如可以为一天、一星期、一个月、一年、或者若干天、若干星期、若干月、若干年等。
在某些实施例中,按照第一时间间隔,统计目标地点对应的目标对象数量,构建第一时间序列数据可以包括:
按照第一时间间隔,将当前时刻之前的第一时间段划分为多个时间步长;
统计目标地点在多个时间步长内分别对应的目标对象数量;
将多个时间步长对应的目标对象历史数量,按照时间先后顺序排列形成第一时间序列数据。
则可选地,利用第一时间序列数据,预测目标地点在预定时间范围内的目标对象预测数量包括:
利用第一时间序列数据,预测目标地点在当前时间步长内对应的目标对象预测数量。
当前时刻之前的第一时间段例如可以是前5年等,按照第一时间间隔,可以将该第一时间段划分为多个时间步长,每个时间步长即为一个时间段,多个时间步长即为连续的多个时间段。
当前时间步长也即为由当前时刻以及与当前时刻距离第一时间间隔的未来时刻形成时间段,也即为预设时间范围,该预设时间范围的时长与该第一时间间隔相同。例如,第一时间间隔为3天,当前时间步长也即为当前时候之后的3天内。
将第一时间段划分为多个时间步长之后,则具体可以是统计目标地点在每个时间步长内对应的目标对象数量。
由前文描述可知,可以针对统计目标地点在每个单位时间内对应的目标对象数量,因此,在某些实施例中,统计目标地点在多个时间步长内分别对应的目标对象数量可以包括:
根据目标地点在每个时间步长中的每个单位时间对应的目标对象数量,统计获得目标地点在每个时间步长内对应的目标对象数量。
例如,假设单位时间为一天,第2个时间步长为9月1日~9月3日,从而可以将9月1日~9月3日期间每天发生的目标对象数量累加,即可以获得该第2个时间步长对应的目标对象数量。
其中,基于第一时间序列,预测目标地点在当前时间步长内的目标对象预测数量可以有多种预测方式,例如可以通过统计分析或者利用预测模型实现。
因此,在某些实施例中,利用第一时间序列数据,预测目标地点在当前时间步长内的目标对象预测数量可以包括:
利用第一时间序列数据,训练预测模型;
基于目标地点在当前时间步长之前的前N个时间步长内分别对应的目标对象数量,利用预测模型预测目标地点在当前时间步长内对应的目标对象预测数量;其中,N为大于等于1的整数。可选地,N可以等于1。
例如,假设当前时间步长为第Y个时间步长,则可以利用第Y-1个时间步长、第Y-2个时间步……第Y-N个时间步长分别对应的目标对象数量,来预测第Y个时间步长对应的目标对象预测数量。
也即预测模型可以基于在当前时间步长之前的前N个时间步长内分别对应的目标对象数量,预测当前时间步长对应的目标对象预测数量。
在某些实施例中,利用第一时间序列数据,训练预测模型可以包括:
从第一时间序列中,选择第t个时间步长的目标对象数量及第t个时间步长之前的前M个时间步长对应的目标对象数量形成训练数据集;其中,t=M+1、M+2,……,M为大于等于1的整数;
利用训练数据集,训练预测模型。
可选地,可以是将第t个时间步长之前的前M个时间步长作为模型输入值,以得到模型预测值,第t个时间步长作为模型验证值,基于模型验证值与模型预测值之间的差异信息,来对预测模型进行参数调整,直至差异信息满足优化要求等。
实际应用中,该预测模型例如可以采用线性回归、GBDT(Gradient、LightGBM、LSTM(Long Short-Term Memory,长短期记忆网络)、RNN(Recurrent Neural Network,循环神经网络)、GRU(gated recurrent unit,门控循环神经网络)、TRANSFORMER(变换网络,一个基于自注意力机制的全新神经网络架构)等模型实现,本申请对此不进行具体限定。
在某些实施例中,根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别属于目标疾病类别的目标对象可以包括:
确定目标地点对应的历史医疗记录中不同对象的医疗数据;
针对任一个对象的医疗数据,基于医疗数据利用识别模型识别对象是否属于目标疾病类别。
可选地,基于医疗数据利用识别模型识别对象是否属于目标疾病类别可以包括:
从医疗数据中提取至少一个特征类型对应的特征数据;
基于至少一个特征类型的特征数据,利用识别模型识别对象是否属于目标疾病类别。
可选地,基于至少一个特征类型的特征数据,利用识别模型识别对象是否属于目标疾病类别可以包括:
将至少一个特征类型的特征数据进行融合,获得融合特征;
将融合特征输入识别模型,识别对象是否属于目标疾病类别。
可选地,从医疗数据中提取至少一个特征类型对应的特征数据可以包括:
从医疗数据中确定至少一个特征类型分别对应的至少一个文本;
针对任一个特征类型,分别提取其对应的至少一个文本中与该特征类型相关的关键词,获得至少一个关键词;
将至少一个关键词分别转换为特征向量,获得至少一个特征向量;
基于至少一个特征向量,确定该特征类型对应的特征数据。
其中,基于医疗数据利用识别模型识别对象是否属于目标疾病类别与图1所示实施例中的识别方式相同,特征数据的提取和融合此处将不再对其具体实现进行详细解释。
由前文描述可知,识别模型可以采用二分类方式训练获得,因此,在某些实施例中,根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别属于目标疾病类别的目标对象可以包括:
根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别不同对象属于目标疾病类别的概率值;
确定概率值大于第一概率阈值的确诊对象,及概率值小于第一概率阈值且大于第二概率阈值的疑似对象;
将确诊对象或疑似对象作为目标对象。
因此采用本申请实施例的技术方案,可以实现对确诊对象数量或者疑似对象数量进行预测。
实际应用中,基于预测获得的目标对象数量可以有多种使用场景,例如可以方便相关人员进行防控预警等等,因此,本申请实施例还提供了一种数据处理方法,如图5中所示,该方法可以包括以下几个步骤:
501:根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别属于目标疾病类别的目标对象。
502:按照第一时间间隔统计目标地点对应的目标对象数量,构建第一时间序列数据。
503:利用第一时间序列数据,预测目标地点在预定时间范围内的目标对象预测数量。
步骤501~步骤503的操作可以详见图4对应实施例中的步骤401~步骤403,此处不再赘述。
504:基于目标对象预测数量,生成预警信息。
可选地,可以预先设置不同预警范围值,以及不同预警范围值对应的预警信息等,从而基于目标对象预测数量所在的预警范围值,可以生成该预警范围值对应的预警信息,以用于提示相关人员疾病严重程度,或者执行相应的防控工作等。
其中,预警信息还可以采用多种通信方式通知相关人员,例如邮件、短信、即时通信等等,本申请对此不进行具体限定。
图6为本申请实施例提供的一种数据处理方法又一个实施例的流程图,该方法可以包括以下几个步骤:
601:根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别属于目标疾病类别的目标对象。
602:按照第一时间间隔统计目标地点对应的目标对象数量,构建第一时间序列数据。
603:利用第一时间序列数据,训练预测模型;
其中,预测模型用于预测目标地点在预定时间范围内的目标对象预测数量。
步骤601~步骤602的操作可以参见图4对应实施例中步骤401~步骤402的操作。
可选地,由于第一时间序列数据包括多个时间步长分别对应的目标对象数量。该预定时间范围可以具体是指当前时间步长所限定的时间段,预测模型具体即是预测目标地点在当前时间步长内的目标对象预测数量。
在某些实施例中,利用第一时间序列数据,训练预测模型可以包括:
从第一时间序列中,选择第t个时间步长的目标对象数量及第t个时间步长之前的前M个时间步长对应的目标对象数量形成训练数据集;其中,t=M+1、M+2,……,M为大于等于1的整数;
利用训练数据集,训练预测模型。
本实施例与图4所示实施例不同之处在于,利用第一时间序列数据,可以首先训练预测模型;从而基于训练好的预测模型可以用于预测目标地点在预定时间范围内的目标对象预测数量。预测模型的具体训练方式可以详见上文描述中的详细解释,在此将不再赘述。
由前文描述可知,本申请实施例中涉及的识别模型可以采用两种方式训练获得,下面对这两种训练方式分别进行介绍。
图7为本申请实施例提供的一种数据处理方法又一个实施例的流程图,该方法可以包括以下几个步骤:
701:获取样本对象的医疗样本数据及所属疾病类别。
702:利用医疗样本数据及所属疾病类别,训练识别模型。
其中,识别模型用于基于对象的医疗数据,识别对象所属的疾病类别。
在某些实施例中,利用医疗样本数据及所属疾病类别,训练识别模型可以包括:
从医疗样本数据中提取至少一个特征类型对应的特征样本数据;
基于至少一个特征类型的特征样本数据以及疾病类别,训练识别模型。
在某些实施例中,基于至少一个特征类型的特征样本数据以及疾病类别,训练识别模型可以包括:
将至少一个特征类型的特征样本数据进行融合,获得融合样本特征;
利用融合样本特征以及疾病类别,训练分类预测模型。
为了进一步提高模型准确度,在某些实施例中,将至少一个特征类型的特征样本数据进行融合,获得融合样本特征可以包括:
将至少一个特征类型进行特征筛选,获得至少一个有效特征类型的特征样本数据;
将至少一个有效特征类型的特征样本数据进行融合,获得融合样本特征。
其中,特征筛选方式例如可以采用基于统计方式进行筛选,如相关系数法、互信息法、卡方检验等。
当然也可以采用基于模型的特征筛选方式,如可以利用至少一个样本特征类型以及至少一个样本特征类型中标注的有效样本特征类型,进行特征筛选模型的训练,使得特征筛选模型可以从至少一个特征类型中确定有效特征类型。
此外,本领域技术人员可以理解的是,再对识别模型进行模型训练,或者利用识别模型进行识别时,输入识别模型的融合特征或者融合样本特征,若向量维度较多,还可以进行降维处理等常规处理操作,此外,从医疗数据中提取至少一个特征类型的特征数据时,对于某些特征类型的数据可能还需要进行归一化、空缺值填充、等常规数据挖掘操作,本申请对此不进行具体限定。
在某些实施例中,从医疗样本数据中提取至少一个特征类型对应的特征样本数据可以包括:
从医疗样本数据中确定至少一个特征类型分别对应的至少一个样本文本;
针对任一个特征类型,分别提取其对应的至少一个样本文本中与特征类型相关的样本关键词,获得至少一个样本关键词;
将至少一个样本关键词分别转换为样本特征向量,获得至少一个样本特征向量;
基于至少一个样本特征向量,确定特征类型对应的特征样本数据。
图8为本申请实施例提供的一种数据处理方法又一个实施例的流程图,该方法可以包括以下几个步骤:
801:获取目标疾病类别对应的正样本对象的医疗正样本数据,及负样本对象的医疗负样本数据。
802:分别利用医疗正样本数据及医疗负样本数据训练识别模型。
其中,识别模型用于基于对象的医疗数据,识别对象是否属于目标疾病类别。
在某些实施例中,分别利用医疗正样本数据及医疗负样本数据训练识别模型可以包括:
从医疗正样本数据中提取至少一个特征类型对应的特征正样本数据;
从医疗负样本数据中提取至少一个特征类型对应的特征负样本数据;
基于至少一个特征类型分别对应的特征正样本数据及特征负样本数据,训练识别模型。
在某些实施例中,基于至少一个特征类型分别对应的特征正样本数据及特征负样本数据,训练识别模型可以包括:
将至少一个特征类型进行特征筛选,确定至少一个有效特征类型;
将至少一个有效特征类型对应的特征正样本数据进行融合,获得第一融合特征;
将至少一个有效特征类型对应特征负样本数据进行融合,获得第二融合特征;
分别利用第一融合特征以及第二融合特征,训练识别模型。
在某些实施例中,从医疗正样本数据中提取至少一个特征类型对应的特征正样本数据可以包括:
从医疗正样本数据中确定至少一个特征类型分别对应的至少一个正样本文本;
针对任一个特征类型,分别提取其对应的至少一个正样本文本中与特征类型相关的正样本关键词,获得至少一个正样本关键词;
将至少一个正样本关键词分别转换为正样本特征向量,获得至少一个正样本特征向量;
基于至少一个正样本特征向量,确定该特征类型对应的特征正样本数据。
在某些实施例中,从医疗负样本数据中提取至少一个特征类型对应的特征负样本数据可以包括:
从医疗负样本数据中确定至少一个特征类型分别对应的至少一个负样本文本;
针对任一个特征类型,分别提取其对应的至少一个负样本文本中与特征类型相关的负样本关键词,获得至少一个负样本关键词;
将至少一个负样本关键词分别转换为负样本特征向量,获得至少一个负样本特征向量;
基于至少一个负样本特征向量,确定该特征类型对应的特征负样本数据。
在一个实际应用中,本申请的技术方案可以用于对人进行疾病类别的识别。由于现有技术中进行疾病类别检测主要是通过医学检查手段实现,例如对于流行性感冒,通过做病毒检测实现,但是如果仅以医学检查手段来界定是否感染某种疾病类别。会漏掉大部分真实的病人,对流感预防预警工作造成重大不利的影响。因此,如何相对准确地估算流感病患人数,使得数据更接近真实值,是摆在相关医疗数据业务人员面前的一个难题。而采用本申请的技术方案,可以收集某家医院,或者某个地区、省市、或者国家的历史医疗记录,来统计历史感染目标疾病类别的目标用户数量,以此构建时间序列数据,以可以预测接下来一段时间内目标用户数量,从而可以帮助医院等医疗机构、医疗卫生管理部分等相关疾控机构、或者政府相关部分等需求方提前进行预警。
因此,本申请实施例还提供了一种数据处理方法,可以包括:
根据目标地点对应的历史医疗记录中不同用户的医疗数据,利用识别模型识别属于目标疾病类别的目标用户;
按照第一时间间隔统计目标地点对应的目标用户数量,构建第一时间序列数据;
利用第一时间序列数据,预测目标地点在预定时间范围内的目标用户预测数量。
该目标地点可以是指某家医院或者某个区域,如某个省市或某个国家所在区域等。
以识别目标区域中感染目标疾病类别的目标用户,并统计目标用户数量为例,如图9中所示,可以以目标区域90中的多家医疗机构对应的历史医疗记录作为待处理数据,由第一计算设备901对其中涉及的不同用户的医疗数据,利用识别模型进行识别,确定其中属于目标疾病类别的目标用户;之后,可以按照第一时间间隔统计目标区域对应的目标用户数量,构建第一时间序列数据,之后,利用该第一时间序列数据可以训练一个预测模型。
将预测模型部署在第二计算设备902中,从而利用该预测模型,结合第一时间序列数据中当前时间步长之前的N个时间步长的目标用户数量,可以预测目标区域在当前时间步长,也即当前时刻之后的某个时间段即将发生的目标用户预测数量。进而根据该目标用户预测数量,可以帮助相关机构进行该目标疾病类别的防控预警等。
其中,识别模型可以由第三计算设备903训练获得,训练数据也可以从多家医疗机构对应的历史医疗记录中获取,将确诊感染目标疾病类别的用户作为样本用户,从而利用样本用户的医疗样本数据进行训练获得。
可选地,第一计算设备901、第二计算设备902以及第三计算设备903可以同一个计算设备,当然也可以为不同计算设备,这些计算设备可以为云计算平台提供的弹性计算主机等,也即云服务器,由疾病识别需求或者病患人数预测需求的相关机构如医院、医疗卫生管理部门、或者政府相关部门等租用使用,当然也可以为物理设备,由疾病识别需求或者病患人数预测需求的相关机构部署。
图10为本申请实施例提供的一种数据处理装置一个实施例的结构示意图,该装置可以包括:
第一获取模块1001,用于获取对象的医疗数据;
第一识别模块1002,用于根据对象的医疗数据,利用识别模型识别对象所属的疾病类别。
在某些实施例中,该第一识别模块可以具体用于从医疗数据中提取至少一个特征类型的特征数据;基于至少一个特征类型的特征数据,利用识别模型识别对象所属的疾病类别。
在某些实施例中,该第一识别模块基于至少一个特征类型的特征数据,利用识别模型识别对象所属的疾病类别可以包括:将至少一个特征类型的特征数据进行融合,获得融合特征;将融合特征输入识别模型,获得对象所属疾病类别。
在某些实施例中,该第一识别模块从医疗数据中提取至少一个特征类型对应的特征数据可以包括:从医疗数据中确定至少一个特征类型分别对应的至少一个文本;针对任一个特征类型,分别提取其对应的至少一个文本中与特征类型相关的关键词,获得至少一个关键词;将至少一个关键词分别转换为特征向量,获得至少一个特征向量;基于至少一个特征向量,确定特征类型对应的特征数据。
在某些实施例中,识别模型可以基于不同疾病类别分别对应的样本对象的医疗样本数据训练获得。
在某些实施例中,识别模型可以基于目标疾病类别对应的正样本对象的医疗正样本数据以及负样本对象的医疗负样本数据训练获得;
该第一识别模块可以具体用于根据对象的医疗数据,利用识别模型识别对象是否属于目标疾病类别。
在某些实施例中,该装置还可以包括:
第一处理模块,用于判断对象所属疾病类别是否为预定疾病类别;基于判断结果,确定是否对对象进行医学检查。
在某些实施例中,第一获取模块可以具体用于获取属于目标地点的对象的医疗数据;
该装置还可以包括:
第二处理模块,用于根据目标地点对应的不同对象的识别结果,统计属于目标疾病类别的目标对象的对象数量。
图10的数据处理装置可以执行图1所示实施例的数据处理方法,其实现原理和技术效果不再赘述。对于上述实施例中的数据处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一个可能的设计中,图10所示实施例的数据处理装置可以实现为计算设备,如图11所示,该计算设备可以包括存储组件1101以及处理组件1102;
存储组件1101存储一条或多条计算机指令,其中,该一条或多条计算机指令供处理组件1102调用执行,以实现图1所示实施例的数据处理方法。
当然,计算设备必然还可以包括其他部件,例如输入/输出接口、通信组件等。
输入/输出接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是输出设备、输入设备等。
通信组件被配置为便于计算设备和其他设备之间有线或无线方式的通信等。
该计算设备可以为物理设备或者云计算平台提供的弹性计算主机等,此时计算设备即可以是指云服务器,上述处理组件、存储组件等可以是从云计算平台租用或购买的基础服务器资源。
本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被计算机执行时可以实现上述图1所示实施例的数据处理方法。
图12为本申请实施例提供的一种数据处理装置又一个实施例的结构示意图,该装置可以包括:
第二识别模块1201,用于根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别属于目标疾病类别的目标对象;
第一构建模块1202,用于按照第一时间间隔统计目标地点对应的目标对象数量,构建第一时间序列数据;
预测模块1203,用于利用第一时间序列数据,预测目标地点在预定时间范围内对应的目标对象预测数量。
在某些实施例中,第一构建模块可以具体用于按照第一时间间隔,将当前时刻之前的第一时间段划分为多个时间步长;统计目标地点在多个时间步长内分别对应的目标对象数量;将多个时间步长对应的目标对象数量,按照时间先后顺序排列形成第一时间序列数据。
在某些实施例中,预测模块可以具体用于利用第一时间序列数据,预测目标地点在当前时间步长内对应的目标对象预测数量。
在某些实施例中,预测模块可以具体用于利用第一时间序列数据,训练预测模型;基于目标地点在当前时间步长之前的前N个时间步长内分别对应的目标对象数量,利用预测模型预测目标地点在当前时间步长内对应的目标对象预测数量;其中,N为大于等于1的整数。
在某些实施例中,预测模块利用第一时间序列数据,训练预测模型可以包括:从第一时间序列中,选择第t个时间步长的目标对象数量及第t个时间步长之前的前M个时间步长对应的目标对象数量形成训练数据集;其中,t=M+1、M+2,……,M为大于等于1的整数;利用训练数据集,训练预测模型。
在某些实施例中,第二识别模块可以具体用于针对目标地点在当前时刻之前每个单位时间内对应的历史医疗记录,获取不同对象的医疗数据;基于不同对象的医疗数据,利用识别模型识别每个单位时间对应的属于目标疾病类别的目标对象,并统计目标地点在每个单位时间内对应的目标对象数量。
在某些实施例中,第一构建模块统计目标地点在多个时间步长内分别对应的目标对象数量可以包括:根据目标地点在每个时间步长中的每个单位时间对应的目标对象数量,统计获得目标地点在每个时间步长内对应的目标对象数量。
在某些实施例中,第二识别模块可以具体用于确定目标地点对应的历史医疗记录中不同对象的医疗数据;针对任一个对象的医疗数据,基于医疗数据利用识别模型识别对象是否属于目标疾病类别。
在某些实施例中,第二识别模块基于医疗数据利用识别模型识别对象是否属于目标疾病类别可以包括:从医疗数据中提取至少一个特征类型对应的特征数据;基于至少一个特征类型的特征数据,利用识别模型识别对象是否属于目标疾病类别。
在某些实施例中,第二识别模块基于至少一个特征类型的特征数据,利用识别模型识别对象是否属于目标疾病类别可以包括:将至少一个特征类型的特征数据进行融合,获得融合特征;将融合特征输入识别模型,识别对象是否属于目标疾病类别。
在某些实施例中,第二识别模块从医疗数据中提取至少一个特征类型对应的特征数据可以包括:从医疗数据中确定至少一个特征类型分别对应的至少一个文本;针对任一个特征类型,分别提取其对应的至少一个文本中与特征类型相关的关键词,获得至少一个关键词;将至少一个关键词分别转换为特征向量,获得至少一个特征向量;基于至少一个特征向量,确定特征类型对应的特征数据。
在某些实施例中,第二识别模块可以具体用于根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别不同对象属于目标疾病类别的概率值;确定概率值大于第一概率阈值的确诊对象,及概率值小于第一概率阈值且大于第二概率阈值的疑似对象;将确诊对象或疑似对象作为目标对象。
在某些实施例中,该装置还可以包括:
预警模块,用于基于目标对象预测数量,生成预警信息。
图12所述的数据处理装置可以执行图4所示实施例所述的数据处理方法,其实现原理和技术效果不再赘述。对于上述实施例中的数据处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一个可能的设计中,图12所示实施例的数据处理装置可以实现为计算设备,如图13所示,该计算设备可以包括存储组件1301以及处理组件1302;
存储组件1301存储一条或多条计算机指令,其中,该一条或多条计算机指令供处理组件1302调用执行,以实现图4所示实施例的数据处理方法。
当然,计算设备必然还可以包括其他部件,例如输入/输出接口、通信组件等。
输入/输出接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是输出设备、输入设备等。
通信组件被配置为便于计算设备和其他设备之间有线或无线方式的通信等。
该计算设备可以为物理设备或者云计算平台提供的弹性计算主机等,此时计算设备即可以是指云服务器,上述处理组件、存储组件等可以是从云计算平台租用或购买的基础服务器资源。
本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被计算机执行时可以实现上述图4所示实施例的数据处理方法。
图14为本申请实施例提供的一种数据处理装置又一个实施例的结构示意图,该装置可以包括:
第三识别模块1401,用于根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别属于目标疾病类别的目标对象;
第二构建模块1402,用于按照第一时间间隔统计目标地点对应的目标对象数量,构建第一时间序列数据;
第一训练模块1403,用于利用第一时间序列数据,训练预测模型;
其中,预测模型用于预测目标地点在预定时间范围内的目标对象预测数量。
图14所述的数据处理装置可以执行图6所示实施例所述的数据处理方法,其实现原理和技术效果不再赘述。对于上述实施例中的数据处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一个可能的设计中,图14所示实施例的数据处理装置可以实现为计算设备,如图15所示,该计算设备可以包括存储组件1501以及处理组件1502;
存储组件1501存储一条或多条计算机指令,其中,该一条或多条计算机指令供处理组件1502调用执行,以实现图6所示实施例的数据处理方法。
当然,计算设备必然还可以包括其他部件,例如输入/输出接口、通信组件等。
输入/输出接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是输出设备、输入设备等。
通信组件被配置为便于计算设备和其他设备之间有线或无线方式的通信等。
该计算设备可以为物理设备或者云计算平台提供的弹性计算主机等,此时计算设备即可以是指云服务器,上述处理组件、存储组件等可以是从云计算平台租用或购买的基础服务器资源。
本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被计算机执行时可以实现上述图6所示实施例的数据处理方法。
图16为本申请实施例提供的一种数据处理装置又一个实施例的结构示意图,该装置可以包括:
第二获取模块1601,用于获取样本对象的医疗样本数据及所属疾病类别;
第二训练模块1602,用于利用医疗样本数据及所属疾病类别,训练识别模型;
其中,识别模型用于基于对象的医疗数据,识别对象所属的疾病类别。
在某些实施例中,该第二训练模块可以具体用于从医疗样本数据中提取至少一个特征类型对应的特征样本数据;基于至少一个特征类型的特征样本数据以及疾病类别,训练识别模型。
在某些实施例中,该第二训练模块基于至少一个特征类型的特征样本数据以及疾病类别,训练识别模型可以包括:将至少一个特征类型的特征样本数据进行融合,获得融合样本特征;利用融合样本特征以及疾病类别,训练分类预测模型。
在某些实施例中,该第二训练模块将至少一个特征类型的特征样本数据进行融合,获得融合样本特征可以包括:将至少一个特征类型进行特征筛选,获得至少一个有效特征类型的特征样本数据;将至少一个有效特征类型的特征样本数据进行融合,获得融合样本特征。
在某些实施例中,该第二训练模块从医疗样本数据中提取至少一个特征类型对应的特征样本数据可以包括:从医疗样本数据中确定至少一个特征类型分别对应的至少一个样本文本;针对任一个特征类型,分别提取其对应的至少一个样本文本中与特征类型相关的样本关键词,获得至少一个样本关键词;将至少一个样本关键词分别转换为样本特征向量,获得至少一个样本特征向量;基于至少一个样本特征向量,确定特征类型对应的特征样本数据。
图16所述的数据处理装置可以执行图7所示实施例所述的数据处理方法,其实现原理和技术效果不再赘述。对于上述实施例中的数据处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一个可能的设计中,图16所示实施例的数据处理装置可以实现为计算设备,如图17所示,该计算设备可以包括存储组件1701以及处理组件1702;
存储组件1701存储一条或多条计算机指令,其中,该一条或多条计算机指令供处理组件1702调用执行,以实现图7所示实施例的数据处理方法。
当然,计算设备必然还可以包括其他部件,例如输入/输出接口、通信组件等。
输入/输出接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是输出设备、输入设备等。
通信组件被配置为便于计算设备和其他设备之间有线或无线方式的通信等。
该计算设备可以为物理设备或者云计算平台提供的弹性计算主机等,此时计算设备即可以是指云服务器,上述处理组件、存储组件等可以是从云计算平台租用或购买的基础服务器资源。
本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被计算机执行时可以实现上述图7所示实施例的数据处理方法。
图18为本申请实施例提供的一种数据处理装置又一个实施例的结构示意图,该装置可以包括:
第三获取模块1801,用于获取目标疾病类别对应的正样本对象的医疗正样本数据,及负样本对象的医疗负样本数据;
第三训练模块1802,用于分别利用医疗正样本数据及医疗负样本数据训练识别模型;
其中,识别模型用于基于对象的医疗数据,识别对象是否属于目标疾病类别。
在某些实施例中,该第三训练模块可以具体用于从医疗正样本数据中提取至少一个特征类型对应的特征正样本数据;从医疗负样本数据中提取至少一个特征类型对应的特征负样本数据;基于至少一个特征类型分别对应的特征正样本数据及特征负样本数据,训练识别模型。
在某些实施例中,该第三训练模块基于至少一个特征类型分别对应的特征正样本数据及特征负样本数据,训练识别模型可以包括:将至少一个特征类型进行特征筛选,确定至少一个有效特征类型;将至少一个有效特征类型对应的特征正样本数据进行融合,获得第一融合特征;将至少一个有效特征类型对应特征负样本数据进行融合,获得第二融合特征;分别利用第一融合特征以及第二融合特征,训练识别模型。
图18所述的数据处理装置可以执行图8所示实施例所述的数据处理方法,其实现原理和技术效果不再赘述。对于上述实施例中的数据处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一个可能的设计中,图18所示实施例的数据处理装置可以实现为计算设备,如图19所示,该计算设备可以包括存储组件1901以及处理组件1902;
存储组件1901存储一条或多条计算机指令,其中,该一条或多条计算机指令供处理组件1902调用执行,以实现图8所示实施例的数据处理方法。
当然,计算设备必然还可以包括其他部件,例如输入/输出接口、通信组件等。
输入/输出接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是输出设备、输入设备等。
通信组件被配置为便于计算设备和其他设备之间有线或无线方式的通信等。
该计算设备可以为物理设备或者云计算平台提供的弹性计算主机等,此时计算设备即可以是指云服务器,上述处理组件、存储组件等可以是从云计算平台租用或购买的基础服务器资源。
本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被计算机执行时可以实现上述图8所示实施例的数据处理方法。
前文实施例中涉及的处理组件可以包括一个或多个处理器来执行计算机指令,以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
存储组件被配置为存储各种类型的数据以支持在相应设备中的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (47)
1.一种数据处理方法,其特征在于,包括:
获取对象的医疗数据;
根据所述对象的医疗数据,利用识别模型识别所述对象所属的疾病类别。
2.根据权利要求1所述的方法,其特征在于,所述根据所述对象的医疗数据,利用识别模型识别所述对象所属的疾病类别包括:
从所述医疗数据中提取至少一个特征类型对应的特征数据;
基于所述至少一个特征类型的特征数据,利用识别模型识别所述对象所属的疾病类别。
3.根据权利要求2所述的方法,其特征在于,所述基于所述至少一个特征类型的特征数据,利用识别模型识别所述对象所属的疾病类别包括:
将所述至少一个特征类型的特征数据进行融合,获得融合特征;
将所述融合特征输入识别模型,获得所述对象所属疾病类别。
4.根据权利要求2所述的方法,其特征在于,从所述医疗数据中提取至少一个特征类型对应的特征数据包括:
从所述医疗数据中确定至少一个特征类型分别对应的至少一个文本;
针对任一个特征类型,分别提取其对应的至少一个文本中与所述特征类型相关的关键词,获得至少一个关键词;
将所述至少一个关键词分别转换为特征向量,获得至少一个特征向量;
基于所述至少一个特征向量,确定所述特征类型对应的特征数据。
5.根据权利要求1所述的方法,其特征在于,所述识别模型基于不同疾病类别分别对应的样本对象的医疗样本数据训练获得。
6.根据权利要求1所述的方法,其特征在于,所述识别模型基于目标疾病类别对应的正样本对象的医疗正样本数据以及负样本对象的医疗负样本数据训练获得;
所述根据所述对象的医疗数据,利用识别模型识别所述对象所属的疾病类别包括:
根据所述对象的医疗数据,利用识别模型识别所述对象是否属于所述目标疾病类别。
7.根据权利要求1所述的方法,其特征在于,所述根据所述对象的医疗数据,利用识别模型识别所述对象所属的疾病类别之后,所述方法还包括:
判断所述对象所属疾病类别是否为预定疾病类别;
基于判断结果,确定是否对所述对象进行医学检查。
8.根据权利要求1所述的方法,其特征在于,所述获取对象的医疗数据包括:
获取属于目标地点的对象的医疗数据;
所述根据所述对象的医疗数据,利用识别模型识别所述对象所属的疾病类别之后,所述方法还包括:
根据所述目标地点对应的不同对象的识别结果,统计属于目标疾病类别的目标对象的对象数量。
9.一种数据处理方法,其特征在于,包括:
根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别属于目标疾病类别的目标对象;
按照第一时间间隔统计所述目标地点对应的目标对象数量,构建第一时间序列数据;
利用所述第一时间序列数据,预测所述目标地点在预定时间范围内对应的目标对象预测数量。
10.根据权利要求9所述的方法,其特征在于,所述按照第一时间间隔,统计所述目标地点对应的目标对象数量,构建第一时间序列数据包括:
按照第一时间间隔,将当前时刻之前的第一时间段划分为多个时间步长;
统计所述目标地点在所述多个时间步长内分别对应的目标对象数量;
将所述多个时间步长对应的目标对象数量,按照时间先后顺序排列形成第一时间序列数据。
11.根据权利要求10所述的方法,其特征在于,所述利用所述第一时间序列数据,预测所述目标地点在预定时间范围内的目标对象预测数量包括:
利用所述第一时间序列数据,预测所述目标地点在当前时间步长内对应的目标对象预测数量。
12.根据权利要求11所述的方法,其特征在于,所述利用所述第一时间序列数据,预测所述目标地点在当前时间步长内的目标对象预测数量包括:
利用所述第一时间序列数据,训练预测模型;
基于所述目标地点在当前时间步长之前的前N个时间步长内分别对应的目标对象数量,利用所述预测模型预测所述目标地点在当前时间步长内对应的目标对象预测数量;其中,N为大于等于1的整数。
13.根据权利要求12所述的方法,其特征在于,所述利用所述第一时间序列数据,训练预测模型包括:
从所述第一时间序列中,选择第t个时间步长的目标对象数量及第t个时间步长之前的前M个时间步长对应的目标对象数量形成训练数据集;其中,t=M+1、M+2,……,M为大于等于1的整数;
利用所述训练数据集,训练预测模型。
14.根据权利要求10所述的方法,其特征在于,所述根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别目标疾病类别的目标对象包括:
针对目标地点在当前时刻之前每个单位时间内对应的历史医疗记录,获取不同对象的医疗数据;
基于不同对象的医疗数据,利用识别模型识别每个单位时间对应的属于目标疾病类别的目标对象,并统计所述目标地点在每个单位时间内对应的目标对象数量。
15.根据权利要求14所述的方法,其特征在于,所述统计所述目标地点在所述多个时间步长内分别对应的目标对象数量包括:
根据所述目标地点在每个时间步长中的每个单位时间对应的目标对象数量,统计获得所述目标地点在每个时间步长内对应的目标对象数量。
16.根据权利要求9所述的方法,其特征在于,所述根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别属于目标疾病类别的目标对象包括:
确定目标地点对应的历史医疗记录中不同对象的医疗数据;
针对任一个对象的医疗数据,基于所述医疗数据利用识别模型识别所述对象是否属于目标疾病类别。
17.根据权利要求16所述的方法,其特征在于,所述基于所述医疗数据利用识别模型识别所述对象是否属于目标疾病类别包括:
从所述医疗数据中提取至少一个特征类型对应的特征数据;
基于所述至少一个特征类型的特征数据,利用识别模型识别所述对象是否属于目标疾病类别。
18.根据权利要求17所述的方法,其特征在于,所述基于所述至少一个特征类型的特征数据,利用识别模型识别所述对象是否属于目标疾病类别包括:
将所述至少一个特征类型的特征数据进行融合,获得融合特征;
将所述融合特征输入识别模型,识别所述对象是否属于目标疾病类别。
19.根据权利要求17所述的方法,其特征在于,所述从所述医疗数据中提取至少一个特征类型对应的特征数据包括:
从所述医疗数据中确定至少一个特征类型分别对应的至少一个文本;
针对任一个特征类型,分别提取其对应的至少一个文本中与所述特征类型相关的关键词,获得至少一个关键词;
将所述至少一个关键词分别转换为特征向量,获得至少一个特征向量;
基于所述至少一个特征向量,确定所述特征类型对应的特征数据。
20.根据权利要求9所述的方法,其特征在于,所述根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别属于目标疾病类别的目标对象包括:
根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别不同对象属于目标疾病类别的概率值;
确定概率值大于第一概率阈值的确诊对象,及概率值小于所述第一概率阈值且大于第二概率阈值的疑似对象;
将所述确诊对象或所述疑似对象作为目标对象。
21.一种数据处理方法,其特征在于,包括:
根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别属于目标疾病类别的目标对象;
按照第一时间间隔统计所述目标地点对应的目标对象数量,构建第一时间序列数据;
利用所述第一时间序列数据,训练预测模型;
其中,所述预测模型用于预测所述目标地点在预定时间范围内的目标对象预测数量。
22.一种数据处理方法,其特征在于,包括:
根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别属于目标疾病类别的目标对象;
按照第一时间间隔统计所述目标地点对应的目标对象数量,构建第一时间序列数据;
利用所述第一时间序列数据,预测所述目标地点在预定时间范围内的目标对象预测数量;
基于所述目标对象预测数量,生成预警信息。
23.一种数据处理方法,其特征在于,包括:
获取样本对象的医疗样本数据及所属疾病类别;
利用所述医疗样本数据及所属疾病类别,训练识别模型;
其中,所述识别模型用于基于对象的医疗数据,识别所述对象所属的疾病类别。
24.根据权利要求23所述的方法,其特征在于,利用所述医疗样本数据及所属疾病类别,训练识别模型包括:
从所述医疗样本数据中提取至少一个特征类型对应的特征样本数据;
基于所述至少一个特征类型的特征样本数据以及所述疾病类别,训练所述识别模型。
25.根据权利要求24所述的方法,其特征在于,所述基于所述至少一个特征类型的特征样本数据以及所述疾病类别,训练所述识别模型包括:
将所述至少一个特征类型的特征样本数据进行融合,获得融合样本特征;
利用所述融合样本特征以及所述疾病类别,训练分类预测模型。
26.根据权利要求25所述的方法,其特征在于,所述将所述至少一个特征类型的特征样本数据进行融合,获得融合样本特征包括:
将所述至少一个特征类型进行特征筛选,获得至少一个有效特征类型的特征样本数据;
将所述至少一个有效特征类型的特征样本数据进行融合,获得融合样本特征。
27.根据权利要求24所述的方法,其特征在于,所述从所述医疗样本数据中提取至少一个特征类型对应的特征样本数据包括:
从所述医疗样本数据中确定至少一个特征类型分别对应的至少一个样本文本;
针对任一个特征类型,分别提取其对应的至少一个样本文本中与所述特征类型相关的样本关键词,获得至少一个样本关键词;
将所述至少一个样本关键词分别转换为样本特征向量,获得至少一个样本特征向量;
基于所述至少一个样本特征向量,确定所述特征类型对应的特征样本数据。
28.一种数据处理方法,其特征在于,包括:
获取目标疾病类别对应的正样本对象的医疗正样本数据,及负样本对象的医疗负样本数据;
分别利用所述医疗正样本数据及所述医疗负样本数据训练识别模型;
其中,所述识别模型用于基于对象的医疗数据,识别所述对象是否属于所述目标疾病类别。
29.根据权利要求28所述的方法,其特征在于,所述分别利用所述医疗正样本数据及所述医疗负样本数据训练识别模型包括:
从所述医疗正样本数据中提取至少一个特征类型对应的特征正样本数据;
从所述医疗负样本数据中提取至少一个特征类型对应的特征负样本数据;
基于所述至少一个特征类型分别对应的特征正样本数据及特征负样本数据,训练识别模型。
30.根据权利要求29所述的方法,其特征在于,所述基于所述至少一个特征类型分别对应的特征正样本数据及特征负样本数据,训练识别模型包括:
将所述至少一个特征类型进行特征筛选,确定至少一个有效特征类型;
将所述至少一个有效特征类型对应的特征正样本数据进行融合,获得第一融合特征;
将所述至少一个有效特征类型对应特征负样本数据进行融合,获得第二融合特征;
分别利用所述第一融合特征以及所述第二融合特征,训练识别模型。
31.一种数据处理方法,其特征在于,包括:
根据目标地点对应的历史医疗记录中不同用户的医疗数据,利用识别模型识别属于目标疾病类别的目标用户;
按照第一时间间隔统计所述目标地点对应的目标用户数量,构建第一时间序列数据;
利用所述第一时间序列数据,预测所述目标地点在预定时间范围内的目标用户预测数量。
32.一种数据处理装置,其特征在于,包括:
第一获取模块,用于获取对象的医疗数据;
第一识别模块,用于根据所述对象的医疗数据,利用识别模型识别所述对象所属的疾病类别。
33.一种数据处理装置,其特征在于,包括:
第二识别模块,用于根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别属于目标疾病类别的目标对象;
第一构建模块,用于按照第一时间间隔统计所述目标地点对应的目标对象数量,构建第一时间序列数据;
预测模块,用于利用所述第一时间序列数据,预测所述目标地点在预定时间范围内对应的目标对象预测数量。
34.根据权利要求33所述的装置,其特征在于,还包括:
预警模块,用于基于所述目标对象预测数量,生成预警信息。
35.一种数据处理装置,其特征在于,包括:
第三识别模块,用于根据目标地点对应的历史医疗记录中不同对象的医疗数据,利用识别模型识别属于目标疾病类别的目标对象;
第二构建模块,用于按照第一时间间隔统计所述目标地点对应的目标对象数量,构建第一时间序列数据;
第一训练模块,用于利用所述第一时间序列数据,训练预测模型;
其中,所述预测模型用于预测所述目标地点在预定时间范围内的目标对象预测数量。
36.一种数据处理装置,其特征在于,包括:
第二获取模块,用于获取样本对象的医疗样本数据及所属疾病类别;
第二训练模块,用于利用所述医疗样本数据及所属疾病类别,训练识别模型;
其中,所述识别模型用于基于对象的医疗数据,识别所述对象所属的疾病类别。
37.一种数据处理装置,其特征在于,包括:
第三获取模块,用于获取目标疾病类别对应的正样本对象的医疗正样本数据,及负样本对象的医疗负样本数据;
第三训练模块,用于分别利用所述医疗正样本数据及所述医疗负样本数据训练识别模型;
其中,所述识别模型用于基于对象的医疗数据,识别所述对象是否属于所述目标疾病类别。
38.一种计算设备,其特征在于,包括处理组件以及存储组件;
所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行,实现如权利要求1~8任一项所述的数据处理方法。
39.一种计算设备,其特征在于,包括处理组件以及存储组件;
所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行,实现如权利要求9~20任一项所述的数据处理方法。
40.一种计算设备,其特征在于,包括处理组件以及存储组件;
所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行,实现如权利要求21所述的数据处理方法。
41.一种计算设备,其特征在于,包括处理组件以及存储组件;
所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行,实现如权利要求23~27任一项所述的数据处理方法。
42.一种计算设备,其特征在于,包括处理组件以及存储组件;
所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行,实现如权利要求28~30任一项所述的数据处理方法。
43.一种计算机存储介质,其特征在于,存储有计算机程序,所述计算机程序被计算机执行时实现如权利要求1~8任一项所述的数据处理方法。
44.一种计算机存储介质,其特征在于,存储有计算机程序,所述计算机程序被计算机执行时实现如权利要求9~20任一项所述的数据处理方法。
45.一种计算机存储介质,其特征在于,存储有计算机程序,所述计算机程序被计算机执行时实现如权利要求21所述的数据处理方法。
46.一种计算机存储介质,其特征在于,存储有计算机程序,所述计算机程序被计算机执行时实现如权利要求23~27任一项所述的数据处理方法。
47.一种计算机存储介质,其特征在于,存储有计算机程序,所述计算机程序被计算机执行时实现如权利要求28~30任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010430586.0A CN113707328A (zh) | 2020-05-20 | 2020-05-20 | 数据处理方法、装置及计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010430586.0A CN113707328A (zh) | 2020-05-20 | 2020-05-20 | 数据处理方法、装置及计算设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113707328A true CN113707328A (zh) | 2021-11-26 |
Family
ID=78645561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010430586.0A Pending CN113707328A (zh) | 2020-05-20 | 2020-05-20 | 数据处理方法、装置及计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113707328A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017051945A1 (ko) * | 2015-09-24 | 2017-03-30 | 주식회사 뷰노코리아 | 질환 모델 기반의 의료 정보 서비스 제공 방법 및 장치 |
CN106682414A (zh) * | 2016-12-23 | 2017-05-17 | 中国科学院深圳先进技术研究院 | 一种建立时序预测模型的方法及装置 |
WO2018086470A1 (zh) * | 2016-11-10 | 2018-05-17 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置和服务器 |
CN108198620A (zh) * | 2018-01-12 | 2018-06-22 | 洛阳飞来石软件开发有限公司 | 一种基于深度学习的皮肤疾病智能辅助诊断系统 |
CN108461152A (zh) * | 2018-01-12 | 2018-08-28 | 平安科技(深圳)有限公司 | 医疗模型训练方法、医疗识别方法、装置、设备及介质 |
CN109545386A (zh) * | 2018-11-02 | 2019-03-29 | 深圳先进技术研究院 | 一种基于深度学习的流感时空预测方法及装置 |
CN110119775A (zh) * | 2019-05-08 | 2019-08-13 | 腾讯科技(深圳)有限公司 | 医疗数据处理方法、装置、系统、设备和存储介质 |
CN110534203A (zh) * | 2019-08-26 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 地区疾病的监控方法及装置、存储介质 |
CN110706823A (zh) * | 2019-11-15 | 2020-01-17 | 广州地理研究所 | 一种基于滞后分析和lstm的呼吸系统疾病发病人数预测方法 |
CN110993118A (zh) * | 2020-02-29 | 2020-04-10 | 同盾控股有限公司 | 基于集成学习模型的疫情预测方法、装置、设备及介质 |
-
2020
- 2020-05-20 CN CN202010430586.0A patent/CN113707328A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017051945A1 (ko) * | 2015-09-24 | 2017-03-30 | 주식회사 뷰노코리아 | 질환 모델 기반의 의료 정보 서비스 제공 방법 및 장치 |
WO2018086470A1 (zh) * | 2016-11-10 | 2018-05-17 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置和服务器 |
CN106682414A (zh) * | 2016-12-23 | 2017-05-17 | 中国科学院深圳先进技术研究院 | 一种建立时序预测模型的方法及装置 |
CN108198620A (zh) * | 2018-01-12 | 2018-06-22 | 洛阳飞来石软件开发有限公司 | 一种基于深度学习的皮肤疾病智能辅助诊断系统 |
CN108461152A (zh) * | 2018-01-12 | 2018-08-28 | 平安科技(深圳)有限公司 | 医疗模型训练方法、医疗识别方法、装置、设备及介质 |
CN109545386A (zh) * | 2018-11-02 | 2019-03-29 | 深圳先进技术研究院 | 一种基于深度学习的流感时空预测方法及装置 |
CN110119775A (zh) * | 2019-05-08 | 2019-08-13 | 腾讯科技(深圳)有限公司 | 医疗数据处理方法、装置、系统、设备和存储介质 |
CN110534203A (zh) * | 2019-08-26 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 地区疾病的监控方法及装置、存储介质 |
CN110706823A (zh) * | 2019-11-15 | 2020-01-17 | 广州地理研究所 | 一种基于滞后分析和lstm的呼吸系统疾病发病人数预测方法 |
CN110993118A (zh) * | 2020-02-29 | 2020-04-10 | 同盾控股有限公司 | 基于集成学习模型的疫情预测方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
陈亿雄 等: ""长短记忆神经网络在流行性感冒爆发预测中的应用"", 《江苏预防医学》, vol. 30, no. 6, pages 622 - 625 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Islam et al. | A systematic review on the use of AI and ML for fighting the COVID-19 pandemic | |
US10929420B2 (en) | Structured report data from a medical text report | |
EP3215968B1 (en) | Optimized anatomical structure of interest labelling | |
CN113241135A (zh) | 一种基于多模态融合的疾病风险预测方法和系统 | |
CN111564223B (zh) | 传染病生存概率的预测方法、预测模型的训练方法及装置 | |
Sunitha et al. | A comparative analysis of deep neural network architectures for the dynamic diagnosis of COVID‐19 based on acoustic cough features | |
CN112541066B (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
JP2018170004A (ja) | 新規患者の挙動を予測するためのシステムおよび方法 | |
US20210174968A1 (en) | Visualization of Social Determinants of Health | |
US20200293528A1 (en) | Systems and methods for automatically generating structured output documents based on structural rules | |
Chen et al. | Intimate partner violence and injury prediction from radiology reports | |
Gupta et al. | Application of Convolutional Neural Networks for COVID-19 Detection in X-ray Images Using InceptionV3 and U-Net | |
CN116543917A (zh) | 一种针对异构时间序列数据的信息挖掘方法 | |
CN113707328A (zh) | 数据处理方法、装置及计算设备 | |
CN111383123A (zh) | 临床医疗开销的统计方法、装置、存储介质及电子设备 | |
Khan et al. | Deep-Learning-Based COVID-19 Detection: Challenges and Future Directions | |
Sisimayi et al. | AI-enabled case detection model for infectious disease outbreaks in resource-limited settings | |
Avati et al. | Predicting inpatient discharge prioritization with electronic health records | |
US8756234B1 (en) | Information theory entropy reduction program | |
Rao et al. | Clinical and financial outcomes analysis with existing hospital patient records | |
Oyelade et al. | Deep Learning Model for Improving the Characterization of Coronavirus on Chest X-ray Images Using CNN | |
Yousefzadeh et al. | Deep learning framework for prediction of infection severity of COVID-19 | |
Stewart et al. | Applications of natural language processing at emergency department triage: A narrative review | |
Dutta et al. | A voting ensemble approach for hepatitis disease detection | |
Jayampathi et al. | Mobile medical assistant and analytical system for Dengue patients |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40062876 Country of ref document: HK |