CN117174288A - 数据处理方法、装置、存储介质及电子设备 - Google Patents
数据处理方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN117174288A CN117174288A CN202311016206.9A CN202311016206A CN117174288A CN 117174288 A CN117174288 A CN 117174288A CN 202311016206 A CN202311016206 A CN 202311016206A CN 117174288 A CN117174288 A CN 117174288A
- Authority
- CN
- China
- Prior art keywords
- target
- diagnosis
- data
- factor
- treatment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 22
- 238000003745 diagnosis Methods 0.000 claims abstract description 220
- 238000011282 treatment Methods 0.000 claims abstract description 149
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000000556 factor analysis Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 100
- 238000010586 diagram Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 8
- 230000001225 therapeutic effect Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 13
- 238000012015 optical character recognition Methods 0.000 description 8
- 206010028980 Neoplasm Diseases 0.000 description 7
- 201000010099 disease Diseases 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 238000007689 inspection Methods 0.000 description 6
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 5
- 201000005202 lung cancer Diseases 0.000 description 5
- 208000020816 lung neoplasm Diseases 0.000 description 5
- 206010035664 Pneumonia Diseases 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 3
- 239000008280 blood Substances 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 210000000265 leukocyte Anatomy 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 102000003712 Complement factor B Human genes 0.000 description 2
- 108090000056 Complement factor B Proteins 0.000 description 2
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 2
- 102000001554 Hemoglobins Human genes 0.000 description 2
- 108010054147 Hemoglobins Proteins 0.000 description 2
- 206010057190 Respiratory tract infections Diseases 0.000 description 2
- 206010046306 Upper respiratory tract infection Diseases 0.000 description 2
- 238000004159 blood analysis Methods 0.000 description 2
- 238000004820 blood count Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 210000003743 erythrocyte Anatomy 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000008103 glucose Substances 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 208000020029 respiratory tract infectious disease Diseases 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 208000037816 tissue injury Diseases 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 208000036142 Viral infection Diseases 0.000 description 1
- 229930003779 Vitamin B12 Natural products 0.000 description 1
- 208000007502 anemia Diseases 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000037396 body weight Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- FDJOLVPMNUYSCM-WZHZPDAFSA-L cobalt(3+);[(2r,3s,4r,5s)-5-(5,6-dimethylbenzimidazol-1-yl)-4-hydroxy-2-(hydroxymethyl)oxolan-3-yl] [(2r)-1-[3-[(1r,2r,3r,4z,7s,9z,12s,13s,14z,17s,18s,19r)-2,13,18-tris(2-amino-2-oxoethyl)-7,12,17-tris(3-amino-3-oxopropyl)-3,5,8,8,13,15,18,19-octamethyl-2 Chemical compound [Co+3].N#[C-].N([C@@H]([C@]1(C)[N-]\C([C@H]([C@@]1(CC(N)=O)C)CCC(N)=O)=C(\C)/C1=N/C([C@H]([C@@]1(CC(N)=O)C)CCC(N)=O)=C\C1=N\C([C@H](C1(C)C)CCC(N)=O)=C/1C)[C@@H]2CC(N)=O)=C\1[C@]2(C)CCC(=O)NC[C@@H](C)OP([O-])(=O)O[C@H]1[C@@H](O)[C@@H](N2C3=CC(C)=C(C)C=C3N=C2)O[C@@H]1CO FDJOLVPMNUYSCM-WZHZPDAFSA-L 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002055 immunohistochemical effect Effects 0.000 description 1
- 230000003907 kidney function Effects 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 230000003908 liver function Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 210000004698 lymphocyte Anatomy 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 210000001616 monocyte Anatomy 0.000 description 1
- 210000000440 neutrophil Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007410 oral glucose tolerance test Methods 0.000 description 1
- 238000010827 pathological analysis Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000002685 pulmonary effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000451 tissue damage Effects 0.000 description 1
- 231100000827 tissue damage Toxicity 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 230000009385 viral infection Effects 0.000 description 1
- 239000011715 vitamin B12 Substances 0.000 description 1
- 235000019163 vitamin B12 Nutrition 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本公开涉及一种数据处理方法、装置、存储介质及电子设备,该方法根据当前病例在历史时间段内的图像数据确定第一目标结构化数据,根据第一目标结构化数据通过因子分析法确定第一目标结构化数据对应的多个目标因子,以及每个目标因子对应的诊疗指标数据;根据所述多个目标因子,以及每个目标因子对应的诊疗指标数据生成诊疗展示信息,能够对病例在历史时间段内的诊疗数据进行归纳整理,生成能够清晰明了地反应病例的历史诊疗状况的诊疗展示信息,从而能够有效提升后续的诊疗效率,也能够为后续诊疗提供可靠地数据依据。
Description
技术领域
本公开涉及数据处理领域,具体地,涉及一种数据处理方法、装置、存储介质及电子设备。
背景技术
随着科学技术的全面发展,医疗信息化不断升级,医院电子病历已经成为现代医疗信息化建设中不可或缺的一部分,它为医疗行业带来了许多优势,例如提高了医生的诊疗效率、减少了纸质病历的使用、方便了医患沟通等等。然而,目前的医院电子病历系统存在一个普遍性的问题,即不同医院之间的电子病历系统无法互联互通,但患者往往存在跨院、跨区域就医的需求,由于各区域、各院间异构系统的特殊性,所以需要患者自身提供完整的历史纸质版病历材料(例如病案首页、检查、检验报告单、出院小结等),这无疑会给诊疗带来不便,不利于诊疗效率的提升。
发明内容
本公开的目的是提供一种数据处理方法、装置、存储介质及电子设备。
为了实现上述目的,本公开第一方面提供一种数据处理方法,所述方法包括:
获取当前病例在历史时间段内产生的诊疗单据的图像数据;
根据所述图像数据确定第一目标结构化数据,所述第一目标结构化数据用于以键值对的形式描述所述当前病例的历史检查项目,检查结果数据,诊断结果数据以及治疗措施数据中的一个或者多个;
根据所述第一目标结构化数据通过因子分析法确定所述第一目标结构化数据对应的多个目标因子,以及每个目标因子对应的诊疗指标数据,其中,每个目标因子对应的所述诊疗指标数据为所述第一目标结构化数据中的部分数据;
根据所述多个目标因子,以及每个目标因子对应的诊疗指标数据生成诊疗展示信息。
可选地,所述根据所述第一目标结构化数据通过因子分析法确定所述目标结构化数据对应的多个目标因子,以及每个目标因子对应的诊断指标数据,包括:
根据所述第一目标结构化数据中的目标诊断结果确定多个待用诊断指标;
获取多个与所述当前病例诊断结果相同的辅助病例中每个辅助病例的待用诊断指标对应的第二目标结构化数据;
根据所述第二目标结构化数据与所述第一目标结构化数据生成不同待用诊断指标之间的系数矩阵,所述系数矩阵用于表征不同待用诊断指标之间的影响关系;
根据所述系数矩阵确定所述多个目标因子,以及每个目标因子对应的诊断指标数据。
可选地,所述根据所述第一目标结构化数据中的目标诊断结果确定多个待用诊断指标,包括:
获取预设对应关系数据,所述预设对应关系数据包括不同诊断结果与多个诊断指标的对应关系;
从所述预设对应关系数据中确定所述目标诊断结果对应的所述多个待用诊断指标。
可选地,所述根据所述系数矩阵确定所述多个目标因子,以及每个目标因子对应的诊断指标数据包括:
确定所述系数矩阵对应的特征值,所述特征值用于表征每个待定因子的解释方差比例;
将所述特征值大于或者等于预设阈值的待定因子作为所述目标因子;
根据所述系数矩阵确定目标载荷矩阵,所述目标载荷矩阵用于表征每个待定因子与不同待用诊断指标之间的相关程度;
根据所述目标载荷矩阵确定每个目标因子对应的诊断指标数据。
可选地,所述根据所述系数矩阵确定所述多个目标因子,以及每个目标因子对应的诊断指标数据包括:
根据所述目标诊断结果确定多个预设待用因子;
根据所述系数矩阵确定目标载荷矩阵,所述目标载荷矩阵包括用于表征每个待定因子与不同待用诊断指标之间的相关程度的载荷值;
根据所述载荷值和所述当前病例的所述多个待用诊断指标对应的目标指标值确定每个预设待用因子的因子匹配度;
将所述多个预设待用因子中所述因子匹配度大于或者等于预设匹配度阈值的预设待用因子作为所述目标因子;
根据所述目标载荷矩阵确定所述目标因子对应的诊断指标数据。
可选地,所述目标载荷矩阵中每一列为一个待用因子对应的每个待用诊断指标的载荷值,所述根据所述目标载荷矩阵确定所述目标因子对应的诊断指标数据,包括:
将所述目标载荷矩阵中目标因子所在列的载荷值大于或者等于预设载荷值阈值的待用诊断指标作为所述目标因子对应的诊断指标数据。
可选地,所述根据所述图像数据确定第一目标结构化数据,包括:
通过OCR(Optical Character Recognition,光学字符识别)识别图像数据确定所述图像数据对应的可编辑文本数据;
将所述可编辑文本数据输入预设BERT(Bidirectional Encoder Representationfrom Transformers,预训练的语言表征模型)模型,以获取所述预设BERT模型输出的所述第一目标结构化数据。
可选地,所述预设BERT模型的训练过程包括:
获取预训练后的待用BERT模型,以及多组诊疗样本数据,所述诊疗样本数据包括检查项目标签,检查结果标签,诊断结果标签以及治疗措施标签;
以所述多组诊疗样本数据为训练数据,对所述待用BERT模型进行迭代训练,以得到所述预设BERT模型。
可选地,所述根据所述多个目标因子,以及每个目标因子对应的诊疗指标数据生成诊疗展示信息,包括:
根据所述目标因子,以及每个目标因子对应的诊疗指标数据生成用于表征所述目标因子与所述目标因子对应的诊疗指标数据之间从属关系的诊疗展示信息,所述诊疗展示信息包括层级列表、树状图、网络图、矩阵图中的一种或多种。
本公开的第二方面提供一种数据处理装置,所述装置包括:
获取模块,被配置为获取当前病例在历史时间段内产生的诊疗单据的图像数据;
第一确定模块,被配置为根据所述图像数据确定第一目标结构化数据,所述第一目标结构化数据用于以键值对的形式描述所述当前病例的历史检查项目,检查结果数据,诊断结果数据以及治疗措施数据中的一个或者多个;
第二确定模块,被配置为根据所述第一目标结构化数据通过因子分析法确定所述第一目标结构化数据对应的多个目标因子,以及每个目标因子对应的诊疗指标数据,其中,每个目标因子对应的所述诊疗指标数据为所述第一目标结构化数据中的部分数据;
生成模块,被配置为根据所述多个目标因子,以及每个目标因子对应的诊疗指标数据生成诊疗展示信息。
可选地,所述第二确定模块,被配置为:
根据所述第一目标结构化数据中的目标诊断结果确定多个待用诊断指标;
获取多个与所述当前病例诊断结果相同的辅助病例中每个辅助病例的待用诊断指标对应的第二目标结构化数据;
根据所述第二目标结构化数据与所述第一目标结构化数据生成不同待用诊断指标之间的系数矩阵,所述系数矩阵用于表征不同待用诊断指标之间的影响关系;
根据所述系数矩阵确定所述多个目标因子,以及每个目标因子对应的诊断指标数据。
可选地,所述第二确定模块,被配置为:
获取预设对应关系数据,所述预设对应关系数据包括不同诊断结果与多个诊断指标的对应关系;
从所述预设对应关系数据中确定所述目标诊断结果对应的所述多个待用诊断指标。
可选地,所述第二确定模块,被配置为:
确定所述系数矩阵对应的特征值,所述特征值用于表征每个待定因子的解释方差比例;
将所述特征值大于或者等于预设阈值的待定因子作为所述目标因子;
根据所述系数矩阵确定目标载荷矩阵,所述目标载荷矩阵用于表征每个待定因子与不同待用诊断指标之间的相关程度;
根据所述目标载荷矩阵确定每个目标因子对应的诊断指标数据。
可选地,所述第二确定模块,被配置为:
根据所述目标诊断结果确定多个预设待用因子;
根据所述系数矩阵确定目标载荷矩阵,所述目标载荷矩阵包括用于表征每个待定因子与不同待用诊断指标之间的相关程度的载荷值;
根据所述载荷值和所述当前病例的所述多个待用诊断指标对应的目标指标值确定每个预设待用因子的因子匹配度;
将所述多个预设待用因子中所述因子匹配度大于或者等于预设匹配度阈值的预设待用因子作为所述目标因子;
根据所述目标载荷矩阵确定所述目标因子对应的诊断指标数据。
可选地,所述目标载荷矩阵中每一列为一个待用因子对应的每个待用诊断指标的载荷值,所述第二确定模块,被配置为:
将所述目标载荷矩阵中目标因子所在列的载荷值大于或者等于预设载荷值阈值的待用诊断指标作为所述目标因子对应的诊断指标数据。
可选地,所述第一确定模块,被配置为:
通过OCR识别图像数据确定所述图像数据对应的可编辑文本数据;
将所述可编辑文本数据输入预设BERT模型,以获取所述预设BERT模型输出的所述第一目标结构化数据。
可选地,所述装置还包括模型训练模块,被配置为:
获取预训练后的待用BERT模型,以及多组诊疗样本数据,所述诊疗样本数据包括检查项目标签,检查结果标签,诊断结果标签以及治疗措施标签;
以所述多组诊疗样本数据为训练数据,对所述待用BERT模型进行迭代训练,以得到所述预设BERT模型。
可选地,所述生成模块,被配置为:
根据所述目标因子,以及每个目标因子对应的诊疗指标数据生成用于表征所述目标因子与所述目标因子对应的诊疗指标数据之间从属关系的诊疗展示信息,所述诊疗展示信息包括层级列表、树状图、网络图、矩阵图中的一种或多种。
本公开的第三方面提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以上第一方面所述方法的步骤。
本公开的第四方面提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现以上第一方面所述方法的步骤。
通过上述技术方案,能够根据当前病例在历史时间段内的图像数据确定第一目标结构化数据,所述第一目标结构化数据用于以键值对的形式描述所述当前病例的历史检查项目,检查结果数据,诊断结果数据以及治疗措施数据中的一个或者多个;根据所述第一目标结构化数据通过因子分析法确定所述第一目标结构化数据对应的多个目标因子,以及每个目标因子对应的诊疗指标数据,其中,每个目标因子对应的所述诊疗指标数据为所述第一目标结构化数据中的部分数据;根据所述多个目标因子,以及每个目标因子对应的诊疗指标数据生成诊疗展示信息,能够对病例在历史时间段内的诊疗数据进行归纳整理,生成能够清晰明了地反应病例的历史诊疗状况的诊疗展示信息,能够有效提升后续的诊疗效率,也能够为疾病的诊断和治疗提供可靠地数据依据。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是本公开一示例性实施例示出的一种数据处理方法的流程图;
图2是根据图1所示实施例示出的一种数据处理方法的流程图;
图3是根据图2所示实施例示出的一种数据处理方法的流程图;
图4是根据图2所示实施例示出的另一种数据处理方法的流程图;
图5是本公开一示例性实施例示出的一种数据处理方法的诊疗展示信息的展示页面示意图;
图6是本公开一示例性实施例示出的一种数据处理装置的框图;
图7是根据本公开图6所示实施例示出的一种数据处理装置的框图;
图8是根据一示例性实施例示出的一种电子设备的框图;
图9是根据一示例性实施例示出的另一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
需要说明的是,本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
图1是本公开一示例性实施例示出的一种数据处理方法的流程图;如图1所示,所述方法可以包括:
步骤101,获取当前病例在历史时间段内产生的诊疗单据的图像数据。
其中,所述诊疗单据可以包括当前病例的历史纸质病历本、检查/检验报告单、知情同意书、出院小结、病程记录等在历史时间段内产生的单据。
步骤102,根据所述图像数据确定第一目标结构化数据。
其中,所述第一目标结构化数据用于以键值对的形式描述所述当前病例的历史检查项目,检查结果数据,诊断结果数据以及治疗措施数据中的一个或者多个。
示例地,该第一目标结构数据包括:患者姓名:AA,检查日期:2023年6月1日,检查项目:白细胞,检查结果:7.82,检查项目:血红蛋白,检查结果:109.00,诊断结果:轻度贫血,治疗措施:口服维生素B12,每日一片。
本步骤中,一种可能的实施方式可以是,通过OCR识别图像数据确定所述图像数据对应的可编辑文本数据;从该可编辑文本数据中识别其中包括的键值对数据,以得到该第一目标结构化数据。
本步骤另一种可能的实施方式可以是,通过OCR识别图像数据确定所述图像数据对应的可编辑文本数据,将所述可编辑文本数据输入预设BERT模型,以获取所述预设BERT模型输出的所述第一目标结构化数据。
示例地,通过OCR识别图像数据确定所述图像数据对应的可编辑文本数据,例如该编辑文本数据为:辅助检查:血液检查显示白细胞计数偏高,肺部X线示肺炎,初步诊断:上呼吸道感染并发肺炎。该预设BERT模型输出的所述第一目标结构化数据可以包括:第一组信息:类别:辅助检查,项目:血液检查,结果信息:白细胞计数偏高;第二组信息:类别:辅助检查,项目:肺部X线,结果信息:肺炎;第三组信息:类别:初步诊断;项目:/;结果信息:上呼吸道感染并发肺炎。
这样,通过预设BERT模型对可编辑文本数据进行属性识别,进而生成以键值对的形式描述所述当前病例的历史检查项目,检查结果数据,诊断结果数据以及治疗措施数据等诊疗数据的第一目标结构化数据,能够为后续的数据处理提供可靠地数据依据。
其中,该预设BERT模型的训练过程可以包括:
S11,获取预训练后的待用BERT模型,以及多组诊疗样本数据,所述诊疗样本数据包括检查项目标签,检查结果标签,诊断结果标签以及治疗措施标签。
其中,每组诊疗样本数据包括一个病例在某医院的纸质版病历本数据、检查、检验报告的OCR转换后的到的数字化数据,以及针对该数字化数据的标注数据,该标注数据可以包括检查项目标签,检查结果标签,诊断结果标签以及治疗措施标签,还可以包括患者基本信息标签,就诊信息标签,体格检查标签以及住院记录标签等。检查项目标签可以包括具体检查项目的名称,该诊断结果标签可以包括临床诊断,诊断时间等,该治疗措施标签可以包括:治疗方案,方案实施时间等。该患者基本信息标签可以包括姓名,性别,年龄,联系方式,住址,身份证,紧急联系人等;就诊信息标签可以包括就诊日期,就诊科室,主治医生,挂号号码,就诊类型等;体格检查标签可以包括:生命体征,实验室检查,影像学检查,病理检查;该住院记录标签可以包括:入院时间,出院时间,手术记录,住院期间治疗记录。
需要说明的是,在预训练过程中,可以选择通用的医疗病历类专业数据文本语料库,对该语料库进行分词处理,(例如可以使用WordPiece算法来进行分词,该算法可以将输入的数据文本按照空格或者标点符号进行分词,将每个词转化为对应的token,根据分词的结果,构建医疗专业词表,每个词对应一个唯一的ID标识),并将分好词的文本转化为BERT模型可以接受的输入格式,以得到预处理好的数据,然后将该预处理好的数据划分为训练集,数据集和测试集,以训练得到该待用BERT模型。
S12,以所述多组诊疗样本数据为训练数据,对所述待用BERT模型进行迭代训练,以得到所述预设BERT模型。
本步骤中,在根据所述多组诊疗样本数据对待用BERT模型训练过程中,可以采用两种不同的训练任务:MLM(Masked Language Model,遮蔽语言模型)和NSP(Nature SignalProcessing,自然信号处理)。其中,MLM任务要求模型在输入文本中随机遮盖掉一些单词,并尝试根据上下文预测这些文本的正确性,以提高模型对语境的理解能力。NSP任务则要求模型根据两个输入文本判断它们是否有逻辑上的联系,以提高模型对上下文的理解能力。需说明的是,在训练过程中,考虑到医学文本的特殊性质,如术语和缩略语的多样性、文本长度的差异等因素,可以采用多轮训练、动态掩盖等策略,以提高模型的泛化能力和鲁棒性。
这样,通过以上S11和S12所示步骤,能够有效得到可以用于对历史时间段内的诊疗单据对应的可编辑文本数据按标准属性划分,生成包含病情描述、诊断结果和用药建议等信息的结构化的诊疗记录数据的模型,能够为后续的数据处理提供可靠地数据依据。
步骤103,根据所述第一目标结构化数据通过因子分析法确定所述第一目标结构化数据对应的多个目标因子,以及每个目标因子对应的诊疗指标数据。
其中,每个目标因子对应的所述诊疗指标数据为所述第一目标结构化数据中的部分数据。
本步骤可以通过图2所示步骤实施,图2是根据图1所示实施例示出的一种数据处理方法的流程图;如图2所示,图1中步骤103可以包括:
步骤1031,根据所述第一目标结构化数据中的目标诊断结果确定多个待用诊断指标。
本步骤中,可以获取预设对应关系数据,所述预设对应关系数据包括不同诊断结果与多个诊断指标的对应关系;从所述预设对应关系数据中确定所述目标诊断结果对应的所述多个待用诊断指标。
示例地,糖尿病(诊断结果)对应的诊断指标可以包括随机血糖,体重变化率,空腹血糖以及口服葡萄糖耐量试验结果。病毒感染(诊断结果)对应的诊断指标可以包括淋巴细胞绝对值,中性粒细胞,以及单核细胞。肺癌(诊断结果)对应的诊断指标可以包括影像学指标(肺癌-CT影响肿瘤大小、形态)、检验指标(肺癌-白细胞计数、肝肾功能)以及病理诊断指标(肺癌-病理分型、免疫组化数据)。
步骤1032,获取多个与所述当前病例诊断结果相同的辅助病例中每个辅助病例的待用诊断指标对应的第二目标结构化数据。
示例地,以当前病例的诊断结果为肺癌,辅助病例为患者1-10为例,该第二目标结构化数据可以如表1所示。
表1
步骤1033,根据所述第二目标结构化数据与所述第一目标结构化数据生成不同待用诊断指标之间的系数矩阵,所述系数矩阵用于表征不同待用诊断指标之间的影响关系。
其中,关系矩阵的计算过程可以是,假设进行因子维系的指标有p个:x1,x2,…,xp,共有n个辅助病例,第i个辅助病例的第j个指标的取值为xij。将各指标值xij转换成标准化指标
其中,即/>为第j个指标的样本均值和样本标准差;通过/> 计算该第二目标结构化数据与所述第一目标结构化数据生成不同待用诊断指标之间的系数矩阵R;式中,rij=1,rij=rji,rij是第i个指标与第j个指标的相关系数。示例地,以表1为例,得到的该系数矩阵可以如表2所示:
表2
步骤1034,根据所述系数矩阵确定所述多个目标因子,以及每个目标因子对应的诊断指标数据。
本步骤中,一种可能的实施方式如图3所示,图3是根据图2所示实施例示出的一种数据处理方法的流程图;图2中步骤1034,可以包括:
S21,确定所述系数矩阵对应的特征值,所述特征值用于表征每个待定因子的解释方差比例。
S22,将所述特征值大于或者等于预设阈值的待定因子作为所述目标因子。
S23,根据所述系数矩阵确定目标载荷矩阵,所述目标载荷矩阵用于表征每个待定因子与不同待用诊断指标之间的相关程度。
其中,目标载荷矩阵是中每一列代表一个因子,每一行代表一个指标。矩阵中的每个元素表示指标与因子之间的载荷值,反映了它们之间的相关程度。载荷值的取值范围通常在-1到+1之间,绝对值越接近1表示指标与因子之间的关系越密切。
示例地,根据以上表2所示数据计算得到的目标载荷矩阵如表3所示。
因子1 | 因子2 | 因子3 | |
CT影像肿瘤大小 | 0.814 | -0.212 | -0.117 |
肿瘤位置 | 0.196 | 0.724 | -0.042 |
组织损伤分级 | 0.756 | -0.197 | -0.198 |
年龄 | 0.046 | 0.069 | 0.996 |
血白细胞计数 | -0.698 | 0.180 | -0.063 |
血红蛋白含量 | -0.660 | 0.273 | 0.079 |
血小板计数 | -0.065 | -0.045 | 0.139 |
表3
S24,根据所述目标载荷矩阵确定每个目标因子对应的诊断指标数据。
其中,所述目标载荷矩阵中每一列为一个待用因子对应的每个待用诊断指标的载荷值,所述根据所述目标载荷矩阵确定所述目标因子对应的诊断指标数据,包括:将所述目标载荷矩阵中目标因子所在列的载荷值大于或者等于预设载荷值阈值的待用诊断指标作为所述目标因子对应的诊断指标数据。
示例地,以表3为例,从该表3中所示的目标载荷矩阵中可以确定,因子1侧重于评估肿瘤大小和组织损伤分级等因素,因子2侧重于评估肿瘤位置和血红细胞含量等因素,因子3主要考虑了年龄这一变量因素;这里需要注意的是,每个因子的载荷由小数表示,并计算为每个原始变量和每个因子之间的相关系数,取值范围从-1到1,载荷越高意味着原始变量和因子之间存在更强的相关性,这表明该因子可以更好地解释原始变量之间的变异程度。另外,还可以通过计算每个目标因子所解释的方差比例确定该目标因子在在描述数据方面是否具有较高的可解释性。例如:若因子1的解释的方差比例为40.41%,因子2的解释的方差比例为22.50%,因子3的解释的方差比例为12.15%,三个因子在总体方差中解释了75.06%的变异,意味着该因子1、因子2和因子3在描述数据方面具有较高的可解释性,可以作为患者评估的一个综合指标,以更好地了解患者的病情。
本步骤另一种可能的实施方式可以如图4所示,图4是根据图2所示实施例示出的另一种数据处理方法的流程图;图2中步骤1034,可以包括:
S31,根据所述目标诊断结果确定多个预设待用因子。
其中,可以预先为多种诊断结果中的每种诊断结果设置多个待用因子,本步骤中,可以通过从预先设置的数据中查找该目标诊断结果对应的预设待用因子。
S32,根据所述系数矩阵确定目标载荷矩阵,所述目标载荷矩阵包括用于表征每个待定因子与不同待用诊断指标之间的相关程度的载荷值。
本步骤中,可以计算该系数矩阵的特征值λ1、λ2…λp,以及该系数矩阵的特征向量u1,u2,…,up,其中,λ1≥λ2≥…≥λp≥0,该目标载荷矩阵目标载荷矩阵中的每个元素表示指标与因子之间的载荷值,反映了指标与因子之间的相关程度,载荷值的取值范围通常在-1到+1之间,绝对值越接近1表示指标与因子之间的关系越密切。
S33,根据所述载荷值和所述当前病例的所述多个待用诊断指标对应的目标指标值确定每个预设待用因子的因子匹配度。
本步骤中,可以根据目标载荷矩阵,计算各个公因子的贡献率,并根据贡献率由高至低的顺序选择m个主因子,对提取的因子载荷矩阵进行旋转,得到新矩阵B=A’T(其中A’为A的前m列,T为正交矩阵),构造因子模型:
其中,为第j个指标的样本均值,Fj为第j个指标的因子得分,可以采用回归分析方法确定第j个因子得分函数/>m,需要说明的是,即bj1bj2…bjp已知,将当前病例的所述多个待用诊断指标对应的目标指标值x1,x2,…,xp的取值代入因子得分函数,即可得到每个预设待用因子的因子匹配度。
S34,将所述多个预设待用因子中所述因子匹配度大于或者等于预设匹配度阈值的预设待用因子作为所述目标因子。
示例地,若m个主因子中有3个预设待用因子的因子匹配度大于或者等于预设匹配度阈值,则可以将这3个预设待用因子作为所述目标因子。
S35,根据所述目标载荷矩阵确定所述目标因子对应的诊断指标数据。
示例地,仍以表3所示的目标载荷矩阵为例,可以将载荷值大于预设的阈值的指标,作为该目标因子对应的诊断指标数据,例如因子1对应的诊断指标数据可以包括肿瘤大小和组织损伤分级,因子2对应的诊断指标数据可以包括评估肿瘤位置和血红细胞含量等因素,因子3对应的诊断指标数据可以包括年龄这一变量因素。
以上技术方案,通过S31至S35所示步骤或者S21至S24所示步骤,能够有效确定当前病例对应诊断结果对应的所述多个目标因子,以及每个目标因子对应的诊断指标数据,能够为后续信息展示提供可靠地数据依据。
步骤104,根据所述多个目标因子,以及每个目标因子对应的诊疗指标数据生成诊疗展示信息。
本步骤中,可以根据所述目标因子,以及每个目标因子对应的诊疗指标数据生成用于表征所述目标因子与所述目标因子对应的诊疗指标数据之间从属关系的诊疗展示信息,所述诊疗展示信息包括层级列表、树状图、网络图、矩阵图中的一种或多种。
其中,该目标因子可以作为层级列表、树状图和网状图的根节点,该目标因子对应的诊疗指标数据可以作为根节点下的子节点。多个目标因子可以分别作为预设显示窗口中的不同菜单显示,每个根节点下的子节点可以作为菜单下的详细数据进行展示;在进行每个目标因子对应的诊疗指标数据的展示时,可以利用条形图、饼图、雷达图等来展示患者不同目标因子下诊疗指标数据的分布情况。也可以根据患者的特定情况和需要,加入其他的数据视图,例如疾病诊断信息、医疗服务历史等。
示例地,如图5所示,图5是本公开一示例性实施例示出的一种数据处理方法的诊疗展示信息的展示页面示意图,该诊疗展示信息包括了病例在历史时间段内的检查结果、历史就诊、治疗过程、用药清单等一级菜单(一级根节点),每个一级菜单下可以有二级菜单,例如可以通过二级菜单展示不同的目标因子,每个二级菜单下可以展示详细的诊疗指标数据。例如,某尿毒症患者对应的目标因子为因子A、因子B以及因子C,因子A对应的诊疗指标数据包括指标A-1,指标A-2,指标A-3,指标A-4;因子B对应的诊疗指标数据包括指标B-1,指标B-2,指标B-3,指标B-4,因子C对应的诊疗指标数据包括指标C-1,指标C-2,指标C-3;其中,一个目标因子下不同时间下的不同的诊疗指标数据可以用矩阵图表示,例如诊疗指标数据为纵向字段,时间为横向标签,生成表格,每个表格中的数值为一个时间下某个诊疗指标的数据,从而生成一个目标因子下不同时间下的不同的诊疗指标数据的矩阵图。
这样,通过诊疗展示信息能够直观,多维地呈现病例的诊疗数据,能够有效提升诊疗数据的可视化程度,从而有利于诊疗效率的提升。
以上技术方案,能够对病例在历史时间段内的诊疗数据进行归纳整理,生成能够清晰明了地反应病例的历史诊疗状况的诊疗展示信息,能够有效提升后续的诊疗效率,也能够为疾病的诊断和治疗提供可靠地数据依据。
图6是本公开一示例性实施例示出的一种数据处理装置的框图;如图6所示,所述装置可以包括:
获取模块601,被配置为获取当前病例在历史时间段内产生的诊疗单据的图像数据;
第一确定模块602,被配置为根据所述图像数据确定第一目标结构化数据,所述第一目标结构化数据用于以键值对的形式描述所述当前病例的历史检查项目,检查结果数据,诊断结果数据以及治疗措施数据中的一个或者多个;
第二确定模块603,被配置为根据所述第一目标结构化数据通过因子分析法确定所述第一目标结构化数据对应的多个目标因子,以及每个目标因子对应的诊疗指标数据,其中,每个目标因子对应的所述诊疗指标数据为所述第一目标结构化数据中的部分数据;
生成模块604,被配置为根据所述多个目标因子,以及每个目标因子对应的诊疗指标数据生成诊疗展示信息。
以上技术方案,能够根据当前病例在历史时间段内的图像数据确定第一目标结构化数据,所述第一目标结构化数据用于以键值对的形式描述所述当前病例的历史检查项目,检查结果数据,诊断结果数据以及治疗措施数据中的一个或者多个;根据所述第一目标结构化数据通过因子分析法确定所述第一目标结构化数据对应的多个目标因子,以及每个目标因子对应的诊疗指标数据,其中,每个目标因子对应的所述诊疗指标数据为所述第一目标结构化数据中的部分数据;根据所述多个目标因子,以及每个目标因子对应的诊疗指标数据生成诊疗展示信息,能够对病例在历史时间段内的诊疗数据进行归纳整理,生成能够清晰明了地反应病例的历史诊疗状况的诊疗展示信息,能够有效提升后续的诊疗效率,也能够为疾病的诊断和治疗提供可靠地数据依据。
可选地,所述第二确定模块603,被配置为:
根据所述第一目标结构化数据中的目标诊断结果确定多个待用诊断指标;
获取多个与所述当前病例诊断结果相同的辅助病例中每个辅助病例的待用诊断指标对应的第二目标结构化数据;
根据所述第二目标结构化数据与所述第一目标结构化数据生成不同待用诊断指标之间的系数矩阵,所述系数矩阵用于表征不同待用诊断指标之间的影响关系;
根据所述系数矩阵确定所述多个目标因子,以及每个目标因子对应的诊断指标数据。
可选地,所述第二确定模块603,被配置为:
获取预设对应关系数据,所述预设对应关系数据包括不同诊断结果与多个诊断指标的对应关系;
从所述预设对应关系数据中确定所述目标诊断结果对应的所述多个待用诊断指标。
可选地,所述第二确定模块603,被配置为:
确定所述系数矩阵对应的特征值,所述特征值用于表征每个待定因子的解释方差比例;
将所述特征值大于或者等于预设阈值的待定因子作为所述目标因子;
根据所述系数矩阵确定目标载荷矩阵,所述目标载荷矩阵用于表征每个待定因子与不同待用诊断指标之间的相关程度;
根据所述目标载荷矩阵确定每个目标因子对应的诊断指标数据。
可选地,所述第二确定模块603,被配置为:
根据所述目标诊断结果确定多个预设待用因子;
根据所述系数矩阵确定目标载荷矩阵,所述目标载荷矩阵包括用于表征每个待定因子与不同待用诊断指标之间的相关程度的载荷值;
根据所述载荷值和所述当前病例的所述多个待用诊断指标对应的目标指标值确定每个预设待用因子的因子匹配度;
将所述多个预设待用因子中所述因子匹配度大于或者等于预设匹配度阈值的预设待用因子作为所述目标因子;
根据所述目标载荷矩阵确定所述目标因子对应的诊断指标数据。
可选地,所述目标载荷矩阵中每一列为一个待用因子对应的每个待用诊断指标的载荷值,所述第二确定模块603,被配置为:
将所述目标载荷矩阵中目标因子所在列的载荷值大于或者等于预设载荷值阈值的待用诊断指标作为所述目标因子对应的诊断指标数据。
可选地,所述第一确定模块602,被配置为:
通过OCR识别图像数据确定所述图像数据对应的可编辑文本数据;
将所述可编辑文本数据输入预设BERT模型,以获取所述预设BERT模型输出的所述第一目标结构化数据。
以上技术方案,通过预设BERT模型对可编辑文本数据进行属性识别,进而生成以键值对的形式描述所述当前病例的历史检查项目,检查结果数据,诊断结果数据以及治疗措施数据等诊疗数据的第一目标结构化数据,能够为后续的数据处理提供可靠地数据依据。
图7是根据本公开图6所示实施例示出的一种数据处理装置的框图;如图7所示,所述装置还包括模型训练模块605,被配置为:
获取预训练后的待用BERT模型,以及多组诊疗样本数据,所述诊疗样本数据包括检查项目标签,检查结果标签,诊断结果标签以及治疗措施标签;
以所述多组诊疗样本数据为训练数据,对所述待用BERT模型进行迭代训练,以得到所述预设BERT模型。
以上技术方案,能够有效得到可以用于对历史时间段内的诊疗单据对应的可编辑文本数据按标准属性划分,生成包含病情描述、诊断结果和用药建议等信息的结构化的诊疗记录数据的模型,能够为后续的数据处理提供可靠地数据依据。
可选地,所述生成模块604,被配置为:
根据所述目标因子,以及每个目标因子对应的诊疗指标数据生成用于表征所述目标因子与所述目标因子对应的诊疗指标数据之间从属关系的诊疗展示信息,所述诊疗展示信息包括层级列表、树状图、网络图、矩阵图中的一种或多种。
以上技术方案,通过诊疗展示信息能够直观,多维地呈现病例的诊疗数据,能够有效提升诊疗数据的可视化程度,从而有利于诊疗效率的提升。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8是根据一示例性实施例示出的一种电子设备的框图。如图8所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的数据处理方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的数据处理方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的数据处理方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的数据处理方法。
图9是根据一示例性实施例示出的另一种电子设备的框图。例如,电子设备900可以被提供为一服务器。参照图9,电子设备900包括处理器922,其数量可以为一个或多个,以及存储器932,用于存储可由处理器922执行的计算机程序。存储器932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器922可以被配置为执行该计算机程序,以执行上述的数据处理方法。
另外,电子设备900还可以包括电源组件926和通信组件950,该电源组件926可以被配置为执行电子设备900的电源管理,该通信组件950可以被配置为实现电子设备900的通信,例如,有线或无线通信。此外,该电子设备900还可以包括输入/输出(I/O)接口958。电子设备900可以操作基于存储在存储器932的操作系统。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的数据处理方法的步骤。例如,该非临时性计算机可读存储介质可以为上述包括程序指令的存储器932,上述程序指令可由电子设备900的处理器922执行以完成上述的数据处理方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的数据处理方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (12)
1.一种数据处理方法,其特征在于,所述方法包括:
获取当前病例在历史时间段内产生的诊疗单据的图像数据;
根据所述图像数据确定第一目标结构化数据,所述第一目标结构化数据用于以键值对的形式描述所述当前病例的历史检查项目,检查结果数据,诊断结果数据以及治疗措施数据中的一个或者多个;
根据所述第一目标结构化数据通过因子分析法确定所述第一目标结构化数据对应的多个目标因子,以及每个目标因子对应的诊疗指标数据,其中,每个目标因子对应的所述诊疗指标数据为所述第一目标结构化数据中的部分数据;
根据所述多个目标因子,以及每个目标因子对应的诊疗指标数据生成诊疗展示信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一目标结构化数据通过因子分析法确定所述目标结构化数据对应的多个目标因子,以及每个目标因子对应的诊断指标数据,包括:
根据所述第一目标结构化数据中的目标诊断结果确定多个待用诊断指标;
获取多个与所述当前病例诊断结果相同的辅助病例中每个辅助病例的待用诊断指标对应的第二目标结构化数据;
根据所述第二目标结构化数据与所述第一目标结构化数据生成不同待用诊断指标之间的系数矩阵,所述系数矩阵用于表征不同待用诊断指标之间的影响关系;
根据所述系数矩阵确定所述多个目标因子,以及每个目标因子对应的诊断指标数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一目标结构化数据中的目标诊断结果确定多个待用诊断指标,包括:
获取预设对应关系数据,所述预设对应关系数据包括不同诊断结果与多个诊断指标的对应关系;
从所述预设对应关系数据中确定所述目标诊断结果对应的所述多个待用诊断指标。
4.根据权利要求2所述的方法,其特征在于,所述根据所述系数矩阵确定所述多个目标因子,以及每个目标因子对应的诊断指标数据包括:
确定所述系数矩阵对应的特征值,所述特征值用于表征每个待定因子的解释方差比例;
将所述特征值大于或者等于预设阈值的待定因子作为所述目标因子;
根据所述系数矩阵确定目标载荷矩阵,所述目标载荷矩阵用于表征每个待定因子与不同待用诊断指标之间的相关程度;
根据所述目标载荷矩阵确定每个目标因子对应的诊断指标数据。
5.根据权利要求2所述的方法,其特征在于,所述根据所述系数矩阵确定所述多个目标因子,以及每个目标因子对应的诊断指标数据包括:
根据所述目标诊断结果确定多个预设待用因子;
根据所述系数矩阵确定目标载荷矩阵,所述目标载荷矩阵包括用于表征每个待定因子与不同待用诊断指标之间的相关程度的载荷值;
根据所述载荷值和所述当前病例的所述多个待用诊断指标对应的目标指标值确定每个预设待用因子的因子匹配度;
将所述多个预设待用因子中所述因子匹配度大于或者等于预设匹配度阈值的预设待用因子作为所述目标因子;
根据所述目标载荷矩阵确定所述目标因子对应的诊断指标数据。
6.根据权利要求4或5所述的方法,其特征在于,所述目标载荷矩阵中每一列为一个待用因子对应的每个待用诊断指标的载荷值,所述根据所述目标载荷矩阵确定所述目标因子对应的诊断指标数据,包括:
将所述目标载荷矩阵中目标因子所在列的载荷值大于或者等于预设载荷值阈值的待用诊断指标作为所述目标因子对应的诊断指标数据。
7.根据权利要求1所述的方法,其特征在于,所述根据所述图像数据确定第一目标结构化数据,包括:
通过OCR识别图像数据确定所述图像数据对应的可编辑文本数据;
将所述可编辑文本数据输入预设BERT模型,以获取所述预设BERT模型输出的所述第一目标结构化数据。
8.根据权利要求7所述的方法,其特征在于,所述预设BERT模型的训练过程包括:
获取预训练后的待用BERT模型,以及多组诊疗样本数据,所述诊疗样本数据包括检查项目标签,检查结果标签,诊断结果标签以及治疗措施标签;
以所述多组诊疗样本数据为训练数据,对所述待用BERT模型进行迭代训练,以得到所述预设BERT模型。
9.根据权利要求1所述的方法,其特征在于,根据所述多个目标因子,以及每个目标因子对应的诊疗指标数据生成诊疗展示信息,包括:
根据所述目标因子,以及每个目标因子对应的诊疗指标数据生成用于表征所述目标因子与所述目标因子对应的诊疗指标数据之间从属关系的诊疗展示信息,所述诊疗展示信息包括层级列表、树状图、网络图、矩阵图中的一种或多种。
10.一种数据处理装置,其特征在于,所述装置包括:
获取模块,被配置为获取当前病例在历史时间段内产生的诊疗单据的图像数据;
第一确定模块,被配置为根据所述图像数据确定第一目标结构化数据,所述第一目标结构化数据用于以键值对的形式描述所述当前病例的历史检查项目,检查结果数据,诊断结果数据以及治疗措施数据中的一个或者多个;
第二确定模块,被配置为根据所述第一目标结构化数据通过因子分析法确定所述第一目标结构化数据对应的多个目标因子,以及每个目标因子对应的诊疗指标数据,其中,每个目标因子对应的所述诊疗指标数据为所述第一目标结构化数据中的部分数据;
生成模块,被配置为根据所述多个目标因子,以及每个目标因子对应的诊疗指标数据生成诊疗展示信息。
11.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-9中任一项所述方法的步骤。
12.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-9中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311016206.9A CN117174288A (zh) | 2023-08-10 | 2023-08-10 | 数据处理方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311016206.9A CN117174288A (zh) | 2023-08-10 | 2023-08-10 | 数据处理方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117174288A true CN117174288A (zh) | 2023-12-05 |
Family
ID=88934662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311016206.9A Pending CN117174288A (zh) | 2023-08-10 | 2023-08-10 | 数据处理方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117174288A (zh) |
-
2023
- 2023-08-10 CN CN202311016206.9A patent/CN117174288A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pezoulas et al. | Medical data quality assessment: On the development of an automated framework for medical data curation | |
CN113871003B (zh) | 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统 | |
JP5952835B2 (ja) | 撮像プロトコルの更新及び/又はリコメンダ | |
Fernandes et al. | Predicting Intensive Care Unit admission among patients presenting to the emergency department using machine learning and natural language processing | |
CN107408156A (zh) | 用于从临床文档进行语义搜索和提取相关概念的系统和方法 | |
CN113257377B (zh) | 确定目标用户的方法、装置、电子设备及存储介质 | |
CN112541066B (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
WO2021032055A1 (zh) | 临床试验报告自动录入方法及装置、电子设备、存储介质 | |
US11449680B2 (en) | Method for testing medical data | |
CN111177356B (zh) | 一种酸碱指标医疗大数据分析方法及系统 | |
JP2021536636A (ja) | 医療記録を分類する方法 | |
Schultze et al. | Identifying care home residents in electronic health records-an OpenSAFELY short data report | |
CN112530550A (zh) | 影像报告生成方法、装置、计算机设备和存储介质 | |
CN111061835B (zh) | 查询方法及装置、电子设备和计算机可读存储介质 | |
Mandal | Machine learning algorithms for the creation of clinical healthcare enterprise systems | |
Liu et al. | Knowledge-aware deep dual networks for text-based mortality prediction | |
Stewart et al. | Applications of natural language processing at emergency department triage: A narrative review | |
Wagenpfeil et al. | Explainable multimedia feature fusion for medical applications | |
JP7473314B2 (ja) | 医療情報管理装置及び医療レポートのメタデータ付加方法 | |
McParland et al. | Multimorbidity, disease count, mortality and emergency care use in persons attending the emergency department: a cross-sectional data-linkage study | |
Falis et al. | Can GPT-3.5 Generate and Code Discharge Summaries? | |
Hussein et al. | Smart collaboration framework for managing chronic disease using recommender system | |
CN117174288A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
Hemied et al. | A COVID‐19 Visual Diagnosis Model Based on Deep Learning and GradCAM | |
Tatsumi et al. | Death certificate surveillance: a component of death investigation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |