CN114220541A - 疾病预测方法、装置、电子设备及存储介质 - Google Patents
疾病预测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114220541A CN114220541A CN202111530303.0A CN202111530303A CN114220541A CN 114220541 A CN114220541 A CN 114220541A CN 202111530303 A CN202111530303 A CN 202111530303A CN 114220541 A CN114220541 A CN 114220541A
- Authority
- CN
- China
- Prior art keywords
- medical data
- target medical
- target
- disease
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Epidemiology (AREA)
- Computational Linguistics (AREA)
- Primary Health Care (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及数字医疗技术领域,提供一种疾病预测方法、装置、电子设备及存储介质,在对医疗病历进行实时采集的基础上,先从医疗病历中提取出目标医疗数据,然后识别目标医疗数据中的可信关键词及不可信关键词,从而采用不同的实体识别模型识别关键词的实体,提高了关键词的实体识别准确度,有助于提高对目标医疗数据的分类准确度,在得到关键词的实体之后,基于矩阵秩约束及实体对目标医疗数据进行分类,得到多类目标医疗数据,从而针对每类目标医疗数据进行疾病类别预测,得到疾病类别预测结果,提高了疾病类别预测的准确度。
Description
技术领域
本发明涉及数字医疗技术领域,具体涉及一种疾病预测方法、装置、电子设备及存储介质。
背景技术
当前民营医疗机构,如门诊部以及诊所,居住环境人数比较聚集,人口流量大;很多患者病症大多时间都比较相似,而大多数患者初期基本都是去民营门诊做简单的病症描述和询问门诊人员后,随便拿个药就完事了;如有流行性病症出现,可能会导致局部的人员出现聚集性感染,无法最大化发挥各医疗机构作用常态化疫情防控工作。
传统诊所服务平台尚未融合疫情防控:传统诊所服务平台一般用于诊所日常业务开展,实现挂号开单收费一体化的流程,并未融合病历上报防控政策进行产品升级打造,导致无法智能化的进行流行性疾病预测。
发明内容
鉴于以上内容,有必要提出一种疾病预测方法、装置、电子设备及存储介质,提高了疾病预测的准确度。
本发明的第一方面提供一种疾病预测方法,所述方法包括:
接收医疗机构上报的医疗病历,并从所述医疗病历中提取出目标医疗数据;
识别所述目标医疗数据中的可信关键词及不可信关键词,采用预设第一实体识别模型识别所述可信关键词的实体,并采用预设第二实体识别模型识别所述不可信关键词的实体;
基于矩阵秩约束及所述实体对所述目标医疗数据进行分类,得到多类目标医疗数据;
对每类所述目标医疗数据进行疾病类别预测,得到疾病类别预测结果。
根据本发明的一个可选的实施方式,所述识别所述目标医疗数据中的可信关键词及不可信关键词包括:
对所述目标医疗数据进行分词处理,得到多个关键词;
对所述多个关键词进行遍历,每次遍历从所述多个关键词中获取一个关键词作为目标关键词;
获取所述目标关键词中的第一个字符及最后一个字符;
获取所述目标医疗数据中位于所述第一个字符之前的第一邻居字符,及获取所述目标医疗数据中位于所述最后一个字符之后的第二邻居字符;
判断所述第一个字符与所述第一邻居字符是否能够组成词,及判断所述最后一个字符与所述第二邻居字符是否能够组成词;
当所述第一个字符与所述第一邻居字符不能够组成词,且所述最后一个字符与所述第二邻居字符不能够组成词,则确定所述目标关键词为可信关键词;
当所述第一个字符与所述第一邻居字符能够组成词,及/或所述最后一个字符与所述第二邻居字符能够组成词,则确定所述目标关键词为不可信关键词。
根据本发明的一个可选的实施方式,所述基于矩阵秩约束及所述实体对所述目标医疗数据进行分类,得到多类目标医疗数据包括:
将所述目标医疗数据对应的多个实体拼接为实体向量;
对所述实体向量进行对齐处理,得到对齐实体向量;
从所述目标医疗数据中选取多个目标医疗数据对;
获取每个所述目标医疗数据对的共享近邻目标医疗数据,根据所述共享近邻目标医疗数据对应的对齐实体向量生成相似矩阵;
根据所述相似矩阵计算拉普拉斯矩阵;
基于拉普拉斯矩阵秩约束理论寻找所述拉普拉斯矩阵的无向图连通分支结构;
根据所述无向图连通分支结构输出多类目标医疗数据。
根据本发明的一个可选的实施方式,所述获取每个所述目标医疗数据对的共享近邻目标医疗数据,根据所述共享近邻目标医疗数据对应的对齐实体向量生成相似矩阵包括:
获取每个所述目标医疗数据对中的第一目标医疗数据和第二目标医疗数据;
寻找所述第一目标医疗数据的K近邻目标医疗数据及所述第二目标医疗数据的K近邻目标医疗数据;
获取两个所述K近邻目标医疗数据中的共享近邻目标医疗数据;
根据所述第一目标医疗数据的对齐实体向量、所述第二目标医疗数据的对齐实体向量及所述共享近邻目标医疗数据对应的对齐实体向量计算对应的所述目标医疗数据对的相似度;
根据多个所述目标医疗数据对的相似度生成相似矩阵。
根据本发明的一个可选的实施方式,所述根据所述第一目标医疗数据的对齐实体向量、所述第二目标医疗数据的对齐实体向量及所述共享近邻目标医疗数据对应的对齐实体向量计算对应的所述目标医疗数据对的相似度包括:
根据所述共享近邻目标医疗数据对应的对齐实体向量计算得到平均对齐实体向量;
根据所述第一目标医疗数据的对齐实体向量及所述平均对齐实体向量计算得到第一距离;
根据所述第二目标医疗数据的对齐实体向量及所述平均对齐实体向量计算得到第二距离;
根据所述第一目标医疗数据的对齐实体向量及所述第二目标医疗数据的对齐实体向量计算得到第三距离;
基于所述第一距离、所述第二距离及所述第三距离,采用预设相似度计算模型计算得到所述相似度。
根据本发明的一个可选的实施方式,所述对每类所述目标医疗数据进行疾病类别预测包括:
将每类目标医疗数据输入预设的疾病概率预测模型中的第一疾病预测架构中,得到第一预测疾病;
将所述第一预测疾病输入所述疾病概率预测模型中的选择连接层中,获取所述选择连接层选中指定的第二疾病预测架构;
将所述第一预测疾病和指定医疗数据输入所述指定的第二疾病预测架构中,得到第二预测疾病;
将所述指定医疗数据、所述第一预测疾病和所述第二预测疾病映射为疾病分类向量;
根据预设的标准分类向量及所述疾病分类向量确定每类目标医疗数据的疾病类别。
根据本发明的一个可选的实施方式,所述从所述医疗病历中提取出目标医疗数据包括:
从所述医疗病历中获取多个初始医疗数据,所述初始医疗数据包括病患描述信息和医疗描述信息;
对所述多个初始医疗数据进行采样,得到与所述初始医疗数据具有相同数据分布的多个医疗样本;
在所述多个医疗样本中确定医疗描述值,使得包括所述医疗描述值的初始医疗数据的数量与所述多个医疗样本的数量的比值大于第一预设阈值;
在所述多个医疗样本中获取与所述医疗描述值对应的病患描述值,使得包括所述病患描述值的初始医疗数据的数量与所述多个医疗样本的数量的比值大于第二预设阈值;
在所述多个初始医疗数据中查找包括所述医疗描述值但不包括所述病患描述值的初始医疗数据;
将查找到的初始医疗数据作为所述目标医疗数据。
本发明的第二方面提供一种疾病预测装置,所述装置包括:
接收模块,用于接收医疗机构上报的医疗病历,并从所述医疗病历中提取出目标医疗数据;
识别模块,用于识别所述目标医疗数据中的可信关键词及不可信关键词,采用预设第一实体识别模型识别所述可信关键词的实体,并采用预设第二实体识别模型识别所述不可信关键词的实体;
分类模块,用于基于矩阵秩约束及所述实体对所述目标医疗数据进行分类,得到多类目标医疗数据;
预测模块,用于对每类所述目标医疗数据进行疾病类别预测,得到疾病类别预测结果。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述疾病预测方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述疾病预测方法。
综上所述,本发明所述的疾病预测方法、装置、电子设备及存储介质,在对医疗病历进行实时采集的基础上,先从医疗病历中提取出目标医疗数据,然后识别目标医疗数据中的可信关键词及不可信关键词,从而采用不同的实体识别模型识别关键词的实体,提高了关键词的实体识别准确度,有助于提高对目标医疗数据的分类准确度,在得到关键词的实体之后,基于矩阵秩约束及实体对目标医疗数据进行分类,得到多类目标医疗数据,从而针对每类目标医疗数据进行疾病类别预测,得到疾病类别预测结果,提高了疾病类别预测的准确度。
附图说明
图1是本发明实施例一提供的疾病预测方法的流程图。
图2是本发明实施例二提供的疾病预测装置的结构图。
图3是本发明实施例三提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述在一个可选的实施方式中实施例的目的,不是旨在于限制本发明。
本发明实施例提供的疾病预测方法由电子设备执行,相应地,疾病预测装置运行于电子设备中。
实施例一
图1是本发明实施例一提供的疾病预测方法的流程图。所述疾病预测方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,接收医疗机构上报的医疗病历,并从所述医疗病历中提取出目标医疗数据。
病患去医疗机构就诊,医疗机构的医生通过医疗终端书写病患的病历,医疗终端将病历实时上报给监管机构。病历是指包括有病患描述信息和医疗描述信息的医疗文本。病患描述信息是指对病患自身信息的相关描述,具体可包括病患标识、性别和年龄等,其中,病患标识可以为病患标识社保号、病患标识姓名或身份证号等信息。医疗描述信息是指对病患标识的就诊以及就诊过程中使用的医疗物品和方法等的相关信息,具体可包括主诊断信息、药品信息、诊疗项目信息和医疗服务设施信息。
监管机构为医疗机构的上级部门,监管机构可以对接多个医疗机构。监管机构对应的监管终端接收每个医疗机构对应的医疗终端上报的医疗病历,将这些医疗病历存储于本地数据库中。监管终端可以每隔预设时间段,例如,每周,每月,从本地数据库中获取医疗病历,并从获取的医疗病历中提取出目标医疗数据,从而基于提取出的目标医疗数据进行流行病预测与监控。
在一个可选的实施方式中,所述从所述医疗病历中提取出目标医疗数据包括:
从所述医疗病历中获取多个初始医疗数据,所述初始医疗数据包括病患描述信息和医疗描述信息;
对所述多个初始医疗数据进行采样,得到与所述初始医疗数据具有相同数据分布的多个医疗样本;
在所述多个医疗样本中确定医疗描述值,使得包括所述医疗描述值的初始医疗数据的数量与所述多个医疗样本的数量的比值大于第一预设阈值;
在所述多个医疗样本中获取与所述医疗描述值对应的病患描述值,使得包括所述病患描述值的初始医疗数据的数量与所述多个医疗样本的数量的比值大于第二预设阈值;
在所述多个初始医疗数据中查找包括所述医疗描述值但不包括所述病患描述值的初始医疗数据;
将查找到的初始医疗数据作为所述目标医疗数据。
监管终端可以基于OCR识别技术从每个医疗病历中识别出医疗数据,作为初始医疗数据。一个医疗病历对应一个初始医疗数据,每个初始医疗数据对应一个病患的一次就诊结算信息,每个初始医疗数据包括病患描述信息和医疗描述信息。
通过对多个初始医疗数据进行采样,得到多个医疗样本,使得后续基于医疗样本提取目标医疗数据,而非从海量的初始医疗数据中提取目标医疗数据,提高了目标医疗数据的提取效率。确定出的医疗描述值和确定出的病患描述值具有强关联关系,相应的,不满足该强关联关系的初始医疗数据,即为风险医疗数据,因此,在多个初始医疗数据中,查找包括医疗描述值但是不包括病患描述值的初始医疗数据即为目标医疗数据。
上述实施方式,能够在海量的初始医疗数据中识别出高风险的目标医疗数据,针对多个初始医疗数据本身先确定强关联的病患描述值和医疗描述值,再利用确定出的强关联关系来判断初始医疗数据中的高风险医疗数据,作为目标医疗数据进行流行病的预测,准确性高。
S12,识别所述目标医疗数据中的可信关键词及不可信关键词,采用预设第一实体识别模型识别所述可信关键词的实体,并采用预设第二实体识别模型识别所述不可信关键词的实体。
目标医疗数据中的医疗描述信息可以包括,但不限于,病历主要症状描述、患者购买的药品等。而病历主要症状描述、患者购买的药品属于非结构化文本数据,计算机无法理解这种非结构化数据,必须借助实体识别技术从文本数据中提取必要的信息,形成结构化的数据。
在对目标医疗数据进行实体识别之前,先识别目标医疗数据中的关键词哪些属于可选关键词,哪些属于不可信关键词,从而采取不同的实体识别模型进行识别,以此提高关键词的实体识别准确度。
在流行病预测及监控场景中,需要识别的实体可以包括疾病、症状、患者年龄等等,处方识别对应的实体为药品。这里可采用基于字典、基于模型等多种方法进行实体识别任务。
在一个可选的实施方式中,所述识别所述目标医疗数据中的可信关键词及不可信关键词包括:
对所述目标医疗数据进行分词处理,得到多个关键词;
对所述多个关键词进行遍历,每次遍历从所述多个关键词中获取一个关键词作为目标关键词;
获取所述目标关键词中的第一个字符及最后一个字符;
获取所述目标医疗数据中位于所述第一个字符之前的第一邻居字符,及获取所述目标医疗数据中位于所述最后一个字符之后的第二邻居字符;
判断所述第一个字符与所述第一邻居字符是否能够组成词,及判断所述最后一个字符与所述第二邻居字符是否能够组成词;
当所述第一个字符与所述第一邻居字符不能够组成词,且所述最后一个字符与所述第二邻居字符不能够组成词,则确定所述目标关键词为可信关键词;
当所述第一个字符与所述第一邻居字符能够组成词,及/或所述最后一个字符与所述第二邻居字符能够组成词,则确定所述目标关键词为不可信关键词。
监管终端可以使用结巴分词工具对每个目标医疗数据进行分词处理,得到多个关键词。对每个目标医疗数据的多个关键词进行顺次遍历,即先获取第一个关键词作为目标关键词,接着获取第二个关键词作为目标关键词,再获取第三个关键词作为目标关键词,以此类推,直至获取最后一个关键词作为目标关键词。
示例性的,假设某个目标医疗数据为M1M2M3M4M5M6M7,Mi为字符,i属于[1,7]。M3M4M5为获取的目标关键词,则目标关键词中的第一个字符为M3,最后一个字符为M5,该目标医疗数据中位于第一个字符之前的第一邻居字符为M2,位于最后一个字符M5之后的第二邻居字符为M6。
当第一个字符M3与第一邻居字符M2不能够组成词,且最后一个字符M5与第二邻居字符M6也不能够组成词,表明字符M2M3M4M5M6不能组成一个关键词,因此目标关键词M3M4M5为可信关键词。
当第一个字符M3与第一邻居字符M2能够组成词,但最后一个字符M5与第二邻居字符M6不能够组成词,表明字符M2M3M4M5能组成一个关键词,因此目标关键词M3M4M5为不可信关键词。
当第一个字符M3与第一邻居字符M2不能够组成词,但最后一个字符M5与第二邻居字符M6能够组成词,表明字符M3M4M5M6能组成一个关键词,因此目标关键词M3M4M5为不可信关键词。
当第一个字符M3与第一邻居字符M2能够组成词,且最后一个字符M5与第二邻居字符M6能够组成词,表明字符M2M3M4M5M6能组成一个关键词,因此目标关键词M3M4M5为不可信关键词。
可信关键词与不可信关键词是相对而言的,由于结巴分词工具对数据进行分词处理,得到的关键词都是常规词,就是一个独立的最小单位,因此,为了避免分词处理得到的关键词不准确,则通过该可选的实施方式,能够将关键词分为常规的可信关键词和不常规的不可信关键词,便于后续对关键词进行实体识别时,提高实体识别的准确度。
在一个可选的实施方式中,可以基于字典数据集构建字典树,作为预设第一实体识别模型,然后采用字典最长匹配算法对所述字典树及所述多个关键词进行实体匹配,得到可信关键词的实体。
在一个可选的实施方式中,可以基于深度神经网络训练实体识别模型,作为预设第二实体识别模型,然后使用预设第二实体识别模型识别不可信关键词的实体。实体识别模型的训练过程不再详细阐述。
S13,基于矩阵秩约束及所述实体对所述目标医疗数据进行分类,得到多类目标医疗数据。
分类是将从目标医疗数据中识别的多个实体进行分类,从而实现对目标医疗数据的分类。
监控终端可以将每个目标医疗数据的多个实体映射到高维空间,从而将每个目标医疗数据的多个实体作为高维空间中的一个坐标点,然后基于坐标计算任意两个目标医疗数据的距离,再根据距离确定任意两个目标医疗数据的相似性。距离越小,对应的两个目标医疗数据的相似度越高。距离越大,对应的两个目标医疗数据的相似度越低。
通过空间映射及距离计算来判断目标医疗数据的相似度,进而实现对目标医疗数据的分类,然而此种方法并未考虑目标医疗数据在高维空间中的系数稠密情况,因而基于相似度构造的相似矩阵并不准确,为了提高对所述目标医疗数据的分类准确度,可以基于矩阵秩约束理论来进行分类。
在一个可选的实施方式中,所述基于矩阵秩约束及所述实体对所述目标医疗数据进行分类,得到多类目标医疗数据包括:
将所述目标医疗数据对应的多个实体拼接为实体向量;
对所述实体向量进行对齐处理,得到对齐实体向量;
从所述目标医疗数据中选取多个目标医疗数据对;
获取每个所述目标医疗数据对的共享近邻目标医疗数据,根据所述共享近邻目标医疗数据对应的对齐实体向量生成相似矩阵;
根据所述相似矩阵计算拉普拉斯矩阵;
基于拉普拉斯矩阵秩约束理论寻找所述拉普拉斯矩阵的无向图连通分支结构;
根据所述无向图连通分支结构输出多类目标医疗数据。
每个目标医疗数据对应多个实体,将多个实体作为目标医疗数据的实体向量的元素。然而不同的目标医疗数据对应的多个实体的数量有所差异,为了便于后续计算任意两个目标医疗数据之间的相似度,则需要对目标医疗数据的实体向量进行对齐处理。对齐处理是指将所有目标医疗数据的实体向量的元素的数量进行统一,元素的数量不够的,可以实用预设元素值,例如,0进行填充。
通过计算两个对齐实体向量之间的相似度来得到这两个对齐实体向量对应的两个目标医疗数据之间的相似度,从而根据任意两个目标医疗数据之间的相似度生成相似度矩阵,生成的相似度矩阵为对称矩阵。
为了减低计算量,提高分类效率,在生成相似矩阵之后,还根据相似矩阵计算拉普拉斯矩阵,从而基于拉普拉斯矩阵进行分类并输出多个类。具体实施时,计算相似矩阵的特征值及每个特征值对应的特征向量,将特征值进行排序,并获取排序在前L个最小的特征值,将排序在前L个最小的特征值对应的特征向量构成的矩阵,作为拉普拉斯矩阵。
拉普拉斯矩阵秩约束理论:相似矩阵的连通分支数等于其对应的拉普拉斯矩阵L的特征值为0的个数。如果满足rank(L)=n-c这个条件(n是目标医疗数据的个数),即L的前c个最小特征值之和等于0,那么就可以直接通过拉普拉斯矩阵得到最终的c个类。
可以使用Matlab工具箱中的graphconncomp函数寻找拉普拉斯矩阵的无向图连通分支结构。
该可选的实施方式,通过从所述目标医疗数据中选取多个目标医疗数据对,并获取每个所述目标医疗数据对的共享近邻目标医疗数据,根据所述共享近邻目标医疗数据对应的对齐实体向量生成相似矩阵,能够提高相似矩阵构造的准确性;通过相似矩阵计算拉普拉斯矩阵,基于拉普拉斯矩阵秩约束理论寻找所述拉普拉斯矩阵的无向图连通分支结构,减少了在寻找无向图连通分支结构所花费的计算时间,简化了求解难度,降低时间复杂度。
在一个可选的实施方式中,所述获取每个所述目标医疗数据对的共享近邻目标医疗数据,根据所述共享近邻目标医疗数据对应的对齐实体向量生成相似矩阵包括:
获取每个所述目标医疗数据对中的第一目标医疗数据和第二目标医疗数据;
寻找所述第一目标医疗数据的K近邻目标医疗数据及所述第二目标医疗数据的K近邻目标医疗数据;
获取两个所述K近邻目标医疗数据中的共享近邻目标医疗数据;
根据所述第一目标医疗数据的对齐实体向量、所述第二目标医疗数据的对齐实体向量及所述共享近邻目标医疗数据对应的对齐实体向量计算对应的所述目标医疗数据对的相似度;
根据多个所述目标医疗数据对的相似度生成相似矩阵。
假设目标医疗数据的数量为N,那么从目标医疗数据中获取目标医疗数据对的数量为N*(N-1)/2。
每个目标医疗数据捕捉其周围的几个目标医疗数据的信息,假设目标医疗数据A和目标医疗数据B均有8个最近邻的目标医疗数据,其中,有4个是目标医疗数据A和目标医疗数据B共享的,则这4个目标医疗数据称之为目标医疗数据A和目标医疗数据B的共享近邻目标医疗数据。
在一个可选的实施方式中,所述根据所述第一目标医疗数据的对齐实体向量、所述第二目标医疗数据的对齐实体向量及所述共享近邻目标医疗数据对应的对齐实体向量计算对应的所述目标医疗数据对的相似度包括:
根据所述共享近邻目标医疗数据对应的对齐实体向量计算得到平均对齐实体向量;
根据所述第一目标医疗数据的对齐实体向量及所述平均对齐实体向量计算得到第一距离;
根据所述第二目标医疗数据的对齐实体向量及所述平均对齐实体向量计算得到第二距离;
根据所述第一目标医疗数据的对齐实体向量及所述第二目标医疗数据的对齐实体向量计算得到第三距离;
基于所述第一距离、所述第二距离及所述第三距离,采用预设相似度计算模型计算得到所述相似度。
其中,预设相似度计算模型可以如下:S=exp(-S3*(S1S2(S31/2)+1))1/2,S1为第一距离,S2为第二距离,S3为第三距离。
K一般不超过20。
通过计算第一距离和第二距离能够捕捉到两个目标医疗数据所在的领域内目标医疗数据分布的稀疏稠密情况,更好的应对了两个目标医疗数据位于不同密度簇的情况,从而更容易得到正确的分类结果。
如果两个目标医疗数据距离较近时,计算得到的第三距离较小,那么这两个目标医疗数据的相似度就大。如果两个目标医疗数据位于同一簇中,但这两个目标医疗数据中的其中一个和第三个目标医疗数据位于不同簇中,共享近邻目标医疗数据的数量越多,则对应的相似度就越大,使得位于同一簇上的两个目标医疗数据具有更高的相似度。
S14,对每类所述目标医疗数据进行疾病类别预测,得到疾病类别预测结果。
在对目标医疗数据进行类别划分后,即可根据类别确定目标医疗数据的分布。
在一个可选的实施方式中,所述对每类所述目标医疗数据进行疾病类别预测包括:
将每类目标医疗数据输入预设的疾病概率预测模型中的第一疾病预测架构中,得到第一预测疾病;
将所述第一预测疾病输入所述疾病概率预测模型中的选择连接层中,获取所述选择连接层选中指定的第二疾病预测架构;
将所述第一预测疾病和指定医疗数据输入所述指定的第二疾病预测架构中,得到第二预测疾病;
将所述指定医疗数据、所述第一预测疾病和所述第二预测疾病映射为疾病分类向量;
根据预设的标准分类向量及所述疾病分类向量确定每类目标医疗数据的疾病类别。
其中,预设的疾病概率预测模型由第一疾病预测架构、选择连接层和多个第二疾病预测架构顺序连接而成。所述第一疾病预测架构可以为长短期记忆架构,所述指定的第二疾病预测架构基于神经网络模型训练而成。
其中,所述标准分类向量标注有所述第一预测疾病和所述第二预测疾病,所述标准分类向量被标注为指定类别。
其中,指定医疗数据是指与目标医疗数据对应的类别下的历史目标医疗数据。
计算所述标准分类向量与所述疾病分类向量的距离值,距离值越大,表明标准分类向量与疾病分类向量越不相似,距离值越小,表明标准分类向量与疾病分类向量越相似。将距离最小的标注分类向量对应的指定类别确定为目标医疗数据的疾病类别。
在一个可选的实施方式中,监管终端在得到每类目标医疗数据及对应的疾病类别预测结果之后,还可以将所有类的目标医疗数据及对应的疾病类别预测结果上报至流行病疾控中心,也可以将最高的疾病类别预测结果及其对应的目标医疗数据上报至流行病疾控中心。流行病疾控中心的工作人员对上报的目标医疗数据及对应的疾病类别预测结果进行分析,如果级别类别预测结果属于流行性疾病,则可以向监管终端发送告警指令,从而使得监控终端向各个医疗机构发送告警指令,进而使得各个医疗机构对发生流行性疾病的病患进行监管,比如,集中收治。
本发明所述的疾病预测方法,在对医疗病历进行实时采集的基础上,先从医疗病历中提取出目标医疗数据,然后识别目标医疗数据中的可信关键词及不可信关键词,从而采用不同的实体识别模型识别关键词的实体,提高了关键词的实体识别准确度,有助于提高对目标医疗数据的分类准确度,在得到关键词的实体之后,基于矩阵秩约束及实体对目标医疗数据进行分类,得到多类目标医疗数据,从而针对每类目标医疗数据进行疾病类别预测,得到疾病类别预测结果,提高了疾病类别预测的准确度。对流行病的爆发趋势实时预测,有助于疾控中心第一时间掌握可能存在的流行病爆发危险,提前做好相应的预防措施,间接提高了流行病监控的效果和可靠程度。
实施例二
图2是本发明实施例二提供的疾病预测装置的结构图。
在一些实施例中,所述疾病预测装置20可以包括多个由计算机程序段所组成的功能模块。所述疾病预测装置20中的各个程序段的计算机程序可以存储于电子设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)疾病预测的功能。
本实施例中,所述疾病预测装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:接收模块201、识别模块202、分类模块203及预测模块204。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述接收模块201,用于接收医疗机构上报的医疗病历,并从所述医疗病历中提取出目标医疗数据。
病患去医疗机构就诊,医疗机构的医生通过医疗终端书写病患的病历,医疗终端将病历实时上报给监管机构。病历是指包括有病患描述信息和医疗描述信息的医疗文本。病患描述信息是指对病患自身信息的相关描述,具体可包括病患标识、性别和年龄等,其中,病患标识可以为病患标识社保号、病患标识姓名或身份证号等信息。医疗描述信息是指对病患标识的就诊以及就诊过程中使用的医疗物品和方法等的相关信息,具体可包括主诊断信息、药品信息、诊疗项目信息和医疗服务设施信息。
监管机构为医疗机构的上级部门,监管机构可以对接多个医疗机构。监管机构对应的监管终端接收每个医疗机构对应的医疗终端上报的医疗病历,将这些医疗病历存储于本地数据库中。监管终端可以每隔预设时间段,例如,每周,每月,从本地数据库中获取医疗病历,并从获取的医疗病历中提取出目标医疗数据,从而基于提取出的目标医疗数据进行流行病预测与监控。
在一个可选的实施方式中,所述接收模块201从所述医疗病历中提取出目标医疗数据包括:
从所述医疗病历中获取多个初始医疗数据,所述初始医疗数据包括病患描述信息和医疗描述信息;
对所述多个初始医疗数据进行采样,得到与所述初始医疗数据具有相同数据分布的多个医疗样本;
在所述多个医疗样本中确定医疗描述值,使得包括所述医疗描述值的初始医疗数据的数量与所述多个医疗样本的数量的比值大于第一预设阈值;
在所述多个医疗样本中获取与所述医疗描述值对应的病患描述值,使得包括所述病患描述值的初始医疗数据的数量与所述多个医疗样本的数量的比值大于第二预设阈值;
在所述多个初始医疗数据中查找包括所述医疗描述值但不包括所述病患描述值的初始医疗数据;
将查找到的初始医疗数据作为所述目标医疗数据。
监管终端可以基于OCR识别技术从每个医疗病历中识别出医疗数据,作为初始医疗数据。一个医疗病历对应一个初始医疗数据,每个初始医疗数据对应一个病患的一次就诊结算信息,每个初始医疗数据包括病患描述信息和医疗描述信息。
通过对多个初始医疗数据进行采样,得到多个医疗样本,使得后续基于医疗样本提取目标医疗数据,而非从海量的初始医疗数据中提取目标医疗数据,提高了目标医疗数据的提取效率。确定出的医疗描述值和确定出的病患描述值具有强关联关系,相应的,不满足该强关联关系的初始医疗数据,即为风险医疗数据,因此,在多个初始医疗数据中,查找包括医疗描述值但是不包括病患描述值的初始医疗数据即为目标医疗数据。
上述实施方式,能够在海量的初始医疗数据中识别出高风险的目标医疗数据,针对多个初始医疗数据本身先确定强关联的病患描述值和医疗描述值,再利用确定出的强关联关系来判断初始医疗数据中的高风险医疗数据,作为目标医疗数据进行流行病的预测,准确性高。
所述识别模块202,用于识别所述目标医疗数据中的可信关键词及不可信关键词,采用预设第一实体识别模型识别所述可信关键词的实体,并采用预设第二实体识别模型识别所述不可信关键词的实体。
目标医疗数据中的医疗描述信息可以包括,但不限于,病历主要症状描述、患者购买的药品等。而病历主要症状描述、患者购买的药品属于非结构化文本数据,计算机无法理解这种非结构化数据,必须借助实体识别技术从文本数据中提取必要的信息,形成结构化的数据。
在对目标医疗数据进行实体识别之前,先识别目标医疗数据中的关键词哪些属于可选关键词,哪些属于不可信关键词,从而采取不同的实体识别模型进行识别,以此提高关键词的实体识别准确度。
在流行病预测及监控场景中,需要识别的实体可以包括疾病、症状、患者年龄等等,处方识别对应的实体为药品。这里可采用基于字典、基于模型等多种方法进行实体识别任务。
在一个可选的实施方式中,所述识别模块202识别所述目标医疗数据中的可信关键词及不可信关键词包括:
对所述目标医疗数据进行分词处理,得到多个关键词;
对所述多个关键词进行遍历,每次遍历从所述多个关键词中获取一个关键词作为目标关键词;
获取所述目标关键词中的第一个字符及最后一个字符;
获取所述目标医疗数据中位于所述第一个字符之前的第一邻居字符,及获取所述目标医疗数据中位于所述最后一个字符之后的第二邻居字符;
判断所述第一个字符与所述第一邻居字符是否能够组成词,及判断所述最后一个字符与所述第二邻居字符是否能够组成词;
当所述第一个字符与所述第一邻居字符不能够组成词,且所述最后一个字符与所述第二邻居字符不能够组成词,则确定所述目标关键词为可信关键词;
当所述第一个字符与所述第一邻居字符能够组成词,及/或所述最后一个字符与所述第二邻居字符能够组成词,则确定所述目标关键词为不可信关键词。
监管终端可以使用结巴分词工具对每个目标医疗数据进行分词处理,得到多个关键词。对每个目标医疗数据的多个关键词进行顺次遍历,即先获取第一个关键词作为目标关键词,接着获取第二个关键词作为目标关键词,再获取第三个关键词作为目标关键词,以此类推,直至获取最后一个关键词作为目标关键词。
示例性的,假设某个目标医疗数据为M1M2M3M4M5M6M7,Mi为字符,i属于[1,7]。M3M4M5为获取的目标关键词,则目标关键词中的第一个字符为M3,最后一个字符为M5,该目标医疗数据中位于第一个字符之前的第一邻居字符为M2,位于最后一个字符M5之后的第二邻居字符为M6。
当第一个字符M3与第一邻居字符M2不能够组成词,且最后一个字符M5与第二邻居字符M6也不能够组成词,表明字符M2M3M4M5M6不能组成一个关键词,因此目标关键词M3M4M5为可信关键词。
当第一个字符M3与第一邻居字符M2能够组成词,但最后一个字符M5与第二邻居字符M6不能够组成词,表明字符M2M3M4M5能组成一个关键词,因此目标关键词M3M4M5为不可信关键词。
当第一个字符M3与第一邻居字符M2不能够组成词,但最后一个字符M5与第二邻居字符M6能够组成词,表明字符M3M4M5M6能组成一个关键词,因此目标关键词M3M4M5为不可信关键词。
当第一个字符M3与第一邻居字符M2能够组成词,且最后一个字符M5与第二邻居字符M6能够组成词,表明字符M2M3M4M5M6能组成一个关键词,因此目标关键词M3M4M5为不可信关键词。
可信关键词与不可信关键词是相对而言的,由于结巴分词工具对数据进行分词处理,得到的关键词都是常规词,就是一个独立的最小单位,因此,为了避免分词处理得到的关键词不准确,则通过该可选的实施方式,能够将关键词分为常规的可信关键词和不常规的不可信关键词,便于后续对关键词进行实体识别时,提高实体识别的准确度。
在一个可选的实施方式中,可以基于字典数据集构建字典树,作为预设第一实体识别模型,然后采用字典最长匹配算法对所述字典树及所述多个关键词进行实体匹配,得到可信关键词的实体。
在一个可选的实施方式中,可以基于深度神经网络训练实体识别模型,作为预设第二实体识别模型,然后使用预设第二实体识别模型识别不可信关键词的实体。实体识别模型的训练过程不再详细阐述。
所述分类模块203,用于基于矩阵秩约束及所述实体对所述目标医疗数据进行分类,得到多类目标医疗数据。
分类是将从目标医疗数据中识别的多个实体进行分类,从而实现对目标医疗数据的分类。
监控终端可以将每个目标医疗数据的多个实体映射到高维空间,从而将每个目标医疗数据的多个实体作为高维空间中的一个坐标点,然后基于坐标计算任意两个目标医疗数据的距离,再根据距离确定任意两个目标医疗数据的相似性。距离越小,对应的两个目标医疗数据的相似度越高。距离越大,对应的两个目标医疗数据的相似度越低。
通过空间映射及距离计算来判断目标医疗数据的相似度,进而实现对目标医疗数据的分类,然而此种方法并未考虑目标医疗数据在高维空间中的系数稠密情况,因而基于相似度构造的相似矩阵并不准确,为了提高对所述目标医疗数据的分类准确度,可以基于矩阵秩约束理论来进行分类。
在一个可选的实施方式中,所述分类模块203基于矩阵秩约束及所述实体对所述目标医疗数据进行分类,得到多类目标医疗数据包括:
将所述目标医疗数据对应的多个实体拼接为实体向量;
对所述实体向量进行对齐处理,得到对齐实体向量;
从所述目标医疗数据中选取多个目标医疗数据对;
获取每个所述目标医疗数据对的共享近邻目标医疗数据,根据所述共享近邻目标医疗数据对应的对齐实体向量生成相似矩阵;
根据所述相似矩阵计算拉普拉斯矩阵;
基于拉普拉斯矩阵秩约束理论寻找所述拉普拉斯矩阵的无向图连通分支结构;
根据所述无向图连通分支结构输出多类目标医疗数据。
每个目标医疗数据对应多个实体,将多个实体作为目标医疗数据的实体向量的元素。然而不同的目标医疗数据对应的多个实体的数量有所差异,为了便于后续计算任意两个目标医疗数据之间的相似度,则需要对目标医疗数据的实体向量进行对齐处理。对齐处理是指将所有目标医疗数据的实体向量的元素的数量进行统一,元素的数量不够的,可以实用预设元素值,例如,0进行填充。
通过计算两个对齐实体向量之间的相似度来得到这两个对齐实体向量对应的两个目标医疗数据之间的相似度,从而根据任意两个目标医疗数据之间的相似度生成相似度矩阵,生成的相似度矩阵为对称矩阵。
为了减低计算量,提高分类效率,在生成相似矩阵之后,还根据相似矩阵计算拉普拉斯矩阵,从而基于拉普拉斯矩阵进行分类并输出多个类。具体实施时,计算相似矩阵的特征值及每个特征值对应的特征向量,将特征值进行排序,并获取排序在前L个最小的特征值,将排序在前L个最小的特征值对应的特征向量构成的矩阵,作为拉普拉斯矩阵。
拉普拉斯矩阵秩约束理论:相似矩阵的连通分支数等于其对应的拉普拉斯矩阵L的特征值为0的个数。如果满足rank(L)=n-c这个条件(n是目标医疗数据的个数),即L的前c个最小特征值之和等于0,那么就可以直接通过拉普拉斯矩阵得到最终的c个类。
可以使用Matlab工具箱中的graphconncomp函数寻找拉普拉斯矩阵的无向图连通分支结构。
该可选的实施方式,通过从所述目标医疗数据中选取多个目标医疗数据对,并获取每个所述目标医疗数据对的共享近邻目标医疗数据,根据所述共享近邻目标医疗数据对应的对齐实体向量生成相似矩阵,能够提高相似矩阵构造的准确性;通过相似矩阵计算拉普拉斯矩阵,基于拉普拉斯矩阵秩约束理论寻找所述拉普拉斯矩阵的无向图连通分支结构,减少了在寻找无向图连通分支结构所花费的计算时间,简化了求解难度,降低时间复杂度。
在一个可选的实施方式中,所述获取每个所述目标医疗数据对的共享近邻目标医疗数据,根据所述共享近邻目标医疗数据对应的对齐实体向量生成相似矩阵包括:
获取每个所述目标医疗数据对中的第一目标医疗数据和第二目标医疗数据;
寻找所述第一目标医疗数据的K近邻目标医疗数据及所述第二目标医疗数据的K近邻目标医疗数据;
获取两个所述K近邻目标医疗数据中的共享近邻目标医疗数据;
根据所述第一目标医疗数据的对齐实体向量、所述第二目标医疗数据的对齐实体向量及所述共享近邻目标医疗数据对应的对齐实体向量计算对应的所述目标医疗数据对的相似度;
根据多个所述目标医疗数据对的相似度生成相似矩阵。
假设目标医疗数据的数量为N,那么从目标医疗数据中获取目标医疗数据对的数量为N*(N-1)/2。
每个目标医疗数据捕捉其周围的几个目标医疗数据的信息,假设目标医疗数据A和目标医疗数据B均有8个最近邻的目标医疗数据,其中,有4个是目标医疗数据A和目标医疗数据B共享的,则这4个目标医疗数据称之为目标医疗数据A和目标医疗数据B的共享近邻目标医疗数据。
在一个可选的实施方式中,所述根据所述第一目标医疗数据的对齐实体向量、所述第二目标医疗数据的对齐实体向量及所述共享近邻目标医疗数据对应的对齐实体向量计算对应的所述目标医疗数据对的相似度包括:
根据所述共享近邻目标医疗数据对应的对齐实体向量计算得到平均对齐实体向量;
根据所述第一目标医疗数据的对齐实体向量及所述平均对齐实体向量计算得到第一距离;
根据所述第二目标医疗数据的对齐实体向量及所述平均对齐实体向量计算得到第二距离;
根据所述第一目标医疗数据的对齐实体向量及所述第二目标医疗数据的对齐实体向量计算得到第三距离;
基于所述第一距离、所述第二距离及所述第三距离,采用预设相似度计算模型计算得到所述相似度。
其中,预设相似度计算模型可以如下:S=exp(-S3*(S1S2(S31/2)+1))1/2,S1为第一距离,S2为第二距离,S3为第三距离。
K一般不超过20。
通过计算第一距离和第二距离能够捕捉到两个目标医疗数据所在的领域内目标医疗数据分布的稀疏稠密情况,更好的应对了两个目标医疗数据位于不同密度簇的情况,从而更容易得到正确的分类结果。
如果两个目标医疗数据距离较近时,计算得到的第三距离较小,那么这两个目标医疗数据的相似度就大。如果两个目标医疗数据位于同一簇中,但这两个目标医疗数据中的其中一个和第三个目标医疗数据位于不同簇中,共享近邻目标医疗数据的数量越多,则对应的相似度就越大,使得位于同一簇上的两个目标医疗数据具有更高的相似度。
所述预测模块204,用于对每类所述目标医疗数据进行疾病类别预测,得到疾病类别预测结果。
在对目标医疗数据进行类别划分后,即可根据类别确定目标医疗数据的分布。
在一个可选的实施方式中,所述预测模块204对每类所述目标医疗数据进行疾病类别预测包括:
将每类目标医疗数据输入预设的疾病概率预测模型中的第一疾病预测架构中,得到第一预测疾病;
将所述第一预测疾病输入所述疾病概率预测模型中的选择连接层中,获取所述选择连接层选中指定的第二疾病预测架构;
将所述第一预测疾病和指定医疗数据输入所述指定的第二疾病预测架构中,得到第二预测疾病;
将所述指定医疗数据、所述第一预测疾病和所述第二预测疾病映射为疾病分类向量;
根据预设的标准分类向量及所述疾病分类向量确定每类目标医疗数据的疾病类别。
其中,预设的疾病概率预测模型由第一疾病预测架构、选择连接层和多个第二疾病预测架构顺序连接而成。所述第一疾病预测架构可以为长短期记忆架构,所述指定的第二疾病预测架构基于神经网络模型训练而成。
其中,所述标准分类向量标注有所述第一预测疾病和所述第二预测疾病,所述标准分类向量被标注为指定类别。
其中,指定医疗数据是指与目标医疗数据对应的类别下的历史目标医疗数据。
计算所述标准分类向量与所述疾病分类向量的距离值,距离值越大,表明标准分类向量与疾病分类向量越不相似,距离值越小,表明标准分类向量与疾病分类向量越相似。将距离最小的标注分类向量对应的指定类别确定为目标医疗数据的疾病类别。
在一个可选的实施方式中,监管终端在得到每类目标医疗数据及对应的疾病类别预测结果之后,还可以将所有类的目标医疗数据及对应的疾病类别预测结果上报至流行病疾控中心,也可以将最高的疾病类别预测结果及其对应的目标医疗数据上报至流行病疾控中心。流行病疾控中心的工作人员对上报的目标医疗数据及对应的疾病类别预测结果进行分析,如果级别类别预测结果属于流行性疾病,则可以向监管终端发送告警指令,从而使得监控终端向各个医疗机构发送告警指令,进而使得各个医疗机构对发生流行性疾病的病患进行监管,比如,集中收治。
本发明所述的疾病预测装置,在对医疗病历进行实时采集的基础上,先从医疗病历中提取出目标医疗数据,然后识别目标医疗数据中的可信关键词及不可信关键词,从而采用不同的实体识别模型识别关键词的实体,提高了关键词的实体识别准确度,有助于提高对目标医疗数据的分类准确度,在得到关键词的实体之后,基于矩阵秩约束及实体对目标医疗数据进行分类,得到多类目标医疗数据,从而针对每类目标医疗数据进行疾病类别预测,得到疾病类别预测结果,提高了疾病类别预测的准确度。对流行病的爆发趋势实时预测,有助于疾控中心第一时间掌握可能存在的流行病爆发危险,提前做好相应的预防措施,间接提高了流行病监控的效果和可靠程度。
实施例三
本实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述疾病预测方法实施例中的步骤,例如图1所示的S11-S14:
S11,接收医疗机构上报的医疗病历,并从所述医疗病历中提取出目标医疗数据;
S12,识别所述目标医疗数据中的可信关键词及不可信关键词,采用预设第一实体识别模型识别所述可信关键词的实体,并采用预设第二实体识别模型识别所述不可信关键词的实体;
S13,基于矩阵秩约束及所述实体对所述目标医疗数据进行分类,得到多类目标医疗数据;
S14,对每类所述目标医疗数据进行疾病类别预测,得到疾病类别预测结果。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块/单元的功能,例如图2中的模块201-204:
所述接收模块201,用于接收医疗机构上报的医疗病历,并从所述医疗病历中提取出目标医疗数据;
所述确定模块202,用于识别所述目标医疗数据中的可信关键词及不可信关键词,采用预设第一实体识别模型识别所述可信关键词的实体,并采用预设第二实体识别模型识别所述不可信关键词的实体;
所述输出模块203,用于基于矩阵秩约束及所述实体对所述目标医疗数据进行分类,得到多类目标医疗数据;
所述预测模块204,用于对每类所述目标医疗数据进行疾病类别预测,得到疾病类别预测结果。
实施例四
参阅图3所示,为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的电子设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的疾病预测方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-OnlyMemory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述电子设备3的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的疾病预测方法的全部或者部分步骤;或者实现疾病预测装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种疾病预测方法,其特征在于,所述方法包括:
接收医疗机构上报的医疗病历,并从所述医疗病历中提取出目标医疗数据;
识别所述目标医疗数据中的可信关键词及不可信关键词,采用预设第一实体识别模型识别所述可信关键词的实体,并采用预设第二实体识别模型识别所述不可信关键词的实体;
基于矩阵秩约束及所述实体对所述目标医疗数据进行分类,得到多类目标医疗数据;
对每类所述目标医疗数据进行疾病类别预测,得到疾病类别预测结果。
2.如权利要求1所述的疾病预测方法,其特征在于,所述识别所述目标医疗数据中的可信关键词及不可信关键词包括:
对所述目标医疗数据进行分词处理,得到多个关键词;
对所述多个关键词进行遍历,每次遍历从所述多个关键词中获取一个关键词作为目标关键词;
获取所述目标关键词中的第一个字符及最后一个字符;
获取所述目标医疗数据中位于所述第一个字符之前的第一邻居字符,及获取所述目标医疗数据中位于所述最后一个字符之后的第二邻居字符;
判断所述第一个字符与所述第一邻居字符是否能够组成词,及判断所述最后一个字符与所述第二邻居字符是否能够组成词;
当所述第一个字符与所述第一邻居字符不能够组成词,且所述最后一个字符与所述第二邻居字符不能够组成词,则确定所述目标关键词为可信关键词;
当所述第一个字符与所述第一邻居字符能够组成词,及/或所述最后一个字符与所述第二邻居字符能够组成词,则确定所述目标关键词为不可信关键词。
3.如权利要求1所述的疾病预测方法,其特征在于,所述基于矩阵秩约束及所述实体对所述目标医疗数据进行分类,得到多类目标医疗数据包括:
将所述目标医疗数据对应的多个实体拼接为实体向量;
对所述实体向量进行对齐处理,得到对齐实体向量;
从所述目标医疗数据中选取多个目标医疗数据对;
获取每个所述目标医疗数据对的共享近邻目标医疗数据,根据所述共享近邻目标医疗数据对应的对齐实体向量生成相似矩阵;
根据所述相似矩阵计算拉普拉斯矩阵;
基于拉普拉斯矩阵秩约束理论寻找所述拉普拉斯矩阵的无向图连通分支结构;
根据所述无向图连通分支结构输出多类目标医疗数据。
4.如权利要求3所述的疾病预测方法,其特征在于,所述获取每个所述目标医疗数据对的共享近邻目标医疗数据,根据所述共享近邻目标医疗数据对应的对齐实体向量生成相似矩阵包括:
获取每个所述目标医疗数据对中的第一目标医疗数据和第二目标医疗数据;
寻找所述第一目标医疗数据的K近邻目标医疗数据及所述第二目标医疗数据的K近邻目标医疗数据;
获取两个所述K近邻目标医疗数据中的共享近邻目标医疗数据;
根据所述第一目标医疗数据的对齐实体向量、所述第二目标医疗数据的对齐实体向量及所述共享近邻目标医疗数据对应的对齐实体向量计算对应的所述目标医疗数据对的相似度;
根据多个所述目标医疗数据对的相似度生成相似矩阵。
5.如权利要求4所述的疾病预测方法,其特征在于,所述根据所述第一目标医疗数据的对齐实体向量、所述第二目标医疗数据的对齐实体向量及所述共享近邻目标医疗数据对应的对齐实体向量计算对应的所述目标医疗数据对的相似度包括:
根据所述共享近邻目标医疗数据对应的对齐实体向量计算得到平均对齐实体向量;
根据所述第一目标医疗数据的对齐实体向量及所述平均对齐实体向量计算得到第一距离;
根据所述第二目标医疗数据的对齐实体向量及所述平均对齐实体向量计算得到第二距离;
根据所述第一目标医疗数据的对齐实体向量及所述第二目标医疗数据的对齐实体向量计算得到第三距离;
基于所述第一距离、所述第二距离及所述第三距离,采用预设相似度计算模型计算得到所述相似度。
6.如权利要求1至5中任意一项所述的疾病预测方法,其特征在于,所述对每类所述目标医疗数据进行疾病类别预测包括:
将每类目标医疗数据输入预设的疾病概率预测模型中的第一疾病预测架构中,得到第一预测疾病;
将所述第一预测疾病输入所述疾病概率预测模型中的选择连接层中,获取所述选择连接层选中指定的第二疾病预测架构;
将所述第一预测疾病和指定医疗数据输入所述指定的第二疾病预测架构中,得到第二预测疾病;
将所述指定医疗数据、所述第一预测疾病和所述第二预测疾病映射为疾病分类向量;
根据预设的标准分类向量及所述疾病分类向量确定每类目标医疗数据的疾病类别。
7.如权利要求1至5中任意一项所述的疾病预测方法,其特征在于,所述从所述医疗病历中提取出目标医疗数据包括:
从所述医疗病历中获取多个初始医疗数据,所述初始医疗数据包括病患描述信息和医疗描述信息;
对所述多个初始医疗数据进行采样,得到与所述初始医疗数据具有相同数据分布的多个医疗样本;
在所述多个医疗样本中确定医疗描述值,使得包括所述医疗描述值的初始医疗数据的数量与所述多个医疗样本的数量的比值大于第一预设阈值;
在所述多个医疗样本中获取与所述医疗描述值对应的病患描述值,使得包括所述病患描述值的初始医疗数据的数量与所述多个医疗样本的数量的比值大于第二预设阈值;
在所述多个初始医疗数据中查找包括所述医疗描述值但不包括所述病患描述值的初始医疗数据;
将查找到的初始医疗数据作为所述目标医疗数据。
8.一种疾病预测装置,其特征在于,所述装置包括:
接收模块,用于接收医疗机构上报的医疗病历,并从所述医疗病历中提取出目标医疗数据;
识别模块,用于识别所述目标医疗数据中的可信关键词及不可信关键词,采用预设第一实体识别模型识别所述可信关键词的实体,并采用预设第二实体识别模型识别所述不可信关键词的实体;
分类模块,用于基于矩阵秩约束及所述实体对所述目标医疗数据进行分类,得到多类目标医疗数据;
预测模块,用于对每类所述目标医疗数据进行疾病类别预测,得到疾病类别预测结果。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述疾病预测方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述疾病预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111530303.0A CN114220541A (zh) | 2021-12-14 | 2021-12-14 | 疾病预测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111530303.0A CN114220541A (zh) | 2021-12-14 | 2021-12-14 | 疾病预测方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114220541A true CN114220541A (zh) | 2022-03-22 |
Family
ID=80701976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111530303.0A Pending CN114220541A (zh) | 2021-12-14 | 2021-12-14 | 疾病预测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114220541A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114661990A (zh) * | 2022-03-23 | 2022-06-24 | 北京百度网讯科技有限公司 | 数据预测及模型训练的方法、装置、设备、介质及产品 |
CN116127979A (zh) * | 2023-04-04 | 2023-05-16 | 浙江太美医疗科技股份有限公司 | 命名实体名称标准化的方法和装置、电子设备和存储介质 |
-
2021
- 2021-12-14 CN CN202111530303.0A patent/CN114220541A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114661990A (zh) * | 2022-03-23 | 2022-06-24 | 北京百度网讯科技有限公司 | 数据预测及模型训练的方法、装置、设备、介质及产品 |
CN116127979A (zh) * | 2023-04-04 | 2023-05-16 | 浙江太美医疗科技股份有限公司 | 命名实体名称标准化的方法和装置、电子设备和存储介质 |
CN116127979B (zh) * | 2023-04-04 | 2023-09-19 | 浙江太美医疗科技股份有限公司 | 命名实体名称标准化的方法和装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11232365B2 (en) | Digital assistant platform | |
CN112700838A (zh) | 基于大数据的用药方案推荐方法、装置及相关设备 | |
CN106793957B (zh) | 用于预测患者护理未来结果的医疗系统和方法 | |
CN109785927A (zh) | 基于互联网一体化医疗平台的临床文档结构化处理方法 | |
CN110504035A (zh) | 医疗资料库及系统 | |
CN112562836A (zh) | 医生推荐方法、装置、电子设备及存储介质 | |
CN112216361A (zh) | 基于人工智能的随访计划单生成方法、装置、终端及介质 | |
CN114220541A (zh) | 疾病预测方法、装置、电子设备及存储介质 | |
CN112016905B (zh) | 基于审批流程的信息展示方法、装置、电子设备及介质 | |
US20180210925A1 (en) | Reliability measurement in data analysis of altered data sets | |
CN111986744B (zh) | 医疗机构的患者界面生成方法、装置、电子设备及介质 | |
WO2021151291A1 (zh) | 疾病风险的分析方法、装置、电子设备及计算机存储介质 | |
CN112614578A (zh) | 医生智能推荐方法、装置、电子设备及存储介质 | |
CN111984898A (zh) | 基于大数据的标签推送方法、装置、电子设备及存储介质 | |
CN112634889A (zh) | 基于人工智能的电子病例录入方法、装置、终端及介质 | |
CN115206512A (zh) | 基于物联网的医院信息管理方法及装置 | |
CN114334175A (zh) | 医院疫情监测方法、装置、计算机设备及存储介质 | |
CN113744845A (zh) | 基于人工智能的医学影像处理方法、装置、设备及介质 | |
CN111933246B (zh) | 医疗处方分析方法、系统、电子设备及存储介质 | |
CN111651452A (zh) | 数据存储方法、装置、计算机设备及存储介质 | |
CN116524995A (zh) | 基于人工智能的药物疗效预测方法及相关设备 | |
CN114240677A (zh) | 医疗数据风险识别方法、装置、电子设备及存储介质 | |
CN113963413A (zh) | 基于人工智能的疫情排查方法、装置、电子设备及介质 | |
CN114239538A (zh) | 断言处理方法、装置、计算机设备及存储介质 | |
CN113990514A (zh) | 医师诊疗行为的异常检测装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220916 Address after: Room 2601 (Unit 07), Qianhai Free Trade Building, No. 3048, Xinghai Avenue, Nanshan Street, Qianhai Shenzhen-Hong Kong Cooperation Zone, Shenzhen, Guangdong 518000 Applicant after: Shenzhen Ping An Smart Healthcare Technology Co.,Ltd. Address before: 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000 Applicant before: Ping An International Smart City Technology Co.,Ltd. |