CN116884612A - 疾病风险等级的智能分析方法、装置、设备及存储介质 - Google Patents
疾病风险等级的智能分析方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116884612A CN116884612A CN202310858984.6A CN202310858984A CN116884612A CN 116884612 A CN116884612 A CN 116884612A CN 202310858984 A CN202310858984 A CN 202310858984A CN 116884612 A CN116884612 A CN 116884612A
- Authority
- CN
- China
- Prior art keywords
- health
- data
- individual
- text
- health data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 100
- 201000010099 disease Diseases 0.000 title claims abstract description 87
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 87
- 230000036541 health Effects 0.000 claims abstract description 699
- 238000003491 array Methods 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 61
- 238000011156 evaluation Methods 0.000 claims description 56
- 230000011218 segmentation Effects 0.000 claims description 30
- 238000012502 risk assessment Methods 0.000 claims description 20
- 238000004140 cleaning Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 108091026890 Coding region Proteins 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 9
- 238000007726 management method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000009933 burial Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 235000005911 diet Nutrition 0.000 description 2
- 230000037213 diet Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000391 smoking effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 230000037396 body weight Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 235000006694 eating habits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 230000005586 smoking cessation Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/40—Image enhancement or restoration using histogram techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/164—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/18086—Extraction of features or characteristics of the image by performing operations within image blocks or by using histograms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明涉及疾病分级技术,揭露了一种疾病风险等级的智能分析方法、装置、电子设备及计算机可读存储介质,其中方法包括:利用医疗埋点采集出历史健康数据,从历史健康数据中提取出文本健康数据和图片健康数据,从图片健康数据中提取出识别健康数据,将识别健康数据和文本健康数据合并成标准个体健康数据;从对标准个体健康数据中提取出健康因素数组个体健康数值;利用所有的健康因素数组和所有个体健康数值对初级健康回归模型进行训练,得到健康分析模型;利用健康分析模型和待测患者的患者健康数据计算出待测患者的疾病风险等级。本发明可以应用于疾病分级领域,辅助预测患者的患病风险并给予建议,能够提高疾病患病概率分析的效率。
Description
技术领域
本发明涉及疾病分级技术领域,尤其涉及一种疾病风险等级的智能分析方法、装置、电子设备及计算机可读存储介质。
背景技术
随着人们的健康意识的提高,越来越多的人选择了疾病的预防检查,为了帮助人们在疾病出现之前就识别出高风险个体,从而采取相应的早期预防和干预措施,需要对患者进行疾病患病风险的分析。
现有的疾病患病风险的分析技术多为基于人工经验的疾病患病风险分析方法,即根据患者提供的病例资料和医疗检查的数据,利用医生的多年经验进行患病概率的分析,实际应用中,由于需要进行疾病分析的患者人数众多,患者提供的医疗数据较为繁杂,难以提取关键信息,基于人工经验的疾病患病风险分析方法的耗时较长,可能导致进行疾病患病风险分析时的效率较低。
发明内容
本发明提供一种疾病风险等级的智能分析方法、装置及计算机可读存储介质,其主要目的在于解决进行疾病患病风险分析时的效率较低的问题。
为实现上述目的,本发明提供的一种疾病风险等级的智能分析方法,包括:
利用医疗埋点采集出历史健康数据,将所述历史健康数据按照个体类别清洗成个体健康数据集;
逐个选取所述个体健康数据集中的个体健康数据作为目标个体健康数据,按照数据类别将所述目标个体健康数据拆分成文本健康数据和图片健康数据,依次对所述图片健康数据进行文本裁切和文本识别操作,得到识别健康数据,将所述识别健康数据和所述文本健康数据合并成标准个体健康数据;
依次对所述标准个体健康数据进行文本分词、关键词匹配和因素编码操作,得到健康因素数组,从所述个体健康数据中提取出健康评价数据,对所述健康评价数据进行语义识别,得到个体健康数值;
利用所述健康因素数组和所述个体健康数值建立初级健康回归模型,利用所有的健康因素数组和所有个体健康数值对所述初级健康回归模型进行训练,得到健康分析模型;
获取待测患者的患者健康数据,从所述患者健康数据中提取出待测因素数组,利用所述健康分析模型和所述待测因素数组计算出所述待测患者的分析健康数值,将所述分析健康数值作为所述待测患者的疾病风险等级。
可选地,所述利用医疗埋点采集出历史健康数据,包括:
利用医疗埋点从输入设备中采集出输入健康数据;
利用所述医疗埋点从医疗传感器中采集出监测健康数据;
利用所述医疗埋点获取数据读写路径,对所述数据读写路径进行数据库匹配,得到数据库地址;
根据所述数据库地址提取出记录健康数据,将所述输入健康数据、所述监测健康数据和所述记录健康数据汇集成输入健康数据。
可选地,所述将所述历史健康数据按照个体类别清洗成个体健康数据集,包括:
对所述历史健康数据中的各个数据进行来源个体标注,得到标注健康数据;
按照个体类别将所述标注健康数据拆分成标注个体数据集;
对所述标注个体数据集进行数据去重,得到去重个体数据集;
依次从所述去重个体数据集中筛除缺省数据和噪声数据,得到个体健康数据集。
可选地,所述依次对所述图片健康数据进行文本裁切和文本识别操作,得到识别健康数据,包括:
逐个选取所述图片健康数据中的图片作为目标健康图片,对所述目标健康图片进行中值滤波,得到除噪健康图片;
利用直方图均衡化的方法对所述除噪健康图片进行灰度增强,得到灰度健康图片;
从所述灰度健康图片中提取出灰度级数,根据所述灰度级数对所述增强健康图片进行对比度拉伸,得到增强健康图片;
对所述增强健康图片进行多级卷积操作,得到健康图片特征,根据所述健康图片特征生成对应的文本框组;
根据所述文本框组生成文本掩膜组,利用所述文本掩膜组队所述增强健康图片进行掩膜操作,得到文本图块组;
逐个对所述文本图块组中的文本图块进行文字倾斜矫正操作,得到矫正文本图块组;
逐个对所述矫正文本图块组中的矫正文本图块进行文本行分割和文字分割操作,得到文本单字图集;
提取出所述文本单字图集对应的文本单字特征,对所述文本单字特征进行特征映射,得到文本单字集;
将所述文本单字集进行字符拼接,得到识别健康文本,将所有的识别健康文本汇集成识别健康数据。
可选地,所述依次对所述标准个体健康数据进行文本分词、关键词匹配和因素编码操作,得到健康因素数组,包括:
对所述标准个体健康数据进行文本分词,得到标准个体词集;
对所述标准个体词集进行特征编码,得到标准个体词向量集;
利用预设的关键词向量库对所述标准个体词向量集中的各个标准个体词向量进行关键词匹配操作,得到关键词向量组;
利用所述关键词向量组对所述标准个体词向量集进行描述词匹配,得到健康因素词向量组;
对所述健康因素词向量组进行文本编码,得到健康因素词组;
对所述健康因素词组中的各个健康因素词语进行等级编码,得到健康因素数组。
可选地,所述对所述健康评价数据进行语义识别,得到个体健康数值,包括:
对所述健康评价数据进行文本分词,得到健康评价词集;
对所述健康评价词集进行文本编码和位置编码操作,得到健康评价词向量序列;
利用注意力机制对所述健康评价词向量序列进行注意力编码,得到评价编码序列;
对所述评价编码序列进行前馈解码和线性激活操作,得到个体健康数值。
可选地,所述利用所述健康因素数组和所述个体健康数值建立初级健康回归模型,包括:
统计出所述健康因素数组的元素总数,根据所述元素总数生成模型参数集;
根据所述健康因素数组、所述个体健康数值和所述模型参数集建立如下的初级健康回归模型:
y=β0+β1*x1+β2*x2+…+βn*xn
其中,y是指所述个体健康数值,β0是指所述模型参数集中序号为0的模型参数,β1是指所述模型参数集中序号为1的模型参数,x1是指所述健康因素数组中的第1个健康因素数值,…为乘号,β2是指所述模型参数集中序号为2的模型参数,x2是指所述健康因素数组中的第2个健康因素数值,βn是指所述模型参数集中序号为n的模型参数,xn是指所述健康因素数组中的第n个健康因素数值,n为所述元素总数。
为了解决上述问题,本发明还提供一种疾病风险等级的智能分析装置,所述装置包括:
数据拆分模块,用于利用医疗埋点采集出历史健康数据,将所述历史健康数据按照个体类别清洗成个体健康数据集;
文本识别模块,用于逐个选取所述个体健康数据集中的个体健康数据作为目标个体健康数据,按照数据类别将所述目标个体健康数据拆分成文本健康数据和图片健康数据,依次对所述图片健康数据进行文本裁切和文本识别操作,得到识别健康数据,将所述识别健康数据和所述文本健康数据合并成标准个体健康数据;
语义识别模块,用于依次对所述标准个体健康数据进行文本分词、关键词匹配和因素编码操作,得到健康因素数组,从所述个体健康数据中提取出健康评价数据,对所述健康评价数据进行语义识别,得到个体健康数值;
模型训练模块,用于利用所述健康因素数组和所述个体健康数值建立初级健康回归模型,利用所有的健康因素数组和所有个体健康数值对所述初级健康回归模型进行训练,得到健康分析模型;
风险分析模块,用于获取待测患者的患者健康数据,从所述患者健康数据中提取出待测因素数组,利用所述健康分析模型和所述待测因素数组计算出所述待测患者的分析健康数值,将所述分析健康数值作为所述待测患者的疾病风险等级。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的疾病风险等级的智能分析方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的疾病风险等级的智能分析方法。
本发明实施例通过利用医疗埋点采集出历史健康数据,将所述历史健康数据按照个体类别清洗成个体健康数据集,可以确保后续训练模型时数据集的准确性和完整性,从而提高后续健康分析模型分析时的精确度,通过逐个选取所述个体健康数据集中的个体健康数据作为目标个体健康数据,按照数据类别将所述目标个体健康数据拆分成文本健康数据和图片健康数据,依次对所述图片健康数据进行文本裁切和文本识别操作,得到识别健康数据,将所述识别健康数据和所述文本健康数据合并成标准个体健康数据,可以利用图片文本识别的方式从文本格式的医疗健康数据中提取出文本信息,从而扩充了健康数据的数据种类,从而提高了后续患病风险分析的准确性,通过依次对所述标准个体健康数据进行文本分词、关键词匹配和因素编码操作,得到健康因素数组,从所述个体健康数据中提取出健康评价数据,对所述健康评价数据进行语义识别,得到个体健康数值,可以将所述标准个体健康数据中的健康自变量和患病概率进行分离,并进行数值具象化操作,从而方便后续的初级健康回归模型建立和训练。
通过利用所述健康因素数组和所述个体健康数值建立初级健康回归模型,利用所有的健康因素数组和所有个体健康数值对所述初级健康回归模型进行训练,得到健康分析模型,可以利用所有的健康因素数组和所有的个体健康数值拟合健康因素数组和对应的个体健康数值之间的回归函数关系,从而提高患病风险预测的准确性,通过获取待测患者的患者健康数据,从所述患者健康数据中提取出待测因素数组,利用所述健康分析模型和所述待测因素数组计算出所述待测患者的分析健康数值,将所述分析健康数值作为所述待测患者的疾病风险等级,可以批量化实现对待测患者的患病风险分析,从而提高了患病风险分析的效率。因此本发明提出的疾病风险等级的智能分析方法、装置、电子设备及计算机可读存储介质,可以解决进行疾病患病风险分析时的效率较低的问题。
附图说明
图1为本发明一实施例提供的疾病风险等级的智能分析方法的流程示意图;
图2为本发明一实施例提供的历史健康数据的流程示意图;
图3为本发明一实施例提供的提取个体健康数值的流程示意图;
图4为本发明一实施例提供的疾病风险等级的智能分析装置的功能模块图;
图5为本发明一实施例提供的实现所述疾病风险等级的智能分析方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种疾病风险等级的智能分析方法。所述疾病风险等级的智能分析方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述疾病风险等级的智能分析方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的疾病风险等级的智能分析方法的流程示意图。在本实施例中,所述疾病风险等级的智能分析方法包括:
S1、利用医疗埋点采集出历史健康数据,将所述历史健康数据按照个体类别清洗成个体健康数据集。
本发明实施例中,为了方便后续模型训练,需要获取模型训练用的数据集,因此需要利用医疗埋点采集出历史健康数据,所述医疗埋点是指是指在医疗系统或医疗应用程序中插入的用于收集和记录关键数据和用户行为的代码或跟踪机制,所述医疗埋点可以记录和追踪用户在医疗应用中的操作、交互和使用数据,包括用户的登录次数、用户日志和用户行为等,所述历史健康数据中包含过去收集的多个患者的健康数据,例如患者的血压、血糖、体重、吸烟史以及病史等数据,所述健康数据可以是扫录的患者病例图片或收集的患者文本信息。
本发明实施例中,参照图2所示,所述利用医疗埋点采集出历史健康数据,包括:
S21、利用医疗埋点从输入设备中采集出输入健康数据;
S22、利用所述医疗埋点从医疗传感器中采集出监测健康数据;
S23、利用所述医疗埋点获取数据读写路径,对所述数据读写路径进行数据库匹配,得到数据库地址;
S24、根据所述数据库地址提取出记录健康数据,将所述输入健康数据、所述监测健康数据和所述记录健康数据汇集成输入健康数据。
详细地,所述输入设备是指患者录入自己信息的输入设备,例如医院的交互终端、患者的手机、电脑等设备,所述输入健康数据是指用户自行输入的健康数据,所述医疗传感器是指用于采集医疗数据的设备,例如心率监测器、血糖仪等数据,所述监测健康数据是指直接通过设备采集的健康数据。
具体地,所述数据读写路径是指埋点数据记录的数据库通信的路径信息,所述对所述数据读写路径进行数据库匹配,得到数据库地址是指对所述数据读写路径进行数据库的关键词匹配,得到数据库地址,所述记录健康数据是指所述数据库地址所对应的数据库中过去记录的健康数据。
详细地,所述个体健康数据集是由多个个体健康数据组成的数据集,且每个所述个体健康数据包括一个患者个体的健康数据。
详细地,所述将所述历史健康数据按照个体类别清洗成个体健康数据集,包括:对所述历史健康数据中的各个数据进行来源个体标注,得到标注健康数据;按照个体类别将所述标注健康数据拆分成标注个体数据集;对所述标注个体数据集进行数据去重,得到去重个体数据集;依次从所述去重个体数据集中筛除缺省数据和噪声数据,得到个体健康数据集。
详细地,所述对所述历史健康数据中的各个数据进行来源个体标注,得到标注健康数据是指对所述历史健康数据集中每个数据格式的文本或格式通过数据来源确定所述的患者个体编号,并利用患者个体编号对各个数据进行标注,得到标注健康数据,所述个体类别是指患者个体编号的类别。
详细地,可以利用哈希编码对所述标注个体数据集中的各个数据进行哈希编码,并通过筛选出重复的哈希编码进行数据去重,也可以利用集合去重方法进行数据去重。
具体地,所述缺省数据是指所述去重个体数据集中缺少对应类别的数据的去重个体数据,所述噪声数据是指所述去重个体数据集中某一项数据为噪声数据的去重个体数据,可以利用缺失值标记或统计计数的方法从所述去重个体数据集中筛除缺省数据,可以利用数据的阈值检测或数据大小检测的方法从所述去重个体数据集中筛除噪声数据,得到个体健康数据集。
本发明实施例中,通过利用医疗埋点采集出历史健康数据,将所述历史健康数据按照个体类别清洗成个体健康数据集,可以确保后续训练模型时数据集的准确性和完整性,从而提高后续健康分析模型分析时的精确度。
S2、逐个选取所述个体健康数据集中的个体健康数据作为目标个体健康数据,按照数据类别将所述目标个体健康数据拆分成文本健康数据和图片健康数据,依次对所述图片健康数据进行文本裁切和文本识别操作,得到识别健康数据,将所述识别健康数据和所述文本健康数据合并成标准个体健康数据。
本发明实施例中,所述文本健康数据是指数据格式为文本格式的健康数据,所述图片健康数据是指数据格式为图片格式的健康数据,所述文本健康数据可以是患者的病例日志、埋点采集的患者个人信息等文本数据,所述图片健康数据可以是扫录的患者病例、各项医疗检查的报告单等图片数据。
本发明实施例中,所述按照数据类别将所述目标个体健康数据拆分成文本健康数据和图片健康数据是指根据各个数据类别的后缀名,根据文件的后缀名进行数据分类,例如将TXT和WORD等后缀名的文件划分为文本健康数据,将JPEG和PNG等后缀名的文件划分为图片健康数据。
本发明实施例中,所述依次对所述图片健康数据进行文本裁切和文本识别操作,得到识别健康数据,包括:逐个选取所述图片健康数据中的图片作为目标健康图片,对所述目标健康图片进行中值滤波,得到除噪健康图片;利用直方图均衡化的方法对所述除噪健康图片进行灰度增强,得到灰度健康图片;从所述灰度健康图片中提取出灰度级数,根据所述灰度级数对所述增强健康图片进行对比度拉伸,得到增强健康图片;对所述增强健康图片进行多级卷积操作,得到健康图片特征,根据所述健康图片特征生成对应的文本框组;根据所述文本框组生成文本掩膜组,利用所述文本掩膜组队所述增强健康图片进行掩膜操作,得到文本图块组;逐个对所述文本图块组中的文本图块进行文字倾斜矫正操作,得到矫正文本图块组;逐个对所述矫正文本图块组中的矫正文本图块进行文本行分割和文字分割操作,得到文本单字图集;提取出所述文本单字图集对应的文本单字特征,对所述文本单字特征进行特征映射,得到文本单字集;将所述文本单字集进行字符拼接,得到识别健康文本,将所有的识别健康文本汇集成识别健康数据。
详细地,所述灰度级数是指所述灰度健康图片中的灰度最大值和灰度最小值的差值,所述根据所述灰度级数对所述增强健康图片进行对比度拉伸,得到增强健康图片是指将所述增强健康图片中的像素灰度根据所述灰度级数的大小进行对比度拉伸,从而得到增强健康图片。
具体地,可以利用大量标注了文本框的图片数据训练后的YOLO3模型根据所述健康图片特征生成对应的文本框组;可以利用直线拟合的方法或霍夫变换的方法逐个对所述文本图块组中的文本图块进行文字倾斜矫正操作,得到矫正文本图块组;可以利用投影法或连通组件的方法逐个对所述矫正文本图块组中的矫正文本图块进行文本行分割和文字分割操作,得到文本单字图集;可以利用经过大量标注了文本标签的文本图片训练得到的VGG-16模型或Transform模型依次对所述文本单字特征进行特征映射,得到文本单字集。
本发明实施例中,通过逐个选取所述个体健康数据集中的个体健康数据作为目标个体健康数据,按照数据类别将所述目标个体健康数据拆分成文本健康数据和图片健康数据,依次对所述图片健康数据进行文本裁切和文本识别操作,得到识别健康数据,将所述识别健康数据和所述文本健康数据合并成标准个体健康数据,可以利用图片文本识别的方式从文本格式的医疗健康数据中提取出文本信息,从而扩充了健康数据的数据种类,从而提高了后续患病风险分析的准确性。
S3、依次对所述标准个体健康数据进行文本分词、关键词匹配和因素编码操作,得到健康因素数组,从所述个体健康数据中提取出健康评价数据,对所述健康评价数据进行语义识别,得到个体健康数值。
本发明实施例中,所述健康因素数组是由可能会影响患病概率的医疗因素组成的数组,所述医疗因素可以是物理的、生物学的或行为因素,例如年龄、性别、体重、病史、身体质量指数(Body Mass Index,简称BMI)、家族史、用药史以及职业等数据。
本发明实施例中,所述依次对所述标准个体健康数据进行文本分词、关键词匹配和因素编码操作,得到健康因素数组,包括:对所述标准个体健康数据进行文本分词,得到标准个体词集;对所述标准个体词集进行特征编码,得到标准个体词向量集;利用预设的关键词向量库对所述标准个体词向量集中的各个标准个体词向量进行关键词匹配操作,得到关键词向量组;利用所述关键词向量组对所述标准个体词向量集进行描述词匹配,得到健康因素词向量组;对所述健康因素词向量组进行文本编码,得到健康因素词组;对所述健康因素词组中的各个健康因素词语进行等级编码,得到健康因素数组。
具体地,可以利用双向最大匹配算法或向前最大匹配算法对所述标准个体健康数据进行文本分词,得到标准个体词集,可以利用Word2vec或GloVe等文本编码方式对所述标准个体词集进行特征编码,得到标准个体词向量集。
详细地,所述关键词向量库是由各个医疗因素关键词的词向量组成的词向量库,其中,所述医疗因素关键词例如年龄、性别以及体重;可以通过计算所述标准个体词向量集中的各个标准个体词向量与所述关键词向量库中的各个关键词向量之间的特征距离实现关键词匹配操作,得到关键词向量组。
具体地,所述利用所述关键词向量组对所述标准个体词向量集进行描述词匹配,得到健康因素词向量组是指逐个选取所述关键词向量组中的关键词向量作为目标关键词向量,在所述标准个体词向量集中对所述目标关键词向量周围的描述词向量进行匹配,将所述描述词向量和所述目标关键词向量汇集成健康因素词向量,将所有的健康因素词向量汇集成健康因素词向量组,其中,所述描述词向量是例如年龄值、可能性大小等描述词语的词向量。
具体地,可以利用用Word2vec或GloVe等文本编码方式对所述健康因素词向量组进行文本编码,得到健康因素词组,所述对所述健康因素词组中的各个健康因素词语进行等级编码,得到健康因素数组是指根据所述健康因素词语中的评价词进行等级编码,得到健康因素数值,将所有的健康因素数值组成健康因素数组,例如较强的评价词的健康因素数值为0.7,较弱的评价词的健康因素数值为0.3。
详细地,所述健康评价数据是指医生或护士评价或检查出的患者患某种病症的可能性相关数据记录与评价,所述个体健康数值是利用数值的方法评价患者患某种病症的可能性,例如,所述个体健康数值在0-10%时为低风险,即预测个体患病概率较低,通常无需特别担心患病风险,可以继续保持健康的生活方式,所述个体健康数值在10%-50%时为中风险,需要引起警惕,建议加强健康管理,如控制饮食、增加运动、定期体检等,所述个体健康数值在50%-90%时为高风险,属于高度患病风险人群,建议采取更加严格的健康管理措施,如戒烟、限制饮酒、坚持适量运动等,所述个体健康数值超过90%时为极高风险建议立即采取紧急健康管理措施,如改变饮食习惯、增加运动量、定期体检等,以降低患病风险。
本发明实施例中,参照图3所示,所述对所述健康评价数据进行语义识别,得到个体健康数值,包括:
S31、对所述健康评价数据进行文本分词,得到健康评价词集;
S32、对所述健康评价词集进行文本编码和位置编码操作,得到健康评价词向量序列;
S33、利用注意力机制对所述健康评价词向量序列进行注意力编码,得到评价编码序列;
S34、对所述评价编码序列进行前馈解码和线性激活操作,得到个体健康数值。
本发明实施例中,所述对所述健康评价词集进行文本编码的方法与上述步骤S3中的所述对所述标准个体词集进行特征编码,得到标准个体词向量集的方法一致,这里不再赘述,所述位置编码是指根据所述健康评价词集中各个健康评价词语的位置序号进行位置编码,得到健康评价词向量序列。
详细地,所述注意力机制(Attention Mechanism)是一种在机器学习和自然语言处理等领域中使用的重要概念和技术,所述注意力机制模拟了人类注意力的机制,允许模型在处理输入序列时集中关注其中的特定部分或信息;可以利用利用transform模型的解码层的前馈神经层和线性激活层对所述评价编码序列进行前馈解码和线性激活操作,得到个体健康数值。
本发明实施例中,通过依次对所述标准个体健康数据进行文本分词、关键词匹配和因素编码操作,得到健康因素数组,从所述个体健康数据中提取出健康评价数据,对所述健康评价数据进行语义识别,得到个体健康数值,可以将所述标准个体健康数据中的健康自变量和患病概率进行分离,并进行数值具象化操作,从而方便后续的初级健康回归模型建立和训练。
S4、利用所述健康因素数组和所述个体健康数值建立初级健康回归模型,利用所有的健康因素数组和所有个体健康数值对所述初级健康回归模型进行训练,得到健康分析模型。
本发明实施例中,所述初级健康回归模型是一种用于预测连续输出变量的机器学习模型,用于分析健康因素数组中的各个自变量与因变量的个体健康数值之间的变化关系。
本发明实施例中,所述利用所述健康因素数组和所述个体健康数值建立初级健康回归模型,包括:统计出所述健康因素数组的元素总数,根据所述元素总数生成模型参数集;根据所述健康因素数组、所述个体健康数值和所述模型参数集建立如下的初级健康回归模型:
y=β0+β1*x1+β2*x2+…+βn*xn
其中,y是指所述个体健康数值,β0是指所述模型参数集中序号为0的模型参数,β1是指所述模型参数集中序号为1的模型参数,x1是指所述健康因素数组中的第1个健康因素数值,*为乘号,β2是指所述模型参数集中序号为2的模型参数,x2是指所述健康因素数组中的第2个健康因素数值,βn是指所述模型参数集中序号为n的模型参数,xn是指所述健康因素数组中的第n个健康因素数值,n为所述元素总数。
详细地,所述根据所述元素总数生成模型参数集是指初始化一个有元素总数加一个参数组成的参数集合,将所述参数集合作为模型参数集,通过根据所述健康因素数组、所述个体健康数值和所述模型参数集建立如下的初级健康回归模型,可以利用线性函数拟合输入变量和输出变量之间的关系,从而方便后续对健康因素数组中各自变量和个体健康数值的因变量之间的变换关系的拟合。
本发明实施例中,所述利用所有的健康因素数组和所有个体健康数值对所述初级健康回归模型进行训练,得到健康分析模型,包括:将所有的健康因素数组汇集成健康因素数组集,将所有的个体健康数值汇集成个体健康数值集;利用所述初级健康回归模型计算出所述健康因素数组集对应的分析健康数值集;利用均方差损失值算法根据所述分析健康数值集和所述个体健康数值集计算出所述初级健康回归模型的模型损失值;判断所述模型损失值是否大于预设的损失阈值;若是,则利用梯度下降的算法根据所述模型损失值对所述初级健康回归模型的各个模型参数进行更新,并返回利用所述初级健康回归模型计算出所述健康因素数组集对应的分析健康数值集的步骤;若否,则将更新后的所述初级健康回归模型作为健康分析模型。
本发明实施例中,所述均方差损失值算法(Mean Square Error Loss)是一种常见的损失函数,用于衡量预测值与目标值之间的差异,均方差损失算法计算预测值与目标值之间差异的平方,并取平均值作为损失值,所述梯度下降算法是一种迭代算法,通过不断更新参数的方式来逐步逼近最优解,梯度下降算法的基本思想是根据函数的梯度信息,在每一次迭代中向函数梯度下降的方向更新参数,以减小损失函数的值。
本发明实施例中,通过利用所述健康因素数组和所述个体健康数值建立初级健康回归模型,利用所有的健康因素数组和所有个体健康数值对所述初级健康回归模型进行训练,得到健康分析模型,可以利用所有的健康因素数组和所有的个体健康数值拟合健康因素数组和对应的个体健康数值之间的回归函数关系,从而提高患病风险预测的准确性。
S5、获取待测患者的患者健康数据,从所述患者健康数据中提取出待测因素数组,利用所述健康分析模型和所述待测因素数组计算出所述待测患者的分析健康数值,将所述分析健康数值作为所述待测患者的疾病风险等级。
本发明实施例中,所述待测患者是指需要进行患病风险预测的患者,所述患者健康数据是指所述待测患者对应的个体健康数据,所述获取待测患者的患者健康数据的方法与上述步骤S1中的所述利用医疗埋点采集出历史健康数据的方法一致,这里不再赘述。
本发明实施例中,所述待测因素数组是指所述待测患者的健康因素数组,所述从所述患者健康数据中提取出待测因素数组的方法与上述步骤S3中的所述依次对所述标准个体健康数据进行文本分词、关键词匹配和因素编码操作,得到健康因素数组的方法一致,这里不再赘述。
详细地,在所述将所述分析健康数值作为所述待测患者的疾病风险等级之后,本方法还可以根据所述疾病风险等级对患者进行个性化的预防建议,例如改变饮食习惯、增加运动或者戒烟等。
本发明实施例中,通过获取待测患者的患者健康数据,从所述患者健康数据中提取出待测因素数组,利用所述健康分析模型和所述待测因素数组计算出所述待测患者的分析健康数值,将所述分析健康数值作为所述待测患者的疾病风险等级,可以批量化实现对待测患者的患病风险分析,从而提高了患病风险分析的效率。
本发明实施例通过利用医疗埋点采集出历史健康数据,将所述历史健康数据按照个体类别清洗成个体健康数据集,可以确保后续训练模型时数据集的准确性和完整性,从而提高后续健康分析模型分析时的精确度,通过逐个选取所述个体健康数据集中的个体健康数据作为目标个体健康数据,按照数据类别将所述目标个体健康数据拆分成文本健康数据和图片健康数据,依次对所述图片健康数据进行文本裁切和文本识别操作,得到识别健康数据,将所述识别健康数据和所述文本健康数据合并成标准个体健康数据,可以利用图片文本识别的方式从文本格式的医疗健康数据中提取出文本信息,从而扩充了健康数据的数据种类,从而提高了后续患病风险分析的准确性,通过依次对所述标准个体健康数据进行文本分词、关键词匹配和因素编码操作,得到健康因素数组,从所述个体健康数据中提取出健康评价数据,对所述健康评价数据进行语义识别,得到个体健康数值,可以将所述标准个体健康数据中的健康自变量和患病概率进行分离,并进行数值具象化操作,从而方便后续的初级健康回归模型建立和训练。
通过利用所述健康因素数组和所述个体健康数值建立初级健康回归模型,利用所有的健康因素数组和所有个体健康数值对所述初级健康回归模型进行训练,得到健康分析模型,可以利用所有的健康因素数组和所有的个体健康数值拟合健康因素数组和对应的个体健康数值之间的回归函数关系,从而提高患病风险预测的准确性,通过获取待测患者的患者健康数据,从所述患者健康数据中提取出待测因素数组,利用所述健康分析模型和所述待测因素数组计算出所述待测患者的分析健康数值,将所述分析健康数值作为所述待测患者的疾病风险等级,可以批量化实现对待测患者的患病风险分析,从而提高了患病风险分析的效率。因此本发明提出的疾病风险等级的智能分析方法,可以解决进行疾病患病风险分析时的效率较低的问题。
如图4所示,是本发明一实施例提供的疾病风险等级的智能分析装置的功能模块图。
本发明所述疾病风险等级的智能分析装置100可以安装于电子设备中。根据实现的功能,所述疾病风险等级的智能分析装置100可以包括数据拆分模块101、文本识别模块102、语义识别模块103、模型训练模块104及风险分析模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述数据拆分模块101,用于利用医疗埋点采集出历史健康数据,将所述历史健康数据按照个体类别清洗成个体健康数据集;
所述文本识别模块102,用于逐个选取所述个体健康数据集中的个体健康数据作为目标个体健康数据,按照数据类别将所述目标个体健康数据拆分成文本健康数据和图片健康数据,依次对所述图片健康数据进行文本裁切和文本识别操作,得到识别健康数据,将所述识别健康数据和所述文本健康数据合并成标准个体健康数据;
所述语义识别模块103,用于依次对所述标准个体健康数据进行文本分词、关键词匹配和因素编码操作,得到健康因素数组,从所述个体健康数据中提取出健康评价数据,对所述健康评价数据进行语义识别,得到个体健康数值;
所述模型训练模块104,用于利用所述健康因素数组和所述个体健康数值建立初级健康回归模型,利用所有的健康因素数组和所有个体健康数值对所述初级健康回归模型进行训练,得到健康分析模型;
所述风险分析模块105,用于获取待测患者的患者健康数据,从所述患者健康数据中提取出待测因素数组,利用所述健康分析模型和所述待测因素数组计算出所述待测患者的分析健康数值,将所述分析健康数值作为所述待测患者的疾病风险等级。
详细地,本发明实施例中所述疾病风险等级的智能分析装置100中所述的各模块在使用时采用与上述图1至图3中所述的疾病风险等级的智能分析方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图5所示,是本发明一实施例提供的实现疾病风险等级的智能分析方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如疾病风险等级的智能分析程序。
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行疾病风险等级的智能分析程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如疾病风险等级的智能分析程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线12可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
图中仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图中示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的疾病风险等级的智能分析程序是多个指令的组合,在所述处理器10中运行时,可以实现:
利用医疗埋点采集出历史健康数据,将所述历史健康数据按照个体类别清洗成个体健康数据集;
逐个选取所述个体健康数据集中的个体健康数据作为目标个体健康数据,按照数据类别将所述目标个体健康数据拆分成文本健康数据和图片健康数据,依次对所述图片健康数据进行文本裁切和文本识别操作,得到识别健康数据,将所述识别健康数据和所述文本健康数据合并成标准个体健康数据;
依次对所述标准个体健康数据进行文本分词、关键词匹配和因素编码操作,得到健康因素数组,从所述个体健康数据中提取出健康评价数据,对所述健康评价数据进行语义识别,得到个体健康数值;
利用所述健康因素数组和所述个体健康数值建立初级健康回归模型,利用所有的健康因素数组和所有个体健康数值对所述初级健康回归模型进行训练,得到健康分析模型;
获取待测患者的患者健康数据,从所述患者健康数据中提取出待测因素数组,利用所述健康分析模型和所述待测因素数组计算出所述待测患者的分析健康数值,将所述分析健康数值作为所述待测患者的疾病风险等级。
具体地,所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
利用医疗埋点采集出历史健康数据,将所述历史健康数据按照个体类别清洗成个体健康数据集;
逐个选取所述个体健康数据集中的个体健康数据作为目标个体健康数据,按照数据类别将所述目标个体健康数据拆分成文本健康数据和图片健康数据,依次对所述图片健康数据进行文本裁切和文本识别操作,得到识别健康数据,将所述识别健康数据和所述文本健康数据合并成标准个体健康数据;
依次对所述标准个体健康数据进行文本分词、关键词匹配和因素编码操作,得到健康因素数组,从所述个体健康数据中提取出健康评价数据,对所述健康评价数据进行语义识别,得到个体健康数值;
利用所述健康因素数组和所述个体健康数值建立初级健康回归模型,利用所有的健康因素数组和所有个体健康数值对所述初级健康回归模型进行训练,得到健康分析模型;
获取待测患者的患者健康数据,从所述患者健康数据中提取出待测因素数组,利用所述健康分析模型和所述待测因素数组计算出所述待测患者的分析健康数值,将所述分析健康数值作为所述待测患者的疾病风险等级。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统实施例中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种疾病风险等级的智能分析方法,其特征在于,所述方法包括:
利用医疗埋点采集出历史健康数据,将所述历史健康数据按照个体类别清洗成个体健康数据集;
逐个选取所述个体健康数据集中的个体健康数据作为目标个体健康数据,按照数据类别将所述目标个体健康数据拆分成文本健康数据和图片健康数据,依次对所述图片健康数据进行文本裁切和文本识别操作,得到识别健康数据,将所述识别健康数据和所述文本健康数据合并成标准个体健康数据;
依次对所述标准个体健康数据进行文本分词、关键词匹配和因素编码操作,得到健康因素数组,从所述个体健康数据中提取出健康评价数据,对所述健康评价数据进行语义识别,得到个体健康数值;
利用所述健康因素数组和所述个体健康数值建立初级健康回归模型,利用所有的健康因素数组和所有个体健康数值对所述初级健康回归模型进行训练,得到健康分析模型;
获取待测患者的患者健康数据,从所述患者健康数据中提取出待测因素数组,利用所述健康分析模型和所述待测因素数组计算出所述待测患者的分析健康数值,将所述分析健康数值作为所述待测患者的疾病风险等级。
2.如权利要求1所述的疾病风险等级的智能分析方法,其特征在于,所述利用医疗埋点采集出历史健康数据,包括:
利用医疗埋点从输入设备中采集出输入健康数据;
利用所述医疗埋点从医疗传感器中采集出监测健康数据;
利用所述医疗埋点获取数据读写路径,对所述数据读写路径进行数据库匹配,得到数据库地址;
根据所述数据库地址提取出记录健康数据,将所述输入健康数据、所述监测健康数据和所述记录健康数据汇集成输入健康数据。
3.如权利要求1所述的疾病风险等级的智能分析方法,其特征在于,所述将所述历史健康数据按照个体类别清洗成个体健康数据集,包括:
对所述历史健康数据中的各个数据进行来源个体标注,得到标注健康数据;
按照个体类别将所述标注健康数据拆分成标注个体数据集;
对所述标注个体数据集进行数据去重,得到去重个体数据集;
依次从所述去重个体数据集中筛除缺省数据和噪声数据,得到个体健康数据集。
4.如权利要求1所述的疾病风险等级的智能分析方法,其特征在于,所述依次对所述图片健康数据进行文本裁切和文本识别操作,得到识别健康数据,包括:
逐个选取所述图片健康数据中的图片作为目标健康图片,对所述目标健康图片进行中值滤波,得到除噪健康图片;
利用直方图均衡化的方法对所述除噪健康图片进行灰度增强,得到灰度健康图片;
从所述灰度健康图片中提取出灰度级数,根据所述灰度级数对所述增强健康图片进行对比度拉伸,得到增强健康图片;
对所述增强健康图片进行多级卷积操作,得到健康图片特征,根据所述健康图片特征生成对应的文本框组;
根据所述文本框组生成文本掩膜组,利用所述文本掩膜组队所述增强健康图片进行掩膜操作,得到文本图块组;
逐个对所述文本图块组中的文本图块进行文字倾斜矫正操作,得到矫正文本图块组;
逐个对所述矫正文本图块组中的矫正文本图块进行文本行分割和文字分割操作,得到文本单字图集;
提取出所述文本单字图集对应的文本单字特征,对所述文本单字特征进行特征映射,得到文本单字集;
将所述文本单字集进行字符拼接,得到识别健康文本,将所有的识别健康文本汇集成识别健康数据。
5.如权利要求1所述的疾病风险等级的智能分析方法,其特征在于,所述依次对所述标准个体健康数据进行文本分词、关键词匹配和因素编码操作,得到健康因素数组,包括:
对所述标准个体健康数据进行文本分词,得到标准个体词集;
对所述标准个体词集进行特征编码,得到标准个体词向量集;
利用预设的关键词向量库对所述标准个体词向量集中的各个标准个体词向量进行关键词匹配操作,得到关键词向量组;
利用所述关键词向量组对所述标准个体词向量集进行描述词匹配,得到健康因素词向量组;
对所述健康因素词向量组进行文本编码,得到健康因素词组;
对所述健康因素词组中的各个健康因素词语进行等级编码,得到健康因素数组。
6.如权利要求1所述的疾病风险等级的智能分析方法,其特征在于,所述对所述健康评价数据进行语义识别,得到个体健康数值,包括:
对所述健康评价数据进行文本分词,得到健康评价词集;
对所述健康评价词集进行文本编码和位置编码操作,得到健康评价词向量序列;
利用注意力机制对所述健康评价词向量序列进行注意力编码,得到评价编码序列;
对所述评价编码序列进行前馈解码和线性激活操作,得到个体健康数值。
7.如权利要求1所述的疾病风险等级的智能分析方法,其特征在于,所述利用所述健康因素数组和所述个体健康数值建立初级健康回归模型,包括:
统计出所述健康因素数组的元素总数,根据所述元素总数生成模型参数集;
根据所述健康因素数组、所述个体健康数值和所述模型参数集建立如下的初级健康回归模型:
y=β0+β1*x1+β2*x2+…+βn*xn
其中,y是指所述个体健康数值,β0是指所述模型参数集中序号为0的模型参数,β1是指所述模型参数集中序号为1的模型参数,x1是指所述健康因素数组中的第1个健康因素数值,*为乘号,β2是指所述模型参数集中序号为2的模型参数,x2是指所述健康因素数组中的第2个健康因素数值,βn是指所述模型参数集中序号为n的模型参数,xn是指所述健康因素数组中的第n个健康因素数值,n为所述元素总数。
8.一种疾病风险等级的智能分析装置,其特征在于,所述装置包括:
数据拆分模块,用于利用医疗埋点采集出历史健康数据,将所述历史健康数据按照个体类别清洗成个体健康数据集;
文本识别模块,用于逐个选取所述个体健康数据集中的个体健康数据作为目标个体健康数据,按照数据类别将所述目标个体健康数据拆分成文本健康数据和图片健康数据,依次对所述图片健康数据进行文本裁切和文本识别操作,得到识别健康数据,将所述识别健康数据和所述文本健康数据合并成标准个体健康数据;
语义识别模块,用于依次对所述标准个体健康数据进行文本分词、关键词匹配和因素编码操作,得到健康因素数组,从所述个体健康数据中提取出健康评价数据,对所述健康评价数据进行语义识别,得到个体健康数值;
模型训练模块,用于利用所述健康因素数组和所述个体健康数值建立初级健康回归模型,利用所有的健康因素数组和所有个体健康数值对所述初级健康回归模型进行训练,得到健康分析模型;
风险分析模块,用于获取待测患者的患者健康数据,从所述患者健康数据中提取出待测因素数组,利用所述健康分析模型和所述待测因素数组计算出所述待测患者的分析健康数值,将所述分析健康数值作为所述待测患者的疾病风险等级。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的疾病风险等级的智能分析方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的疾病风险等级的智能分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310858984.6A CN116884612A (zh) | 2023-07-12 | 2023-07-12 | 疾病风险等级的智能分析方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310858984.6A CN116884612A (zh) | 2023-07-12 | 2023-07-12 | 疾病风险等级的智能分析方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116884612A true CN116884612A (zh) | 2023-10-13 |
Family
ID=88256363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310858984.6A Pending CN116884612A (zh) | 2023-07-12 | 2023-07-12 | 疾病风险等级的智能分析方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116884612A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117831745A (zh) * | 2024-03-06 | 2024-04-05 | 中国人民解放军海军青岛特勤疗养中心 | 基于数据分析的远程护理管理方法及系统 |
-
2023
- 2023-07-12 CN CN202310858984.6A patent/CN116884612A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117831745A (zh) * | 2024-03-06 | 2024-04-05 | 中国人民解放军海军青岛特勤疗养中心 | 基于数据分析的远程护理管理方法及系统 |
CN117831745B (zh) * | 2024-03-06 | 2024-05-07 | 中国人民解放军海军青岛特勤疗养中心 | 基于数据分析的远程护理管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11922348B2 (en) | Generating final abnormality data for medical scans based on utilizing a set of sub-models | |
US20240203599A1 (en) | Method and system of for predicting disease risk based on multimodal fusion | |
CN109599185B (zh) | 疾病数据处理方法、装置、电子设备及计算机可读介质 | |
US20200303072A1 (en) | Method and system for supporting medical decision making | |
US20200265931A1 (en) | Systems and methods for coding health records using weighted belief networks | |
US11915127B2 (en) | Prediction of healthcare outcomes and recommendation of interventions using deep learning | |
WO2016120955A1 (ja) | 行動予測装置、行動予測装置の制御方法、および行動予測装置の制御プログラム | |
CN113707307A (zh) | 病情分析方法、装置、电子设备及存储介质 | |
CN107480131A (zh) | 中文电子病历症状语义提取方法及其系统 | |
CN113611401A (zh) | 一种围术期血液管理的系统和方法 | |
CN116884612A (zh) | 疾病风险等级的智能分析方法、装置、设备及存储介质 | |
CN116070096A (zh) | 通过大数据分析帮助医院搭建患者画像的方法及系统 | |
CN109192312B (zh) | 一种心力衰竭患者不良事件智能管理系统及方法 | |
CN114420279A (zh) | 一种医疗资源推荐方法、装置、设备及存储介质 | |
CN114758743A (zh) | 信息预测方法、装置、存储介质及计算机设备 | |
CN112992362B (zh) | 一种身体状态评估装置、电子设备及存储介质 | |
CN112309519B (zh) | 基于多模型的电子病历用药结构化处理系统 | |
CN114627993A (zh) | 信息预测方法、装置、存储介质及计算机设备 | |
CN112530598A (zh) | 一种基于健康数据的健康风险自测量表推荐方法及系统 | |
CN114649071A (zh) | 一种基于真实世界数据的消化性溃疡治疗方案的预测系统 | |
CN113688854A (zh) | 数据处理方法、装置及计算设备 | |
Shabbeer et al. | Prediction of Sudden Health Crises Owing to Congestive Heart Failure with Deep Learning Models. | |
CN115762698B (zh) | 一种医疗慢病检查报告数据提取方法及系统 | |
CN116705301A (zh) | 一种应用于家庭护理下的健康管理方法及系统 | |
CN118116578A (zh) | 基于GPT-4和LangChain的药品推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |