CN116844731A - 疾病分类方法、疾病分类装置、电子设备及存储介质 - Google Patents
疾病分类方法、疾病分类装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116844731A CN116844731A CN202310834027.XA CN202310834027A CN116844731A CN 116844731 A CN116844731 A CN 116844731A CN 202310834027 A CN202310834027 A CN 202310834027A CN 116844731 A CN116844731 A CN 116844731A
- Authority
- CN
- China
- Prior art keywords
- disease
- target
- data
- medical record
- record data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 599
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 599
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000013145 classification model Methods 0.000 claims abstract description 44
- 238000000605 extraction Methods 0.000 claims description 29
- 238000002372 labelling Methods 0.000 claims description 15
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 21
- 238000013473 artificial intelligence Methods 0.000 abstract description 16
- 238000004891 communication Methods 0.000 description 20
- 239000013598 vector Substances 0.000 description 16
- 238000003745 diagnosis Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 238000003058 natural language processing Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 5
- 238000012550 audit Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000001580 bacterial effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 206010022678 Intestinal infections Diseases 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 208000012868 Overgrowth Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 206010012601 diabetes mellitus Diseases 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 210000000813 small intestine Anatomy 0.000 description 2
- 206010000060 Abdominal distension Diseases 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 208000002699 Digestive System Neoplasms Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000019790 abdominal distention Diseases 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010225 co-occurrence analysis Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 201000006549 dyspepsia Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002565 electrocardiography Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 230000000968 intestinal effect Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 208000037920 primary disease Diseases 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- Public Health (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Animal Behavior & Ethology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种疾病分类方法、疾病分类装置、电子设备及存储介质,属于人工智能技术及数字医疗领域。方法包括:获取目标病历数据;对目标病历数据进行内容提取,得到初步疾病数据;基于疾病知识图谱对初步疾病数据进行数据更新,得到目标疾病数据;基于疾病分类模型对目标疾病数据进行疾病评分,得到目标疾病数据属于每个候选疾病类别的目标置信度;比对目标置信度和置信度阈值;若存在目标置信度高于置信度阈值,则选取数值最大的目标置信度对应的候选疾病类别作为目标病历数据的目标疾病类别;若不存在目标置信度高于置信度阈值,则获取目标病历数据的日志信息,并基于日志信息得到目标病历数据的目标疾病类别,能够提高疾病分类的准确性。
Description
技术领域
本申请涉及人工智能技术及数字医疗领域,尤其涉及一种疾病分类方法、疾病分类装置、电子设备及存储介质。
背景技术
目前,在疾病分类过程中往往采用人工分类的方式来对病历中的疾病进行分类,这一方式往往需要工作人员具备丰富的医学知识经验,且存在着较大的人为主观性,影响疾病分类的准确性,因此,如何提高疾病分类的准确性,成为了亟待解决的技术问题。
发明内容
本申请实施例的主要目的在于提出一种疾病分类方法、疾病分类装置、电子设备及存储介质,旨在提高疾病分类的准确性。
为实现上述目的,本申请实施例的第一方面提出了一种疾病分类方法,所述方法包括:
获取目标病历数据;
对所述目标病历数据进行内容提取,得到初步疾病数据;
基于预设的疾病知识图谱对所述初步疾病数据进行数据更新,得到目标疾病数据;
基于预设的疾病分类模型和候选疾病类别对所述目标疾病数据进行疾病评分,得到所述目标疾病数据属于每个所述候选疾病类别的目标置信度;
比对所述目标置信度和预设的置信度阈值;
若存在所述目标置信度高于所述置信度阈值,则选取数值最大的目标置信度对应的候选疾病类别作为所述目标病历数据的目标疾病类别;
若不存在所述目标置信度高于所述置信度阈值,则获取所述目标病历数据的日志信息,并基于所述日志信息得到所述目标病历数据的目标疾病类别。
在一些实施例,所述基于预设的疾病分类模型和候选疾病类别对所述目标疾病数据进行疾病评分,得到所述目标疾病数据属于每个所述候选疾病类别的目标置信度,包括:
将所述目标疾病数据输入至预设的疾病分类模型中,所述疾病分类模型包括特征提取网络、第一评分网络、第二评分网络;
基于所述特征提取网络对所述目标疾病数据进行语义提取,得到疾病语义特征;
基于所述第一评分网络和所述候选疾病类别对所述疾病语义特征进行召回评分,得到第一置信度;
基于所述第二评分网络的业务逻辑规则对所述疾病语义特征进行逻辑评分,得到第二置信度;
基于所述第一置信度和所述第二置信度,得到所述目标置信度。
在一些实施例,所述若不存在所述目标置信度高于所述置信度阈值,则获取所述目标病历数据的日志信息,并基于所述日志信息得到所述目标病历数据的目标疾病类别,包括:
若不存在所述目标置信度高于所述置信度阈值,则获取目标疾病数据的日志信息;
基于所述日志信息计算所述目标疾病数据的调用量;
根据所述调用量对所述目标疾病数据进行排序,得到目标疾病序列;
将所述目标疾病序列发送至疾病审核端;
接收所述疾病审核端根据所述目标疾病序列反馈的疾病标注数据;
基于所述疾病标注数据,得到所述目标病历数据的所述目标疾病类别。
在一些实施例,所述对所述目标病历数据进行内容提取,得到初步疾病数据,包括:
对所述目标病历数据进行扫描处理,得到病历文本信息;
对所述病历文本信息进行字符识别,得到多个疾病描述字符;
对所述疾病描述字符进行整合,得到所述初步疾病数据。
在一些实施例,所述获取目标病历数据,包括:
获取原始病历数据;
对所述原始病历数据进行数据清洗,得到所述目标病历数据。
在一些实施例,在得到所述目标病历数据的所述目标疾病类别之后,所述方法还包括:
将所述目标病历数据和所述目标疾病类别发送至理赔审核端;
接收所述理赔审核端根据所述目标病历数据和所述目标疾病类别反馈的审核结果,其中,所述审核结果用于表示所述目标病历数据对应的理赔案件为正常赔付或者表示所述目标病历数据对应的理赔案件为非正常赔付。
在一些实施例,在所述若不存在所述目标置信度高于所述置信度阈值,则获取所述目标病历数据的日志信息,并基于所述日志信息得到所述目标病历数据的目标疾病类别之后,所述方法包括:
基于所述目标病历数据和所述目标疾病类别对所述疾病知识图谱进行图谱内容更新;
和/或;
基于所述目标病历数据和所述目标疾病类别对所述疾病分类模型进行模型更新。
为实现上述目的,本申请实施例的第二方面提出了一种疾病分类装置,所述装置包括:
数据获取模块,用于获取目标病历数据;
内容提取模块,用于对所述目标病历数据进行内容提取,得到初步疾病数据;
数据更新模块,用于基于预设的疾病知识图谱对所述初步疾病数据进行数据更新,得到目标疾病数据;
疾病评分模块,用于基于预设的疾病分类模型和候选疾病类别对所述目标疾病数据进行疾病评分,得到所述目标疾病数据属于每个所述候选疾病类别的目标置信度;
比对模块,用于比对所述目标置信度和预设的置信度阈值;
筛选模块,用于若存在所述目标置信度高于所述置信度阈值,则选取数值最大的目标置信度对应的候选疾病类别作为所述目标病历数据的目标疾病类别;
类别确定模块,用于若不存在所述目标置信度高于所述置信度阈值,则获取所述目标病历数据的日志信息,并基于所述日志信息得到所述目标病历数据的目标疾病类别。
为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
为实现上述目的,本申请实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
本申请提出的疾病分类方法、疾病分类装置、电子设备及存储介质,其通过获取目标病历数据;对目标病历数据进行内容提取,得到初步疾病数据;基于预设的疾病知识图谱对初步疾病数据进行数据更新,得到目标疾病数据,能够提高数据质量和数据规范性。进一步地,基于预设的疾病分类模型和候选疾病类别对目标疾病数据进行疾病评分,得到目标疾病数据属于每个候选疾病类别的目标置信度;比对目标置信度和预设的置信度阈值;若存在目标置信度高于置信度阈值,则选取数值最大的目标置信度对应的候选疾病类别作为目标病历数据的目标疾病类别;若不存在目标置信度高于置信度阈值,则获取目标病历数据的日志信息,并基于日志信息得到目标病历数据的目标疾病类别,能够结合疾病分类模型和日志信息来对目标病历数据进行疾病分类,能够适用于多种具体应用场景,同时基于目标置信度来判断以何种方式确定目标疾病类别,能够有针对性进行疾病分类,能够提高疾病分类的准确性。
附图说明
图1是本申请实施例提供的疾病分类方法的流程图;
图2是图1中的步骤S101的流程图;
图3是图1中的步骤S102的流程图;
图4是图1中的步骤S104的流程图;
图5是图1中的步骤S107的流程图;
图6是本申请实施例提供的疾病分类方法的另一流程图;
图7是本申请实施例提供的疾病分类方法的另一流程图;
图8是本申请实施例提供的疾病分类装置的结构示意图;
图9是本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
人工智能(artificial intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
自然语言处理(natural language processing,NLP):NLP用计算机来处理、理解以及运用人类语言(如中文、英文等),NLP属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
信息抽取(Information Extraction,NER):从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的,例如句子、段落、篇章,文本信息正是由一些具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取,当然,文本信息抽取技术所抽取的信息可以是各种类型的信息。
知识图谱(Knowledge Graph):是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的现代理论。知识图谱主要目标是用来描述真实世界中存在的各种实体和概念,以及他们之间的强关系,我们用关系去描述两个实体之间的关联。在Web视角下,知识图谱如同简单文本之间的超链接一样,通过建立数据之间的语义链接,支持语义搜索。在自然语言处理视角下,知识图谱就是从文本中抽取语义和结构化的数据。在人工智能视角下,知识图谱是利用知识库来辅助理解人类语言的工具。在数据库视角下,知识图谱是利用图的方式去存储知识的方法。知识图谱是比较通用的语义知识的形式化描述框架,用节点表示语义符号,用边表示语义之间的关系。知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。现在的知识图谱已被用来泛指各种大规模的知识库。知识图谱又被称作语义网络(semantic network),从早期开始,语义网络就推动了基于图的知识表示,例如,推动RDF标准的过程中,在这样一个基于图的知识表示体系里面,实体作为图的节点,节点之间的连线作为关系。在构建知识图谱的过程中,往往需要将文本向量化,因此基于文本数据的Word2Vec应运而生,其通过浅神经网络语言模型将每个词用一个向量表示,通过构建输入层、映射层和输出层,利用神经网络学习可预测在该词上下文中出现概率最大的词语。通过对文本词库的训练将文本转化为n维向量空间中的向量,并通过在空间中的余弦相似度代表词语在语义上的接近程度。
BERT(Bidirectional Encoder Representation from Transformers)模型:BERT模型进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征,基于Transformer构建而成。BERT中有三种embedding,即Token Embedding,SegmentEmbedding,Position Embedding;其中Token Embeddings是词向量,第一个单词是CLS标志,可以用于之后的分类任务;Segment Embeddings用来区别两种句子,因为预训练不光做LM还要做以两个句子为输入的分类任务;Position Embeddings,这里的位置词向量不是transfor中的三角函数,而是BERT经过训练学到的。但BERT直接训练一个positionembedding来保留位置信息,每个位置随机初始化一个向量,加入模型训练,最后就得到一个包含位置信息的embedding,最后这个position embedding和word embedding的结合方式上,BERT选择直接拼接。
置信度:在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数测量值的可信程度范围,即前面所要求的“一定概率”。这个概率被称为置信度。
目前,在疾病分类过程中往往采用人工分类的方式来对病历中的疾病进行分类,这一方式往往需要工作人员具备丰富的医学知识经验,且存在着较大的人为主观性,影响疾病分类的准确性,因此,如何提高疾病分类的准确性,成为了亟待解决的技术问题。
基于此,本申请实施例提供了一种疾病分类方法、疾病分类装置、电子设备及存储介质,旨在提高疾病分类的准确性。
本申请实施例提供的疾病分类方法和装置、电子设备及存储介质,具体通过如下实施例进行说明,首先描述本申请实施例中的疾病分类方法。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
需要说明的是,在本申请的各个具体实施方式中,当涉及到需要根据用户信息、用户行为数据,用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时,都会先获得用户的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关法律法规和标准。此外,当本申请实施例需要获取用户的敏感个人信息时,会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意,在明确获得用户的单独许可或者单独同意之后,再获取用于使本申请实施例能够正常运行的必要的用户相关数据。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的疾病分类方法,涉及人工智能技术领域。本申请实施例提供的疾病分类方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、医疗云以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现疾病分类方法的应用等,但并不局限于以上形式。
医疗云(Medical cloud),是指在云计算、移动技术、多媒体、4G通信、大数据、以及物联网等新技术基础上,结合医疗技术,使用“云计算”来创建医疗健康服务云平台,实现了医疗资源的共享和医疗范围的扩大。因为云计算技术的运用于结合,医疗云提高医疗机构的效率,方便居民就医。像现在医院的预约挂号、电子病历、医保等都是云计算与医疗领域结合的产物,医疗云还具有数据安全、信息共享、动态扩展、布局全局的优势。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
图1是本申请实施例提供的疾病分类方法的一个可选的流程图,图1中的方法可以包括但不限于包括步骤S101至步骤S107。
步骤S101,获取目标病历数据;
步骤S102,对目标病历数据进行内容提取,得到初步疾病数据;
步骤S103,基于预设的疾病知识图谱对初步疾病数据进行数据更新,得到目标疾病数据;
步骤S104,基于预设的疾病分类模型和候选疾病类别对目标疾病数据进行疾病评分,得到目标疾病数据属于每个候选疾病类别的目标置信度;
步骤S105,比对目标置信度和预设的置信度阈值;
步骤S106,若存在目标置信度高于置信度阈值,则选取数值最大的目标置信度对应的候选疾病类别作为目标病历数据的目标疾病类别;
步骤S107,若不存在目标置信度高于置信度阈值,则获取目标病历数据的日志信息,并基于日志信息得到目标病历数据的目标疾病类别。
本申请实施例所示意的步骤S101至步骤S107,通过获取目标病历数据;对目标病历数据进行内容提取,得到初步疾病数据;基于预设的疾病知识图谱对初步疾病数据进行数据更新,得到目标疾病数据,能够提高数据质量和数据规范性。进一步地,基于预设的疾病分类模型和候选疾病类别对目标疾病数据进行疾病评分,得到目标疾病数据属于每个候选疾病类别的目标置信度;比对目标置信度和预设的置信度阈值;若存在目标置信度高于置信度阈值,则选取数值最大的目标置信度对应的候选疾病类别作为目标病历数据的目标疾病类别;若不存在目标置信度高于置信度阈值,则获取目标病历数据的日志信息,并基于日志信息得到目标病历数据的目标疾病类别,能够结合疾病分类模型和日志信息来对目标病历数据进行疾病分类,能够适用于多种具体应用场景,同时基于目标置信度来判断以何种方式确定目标疾病类别,能够有针对性进行疾病分类,能够提高疾病分类的准确性。
请参阅图2,在一些实施例中,步骤S101可以包括但不限于包括步骤S201至步骤S202:
步骤S201,获取原始病历数据;
步骤S202,对原始病历数据进行数据清洗,得到目标病历数据。
在一些实施例的步骤S201中,可以通过编写网络爬虫,设置好数据源之后进行有目的性地爬取数据,得到原始病历数据。也可以是通过对用户进行图文咨询、电话回访、视频问诊等方式获得原始病历数据;或者是根据用户的体检报告、用户在健康数据平台上的标签记录获取到原始病历数据;还可以通过其他方式获取原始病历数据,不限于此。需要说明的是,该原始病历数据为自然语言文本。
在一种可能的实现方式中,自然语言文本为医疗文本,医疗文本可以是医疗电子记录(Electronic Healthcare Record),电子化的个人健康记录,包括病历、心电图、医学影像等一系列具备保存备查价值的电子化记录。
在一些实施例的步骤S202中,在对原始病历数据进行数据清洗时,可以对明显异常的数据进行删除,也可以对重复数据进行删除,还可以对缺失数据采样预设的参考数据进行数据替换等等。进一步地,在检测原始病历数据中的异常数据时,可以采用简单统计量分析、基于模型检测、基于距离或者基于聚类等多种方式检测异常数据,不做限制。
通过上述步骤S201至步骤S202能够较为全面地获取到原始病历数据,并基于多种方式对原始病历数据进行数据预处理,能够提高用于疾病分类的目标病历数据的数据质量,有利于改善疾病分类效果。
请参阅图3,在一些实施例中,步骤S102可以包括但不限于包括步骤S301至步骤S303:
步骤S301,对目标病历数据进行扫描处理,得到病历文本信息;
步骤S302,对病历文本信息进行字符识别,得到多个疾病描述字符;
步骤S303,对疾病描述字符进行整合,得到初步疾病数据。
在一些实施例的步骤S301中,由于目标病历数据包括纸质病历、电子病历等等,当目标病历数据为纸质病历时,可以利用预设的电子设备(例如扫描仪或者数码相机等等)对目标病历数据进行扫描处理,提取目标病历数据上的字符信息,并利用字符识别技术将字符翻译成计算机文字,得到病历文本信息。当目标病历数据为电子病历时,可以直接对电子文本形式的目标病历数据进行内容提取,得到病历文本信息。
在一些实施例的步骤S302中,可以基于现有的医学数据库构建医学字典,该医学字典可以包括各种医学场景名称或者疾病类型相关的医学专有名称、术语、非专有名词、疾病名称等等。基于医学字典的参考词汇对病历文本信息进行字符识别,提取出病历文本信息中用于描述疾病信息的词语,例如,将病历文本信息进行分词处理,将拆分得到的每个词语与医学字典中的参考词汇进行比对,若拆分得到的词语与医学字典中的参考词汇之间的相似度高于预设阈值,则将该词语作为病历文本信息的疾病描述字符,其中,可以用拆分得到的词语与医学字典中的参考词汇之间的余弦相似度、欧氏距离等等作为用于与预设阈值比对的相似度。基于这一方式能够从病历文本信息的多个文本词语中识别出能够表征疾病内容的疾病描述字符。
在一些实施例的步骤S303中,可以基于预设的语法规则将多个疾病描述字符进行排列组合成一个完整的句子文本,从而得到初步疾病数据。
通过上述步骤S201至步骤S202能够较为方便地对目标病历数据进行内容识别,提取到有用信息,剔除掉与疾病分类无关的冗余信息,能够有效地缩小数据总量,提高疾病分类效率。
在一些实施例的步骤S103之前,本申请实施例的疾病分类方法还包括预先构建疾病知识图谱,其中,预先构建疾病知识图像的过程可以包括但不限于包括以下步骤:
(1)获取历史病历数据,并根据历史病历数据构建初始知识图谱,其中,该历史病历数据可以从现有的医疗平台或者医疗数据库中获取,也可以是基于其他方式获取,不做限制。
具体地,可以通过编写网络爬虫,设置好数据源之后有目的性地爬取数据,得到历史病历数据。该历史病历数据包括对疾病分类的经验数据,对经验数据中的诊断疾病类别、症状类别等等进行统计,提取标准疾病分类数据,并计算诊断疾病类别和标准疾病类别之间的关联关系。根据上述的经验数据和关联关系构建初始知识图谱的模式图,再将该模式图中的结构化数据和非结构化数据转换成三元组,其中,三元组的表现形式为(诊断疾病类别-标准疾病类别-诊断疾病类别和标准疾病类别是否有对应关系)。例如,某一三元组可以表示为(糖尿病-糖尿病二级-是),将三元组通过知识融合的方式整合到初始知识图谱中,获得初始知识图像的数据图以及调整后的模式图,从而根据知识图谱的推理功能对初始知识图像进行逻辑检查,得到最终的初始知识图谱。
(2)利用贝叶斯网络对初始知识图谱进行挖掘处理,得到诊断疾病类别和标准疾病类别之间的相关性数据,将相关性数据映射到初始知识图谱中,更新初始知识图谱,得到疾病知识图谱。
由于贝叶斯网络能够将多元知识图解成一种可视化的概率知识表达与推理模型,该模型能够更为贴切地蕴含网络节点变量之间的因果关系及条件相关关系。同时,贝叶斯网络用条件概率表达各个信息要素之间的相关关系,能在有限的、不完整的、不确定的信息条件下进行学习和推理。在本申请实施例中,将贝叶斯网络用于对初始知识图谱进行挖掘,获得诊断疾病类别-标准疾病类别的直接和间接的关系作为挖掘结果(即相关性数据)。进一步地,可以通过MLP网络将相关性数据映射到初始知识图谱中,更新初始知识图谱,得到疾病知识图谱。
在一些实施例的步骤S103中,在基于预设的疾病知识图谱对初步疾病数据进行数据更新时,将疾病知识图谱的参考三元组与初步疾病数据中的疾病信息进行比对,若参考三元组中存在实体信息与该疾病信息表征相同的语义内容,则提取该参考三元组,得到目标三元组。将目标三元组和初步疾病数据进行数据整合,得到目标疾病数据。例如,某一初步疾病数据的疾病信息为“腹胀、小肠细菌过生长”,则将该疾病信息转换为向量形式,将向量形式的疾病信息与参考三元组的实体信息(即参考三元组中的诊断疾病类别和标准疾病类别)进行相似度比对,若向量形式的疾病信息与参考三元组的实体信息之间的余弦相似度或者欧式距离高于预设阈值,则表明疾病信息与实体信息表征相同的语义内容,将表征相同的语义内容的参考三元组作为目标三元组,针对这一例子,目标三元组包括(急性细菌性肠道感染-细菌性肠道感染-是)、(肠道细菌感染-细菌性肠道感染-是)、(消化不良-细菌性肠道感染-是)、(消化不良-胃肠肿瘤-是)等等。基于这一方式,将目标三元组和初步疾病数据进行数据整合,得到目标疾病数据,目标疾病数据包括有目标病历数据的疾病信息以及该疾病信息可能对应的标准疾病类别,即在目标疾病数据中,目标病历数据中的疾病信息与标准疾病类别之间存在一对一或者一对多的映射关系。例如,针对“腹胀、小肠细菌过生长”,存在着两种标准疾病类别与之对应,即“细菌性肠道感染”和“胃肠肿瘤”。通过预设的疾病知识图谱能够有针对地对标准疾病类别进行筛选,从而确定目标病历数据可能符合的疾病类别,能够有效地缩小疾病分类时的疾病类别判断范围,提高疾病分类的效率和准确性。
请参阅图4,在一些实施例中,步骤S104可以包括但不限于包括步骤S401至步骤S405:
步骤S401,将目标疾病数据输入至预设的疾病分类模型中,疾病分类模型包括特征提取网络、第一评分网络、第二评分网络;
步骤S402,基于特征提取网络对目标疾病数据进行语义提取,得到疾病语义特征;
步骤S403,基于第一评分网络和候选疾病类别对疾病语义特征进行召回评分,得到第一置信度;
步骤S404,基于第二评分网络的业务逻辑规则对疾病语义特征进行逻辑评分,得到第二置信度;
步骤S405,基于第一置信度和第二置信度,得到目标置信度。
在一些实施例的步骤S401中,可以利用预先编写的代码程序将目标疾病数据输入至预设的疾病分类模型中,疾病分类模型包括特征提取网络、第一评分网络、第二评分网络,其中,特征提取网络可以基于卷积神经网络模型等构建而成,特征提取网络主要用于对目标疾病数据进行疾病信息和标准疾病类别信息进行提取,得到疾病信息对应的疾病语义特征以及标准疾病类别信息对应的疾病类别特征。第一评分网络可以基于BERT模型构建而成,第一评分网络主要用于对提取到的疾病语义特征进行语义召回评分,实现模型对目标疾病数据属于每个候选疾病类别的评估;第二评分网络可以基于卷积神经网络模型等构建而成,第二评分网络包括至少一种业务逻辑规则,用于在业务逻辑层面对目标疾病数据属于每个候选疾病类别的评估,该业务逻辑规则可以是以分值映射表或者其他形式呈现,不做限制。
在一些实施例的步骤S402中,利用特征提取网络对目标疾病数据进行疾病信息和标准疾病类别信息进行提取,得到疾病信息对应的疾病语义特征以及标准疾病类别信息对应的疾病类别特征,并基于标准疾病类别信息对应的疾病类别特征生成候选疾病类别,即将目标疾病数据中与目标病历数据的疾病信息(即疾病语义特征)可能对应的标准疾病类别作为候选疾病类别。
在一些实施例的步骤S403中,基于第一评分网络对疾病语义特征进行词嵌入、transformer编码和池化处理,得到疾病语义特征对应的疾病语义向量,基于第一评分网络对每个疾病类别特征进行词嵌入、transformer编码和池化处理,得到每个候选疾病类别对应的疾病类别向量。最后,对疾病语义向量与每一疾病类别向量进行余弦相似度计算,得到每个疾病类别向量与疾病语义向量的余弦相似值,将该余弦相似值作为目标疾病数据属于每个候选疾病类别的第一置信度。
在一些实施例的步骤S404中,第二评分网络的业务逻辑规则可以根据实际业务需求以代码、函数等形式表现,将疾病语义特征和疾病类别特征转换为字符串形式,将字符串形式的疾病语义特征和疾病类别特征输入至该业务逻辑规则中进行逻辑评分,输出目标疾病数据属于每个候选疾病类别的第二置信度。
在一些实施例的步骤S405中,根据预设的权重参数对第一置信度和第二置信度进行加权计算,得到目标疾病数据属于每个候选疾病类别的目标置信度,其中,预设的权重参数可以根据实际业务需求设置,不做限制,例如,第一置信度的权重参数为0.6,第二置信度的权重参数为0.4,则每个候选疾病类别的目标置信度=0.6*该候选疾病类别的第一置信度+0.4*该候选疾病类别的第二置信度。
通过上述步骤S401至步骤S405能够较为方便地提取目标疾病数据中能够表征目标病历数据的疾病信息的疾病语义特征,并且结合模型语义召回评分和业务逻辑规则评分两种方式来计算每个候选疾病类别的置信度,使得得到的目标置信度更为准确、合理,有利于提高基于目标置信度确定的目标疾病类别的准确性。
在一些实施例的步骤S105中,在得到目标疾病数据中的疾病信息属于每个候选疾病类别的目标置信度之后,可以根据目标置信度来判断最匹配的候选疾病类别,即若目标置信度越大,则候选疾病类别与目标病历数据中的疾病信息越匹配;反之,若目标置信度越小,则候选疾病类别与目标病历信息中的疾病信息匹配情况越差。因此,可以比对目标置信度和预设的置信度阈值,该置信度阈值可以根据实际业务情况设置,不做限制。例如,置信度阈值为0.5,当目标置信度大于0.5时,则表明该候选疾病类别能够与目标病历数据中的疾病信息匹配,即可以将候选疾病类别作为目标病历数据中诊断的疾病类别。当目标置信度小于或者等于0.5时,则表明该候选疾病类别与目标病历数据中的疾病信息不匹配,即不适合将候选疾病类别作为目标病历数据中诊断的疾病类别。
在一些实施例的步骤S106中,由于目标置信度越大,则候选疾病类别与目标病历数据中的疾病信息越匹配,因此,若存在目标置信度高于置信度阈值,则数值最大的目标置信度对应的候选疾病类别与目标病历数据的诊断疾病类别最匹配,则选取数值最大的目标置信度对应的候选疾病类别作为目标病历数据的目标疾病类别,这一方式能够较为方便地确定目标病历数据的目标疾病类别,且以标准疾病类别的名称作为目标疾病类别的名称,能够使得目标疾病类别的命名更为规范化、合理化,能够提高疾病分类的准确性。
请参阅图5,在一些实施例中,步骤S107可以包括但不限于包括步骤S501至步骤S506:
步骤S501,若不存在目标置信度高于置信度阈值,则获取目标疾病数据的日志信息;
步骤S502,基于日志信息计算目标疾病数据的调用量;
步骤S503,根据调用量对目标疾病数据进行排序,得到目标疾病序列;
步骤S504,将目标疾病序列发送至疾病审核端;
步骤S505,接收疾病审核端根据目标疾病序列反馈的疾病标注数据;
步骤S506,基于疾病标注数据,得到目标病历数据的目标疾病类别。
在一些实施例的步骤S501中,若不存在目标置信度高于置信度阈值,则表明所有的候选疾病类别与目标病历数据中的疾病信息均不匹配,即不适合将前述的候选疾病类别作为目标病历数据中诊断的疾病类别,需要采用其他方式(例如人工标注等)来确定目标病历数据的目标疾病类别。因此,在不存在目标置信度高于置信度阈值时,通过预设的代码程序或者后台导出等方式获取目标疾病数据的日志信息,其中,该日志信息包括目标病历数据的疾病诊断结论(即疾病信息)以及诊断时间等内容。
在一些实施例的步骤S502中,根据日志信息中的诊断时间,统计预设时间段内每一疾病诊断结论出现的频次,将该频次作为这一疾病诊断结论的调用量,从而得到每一目标疾病数据的调用量。
在一些实施例的步骤S503中,根据调用量对目标疾病数据进行降序排列,将调用量大的目标疾病数据排在靠前位置,将调用量相对较小的目标疾病数据排在靠后位置,得到目标疾病序列,该目标疾病序列包括多个需要人工标注类别的疾病。
在一些实施例的步骤S504中,可以基于有线通信或者无线通信的方式将目标疾病序列发送至疾病审核端,使得疾病审核端的相关人员能够基于经验对目标疾病序列中的目标疾病数据进行类别标注,即依次标注每个目标疾病数据,并在目标疾病序列的所有疾病标记完毕之后,将疾病标注数据发送给疾病分类端。
进一步地,为了提高效率,还可以将目标疾病序列的目标疾病数据分为多个批次,在分批时可以均匀分批或者随机分批,在标记完每个批次的目标疾病数据的疾病类别之后,将该批次的疾病标注数据直接反馈,这种分批标注和分批反馈的方式有利于提高反馈效率,提高疾病分类的效率。
在一些实施例的步骤S505中,基于有线通信或者无线通信的方式接收疾病审核端根据目标疾病序列反馈的疾病标注数据,该疾病标注数据包括每个目标疾病数据以及其对应的疾病类别标签,为了提高传输效率,该疾病标注数据可以以字符串或者N进制数据(例如16进制数据)的形式呈现。
在一些实施例的步骤S506中,利用预设的数据解析工具(例如Power Bi等)对疾病标注数据进行内容解析,将疾病标注数据转换为可读格式,从而得到目标病历数据的目标疾病类别。
通过上述步骤S501至步骤S506能够在无法基于模型对目标病历数据进行疾病分类时,基于日志信息和人工标注的方式来对目标病历数据中涉及到的疾病进行分类,能够覆盖到更多的疾病分类场景,提高了疾病分类方法的适用性。
请参阅图6,在一些实施例的步骤S107之后,疾病分类方法还包括但不限于包括步骤S601和/或步骤S602:
步骤S601,基于目标病历数据和目标疾病类别对疾病知识图谱进行图谱内容更新;
步骤S602,基于目标病历数据和目标疾病类别对疾病分类模型进行模型更新。
在一些实施例的步骤S601中,将目标病历数据中的疾病描述信息与目标疾病类别进行关联,构建新的三元组,将该三元组存储至疾病知识图谱,实现对疾病知识图谱的内容更新,得到更新之后的疾病知识图谱。
在一些实施例的步骤S602中,将目标病历数据中的疾病描述信息与目标疾病类别进行关联,构建新的标签数据,即利用目标病历数据中的疾病描述信息和诊断描述作为样本疾病文本,将目标疾病类别作为该样本疾病文本的疾病类别标签,利用标签数据对疾病分类模型进行训练,不断地调整疾病分类模型的模型参数,直到满足训练要求,停止对疾病分类模型进行优化,得到更新之后的疾病分类模型。
通过上述步骤S601至步骤S602能够在利用疾病知识图谱和疾病分类模型进行疾病分类的同时,利用得到的分类数据对疾病知识图谱和疾病分类模型进行迭代优化和动态更新,使得用于疾病分类的疾病知识图谱和疾病分类模型能够具备最优的疾病分类性能,有助于提高疾病分类的覆盖率和准确性。
请参阅图7,在一些实施例中,在得到目标病历数据的目标疾病类别之后,疾病分类方法可以包括但不限于包括步骤S701至步骤S702:
步骤S701,将目标病历数据和目标疾病类别发送至理赔审核端;
步骤S702,接收理赔审核端根据目标病历数据和目标疾病类别反馈的审核结果,其中,审核结果用于表示目标病历数据对应的理赔案件为正常赔付或者表示目标病历数据对应的理赔案件为非正常赔付。
在一些实施例的步骤S701中,可以基于有线通信或者无线通信的方式将目标病历数据和目标疾病类别发送至理赔审核端,使得理赔审核端能够基于目标病历数据和目标疾病类别来识别相应的理赔案件是否存在异常情况,该理赔审核端可以基于机器审核或者人工核查等方式来确定相应的理赔案件是否为正常赔付,并根据审核情况生成相应的审核结果,该审核结果包括表示目标病历数据对应的理赔案件为正常赔付或者目标病历数据对应的理赔案件为非正常赔付。
在一些实施例的步骤S702中,在理赔审核端生成审核结果之后,理赔审核端同样可以采用有线通信或者无线通信的方式将审核结果发生至疾病分类端,使得疾病分类端接收理赔审核端根据目标病历数据和目标疾病类别反馈的审核结果,并对存在着异常赔付情况(即属于非正常赔付案件)的目标病历数据进行标注处理等等,根据标注情况对不同的目标病历数据采取相应的处理措施,从而提高疾病管理和理赔管理的合理性。
通过上述步骤S701至步骤S702能够较为方便地对涉及到疾病方面的理赔案件进行理赔情况判断,有利于提高理赔预测的准确性和理赔预测的效率。
本申请实施例的疾病分类方法,其通过获取目标病历数据;对目标病历数据进行内容提取,得到初步疾病数据;基于预设的疾病知识图谱对初步疾病数据进行数据更新,得到目标疾病数据,能够提高数据质量和数据规范性。进一步地,基于预设的疾病分类模型和候选疾病类别对目标疾病数据进行疾病评分,得到目标疾病数据属于每个候选疾病类别的目标置信度;比对目标置信度和预设的置信度阈值;若存在目标置信度高于置信度阈值,则选取数值最大的目标置信度对应的候选疾病类别作为目标病历数据的目标疾病类别;若不存在目标置信度高于置信度阈值,则获取目标病历数据的日志信息,并基于日志信息得到目标病历数据的目标疾病类别,能够结合疾病分类模型和日志信息来对目标病历数据进行疾病分类,能够适用于多种具体应用场景,同时结合模型语义召回评分和业务逻辑规则评分两种方式来计算每个候选疾病类别的置信度,使得得到的目标置信度更为准确、合理,从而基于目标置信度来判断以何种方式确定目标疾病类别,能够有针对性进行疾病分类,有利于提高疾病分类的准确性。本申请实施例结合了疾病知识图谱和疾病分类模型进行疾病分类,同时,又利用得到的分类数据对疾病知识图谱和疾病分类模型进行迭代优化和动态更新,使得用于疾病分类的疾病知识图谱和疾病分类模型能够具备最优的疾病分类性能,有助于提高疾病分类的覆盖率和准确性。
请参阅图8,本申请实施例还提供一种疾病分类装置,可以实现上述疾病分类方法,该装置包括:
数据获取模块801,用于获取目标病历数据;
内容提取模块802,用于对目标病历数据进行内容提取,得到初步疾病数据;
数据更新模块803,用于基于预设的疾病知识图谱对初步疾病数据进行数据更新,得到目标疾病数据;
疾病评分模块804,用于基于预设的疾病分类模型和候选疾病类别对目标疾病数据进行疾病评分,得到目标疾病数据属于每个候选疾病类别的目标置信度;
比对模块805,用于比对目标置信度和预设的置信度阈值;
筛选模块806,用于若存在目标置信度高于置信度阈值,则选取数值最大的目标置信度对应的候选疾病类别作为目标病历数据的目标疾病类别;
类别确定模块807,用于若不存在目标置信度高于置信度阈值,则获取目标病历数据的日志信息,并基于日志信息得到目标病历数据的目标疾病类别。
在一些实施例中,数据获取模块801包括:
数据获取单元,用于获取原始病历数据;
数据清洗单元,用于对原始病历数据进行数据清洗,得到目标病历数据。
在一些实施例中,内容提取模块802包括:
扫描单元,用于对目标病历数据进行扫描处理,得到病历文本信息;
字符识别单元,用于对病历文本信息进行字符识别,得到多个疾病描述字符;
整合单元,用于对疾病描述字符进行整合,得到初步疾病数据。
在一些实施例中,疾病评分模块804包括:
输入单元,用于将目标疾病数据输入至预设的疾病分类模型中,疾病分类模型包括特征提取网络、第一评分网络、第二评分网络;
语义提取单元,用于基于特征提取网络对目标疾病数据进行语义提取,得到疾病语义特征;
召回评分单元,用于基于第一评分网络和候选疾病类别对疾病语义特征进行召回评分,得到第一置信度;
逻辑评分单元,用于基于第二评分网络的业务逻辑规则对疾病语义特征进行逻辑评分,得到第二置信度;
置信度确定单元,用于基于第一置信度和第二置信度,得到目标置信度。
在一些实施例中,类别确定模块807包括:
日志获取单元,用于若不存在目标置信度高于置信度阈值,则获取目标疾病数据的日志信息;
调用量计算单元,用于基于日志信息计算目标疾病数据的调用量;
数据排序单元,用于根据调用量对目标疾病数据进行排序,得到目标疾病序列;
序列发送单元,用于将目标疾病序列发送至疾病审核端;
标注数据获取单元,用于接收疾病审核端根据目标疾病序列反馈的疾病标注数据;
类别确定单元,用于基于疾病标注数据,得到目标病历数据的目标疾病类别。
在一些实施例中,疾病分类装置还包括更新模块,具体包括:
图谱更新单元,用于基于目标病历数据和目标疾病类别对疾病知识图谱进行图谱内容更新;
和/或;
模型更新单元,用于基于目标病历数据和目标疾病类别对疾病分类模型进行模型更新。
在一些实施例中,疾病分类装置还包括审核模块,具体包括:
数据发送单元,用于将目标病历数据和目标疾病类别发送至理赔审核端;
审核结果接收单元,用于接收理赔审核端根据目标病历数据和目标疾病类别反馈的审核结果,其中,审核结果用于表示目标病历数据对应的理赔案件为正常赔付或者表示目标病历数据对应的理赔案件为非正常赔付。
该疾病分类装置的具体实施方式与上述疾病分类方法的具体实施例基本相同,在此不再赘述。
本申请实施例还提供了一种电子设备,电子设备包括:存储器、处理器、存储在存储器上并可在处理器上运行的程序以及用于实现处理器和存储器之间的连接通信的数据总线,程序被处理器执行时实现上述疾病分类方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
请参阅图9,图9示意了另一实施例的电子设备的硬件结构,电子设备包括:
处理器901,可以采用通用的CPU(CentralProcessingUnit,中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器902,可以采用只读存储器(ReadOnlyMemory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory,RAM)等形式实现。存储器902可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器902中,并由处理器901来调用执行本申请实施例的疾病分类方法;
输入/输出接口903,用于实现信息输入及输出;
通信接口904,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线905,在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息;
其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现上述疾病分类方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例提供的疾病分类方法、疾病分类装置、电子设备及计算机可读存储介质,其通过获取目标病历数据;对目标病历数据进行内容提取,得到初步疾病数据;基于预设的疾病知识图谱对初步疾病数据进行数据更新,得到目标疾病数据,能够提高数据质量和数据规范性。进一步地,基于预设的疾病分类模型和候选疾病类别对目标疾病数据进行疾病评分,得到目标疾病数据属于每个候选疾病类别的目标置信度;比对目标置信度和预设的置信度阈值;若存在目标置信度高于置信度阈值,则选取数值最大的目标置信度对应的候选疾病类别作为目标病历数据的目标疾病类别;若不存在目标置信度高于置信度阈值,则获取目标病历数据的日志信息,并基于日志信息得到目标病历数据的目标疾病类别,能够结合疾病分类模型和日志信息来对目标病历数据进行疾病分类,能够适用于多种具体应用场景,同时结合模型语义召回评分和业务逻辑规则评分两种方式来计算每个候选疾病类别的置信度,使得得到的目标置信度更为准确、合理,从而基于目标置信度来判断以何种方式确定目标疾病类别,能够有针对性进行疾病分类,有利于提高疾病分类的准确性。本申请实施例结合了疾病知识图谱和疾病分类模型进行疾病分类,同时,又利用得到的分类数据对疾病知识图谱和疾病分类模型进行迭代优化和动态更新,使得用于疾病分类的疾病知识图谱和疾病分类模型能够具备最优的疾病分类性能,有助于提高疾病分类的覆盖率和准确性。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图1-7中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。
Claims (10)
1.一种疾病分类方法,其特征在于,所述方法包括:
获取目标病历数据;
对所述目标病历数据进行内容提取,得到初步疾病数据;
基于预设的疾病知识图谱对所述初步疾病数据进行数据更新,得到目标疾病数据;
基于预设的疾病分类模型和候选疾病类别对所述目标疾病数据进行疾病评分,得到所述目标疾病数据属于每个所述候选疾病类别的目标置信度;
比对所述目标置信度和预设的置信度阈值;
若存在所述目标置信度高于所述置信度阈值,则选取数值最大的目标置信度对应的候选疾病类别作为所述目标病历数据的目标疾病类别;
若不存在所述目标置信度高于所述置信度阈值,则若不存在所述目标置信度高于所述置信度阈值,则获取所述目标病历数据的日志信息,并基于所述日志信息得到所述目标病历数据的目标疾病类别。
2.根据权利要求1所述的疾病分类方法,其特征在于,所述基于预设的疾病分类模型和候选疾病类别对所述目标疾病数据进行疾病评分,得到所述目标疾病数据属于每个所述候选疾病类别的目标置信度,包括:
将所述目标疾病数据输入至预设的疾病分类模型中,所述疾病分类模型包括特征提取网络、第一评分网络、第二评分网络;
基于所述特征提取网络对所述目标疾病数据进行语义提取,得到疾病语义特征;
基于所述第一评分网络和所述候选疾病类别对所述疾病语义特征进行召回评分,得到第一置信度;
基于所述第二评分网络的业务逻辑规则对所述疾病语义特征进行逻辑评分,得到第二置信度;
基于所述第一置信度和所述第二置信度,得到所述目标置信度。
3.根据权利要求1所述的疾病分类方法,其特征在于,所述若不存在所述目标置信度高于所述置信度阈值,则获取所述目标病历数据的日志信息,并基于所述日志信息得到所述目标病历数据的目标疾病类别,包括:
若不存在所述目标置信度高于所述置信度阈值,则获取目标疾病数据的日志信息;
基于所述日志信息计算所述目标疾病数据的调用量;
根据所述调用量对所述目标疾病数据进行排序,得到目标疾病序列;
将所述目标疾病序列发送至疾病审核端;
接收所述疾病审核端根据所述目标疾病序列反馈的疾病标注数据;
基于所述疾病标注数据,得到所述目标病历数据的所述目标疾病类别。
4.根据权利要求1所述的疾病分类方法,其特征在于,所述对所述目标病历数据进行内容提取,得到初步疾病数据,包括:
对所述目标病历数据进行扫描处理,得到病历文本信息;
对所述病历文本信息进行字符识别,得到多个疾病描述字符;
对所述疾病描述字符进行整合,得到所述初步疾病数据。
5.根据权利要求1所述的疾病分类方法,其特征在于,所述获取目标病历数据,包括:
获取原始病历数据;
对所述原始病历数据进行数据清洗,得到所述目标病历数据。
6.根据权利要求1所述的疾病分类方法,其特征在于,在得到所述目标病历数据的所述目标疾病类别之后,所述方法还包括:
将所述目标病历数据和所述目标疾病类别发送至理赔审核端;
接收所述理赔审核端根据所述目标病历数据和所述目标疾病类别反馈的审核结果,其中,所述审核结果用于表示所述目标病历数据对应的理赔案件为正常赔付或者表示所述目标病历数据对应的理赔案件为非正常赔付。
7.根据权利要求1至6任一项所述的疾病分类方法,其特征在于,在所述若不存在所述目标置信度高于所述置信度阈值,则获取所述目标病历数据的日志信息,并基于所述日志信息得到所述目标病历数据的目标疾病类别之后,所述方法包括:
基于所述目标病历数据和所述目标疾病类别对所述疾病知识图谱进行图谱内容更新;
和/或;
基于所述目标病历数据和所述目标疾病类别对所述疾病分类模型进行模型更新。
8.一种疾病分类装置,其特征在于,所述装置包括:
数据获取模块,用于获取目标病历数据;
内容提取模块,用于对所述目标病历数据进行内容提取,得到初步疾病数据;
数据更新模块,用于基于预设的疾病知识图谱对所述初步疾病数据进行数据更新,得到目标疾病数据;
疾病评分模块,用于基于预设的疾病分类模型和候选疾病类别对所述目标疾病数据进行疾病评分,得到所述目标疾病数据属于每个所述候选疾病类别的目标置信度;
比对模块,用于比对所述目标置信度和预设的置信度阈值;
筛选模块,用于若存在所述目标置信度高于所述置信度阈值,则选取数值最大的目标置信度对应的候选疾病类别作为所述目标病历数据的目标疾病类别;
类别确定模块,用于若不存在所述目标置信度高于所述置信度阈值,则获取所述目标病历数据的日志信息,并基于所述日志信息得到所述目标病历数据的目标疾病类别。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的疾病分类方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的疾病分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310834027.XA CN116844731A (zh) | 2023-07-07 | 2023-07-07 | 疾病分类方法、疾病分类装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310834027.XA CN116844731A (zh) | 2023-07-07 | 2023-07-07 | 疾病分类方法、疾病分类装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116844731A true CN116844731A (zh) | 2023-10-03 |
Family
ID=88168624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310834027.XA Pending CN116844731A (zh) | 2023-07-07 | 2023-07-07 | 疾病分类方法、疾病分类装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116844731A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117874240A (zh) * | 2024-03-12 | 2024-04-12 | 天津电力工程监理有限公司 | 基于知识图谱的审计文本分类方法、系统和设备 |
CN118152949A (zh) * | 2024-05-09 | 2024-06-07 | 联通时科(北京)信息技术有限公司 | 一种异常用户的识别方法、装置及可读存储介质 |
-
2023
- 2023-07-07 CN CN202310834027.XA patent/CN116844731A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117874240A (zh) * | 2024-03-12 | 2024-04-12 | 天津电力工程监理有限公司 | 基于知识图谱的审计文本分类方法、系统和设备 |
CN118152949A (zh) * | 2024-05-09 | 2024-06-07 | 联通时科(北京)信息技术有限公司 | 一种异常用户的识别方法、装置及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11182562B2 (en) | Deep embedding for natural language content based on semantic dependencies | |
CN113707307A (zh) | 病情分析方法、装置、电子设备及存储介质 | |
US20150019571A1 (en) | Method for population of object property assertions | |
CN116844731A (zh) | 疾病分类方法、疾病分类装置、电子设备及存储介质 | |
CN113704428B (zh) | 智能问诊方法、装置、电子设备及存储介质 | |
Tyagi et al. | Demystifying the role of natural language processing (NLP) in smart city applications: background, motivation, recent advances, and future research directions | |
CN116561538A (zh) | 问答评分方法、问答评分装置、电子设备及存储介质 | |
CN114519356B (zh) | 目标词语的检测方法、装置、电子设备及存储介质 | |
US20170169355A1 (en) | Ground Truth Improvement Via Machine Learned Similar Passage Detection | |
CN114897060B (zh) | 样本分类模型的训练方法和装置、样本分类方法和装置 | |
CN116541493A (zh) | 基于意图识别的交互应答方法、装置、设备、存储介质 | |
CN114360715A (zh) | 体质辨识方法、装置、电子设备及存储介质 | |
CN111881398A (zh) | 页面类型确定方法、装置和设备及计算机存储介质 | |
CN114360731A (zh) | 一种面向老年照护的医养结合知识服务系统构建方法 | |
CN115394393A (zh) | 智能诊疗数据处理方法、装置、电子设备及存储介质 | |
CN117373591A (zh) | 电子病历的疾病识别方法和装置、电子设备及存储介质 | |
CN116741396A (zh) | 文章归类方法和装置、电子设备和存储介质 | |
CN116956925A (zh) | 电子病历命名实体识别方法和装置、电子设备及存储介质 | |
CN116702743A (zh) | 文本相似度检测方法和装置、电子设备及存储介质 | |
CN116701604A (zh) | 问答语料库的构建方法和装置、问答方法、设备及介质 | |
CN116628207A (zh) | 文本分类模型的训练方法和装置、电子设备及存储介质 | |
CN115795007A (zh) | 智能问答方法、智能问答装置、电子设备及存储介质 | |
CN114998041A (zh) | 理赔预测模型的训练方法和装置、电子设备及存储介质 | |
CN116010593B (zh) | 疾病情感信息的确定方法、装置、计算机设备和存储介质 | |
CN114741490B (zh) | 一种问题答案选取的方法以及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |