CN112016295B - 症状数据处理方法、装置、计算机设备及存储介质 - Google Patents

症状数据处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112016295B
CN112016295B CN202010921651.XA CN202010921651A CN112016295B CN 112016295 B CN112016295 B CN 112016295B CN 202010921651 A CN202010921651 A CN 202010921651A CN 112016295 B CN112016295 B CN 112016295B
Authority
CN
China
Prior art keywords
symptom
data
vector
medical record
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010921651.XA
Other languages
English (en)
Other versions
CN112016295A (zh
Inventor
朱昭苇
孙行智
胡岗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010921651.XA priority Critical patent/CN112016295B/zh
Priority to PCT/CN2020/124221 priority patent/WO2021151328A1/zh
Publication of CN112016295A publication Critical patent/CN112016295A/zh
Application granted granted Critical
Publication of CN112016295B publication Critical patent/CN112016295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Pathology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及自然语言处理领域,公开了一种症状数据处理方法、装置、计算机设备及存储介质,其方法包括:获取症状数据;通过预设BERT编码器将症状数据处理为表征向量,表征向量基于症状数据中的症状特征数据而生成;症状特征数据包括症状名称和症状属性;预设BERT编码器经预训练任务训练后获得;预训练任务用于确定表征向量与症状名称和症状属性之间的关联关系;将表征向量输入预设TextCNN模型,获取预设TextCNN模型输出的分类结果。本发明可以提高分诊结果的准确性,提升分诊结果的质量。本发明还可应用于智慧城市的建设。

Description

症状数据处理方法、装置、计算机设备及存储介质
技术领域
本发明涉及自然语言处理领域,尤其涉及一种症状数据处理方法、装置、计算机设备及存储介质。
背景技术
分诊是指根据病人的症状及体征判断病人的病情及科室,并安排其就诊的过程。分诊结果的准确性,对于医院资源的合理分配,提高患者就诊效率具有重要意义。
目前医院分诊工作主要由分诊员处理。由于分诊工作面临全科室的分诊任务,难度大;同时医院就诊人数较多,分诊处理时间短,这两种因素会对分诊结果的准确性产生一定影响。
因而,有必要提供一种智能医疗引导方法,以解决当前分诊结果准确性不高的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种症状数据处理方法、装置、计算机设备及存储介质,以提高分诊结果的准确性,提升分诊结果的质量。
一种症状数据处理方法,包括:
获取症状数据;
通过预设BERT编码器将所述症状数据处理为表征向量,所述表征向量基于所述症状数据中的症状特征数据而生成;所述症状特征数据包括症状名称和症状属性;所述预设BERT编码器经预训练任务训练后获得;所述预训练任务用于确定所述表征向量与所述症状名称和症状属性之间的关联关系;
将所述表征向量输入预设TextCNN模型,获取所述预设TextCNN模型输出的分类结果。
一种症状数据处理装置,包括:
获取模块,用于获取症状数据;
数据处理模块,用于通过预设BERT编码器将所述症状数据处理为表征向量,所述表征向量基于所述症状数据中的症状名称及其属性而生成;所述预设BERT编码器经预训练任务训练后获得;所述预训练任务用于确定所述表征向量与所述症状名称和症状属性之间的关联关系;
数据输出模块,用于将所述表征向量输入预设TextCNN模型,获取所述预设TextCNN模型输出的分类结果。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述症状数据处理方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述症状数据处理方法。
上述症状数据处理方法、装置、计算机设备及存储介质,通过获取症状数据,以获得患者实时输入的原始数据。通过预设BERT编码器将所述症状数据处理为表征向量,所述表征向量基于所述症状数据中的症状特征数据而生成;所述症状特征数据包括症状名称和症状属性;所述预设BERT编码器经预训练任务训练后获得;所述预训练任务用于确定所述表征向量与所述症状特征数据之间的关联关系,在此处,通过预设BERT编码器将症状数据处理为表征向量,可以更好地提取出症状数据的特征,获得的表征向量包含的信息量更多,有利于提高分类结果的准确率。将所述表征向量输入预设TextCNN模型,获取所述预设TextCNN模型输出的分类结果,在此处,通过TextCNN模型的处理,可以准确识别出症状数据对应的分类结果,也即是提高分类结果的准确率。本发明可以提高分诊结果的准确性,提升分诊结果的质量。本发明可应用于智慧城市的智能医疗领域中,从而推动智慧城市的建设。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中症状数据处理方法的一应用环境示意图;
图2是本发明一实施例中症状数据处理方法的一流程示意图;
图3是本发明一实施例中症状数据处理方法的一流程示意图;
图4是本发明一实施例中症状数据处理方法的一流程示意图;
图5是本发明一实施例中症状数据处理方法的一流程示意图;
图6是本发明一实施例中症状数据处理方法的一流程示意图;
图7是本发明一实施例中症状数据处理装置的一结构示意图;
图8是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供的症状数据处理方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种症状数据处理方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
S10、获取症状数据。
本实施例中,症状数据处理方法可以在症状数据处理装置上执行。症状数据可以指患者自行在症状数据处理装置输入的数据。示意性的,患者首先输入自己的一个症状。症状数据处理装置会询问该症状的属性(持续时间和发作特点),然后根据输入的症状推荐患者可能有的其他症状。若患者肯定了该症状,则同样询问该症状的相关属性,否则询问下一个症状。当患者确定已完整描述其所有的症状后,可以通过点击“确认”按钮,完成症状数据的提交。在一些情况下,症状数据也可由分诊员辅助输入。
S20、通过预设BERT编码器将所述症状数据处理为表征向量,所述表征向量基于所述症状数据中的症状特征数据而生成;所述症状特征数据包括症状名称和症状属性;所述预设BERT编码器经预训练任务训练后获得;所述预训练任务用于确定所述表征向量与所述症状特征数据之间的关联关系。
本实施例中,预设BERT(Bidirectional Encoder Representations fromTransformers,双向转换编码)编码器是基于现有的BERT模型(参见谷歌公司2018年发表的论文《Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding》)改进后获得。在此处,预设BERT编码器是经预训练任务训练后获得的。预训练任务为自定义任务,该预训练任务定义为根据当前的表征向量推测该表征向量包含的症状名称及症状属性。预训练任务可以确保预设BERT编码器能够学习到输出的表征向量包含的信息,也即是,通过预训练任务确定表征向量与症状特征数据之间的关联关系。需要注意的是,在此处,关联关系体现在预设BERT编码器的模型参数之中。这样,能够准确地将症状名称和症状属性转换成一个整体的向量,即表征向量。生成的表征向量的数量与症状数据中的症状数量相等。也即是,症状数据中有多少个症状,则生成相同数量且对应的表征向量。
预设BERT编码器是预先经大量病历数据(与步骤S10的类型相同)训练后获得的。因而,生成的表征向量,除了包含输入的症状数据的特征外,还包含了预设BERT编码器预测的与症状数据相关的关联特征。
S30、将所述表征向量输入预设TextCNN模型,获取所述预设TextCNN模型输出的分类结果。
本实施例中,预设TextCNN模型(文本卷积神经网络)可以基于现有的TextCNN模型改进后获得。相较于现有的TextCNN模型,预设TextCNN模型输入的是经预设BERT编码器处理后生成的表征向量,而非随机初始化的词向量。在输入阶段,症状数据生成的所有表征向量均作为预设TextCNN模型的输入数据。在模型计算阶段,使用多个卷积核对输入数据进行卷积,在池化层中池化,池化层的输出连接全连接网络单元,最后使用softmax激活函数输出每一个分类的概率。在一示例中,预设TextCNN模型可以是二分类模型,其分类结果用于判定患者是否患有危重疾病。
步骤S10-S30中,通过获取症状数据,以获得患者实时输入的原始数据。通过预设BERT编码器将所述症状数据处理为表征向量,所述表征向量基于所述症状数据中的症状特征数据而生成;所述症状特征数据包括症状名称和症状属性;所述预设BERT编码器经预训练任务训练后获得;所述预训练任务用于确定所述表征向量与所述症状特征数据之间的关联关系,在此处,通过预设BERT编码器将症状数据处理为表征向量,可以更好地提取出症状数据的特征,获得的表征向量包含的信息量更多,有利于提高分类结果的准确率。将所述表征向量输入预设TextCNN模型,获取所述预设TextCNN模型输出的分类结果,在此处,通过TextCNN模型的处理,可以准确识别出症状数据对应的分类结果,也即是提高分类结果的准确率。
可选的,如图3所示,步骤S10,即所述获取症状数据,包括:
S101、获取第一症状数据。
第一症状数据指的是患者输入的第一个症状的症状名称和症状属性。如第一症状数据的症状名称为“咳嗽”,相应的属性数据包括“咳嗽三天”和“咳嗽带血丝”。一般情况下,一个症状名称与一个或多个属性数据关联。
S102、根据所述第一症状数据输出相关症状提示。
在获取到第一症状数据(对患者而言,则是完成第一症状数据的输入)之后,可以根据当前第一症状数据推荐患者可能存在的其他症状(可以使用常规的概率模型进行推荐),并生成相关症状提示。在一示例中,相关症状提示可以表示为:您除了“咳嗽”,是否还有“发热”的症状。
S103、基于所述相关症状提示获取第二症状数据;
在输出相关症状提示时,同时输出相应的选择框,分别为“是”和“否”。当患者选“是”时,则进行第二症状数据的收集。第二症状数据的获取方式与第一症状数据的获取方式基本相同,均为患者的输入数据。当患者选“否”时,则不收集当前相关症状提示所对应的第二症状数据。
需要注意的是,输出的相关症状提示的数量可以大于一。也就是说,收集到的第二症状数据可以大于一。在一些患者的症状数据中,可能包含的症状为3-5种。
S104、在确定症状数据收集完毕后,完成所述症状数据的获取,所述症状数据包括所述第一症状数据和所述第二症状数据。
当患者判断自己描述的症状已经是完整的,则可以点击“确认”按钮,以确定症状数据收集完毕。一般情况下,在所有症状数据中,只有一个第一症状数据,而第二症状数据的个数可以是任意非负整数,即可以是零或正整数。
步骤S101-S104中,获取第一症状数据,在此处,可以按照症状的不同逐步收集患者的症状数据,若存在多个症状数据,一般情况下,第一症状数据的重要度最高。根据所述第一症状数据输出相关症状提示,以确定患者是否存在与第一症状(即第一症状数据所对应的症状名称)相关的其他症状。基于所述相关症状提示获取第二症状数据,以进一步收集患者的症状数据(在此处,第二症状数据指的是除第一症状数据外的其他症状数据)。在确定症状数据收集完毕后,完成所述症状数据的获取,所述症状数据包括所述第一症状数据和所述第二症状数据,由此,可以获得比较详尽的症状数据,提高分类结果的准确性。
可选的,如图4所示,步骤S20,即所述通过预设BERT编码器将所述症状数据处理为表征向量,所述表征向量基于症状名称和症状属性而生成之前,还包括:
S201、建立预训练任务,使用word2vec模型将症状样本处理为若干个词向量,所述词向量包括基于症状名称生成的第一词向量,基于症状属性生成的第二词向量;
S202、将所述若干个词向量输入初始BERT网络模型,获取所述初始BERT网络模型输出的训练表征向量;
S203、根据所述训练表征向量计算所述初始BERT网络模型的损失值;
S204、若所述损失值处于预设范围之外,调整所述初始BERT网络模型的模型参数,并重新计算所述症状样本的训练表征向量;
S205、若所述损失值处于预设范围之内,则所述预训练任务训练完毕,训练完毕后的所述初始BERT网络模型即为所述预设BERT编码器。
本实施例中,预训练任务主要用于执行步骤S202-S204的循环迭代计算。在循环迭代计算之前,需要通过word2vec模型将症状样本转化为词向量。word2vec模型是一种用于产生词向量的模型。在一示例中,症状数据为{咳嗽:三天;带血丝},经word2vec模型转换后可以得到词向量emb1(咳嗽)、emb2(三天)和emb3(带血丝)。在此处,emb1为第一词向量,emb2和emb3为第二词向量。症状样本指的是用于训练初始BERT网络模型的训练数据,一般为某个地区的历史症状数据。
在获得词向量后,可以将各个词向量作为输入数据输入初始BERT网络模型,并生成训练表征向量,并计算相应的损失值。具体的,损失值可由损失函数计算获得。该损失函数定义为:
上式中,L(Vs,sym(n))为第n个症状的损失值;sym(n)表示症状列表中的第n个症状;Vs表示整体的表征向量;为第n个症状在表征向量中的损失项,/>为其他症状在表征向量中的损失项。通过损失函数可知,出现在表征向量里的症状,其损失值应该尽可能小,反之损失值应尽可能大。
预设范围可以根据实际需要进行调节。若损失值处于预设范围之内,则说明初始BERT网络模型已收敛,此时预训练任务训练完毕。训练完毕后的初始BERT网络模型即为预设BERT编码器。
步骤S201-S205中,建立预训练任务,使用word2vec模型将症状样本处理为若干个词向量,所述词向量包括基于症状名称生成的第一词向量,基于症状属性生成的第二词向量,以获得初始BERT网络模型的输入数据。将所述若干个词向量输入初始BERT网络模型,获取所述初始BERT网络模型输出的训练表征向量,以执行初始BERT网络模型的训练步骤。根据所述训练表征向量计算所述初始BERT网络模型的损失值,所获得的损失值可以用于调整模型参数及判断模型是否收敛。若所述损失值处于预设范围之外,调整所述初始BERT网络模型的模型参数,并重新计算所述症状样本的训练表征向量,以在模型未收敛时,进行迭代计算。若所述损失值处于预设范围之内,则所述预训练任务训练完毕,训练完毕后的所述初始BERT网络模型即为所述预设BERT编码器,在此处,获得了可用于生成表征向量的预设BERT编码器。
可选的,如图5所示,步骤S10之后,即所述获取症状数据之后,还包括:
S11、根据所述症状数据生成句向量;
S12、将所述句向量与本地病历库的病历句向量比较,计算余弦相似度;
S13、根据所述余弦相似度选取指定个数的匹配病历;
S14、获取所述匹配病历所属的就诊科室,将出现频次最高的就诊科室确定为推荐科室。
本实施例中,可以使用预设BERT编码器将症状数据处理为词向量(表征向量可以拆分为多个词向量),再结合本地病历库的TF-IDF值生成句向量。
已知症状数据的句向量和本地病历库中的病历句向量(可以是部分或全部),可以计算出相应的余弦相似度。余弦相似度高,则说明该病历与当前的症状数据相似度高。在计算完所有的余弦相似度后,可以按余弦相似度从高到低排序,选取排序在先的指定个数的匹配病历。在此处,指定个数可以根据实际需要进行设置,如可以是10个。
在选取出匹配病历后,可以获取各个匹配病历所属的就诊科室。每个匹配病历都有对应的就诊科室。示意性的,匹配病历与就诊科室的匹配关系可以表示为:
匹配病历1——就诊科室1;
匹配病历2——就诊科室3;
匹配病历3——就诊科室2;
……;
匹配病历10——就诊科室1。
可以将出现频次最高的就诊科室确定为推荐科室。推荐科室即为建议患者就诊的科室。
步骤S11-S14中,根据所述症状数据生成句向量,以结合本地数据的特点生成句向量。将所述句向量与本地病历库的病历句向量比较,计算余弦相似度,通过余弦相似度可以比较本地病历库中的病历句向量对应的病历与症状数据的相似度。根据所述余弦相似度选取指定个数的匹配病历,以获得相似度最高的匹配病历。获取所述匹配病历所属的就诊科室,将出现频次最高的就诊科室确定为推荐科室,以帮助患者选择最适合的科室。
可选的,如图6所示,步骤S12之前,即所述将所述句向量与本地病历库的病历句向量比较,计算余弦相似度之前,还包括:
S121、获取本地病历库的病历数据;
S122、使用所述预设BERT编码器处理所述病历数据,生成症状词向量查询词表,所述症状词向量查询词表包括每一症状的症状词向量;
S123、计算所述症状词向量的TF-IDF值;
S124、根据所述症状词向量和所述TF-IDF值生成每份病历的病历句向量。
本实施例中,病历数据与步骤S10中症状数据同属于同一地区的患者就诊数据。步骤S122中的预设BERT编码器与步骤S20中的预设BERT编码器训练方式相同,但输出形式略有不同。步骤S122中的预设BERT编码器输出的是症状词向量(Wemb),该词向量的维度为[1,1024]。然后,计算每个症状词向量对应的TF-IDF(term frequency–inverse documentfrequency,基于词频的逆文本频率指数)值,并将该TF-IDF值设置为该词向量的权重。TF-IDF值用于评估症状数据中的某个症状描述(词向量)对于病历数据(句向量)的重要程度。
病历句向量可通过以下公式进行转换:
其中,Semb为病历句向量,为第i个症状词向量,TF-IDFi为第i个症状词向量对应的TF-IDF值,k为病历中的症状总数量。
同样的,症状数据也可以采用步骤S122-S124生成相应的句向量。
步骤S121-S124中,获取本地病历库的病历数据,在此处,本地病历库为预先构建的用于存储本地病历数据的数据库,可以用于与步骤S10的症状数据比较。使用所述预设BERT编码器处理所述病历数据,生成症状词向量查询词表,所述症状词向量查询词表包括每一症状的症状词向量,在此处,将病历数据处理为向量形式,便于进行比较。计算所述症状词向量的TF-IDF值,在此处,TF-IDF值被设置为症状词向量在句向量中的权重。根据所述症状词向量和所述TF-IDF值生成每份病历的病历句向量,获得的病历句向量可与症状数据的句向量进行比较(通过计算余弦相似度),确定彼此的相似程度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种症状数据处理装置,该症状数据处理装置与上述实施例中症状数据处理方法一一对应。如图7所示,该症状数据处理装置包括获取模块10、数据处理模块20和数据输出模块30。各功能模块详细说明如下:
获取模块10,用于获取症状数据;
数据处理模块20,用于通过预设BERT编码器将所述症状数据处理为表征向量,所述表征向量基于所述症状数据中的症状名称及其属性而生成;所述预设BERT编码器经预训练任务训练后获得;所述预训练任务用于确定所述表征向量与所述症状名称和症状属性之间的关联关系;
数据输出模块30,用于将所述表征向量输入预设TextCNN模型,获取所述预设TextCNN模型输出的分类结果。
可选的,获取模块10包括:
获取第一数据单元,用于获取第一症状数据;
提示单元,用于根据所述第一症状数据输出相关症状提示;
获取第二数据单元,用于基于所述相关症状提示获取第二症状数据;
完成收集单元,用于在确定症状数据收集完毕后,完成所述症状数据的获取,所述症状数据包括所述第一症状数据和所述第二症状数据。
可选的,症状数据处理装置还包括:
建立任务模块,用于建立预训练任务,使用word2vec模型将症状样本处理为若干个词向量,所述词向量包括基于症状名称生成的第一词向量,基于症状属性生成的第二词向量;
模型训练模块,用于将所述若干个词向量输入初始BERT网络模型,获取所述初始BERT网络模型输出的训练表征向量;
损失计算模块,用于根据所述训练表征向量计算所述初始BERT网络模型的损失值;
迭代模块,用于若所述损失值处于预设范围之外,调整所述初始BERT网络模型的模型参数,并重新计算所述症状样本的训练表征向量,以计算所述初始BERT网络模型的损失值;
确定编码器模块,用于若所述损失值处于预设范围之内,则所述预训练任务训练完毕,训练完毕后的所述初始BERT网络模型即为所述预设BERT编码器。
可选的,症状数据处理装置还包括:
生成句向量模块,用于根据所述症状数据生成句向量;
计算余弦相似度模块,用于将所述句向量与本地病历库的病历句向量比较,计算余弦相似度;
匹配病历模块,用于根据所述余弦相似度选取指定个数的匹配病历;
确定科室模块,用于获取所述匹配病历所属的就诊科室,将出现频次最高的就诊科室确定为推荐科室。
可选的,计算余弦相似度模块包括:
获取本地病历数据单元,用于获取本地病历库的病历数据;
计算症状词向量单元,用于使用所述预设BERT编码器处理所述病历数据,生成症状词向量查询词表,所述症状词向量查询词表包括每一症状的症状词向量;
计算TF-IDF值单元,用于计算所述症状词向量的TF-IDF值;
生成病历句向量单元,用于根据所述症状词向量和所述TF-IDF值生成每份病历的病历句向量。
关于症状数据处理装置的具体限定可以参见上文中对于症状数据处理方法的限定,在此不再赘述。上述症状数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储上述症状数据处理方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种症状数据处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现以下步骤:
获取症状数据;
通过预设BERT编码器将所述症状数据处理为表征向量,所述表征向量基于所述症状数据中的症状特征数据而生成;所述症状特征数据包括症状名称和症状属性;所述预设BERT编码器经预训练任务训练后获得;所述预训练任务用于确定所述表征向量与所述症状名称和症状属性之间的关联关系;
将所述表征向量输入预设TextCNN模型,获取所述预设TextCNN模型输出的分类结果。
在一个实施例中,提供了一个或多个存储有计算机可读指令的计算机可读存储介质,本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时实现以下步骤:
获取症状数据;
通过预设BERT编码器将所述症状数据处理为表征向量,所述表征向量基于所述症状数据中的症状特征数据而生成;所述症状特征数据包括症状名称和症状属性;所述预设BERT编码器经预训练任务训练后获得;所述预训练任务用于确定所述表征向量与所述症状名称和症状属性之间的关联关系;
将所述表征向量输入预设TextCNN模型,获取所述预设TextCNN模型输出的分类结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (7)

1.一种症状数据处理方法,其特征在于,包括:
获取症状数据;
通过预设BERT编码器将所述症状数据处理为表征向量,所述表征向量基于所述症状数据中的症状特征数据而生成;所述症状特征数据包括症状名称和症状属性;所述预设BERT编码器经预训练任务训练后获得;所述预训练任务用于确定所述表征向量与所述症状特征数据之间的关联关系;
将所述表征向量输入预设TextCNN模型,获取所述预设TextCNN模型输出的分类结果;
所述通过预设BERT编码器将所述症状数据处理为表征向量,所述表征向量基于症状名称和症状属性而生成之前,还包括:
建立预训练任务,使用word2vec模型将症状样本处理为若干个词向量,所述词向量包括基于症状名称生成的第一词向量,基于症状属性生成的第二词向量;
将所述若干个词向量输入初始BERT网络模型,获取所述初始BERT网络模型输出的训练表征向量;
根据所述训练表征向量计算所述初始BERT网络模型的损失值;
若所述损失值处于预设范围之外,调整所述初始BERT网络模型的模型参数,并重新计算所述症状样本的训练表征向量,以计算所述初始BERT网络模型的损失值;
若所述损失值处于预设范围之内,则所述预训练任务训练完毕,训练完毕后的所述初始BERT网络模型即为所述预设BERT编码器;
所述获取症状数据之后,还包括:
根据所述症状数据生成句向量;
将所述句向量与本地病历库的病历句向量比较,计算余弦相似度;
所述将所述句向量与本地病历库的病历句向量比较,计算余弦相似度之前,还包括:
获取本地病历库的病历数据;
使用所述预设BERT编码器处理所述病历数据,生成症状词向量查询词表,所述症状词向量查询词表包括每一症状的症状词向量;
计算所述症状词向量的TF-IDF值;
根据所述症状词向量和所述TF-IDF值生成每份病历的病历句向量;
其中,所述病历句向量通过以下公式进行转换:
其中,Semb为病历句向量,wiemb为第i个症状词向量,TF―IDFi为第i个症状词向量对应的TF-IDF值,k为病历中的症状总数量。
2.如权利要求1所述的症状数据处理方法,其特征在于,所述获取症状数据,包括:
获取第一症状数据;
根据所述第一症状数据输出相关症状提示;
基于所述相关症状提示获取第二症状数据;
在确定症状数据收集完毕后,完成所述症状数据的获取,所述症状数据包括所述第一症状数据和所述第二症状数据。
3.如权利要求1所述的症状数据处理方法,其特征在于,所述将所述句向量与本地病历库的病历句向量比较,计算余弦相似度之后,还包括:
根据所述余弦相似度选取指定个数的匹配病历;
获取所述匹配病历所属的就诊科室,将出现频次最高的就诊科室确定为推荐科室。
4.一种症状数据处理装置,其特征在于,包括:
获取模块,用于获取症状数据;
数据处理模块,用于通过预设BERT编码器将所述症状数据处理为表征向量,所述表征向量基于所述症状数据中的症状名称及其属性而生成;所述预设BERT编码器经预训练任务训练后获得;所述预训练任务用于确定所述表征向量与所述症状名称和症状属性之间的关联关系;
数据输出模块,用于将所述表征向量输入预设TextCNN模型,获取所述预设TextCNN模型输出的分类结果;
建立任务模块,用于建立预训练任务,使用word2vec模型将症状样本处理为若干个词向量,所述词向量包括基于症状名称生成的第一词向量,基于症状属性生成的第二词向量;
模型训练模块,用于将所述若干个词向量输入初始BERT网络模型,获取所述初始BERT网络模型输出的训练表征向量;
损失计算模块,用于根据所述训练表征向量计算所述初始BERT网络模型的损失值;
迭代模块,用于若所述损失值处于预设范围之外,调整所述初始BERT网络模型的模型参数,并重新计算所述症状样本的训练表征向量,以计算所述初始BERT网络模型的损失值;
确定编码器模块,用于若所述损失值处于预设范围之内,则所述预训练任务训练完毕,训练完毕后的所述初始BERT网络模型即为所述预设BERT编码器;
生成句向量模块,用于根据所述症状数据生成句向量;
计算余弦相似度模块,用于将所述句向量与本地病历库的病历句向量比较,计算余弦相似度;
所述计算余弦相似度模块包括:
获取本地病历数据单元,用于获取本地病历库的病历数据;
计算症状词向量单元,用于使用所述预设BERT编码器处理所述病历数据,生成症状词向量查询词表,所述症状词向量查询词表包括每一症状的症状词向量;
计算TF-IDF值单元,用于计算所述症状词向量的TF-IDF值;
生成病历句向量单元,用于根据所述症状词向量和所述TF-IDF值生成每份病历的病历句向量;
其中,所述病历句向量通过以下公式进行转换:
其中,Semb为病历句向量,wiemb为第i个症状词向量,TF―IDFi为第i个症状词向量对应的TF-IDF值,k为病历中的症状总数量。
5.如权利要求4所述的症状数据处理装置,其特征在于,还包括:
匹配病历模块,用于根据所述余弦相似度选取指定个数的匹配病历;
确定科室模块,用于获取所述匹配病历所属的就诊科室,将出现频次最高的就诊科室确定为推荐科室。
6.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至3中任一项所述症状数据处理方法。
7.一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至3中任一项所述症状数据处理方法。
CN202010921651.XA 2020-09-04 2020-09-04 症状数据处理方法、装置、计算机设备及存储介质 Active CN112016295B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010921651.XA CN112016295B (zh) 2020-09-04 2020-09-04 症状数据处理方法、装置、计算机设备及存储介质
PCT/CN2020/124221 WO2021151328A1 (zh) 2020-09-04 2020-10-28 症状数据处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010921651.XA CN112016295B (zh) 2020-09-04 2020-09-04 症状数据处理方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112016295A CN112016295A (zh) 2020-12-01
CN112016295B true CN112016295B (zh) 2024-02-23

Family

ID=73515804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010921651.XA Active CN112016295B (zh) 2020-09-04 2020-09-04 症状数据处理方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN112016295B (zh)
WO (1) WO2021151328A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562809A (zh) * 2020-12-15 2021-03-26 贵州小宝健康科技有限公司 一种基于电子病历文本进行辅助诊断的方法及系统
CN113223735A (zh) * 2021-04-30 2021-08-06 平安科技(深圳)有限公司 基于对话表征的分诊方法、装置、设备及存储介质
CN113345574B (zh) * 2021-05-26 2022-03-22 复旦大学 基于bert语言模型与cnn模型的中医胃痛养生方案获取装置
CN113555086B (zh) * 2021-07-26 2024-05-10 平安科技(深圳)有限公司 基于机器学习的辩证分析方法、装置、设备及介质
CN113761201B (zh) * 2021-08-27 2023-12-22 河北工程大学 院前急救信息处理装置
CN113838579A (zh) * 2021-09-29 2021-12-24 平安医疗健康管理股份有限公司 一种医疗数据的异常检测方法、装置、设备及存储介质
CN115132303A (zh) * 2022-04-28 2022-09-30 腾讯科技(深圳)有限公司 生理标签预测方法、模型训练方法、装置、设备及介质
CN114822830B (zh) * 2022-06-27 2022-12-06 安徽讯飞医疗股份有限公司 问诊交互方法及相关装置、电子设备、存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170667A (zh) * 2017-11-30 2018-06-15 阿里巴巴集团控股有限公司 词向量处理方法、装置以及设备
CN108563725A (zh) * 2018-04-04 2018-09-21 华东理工大学 一种中文症状体征构成识别方法
CN109215754A (zh) * 2018-09-10 2019-01-15 平安科技(深圳)有限公司 病历数据处理方法、装置、计算机设备和存储介质
CN110246572A (zh) * 2019-05-05 2019-09-17 清华大学 一种基于词向量的医疗分诊方法及系统
CN110534185A (zh) * 2019-08-30 2019-12-03 腾讯科技(深圳)有限公司 标注数据获取方法、分诊方法、装置、存储介质及设备
KR20190139722A (ko) * 2018-06-08 2019-12-18 연세대학교 산학협력단 진단명 레이블링을 위한 딥러닝을 이용한 판독기록문으로부터 최종 진단명 추출 방법 및 장치
CN111259148A (zh) * 2020-01-19 2020-06-09 北京松果电子有限公司 信息处理方法、装置及存储介质
CN111415740A (zh) * 2020-02-12 2020-07-14 东北大学 问诊信息的处理方法、装置、存储介质及计算机设备
CN111477310A (zh) * 2020-03-04 2020-07-31 平安国际智慧城市科技股份有限公司 分诊数据处理方法、装置、计算机设备及存储介质
CN111553140A (zh) * 2020-05-13 2020-08-18 金蝶软件(中国)有限公司 数据处理方法、数据处理设备及计算机存储介质
WO2020170593A1 (ja) * 2019-02-18 2020-08-27 ソニー株式会社 情報処理装置及び情報処理方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11017180B2 (en) * 2018-04-18 2021-05-25 HelpShift, Inc. System and methods for processing and interpreting text messages
CN108922608A (zh) * 2018-06-13 2018-11-30 平安医疗科技有限公司 智能导诊方法、装置、计算机设备和存储介质
CN109192300A (zh) * 2018-08-17 2019-01-11 百度在线网络技术(北京)有限公司 智能问诊方法、系统、计算机设备和存储介质
CN109460473B (zh) * 2018-11-21 2021-11-02 中南大学 基于症状提取和特征表示的电子病历多标签分类方法
CN109635122A (zh) * 2018-11-28 2019-04-16 平安科技(深圳)有限公司 智能疾病问询方法、装置、设备及存储介质
US11810671B2 (en) * 2018-12-11 2023-11-07 K Health Inc. System and method for providing health information
US11195620B2 (en) * 2019-01-04 2021-12-07 International Business Machines Corporation Progress evaluation of a diagnosis process
CN109887587A (zh) * 2019-01-22 2019-06-14 平安科技(深圳)有限公司 智能分诊方法、系统、装置及存储介质
CN109978022B (zh) * 2019-03-08 2022-07-29 腾讯科技(深圳)有限公司 一种医疗文本信息处理方法及装置、存储介质
CN110348008A (zh) * 2019-06-17 2019-10-18 五邑大学 基于预训练模型和微调技术的医疗文本命名实体识别方法
CN111104799B (zh) * 2019-10-16 2023-07-21 中国平安人寿保险股份有限公司 文本信息表征方法、系统及计算机设备、存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170667A (zh) * 2017-11-30 2018-06-15 阿里巴巴集团控股有限公司 词向量处理方法、装置以及设备
CN108563725A (zh) * 2018-04-04 2018-09-21 华东理工大学 一种中文症状体征构成识别方法
KR20190139722A (ko) * 2018-06-08 2019-12-18 연세대학교 산학협력단 진단명 레이블링을 위한 딥러닝을 이용한 판독기록문으로부터 최종 진단명 추출 방법 및 장치
CN109215754A (zh) * 2018-09-10 2019-01-15 平安科技(深圳)有限公司 病历数据处理方法、装置、计算机设备和存储介质
WO2020170593A1 (ja) * 2019-02-18 2020-08-27 ソニー株式会社 情報処理装置及び情報処理方法
CN110246572A (zh) * 2019-05-05 2019-09-17 清华大学 一种基于词向量的医疗分诊方法及系统
CN110534185A (zh) * 2019-08-30 2019-12-03 腾讯科技(深圳)有限公司 标注数据获取方法、分诊方法、装置、存储介质及设备
CN111259148A (zh) * 2020-01-19 2020-06-09 北京松果电子有限公司 信息处理方法、装置及存储介质
CN111415740A (zh) * 2020-02-12 2020-07-14 东北大学 问诊信息的处理方法、装置、存储介质及计算机设备
CN111477310A (zh) * 2020-03-04 2020-07-31 平安国际智慧城市科技股份有限公司 分诊数据处理方法、装置、计算机设备及存储介质
CN111553140A (zh) * 2020-05-13 2020-08-18 金蝶软件(中国)有限公司 数据处理方法、数据处理设备及计算机存储介质

Also Published As

Publication number Publication date
WO2021151328A1 (zh) 2021-08-05
CN112016295A (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN112016295B (zh) 症状数据处理方法、装置、计算机设备及存储介质
Srivastava et al. Automatized medical chatbot (medibot)
WO2020237869A1 (zh) 一种问题意图识别方法、装置、计算机设备及存储介质
US20200401899A1 (en) Computationally efficient neural network architecture search
CN112084789B (zh) 文本处理方法、装置、设备及存储介质
CN112015868B (zh) 基于知识图谱补全的问答方法
CN112287089B (zh) 用于自动问答系统的分类模型训练、自动问答方法及装置
CN112015917A (zh) 基于知识图谱的数据处理方法、装置及计算机设备
CN111128391B (zh) 一种信息处理设备、方法和存储介质
WO2021164388A1 (zh) 分诊融合模型训练方法、分诊方法、装置、设备及介质
CN113196314A (zh) 适配预测模型
CN111191002A (zh) 一种基于分层嵌入的神经代码搜索方法及装置
CN110931137A (zh) 机器辅助对话系统、方法及装置
CN112307168A (zh) 基于人工智能的问诊会话处理方法、装置和计算机设备
CN111696661A (zh) 患者分群模型构建方法、患者分群方法及相关设备
WO2022134357A1 (zh) 分诊数据处理方法、装置、计算机设备及存储介质
WO2024001104A1 (zh) 一种图文数据互检方法、装置、设备及可读存储介质
Khilji et al. Healfavor: Dataset and a prototype system for healthcare chatbot
Xue et al. Automatic generation and recommendation for API mashups
CN113409907A (zh) 一种基于互联网医院的智能预问诊方法及系统
WO2022217715A1 (zh) 相似患者的识别方法、装置、计算机设备和存储介质
WO2021139271A1 (zh) 基于fm模型的医学热点的预测方法、装置和计算机设备
WO2021151356A1 (zh) 分诊数据处理方法、装置、计算机设备及存储介质
CN116992861B (zh) 基于数据处理的医疗服务智慧处理方法及系统
Sujudi et al. An Automatic Data Mapping for Interoperability of OpenEMR Medical Practice Management Software Using the Fast Healthcare Interoperability Resources

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40040157

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant