CN115631851A - 处方推荐方法、装置、电子设备及非易失性存储介质 - Google Patents

处方推荐方法、装置、电子设备及非易失性存储介质 Download PDF

Info

Publication number
CN115631851A
CN115631851A CN202211362544.3A CN202211362544A CN115631851A CN 115631851 A CN115631851 A CN 115631851A CN 202211362544 A CN202211362544 A CN 202211362544A CN 115631851 A CN115631851 A CN 115631851A
Authority
CN
China
Prior art keywords
inquiry
target
vector
data
prescription
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211362544.3A
Other languages
English (en)
Inventor
周晓华
黄新霆
陈力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Big Data Research Institute Of Peking University
Original Assignee
Chongqing Big Data Research Institute Of Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Big Data Research Institute Of Peking University filed Critical Chongqing Big Data Research Institute Of Peking University
Priority to CN202211362544.3A priority Critical patent/CN115631851A/zh
Publication of CN115631851A publication Critical patent/CN115631851A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请公开了一种处方推荐方法、装置、电子设备及非易失性存储介质。其中,该方法包括:获取原始文本信息,其中,原始文本信息包括:问诊文本信息、疾病信息及证候信息;依据预训练模型,对原始文本信息进行向量化处理,得到目标向量数据,其中,目标向量数据包括:问诊向量数据、疾病词向量、证候词向量;依据目标神经网络,对问诊向量数据进行特征提取,得到问诊特征数据,其中,问诊向量数据为对问诊文本信息进行向量化处理后得到的目标向量数据;依据疾病词向量、证候词向量以及问诊特征数据,确定目标处方。本申请解决了由于目前的中医论治系统大多未采用自然语言处理技术,造成论治系统的处方推荐准确率差的技术问题。

Description

处方推荐方法、装置、电子设备及非易失性存储介质
技术领域
本申请涉及智能推荐技术领域,具体而言,涉及一种处方推荐方法、装置、电子设备及非易失性存储介质。
背景技术
在中医领域,辨证论治是中医认识疾病和治疗疾病的基本原则,是中医学对疾病的一种特殊的研究方法,其中,论治是根据辨证的结果,决定治疗方案,确定中医处方。然而,由于疾病和证候的复杂多样,加之医者水平、学术流派等影响,传统的论治方法,往往需要中医专家积累的临床经验,才能确定合适的中医处方,达到较好的治疗效果。
随着现代信息技术的发展,一些用于辅助医生开处方的中医论治系统也随之出现,然而,目前的中医论治系统大多未采用自然语言处理技术,造成论治系统的可靠性不高,往往存在处方推荐准确率差的问题。
针对上述的问题,目前尚未提出有效的解决方案。
申请内容
本申请实施例提供了一种处方推荐方法、装置、电子设备及非易失性存储介质,以至少解决由于目前的中医论治系统大多未采用自然语言处理技术,造成论治系统的处方推荐准确率差的技术问题。
根据本申请实施例的一个方面,提供了一种处方推荐方法,包括:获取原始文本信息,其中,原始文本信息包括:问诊文本信息、疾病信息及证候信息;依据预训练模型,对原始文本信息进行向量化处理,得到目标向量数据,其中,目标向量数据包括:问诊向量数据、疾病词向量、证候词向量;依据目标神经网络,对问诊向量数据进行特征提取,得到问诊特征数据,其中,问诊向量数据为对问诊文本信息进行向量化处理后得到的目标向量数据;依据疾病词向量、证候词向量以及问诊特征数据,确定目标处方。
可选地,问诊向量数据通过以下方式确定:确定问诊文本信息中的每个词的词向量;确定问诊文本信息中词向量所在句子的句子向量;确定词向量对应的位置向量,其中,位置向量用于表征词向量在句子中的位置信息;将词向量、句子向量及位置向量输入预训练模型进行处理,得到问诊向量数据。
可选地,将词向量、句子向量及位置向量输入预训练模型进行处理之前还包括:获取预训练文本信息,其中,所述预训练文本信息从中医知识库中获取,所述中医知识库中存储有用于记录中医知识的文本信息;按照预设概率选择预训练文本信息中的词语进行遮盖;依据预训练文本信息中被遮盖的词语和未被遮盖的词语,对初始模型进行训练,得到预训练模型。
可选地,依据目标神经网络,对问诊向量数据进行特征提取,得到问诊特征数据包括:依据问诊向量数据,建立目标关系图,其中,目标关系图用于表征问诊向量数据中词向量之间的关系;确定目标关系图对应的目标邻接矩阵和目标训练参数;依据目标邻接矩阵和目标训练参数,计算问诊向量数据中词向量的影响系数,其中,影响系数用于表征词向量对问诊向量数据中其余词向量的影响程度;依据影响系数和最大池化函数,确定问诊向量数据对应的目标特征数据。
可选地,依据疾病词向量、证候词向量以及问诊特征数据,确定目标处方包括:依据目标分类器和疾病词向量、证候词向量以及问诊特征数据,计算各个处方的置信度;确定置信度最高的处方为目标处方。
可选地,依据目标分类器和疾病词向量、证候词向量以及问诊特征数据,计算各个处方的置信度之前还包括:获取训练数据,其中,训练数据用于表征疾病信息、证候信息及问诊特征数据与处方的对应关系;依据训练数据,确定疾病信息、证候信息及问诊特征数据与处方之间的目标关联关系;依据目标关联关系,建立目标分类器。
可选地,依据预训练模型,对原始文本信息进行向量化处理之前还包括:依据预设词典,检测原始文本信息中是否存在非标准词语,其中,预设词典中包含多组标准词语与非标准词语,同一组中的标准词语与非标准词语互为同义词;在原始文本信息中存在非标准词语的情况下,依据预设词典将非标准词语替换为标准词语,其中,替换后的标准词语与替换前非标准词语互为同义词。
根据本申请实施例的另一个方面,还提供了一种处方推荐装置,包括:数据采集模块,用于获取原始文本信息,其中,原始文本信息包括:问诊文本信息、疾病信息及证候信息;预训练模块,用于依据预训练模型,对原始文本信息进行向量化处理,得到目标向量数据,其中,目标向量数据包括:问诊向量数据、疾病词向量、证候词向量;特征提取模块,用于依据目标神经网络,对问诊向量数据进行特征提取,得到问诊特征数据,其中,问诊向量数据为对问诊文本信息进行向量化处理后得到的目标向量数据;处方确定模块,用于依据疾病词向量、证候词向量以及问诊特征数据,确定目标处方。
根据本申请实施例的又一方面,还提供了一种电子设备,电子设备包括处理器,处理器用于运行程序,其中,程序运行时执行处方推荐方法。
根据本申请实施例的再一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的计算机程序,其中,非易失性存储介质所在设备通过运行计算机程序执行处方推荐方法。
在本申请实施例中,采用获取原始文本信息,其中,原始文本信息包括:问诊文本信息、疾病信息及证候信息;依据预训练模型,对原始文本信息进行向量化处理,得到目标向量数据,其中,目标向量数据包括:问诊向量数据、疾病词向量、证候词向量;依据目标神经网络,对问诊向量数据进行特征提取,得到问诊特征数据,其中,问诊向量数据为对问诊文本信息进行向量化处理后得到的目标向量数据;依据疾病词向量、证候词向量以及问诊特征数据,确定目标处方的方式,通过采用预训练模型对文本数据进行向量化处理,以及应用目标神经网络进行特征提取与处方推荐,达到了保证论治系统可靠性,提升处方推荐准确率的目的,进而解决了由于目前的中医论治系统大多未采用自然语言处理技术,造成论治系统的处方推荐准确率差的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的一种处方推荐的方法流程的示意图;
图2是根据本申请实施例提供的一种预训练模型的结构示意图;
图3是根据本申请实施例提供的一种预训练模型中对文本信息进行向量化处理的过程的示意图;
图4是根据本申请实施例提供的一种目标神经网络的框架结构示意图;
图5是根据本申请实施例提供的一种处方推荐的框架结构示意图;
图6是根据本申请实施例提供的一种中医论治系统的结构示意图;
图7是根据本申请实施例提供的一种处方推荐装置的结构示意图;
图8是根据本申请实施例提供的一种用于实现处方推荐的方法的计算机终端(或电子设备)的硬件结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
为了方便本领域技术人员更好地理解本申请实施例,现将本申请实施例涉及的部分技术术语或者名词解释如下:
证型:中医证型是中医所特有的一种名称,证型就是由不同的病因引起阴阳气血的不同变化导致人体的不同疾病状态。
四诊:指的是望、闻、问、切。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本申请实施例,提供了一种处方推荐的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例提供的一种处方推荐的方法流程的示意图,如图1所示,该方法包括如下步骤:
在本实施中,上述原始文本信息可以为患者的自诉以及医生的进一步询问信息。
步骤S102,获取原始文本信息,其中,原始文本信息包括:问诊文本信息、疾病信息及证候信息;
作为一种可选的实施方式,依据预训练模型,对原始文本信息进行向量化处理之前还包括以下步骤:依据预设词典,检测原始文本信息中是否存在非标准词语,其中,预设词典中包含多组标准词语与非标准词语,同一组中的标准词语与非标准词语互为同义词;在原始文本信息中存在非标准词语的情况下,依据预设词典将非标准词语替换为标准词语,其中,替换后的标准词语与替换前非标准词语互为同义词。
具体地,可以利用系统中预存知识库生成一个证候、疾病、症状描述的标准库,以及其相对应的同义词或其他描述;从而构成一个标准库词典;对于输入的词语,利用这个标准词典来替换成标准词,从而克服描述上的不统一的情况;
在本实施例中,在获得原始文本信息后,还可以删去文本中无实际含义的词语对原始文本信息进行精简。
步骤S104,依据预训练模型,对原始文本信息进行向量化处理,得到目标向量数据,其中,目标向量数据包括:问诊向量数据、疾病词向量、证候词向量;
在本实施例中,问诊向量数据通过以下方式确定:确定问诊文本信息中的每个词的词向量;确定问诊文本信息中词向量所在句子的句子向量;确定词向量对应的位置向量,其中,位置向量用于表征词向量在句子中的位置信息;将词向量、句子向量及位置向量输入预训练模型进行处理,得到问诊向量数据。
作为一种可选的实施方式,在确定原始文本信息中的每个词的词向量时,可以先对原始文本信息进行划分词语的处理,再将每个划分出的词语进行向量化处理得到词向量。
为了提升处方推荐的准确度,将词向量、句子向量及位置向量输入预训练模型进行处理之前还包括:获取预训练文本信息,其中,预训练文本信息为用于记录中医知识的文本信息;按照预设概率选择预训练文本信息中的词语进行遮盖;依据预训练文本信息中被遮盖的词语和未被遮盖的词语,对初始模型进行训练,得到预训练模型。
在本实施中,上述预训练文本信息可以从系统中预存的中医知识库中获取,预训练文本数据包括但不限于:中医医书、中医处方等,上述预训练模型为一种预训练语言模型,将预训练语言模型利用大规模无标注语料进行训练,获得包含丰富语义信息的文本向量表达。具体地,使用中医中的诊断、处方等文本信息(即上述预训练文本信息)进行训练,得到基于预训练语言模型的用于文本向量化的模型。
需要说明的是,上述预训练语言模型并不限定于某一种具体的模型,在本实施例中,上述预训练语言模型可以选用BERT模型。
具体地,预训练模型通过遮蔽语言来获取到文本的双向表示。在本实施例中,以15%的概率随机选中原文本(即上述原始文本信息)中的词语,被选中的词有80%的概率使用掩码“[MASK]”替换(相当于上述对词语进行遮盖),10%的概率使用随机的其他词语替换,10%的概率不进行替换,图2是根据本申请实施例提供的一种预训练模型的结构示意图,如图2所示,其中输入为{T1,T2,…,Tm+1,[MASK],Tm+3,Tm+4},即Tm+2位置上的词被掩码替换,通过其余未被遮盖的词语对Tm+2位置上的词进行预测,以此来实现对预训练模型的无监督训练。
举例说明,训练文本为“反复胃脘连胸骨后灼痛数年,复发伴月经紊乱数月。”,对原文本使用带掩码机制的语言模型进行无监督学习,即对原文本中的部分词使用“[MASK]”替换,最后用带“[MASK]”的文本去预测原文本,具体地,将原文本中的胃脘和月经紊乱用[MASK]作为替换,最后使用带掩码的文本预测原文本,如下所示:
原文本:反复胃脘连胸骨后灼痛数年,复发伴月经紊乱数月。
带掩码的文本:反复[MASK][MASK]连胸骨后灼痛数年,复发伴[MASK][MASK][MASK][MASK]数月。
在本实施例中,预训练模型在对文本信息进行向量化处理时,对问诊文本信息的处理需要确定三个部分,包括:词编码(即上述词向量)、位置编码(即上述位置向量)、句子编码(即上述句子向量),图3是根据本申请实施例提供的一种预训练模型中对文本信息进行向量化处理的过程的示意图,如图3所示,上述编码指代了词以及词所在的位置,能够更好的处理文本中前后文的关系,得到问诊文本信息对应的向量序列(即上述问诊向量数据)。
步骤S106,依据目标神经网络,对问诊向量数据进行特征提取,得到问诊特征数据,其中,问诊向量数据为对问诊文本信息进行向量化处理后得到的目标向量数据;
对于获取到的患者医案信息(即上述原始文本信息),通过预训练模型进行向量化之后,需要进一步进行处理分析,获取到论治的结果。对于疾病信息及证候信息,因为其本身是一个词语,因此可以直接转化为对应的词向量特征,对于自然化的语言文本(即上述问诊文本信息),如患者自述、病史、四诊信息等,可以利用图神经网络GNN(及上述目标神经网络)提取信息;最后汇总并进行分类处理。
在本申请的一些实施例中,依据目标神经网络,对问诊向量数据进行特征提取,得到问诊特征数据包括以下步骤:依据问诊向量数据,建立目标关系图,其中,目标关系图用于表征问诊向量数据中词向量之间的关系;确定目标关系图对应的目标邻接矩阵和目标训练参数;依据目标邻接矩阵和目标训练参数,计算问诊向量数据中词向量的影响系数,其中,影响系数用于表征词向量对问诊向量数据中其余词向量的影响程度;依据影响系数和最大池化函数,确定问诊向量数据对应的目标特征数据。
具体地,图4是根据本申请实施例提供的一种目标神经网络的框架结构示意图,如图4所示,在本实施例中,通过目标神经网络对问诊向量数据进行处理时,包括文本的图构图、词向量交互以及特征提取三个步骤,具体步骤如下:
步骤1,文本的图构建。将词与词之间的共现关系作为边来构造文本的图(即上述目标关系图),表示为G=(V,E),其中V表示词,E表示边。对于每一个图,利用边的关系可以生成相应的邻接矩阵A(即上述目标邻接矩阵)。词的共现关系表示在一个固定的滑动窗口中两个词出现的概率。
步骤2,基于图的词向量交互。利用目标神经网络来学习词汇之间的深层关系(相当于上述确定每个词向量的影响系数),一个词节点可以从其相邻的词节点接收信息a,然后与自身的向量编码h合并更新。其更新的具体过程如下公式所示:
at=Aht-1Wa
zt=σ(Wzat+Uzht-1+bz)
rt=σ(Wrat+Urht-1+br)
Figure BDA0003923181930000071
Figure BDA0003923181930000072
其中,A表示邻接矩阵,σ表示激活函数sigmoid,Wz,Uz,bz,Wr,Ur,br,Wh,Uh,bh均为可训练的参数,zt和rt分别是更新门和重置门,用于确定邻居节点对于当前节点的影响程度(即上述影响系数)ht为当前节点的词向量的向量编码,ht-1为邻居节点的词向量的向量编码,at表示节点之间交互的消息,用于更新词节点的向量编码,Wa是需要训练的权重矩阵,
Figure BDA0003923181930000073
是词向量交互后的向量编码,用于更新词向量。
步骤3,特征读取。通过词汇交互后,每个词节点的编码h都包含了上下文信息,通过对所有词节点的信息进行汇总,得到最终的特征信息hG。其具体过程如下式所示:
Figure BDA0003923181930000074
Figure BDA0003923181930000075
其中,f1,f2为两个多层感知器,并最后使用最大池化Max Pooling(即上述最大池化函数)来提取文本中的关键词,hv表示第v个节点的最终向量编码,
Figure BDA0003923181930000076
表示第v个节点在GNN第t轮的向量编码,|V|表示节点数量,h1,h2,…,hV表示所有节点的最终向量编码,即上述hv
步骤S108,依据疾病词向量、证候词向量以及问诊特征数据,确定目标处方。
在本申请的一些实施例中,依据疾病词向量、证候词向量以及问诊特征数据,确定目标处方包括:依据目标分类器和疾病词向量、证候词向量以及问诊特征数据,计算各个处方的置信度;确定置信度最高的处方为目标处方。
在本申请的一些实施例中,依据目标分类器和疾病词向量、证候词向量以及问诊特征数据,计算各个处方的置信度之前还包括:获取训练数据,其中,训练数据用于表征疾病信息、证候信息及问诊特征数据与处方的对应关系;依据训练数据,确定疾病信息、证候信息及问诊特征数据与处方之间的目标关联关系;依据目标关联关系,建立目标分类器。
在本实施例中,上述训练数据可以从中医知识库的名老中医古今医案数据中获得。
目前相关技术中的论治系统使用的技术较为落后,处方预测准确率低,且未融合中医知识库,没有充分挖掘古今医案中的名老中医的论治经验,而本申请中方案通过引入中医知识库的名老中医古今医案数据,大大提升了论治系统的可靠性。具体地,从知识库中抽取训练的数据,进行论治模型的训练,作为一种可选的实施方式,可以将证候(证型)和患者的问诊信息(四诊信息)和疾病信息作为输入,处方作为输出,预训练模型的参数值作为初始化参数,进行针对化训练,上述训练数据可以为疾病、证型、问诊信息,以及与上述信息对应的处方,例如,疾病:胃痛;证型:胃气阴两虚;处方:四君子汤。
在本实施例中,上述训练数据可以从中医知识库的名老中医古今医案数据中获得。
目前相关技术中的论治系统使用的技术较为落后,预测准确率低,且未融合中医知识库,没有充分挖掘古今医案中的名老中医的论治经验,而本申请中方案通过引入中医知识库的名老中医古今医案数据,大大提升了论治系统的可靠性。
图5是根据本申请实施例提供的一种处方推荐的框架结构示意图,如图5所示,本申请中的处方推荐方法使用预训练语言模型(即预训练模型)进行词的向量化,利用目标神经网络GNN对问诊文本信息的特征进行特征提取,最后通过目标分类器Softmax进行分类,得到目标处方,提高了论治系统的可靠性,使处方推荐的结果准确率更高。
举例说明,获取到的信息为:疾病:眩晕;证型:肝阳上亢,问诊信息为:眩晕、心烦、胸部胀闷、言语謇涩、舌质黯、舌苔薄白、脉弱、短脉,依据获得的疾病、证型和问诊信息,得到的推荐的目标处方为“天麻钩藤饮”。
作为一种可选的实施方式,在得到上述推荐的目标处方后,还可以进一步获取目标处方来源、功效等信息。在本实施例中,至少包括目标处方的具体组成成分、功效、主治疾病、制备方法、用药禁忌、药理作用等。
通过上述步骤,采用预训练模型对文本数据进行向量化处理,以及应用目标神经网络进行特征提取与处方推荐,达到了保证论治系统可靠性,提升处方推荐准确率的目的,进而解决了由于目前的中医论治系统大多未采用自然语言处理技术,造成论治系统的处方推荐准确率差的技术问题。
实施例2
根据本申请实施例,还提供了一种中医论治系统的实施例。图6是根据本申请实施例提供的一种中医论治系统的结构示意图,如图6所示,该中医论治系统可用于执行本申请中的处方推荐方法,中医论治系统中各模块可以执行如下步骤:
步骤1,通过知识库数据采集模块收集预训练数据;
在本实施例中,可以从中医知识库中收集各种中医文本,包括疾病、方剂、针灸、医案、中草药、中成药等的描述信息;
步骤2,通过论治模型预训练模块进行模型预训练;
具体地,使用收集到的预训练数据,使用带掩码机制的语言模型进行无监督学习,将文本中的部分词语进行遮盖,通过使用其余的词语来预测被遮盖的词语来训练模型;
步骤3,通过知识库数据采集模块收集训练数据,
在本实施例中,训练数据为从中医知识库的医案中收集“问诊信息+疾病信息-治法”的数据;
步骤4,通过论治模型训练模块进行论治模型训练;
具体地,使用步骤2中训练好的预训练模型,以及步骤3中收集到的“问诊信息+疾病信息-治法”数据,将患者的问诊信息和疾病信息作为输入,处方作为输出进一步训练模型;
步骤5,通过信息采集模块采集患者信息;
在本实施例中,采集患者的信息包括患者的自诉以及医生的进一步询问信息,以及患者的疾病和证型;
步骤6,通过数据处理模块进行数据处理,对将步骤5中患者的信息利用中医知识库进行数据的标准化以及数据清洗;
作为一种可选的实施方式,进行数据的标准化以及数据清洗包括如下步骤:依据预设词典,检测采集的信息中是否存在非标准词语,其中,预设词典中包含多组标准词语与非标准词语,同一组中的标准词语与非标准词语互为同义词;在采集的信息中存在所述非标准词语的情况下,依据预设词典将非标准词语替换为标准词语,其中,替换后的标准词语与替换前非标准词语互为同义词。
步骤7,通过论治模块进行智能论治;
具体地,使用步骤4中训练好的论治模型,输入经过的数据标准化和数据清洗后的数据,得到系统推荐的目标处方;
步骤8,治法来源模块获取目标处方的处方来源、功效等信息;
步骤9,通过治法审核模块进行处方审核;
在本实施例中,在获得推荐的目标证型后,可以获取医生针对该推荐目标处方的审核校验结果,如果审核校验结果为不通过将返回到步骤5进一步获取患者信息;
在本实施例中,在处方审核时,可以依据实际需求对目标处方进行修改或替换。
步骤10,通过结果存储模块进行结果存储,在审核校验结果为通过的情况下,将目标处方和全部的症状、证型、疾病等信息存储到中医知识库中,并提示是否继续训练模型;如果继续训练模型,将执行步骤3到步骤4。
需要说明的是,图6中的中医论治系统中的论治模型可划分为模型训练和模型使用两个部分,具体地,图6中知识库、知识库数据采集模块、数据处理模块、论治模型预训练模块以及论治模型训练模块共同组成了模型训练部分,信息采集模块、知识库数据处理模块、论治模块、治法来源模块、治法审核模块、结果存储模块共同组成了模型使用部分,上述模型训练部分和模型使用部分均可单独独立运行,可以依据实际需求选择性运行,在论治模型已完成训练的情况下,可以无需训练直接使用模型进行处方推荐,也可单独对模型进行训练强化等操作。本申请实施例中的中医论治系统应用上述处方推荐方法,通过结合中医知识库,利用名老中医的医案数据训练了一个以中医描述为基础的论治模型,保证了论治系统的可靠性;利用在线学习技术,通过不断的收集数据,持续的训练论治模型,不断的提高论治模型的处方推荐准确率;同时,提供了治法审核模块,防止因为症状描述不准确或症状过于复杂导致的论治错误,进一步提高了处方推荐的准确性。
实施例3
根据本申请实施例,还提供了一种处方推荐装置的实施例。图7是根据本申请实施例提供的一种处方推荐装置的结构示意图。如图7所示,该装置包括:
数据采集模块70,用于获取原始文本信息,其中,原始文本信息包括:问诊文本信息、疾病信息及证候信息;
预训练模块72,用于依据预训练模型,对原始文本信息进行向量化处理,得到目标向量数据,其中,目标向量数据包括:问诊向量数据、疾病词向量、证候词向量;
特征提取模块74,用于依据目标神经网络,对问诊向量数据进行特征提取,得到问诊特征数据,其中,问诊向量数据为对问诊文本信息进行向量化处理后得到的目标向量数据;
处方确定模块76,用于依据疾病词向量、证候词向量以及问诊特征数据,确定目标处方。
需要说明的是,上述处方推荐装置中的各个模块可以是程序模块(例如是实现某种特定功能的程序指令集合),也可以是硬件模块,对于后者,其可以表现为以下形式,但不限于此:上述各个模块的表现形式均为一个处理器,或者,上述各个模块的功能通过一个处理器实现。
需要说明的是,本实施例中所提供的处方推荐装置可用于执行图1所示的处方推荐方法,因此,对上述处方推荐方法的相关解释说明也适用于本申请实施例中,在此不再赘述。
实施例4
根据本申请实施例,还提供了一种用于实现处方推荐的方法的计算机终端的实施例。图8是根据本申请实施例提供一种用于实现处方推荐的方法的计算机终端(或电子设备)的硬件结构框图。如图8所示,计算机终端80(或电子设备80)可以包括一个或多个(图中采用802a、802b,……,802n来示出)处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器804、以及用于通信功能的传输模块806。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图8所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端80还可包括比图8中所示更多或者更少的组件,或者具有与图8所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端80(或电子设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器804可用于存储应用软件的软件程序以及模块,如本申请实施例中的处方推荐的方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器804内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的处方推荐的方法。存储器804可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器804可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端80。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输模块806用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端80的通信供应商提供的无线网络。在一个实例中,传输装置806包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置806可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端80(或电子设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图8所示的计算机设备(或电子设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图8仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或电子设备)中的部件的类型。
需要说明的是,图8所示的处方推荐的电子设备用于执行图1所示的处方推荐的方法,因此上述处方推荐的方法中的相关解释说明也适用于该处方推荐的电子设备,此处不再赘述。
实施例5
根据本申请实施例的再一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的计算机程序,其中,非易失性存储介质所在设备通过运行计算机程序执行以下处方推荐方法:获取原始文本信息,其中,原始文本信息包括:问诊文本信息、疾病信息及证候信息;依据预训练模型,对原始文本信息进行向量化处理,得到目标向量数据,其中,目标向量数据包括:问诊向量数据、疾病词向量、证候词向量;依据目标神经网络,对问诊向量数据进行特征提取,得到问诊特征数据,其中,问诊向量数据为对问诊文本信息进行向量化处理后得到的目标向量数据;依据疾病词向量、证候词向量以及问诊特征数据,确定目标处方。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种处方推荐方法,其特征在于,包括:
获取原始文本信息,其中,所述原始文本信息包括:问诊文本信息、疾病信息及证候信息;
依据预训练模型,对所述原始文本信息进行向量化处理,得到目标向量数据,其中,所述目标向量数据包括:问诊向量数据、疾病词向量、证候词向量;
依据目标神经网络,对所述问诊向量数据进行特征提取,得到问诊特征数据,其中,所述问诊向量数据为对所述问诊文本信息进行向量化处理后得到的所述目标向量数据;
依据所述疾病词向量、所述证候词向量以及所述问诊特征数据,确定目标处方。
2.根据权利要求1所述的处方推荐方法,其特征在于,所述问诊向量数据通过以下方式确定:
确定所述问诊文本信息中的每个词的词向量;
确定所述问诊文本信息中所述词向量所在句子的句子向量;
确定所述词向量对应的位置向量,其中,所述位置向量用于表征所述词向量在所述句子中的位置信息;
将所述词向量、句子向量及所述位置向量输入所述预训练模型进行处理,得到所述问诊向量数据。
3.根据权利要求2所述的处方推荐方法,其特征在于,将所述词向量、句子向量及所述位置向量输入所述预训练模型进行处理之前还包括:
获取预训练文本信息,其中,所述预训练文本信息从中医知识库中获取,所述中医知识库中存储有用于记录中医知识的文本信息;
按照预设概率选择所述预训练文本信息中的词语进行遮盖;
依据所述预训练文本信息中被遮盖的词语和未被遮盖的词语,对初始模型进行训练,得到所述预训练模型。
4.根据权利要求1所述的处方推荐方法,其特征在于,依据目标神经网络,对所述问诊向量数据进行特征提取,得到问诊特征数据包括:
依据所述问诊向量数据,建立目标关系图,其中,所述目标关系图用于表征所述问诊向量数据中词向量之间的关系;
确定所述目标关系图对应的目标邻接矩阵和目标训练参数;
依据所述目标邻接矩阵和所述目标训练参数,计算所述问诊向量数据中词向量的影响系数,其中,所述影响系数用于表征所述词向量对所述问诊向量数据中其余词向量的影响程度;
依据所述影响系数和最大池化函数,确定所述问诊向量数据对应的所述目标特征数据。
5.根据权利要求1所述的处方推荐方法,其特征在于,依据所述疾病词向量、证候词向量以及所述问诊特征数据,确定目标处方包括:
依据目标分类器和所述疾病词向量、证候词向量以及所述问诊特征数据,计算各个处方的置信度;
确定所述置信度最高的处方为所述目标处方。
6.根据权利要求5所述的处方推荐方法,其特征在于,依据目标分类器和所述疾病词向量、证候词向量以及所述问诊特征数据,计算各个处方的置信度之前还包括:
获取训练数据,其中,所述训练数据用于表征所述疾病信息、所述证候信息及所述问诊特征数据与所述处方的对应关系;
依据所述训练数据,确定所述疾病信息、所述证候信息及所述问诊特征数据与所述处方之间的目标关联关系;
依据所述目标关联关系,建立所述目标分类器。
7.根据权利要求1所述的处方推荐方法,其特征在于,依据预训练模型,对所述原始文本信息进行向量化处理之前还包括:
依据预设词典,检测所述原始文本信息中是否存在非标准词语,其中,所述预设词典中包含多组标准词语与非标准词语,同一组中的所述标准词语与所述非标准词语互为同义词;
在所述原始文本信息中存在所述非标准词语的情况下,依据所述预设词典将所述非标准词语替换为标准词语,其中,替换后的所述标准词语与替换前所述非标准词语互为同义词。
8.一种处方推荐装置,其特征在于,包括:
数据采集模块,用于获取原始文本信息,其中,所述原始文本信息包括:问诊文本信息、疾病信息及证候信息;
预训练模块,用于依据预训练模型,对所述原始文本信息进行向量化处理,得到目标向量数据,其中,所述目标向量数据包括:问诊向量数据、疾病词向量、证候词向量;
特征提取模块,用于依据目标神经网络,对所述问诊向量数据进行特征提取,得到问诊特征数据,其中,所述问诊向量数据为对所述问诊文本信息进行向量化处理后得到的所述目标向量数据;
处方确定模块,用于依据所述疾病词向量、所述证候词向量以及所述问诊特征数据,确定目标处方。
9.一种电子设备,所述电子设备包括处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述处方推荐方法。
10.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的计算机程序,其中,所述非易失性存储介质所在设备通过运行所述计算机程序执行权利要求1至7中任意一项所述处方推荐方法。
CN202211362544.3A 2022-11-02 2022-11-02 处方推荐方法、装置、电子设备及非易失性存储介质 Pending CN115631851A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211362544.3A CN115631851A (zh) 2022-11-02 2022-11-02 处方推荐方法、装置、电子设备及非易失性存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211362544.3A CN115631851A (zh) 2022-11-02 2022-11-02 处方推荐方法、装置、电子设备及非易失性存储介质

Publications (1)

Publication Number Publication Date
CN115631851A true CN115631851A (zh) 2023-01-20

Family

ID=84909153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211362544.3A Pending CN115631851A (zh) 2022-11-02 2022-11-02 处方推荐方法、装置、电子设备及非易失性存储介质

Country Status (1)

Country Link
CN (1) CN115631851A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116525100A (zh) * 2023-04-26 2023-08-01 脉景(杭州)健康管理有限公司 一种基于标签系统的中医开方反向校验方法及系统
CN117909910A (zh) * 2024-03-19 2024-04-19 成都工业学院 基于图注意力网络的系统异常日志自动检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116525100A (zh) * 2023-04-26 2023-08-01 脉景(杭州)健康管理有限公司 一种基于标签系统的中医开方反向校验方法及系统
CN117909910A (zh) * 2024-03-19 2024-04-19 成都工业学院 基于图注意力网络的系统异常日志自动检测方法

Similar Documents

Publication Publication Date Title
CN110516161A (zh) 一种推荐方法及装置
CN109670179B (zh) 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN115631851A (zh) 处方推荐方法、装置、电子设备及非易失性存储介质
CN109637669B (zh) 基于深度学习的治疗方案的生成方法、装置及存储介质
CN110297908A (zh) 诊疗方案预测方法及装置
WO2022267678A1 (zh) 视频问诊方法、装置、设备及存储介质
CN109669994A (zh) 一种健康知识图谱的构建方法及系统
CN109599185A (zh) 疾病数据处理方法、装置、电子设备及计算机可读介质
CN109741806A (zh) 一种医学影像诊断报告辅助生成方法及其装置
US20210287800A1 (en) Ai supported personalized, natural language-based patient interface for medical-bot
CN112182168B (zh) 病历文本分析方法、装置、电子设备及存储介质
CN116910172B (zh) 基于人工智能的随访量表生成方法及系统
WO2023155441A1 (zh) 医疗资源推荐方法、装置、设备及存储介质
CN111785366A (zh) 患者治疗方案的确定方法、装置及计算机设备
CN117854748A (zh) 一种基于知识图谱和生成式大模型的问诊方法及系统
CN114822874B (zh) 一种基于特征偏差对齐的方剂功效分类方法
CN115631852B (zh) 证型推荐方法、装置、电子设备及非易失性存储介质
CN111627561B (zh) 标准症状抽取方法、装置、电子设备和存储介质
Pradhan et al. ‘K-Bot’Knowledge Enabled Personalized Healthcare Chatbot
CN116975233A (zh) 医疗问题答案生成方法、装置以及存储介质、电子设备
CN114639489B (zh) 基于相互学习的问诊快捷回复推荐方法、装置及电子设备
CN115565655A (zh) 一种增强的辅助问诊方法
Jin et al. A knowledge-guided and traditional Chinese medicine informed approach for herb recommendation
Rabaey et al. SynSUM--Synthetic Benchmark with Structured and Unstructured Medical Records
CN110164523A (zh) 一种具有心智功能的智能健康分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination