CN114822874B - 一种基于特征偏差对齐的方剂功效分类方法 - Google Patents

一种基于特征偏差对齐的方剂功效分类方法 Download PDF

Info

Publication number
CN114822874B
CN114822874B CN202210574304.3A CN202210574304A CN114822874B CN 114822874 B CN114822874 B CN 114822874B CN 202210574304 A CN202210574304 A CN 202210574304A CN 114822874 B CN114822874 B CN 114822874B
Authority
CN
China
Prior art keywords
sample
prescription
training
traditional chinese
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210574304.3A
Other languages
English (en)
Other versions
CN114822874A (zh
Inventor
丁长松
高婉卿
李力松
黄辛迪
梁杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Chinese Medicine
Original Assignee
Hunan University of Chinese Medicine
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Chinese Medicine filed Critical Hunan University of Chinese Medicine
Priority to CN202210574304.3A priority Critical patent/CN114822874B/zh
Publication of CN114822874A publication Critical patent/CN114822874A/zh
Application granted granted Critical
Publication of CN114822874B publication Critical patent/CN114822874B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Toxicology (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于特征偏差对齐的方剂功效分类方法,包括以下步骤:S1,数据预处理模块:将方剂以最小语义单元进行划分,对同物异名中药进行替换,利用语言模型对最小语义单元进行预训练;S2,数据增广模块:基于方剂语义单元顺序性弱的特点,对原始样本进行随机乱序处理,生成副样本,所述原始样本与所述副样本共同构成训练样本;S3,深度学习特征提取网络模块:采用深度学习模型对所述训练样本进行特征提取,得到训练样本特征图;S4,特征偏差对齐无参网络模块:基于度量学习,对所述训练样本特征图进行偏差计算;S5,融合特征偏差对齐的优化函数:将所述训练样本特征图偏差计算作为交叉熵损失函数的正则项,共同参与网络参数的更新计算,提升网络样本特征的学习能力。

Description

一种基于特征偏差对齐的方剂功效分类方法
技术领域
本发明涉及中医药人工智能技术领域,特别涉及一种基于特征偏差对齐的方剂功效分类方法。
背景技术
中医药是中华民族优秀传统文化的重要组成部分,已经流传数千年,有其丰厚的文化底蕴和民众根基,在当今人类社会的医疗保健体系中仍发挥着重要作用。中药作为中医的物质载体,是在中医理论基础的指导下,经过采集、炮制、制剂,可用于防未病、治疾病,兼具康复与保健效能的药物总称。每味中药都具有不同的属性特征,即药性,包括性味归经、升降浮沉、毒性等。中药之间也具有多种相互作用关系,中医称之为“七情配伍”,包含单行、相须、相使、相畏、相杀、相恶、相反。其中中药的药性与配伍关系是中医辨证论治的基础,也是方剂组成的内在核心。方剂中的中药一般可分为君药、臣药、佐药、使药,医者对患者进行“望”“闻”“问”“切”得知病情,结合药性特征、药物七情关系,有选择地将药物进行联合使用,以起到对症治疗的功效。即方剂的功效是方剂防治疾病的效应,是中药相互作用的结果。当前,系统阐明组方配伍与功效之间深层关系是现代方剂研究中的一个紧迫问题,这也是中医学继承和创新的一个重要方向。
传统的方剂分析主要基于统计学方法,如利用关联规则分析用药规律、聚类算法分析方剂剂量、利用主成分分析方剂中药物含量。然而随着研究的深入,方剂数据样本量不断上升,传统的统计方法难以充分利用大样本,伴随高成本低效率,也无法有效挖掘出方剂中蕴藏的深层规律。因此,中医领域亟需一种新的方法来推动中医药的现代化研究。
方剂功效预测宏观上属于人工智能的文本分类问题。近年来,自然语言处理技术、深度学习模型在文本分类任务上均取得了不错的表现。然而方剂文本与公共领域自然文本存在相同之处,也具有明显的差异。相同的是都可划分为最小语义单元组成、遵循一定的组成规则,同样需要经过嵌入技术将最小语义单元或文本映射为向量表示;不同的是方剂组成具有无序性,长度较短,中医理论具有模糊性,方剂内隐藏的关系更为复杂。同时较少的高质量方剂样本量也给人工智能技术在中医研究进程中带来了难以估量的阻碍。
鉴于此,有必要提供一种结合方剂数据特点的深度学习方剂文本分类方法解决上述技术问题。
发明内容
本发明要解决的技术问题是提供一种基于特征偏差对齐的方剂功效分类方法,可实现深度学习分类模型在方剂功效预测任务上的性能表现,从而促进方剂内在配伍规律的探究。为了解决上述问题,其技术方案如下:
本发明的一种基于特征偏差对齐的方剂功效分类方法,所述方法包括以下步骤:
S1,数据预处理模块:将方剂以最小语义单元进行划分,对同物异名中药进行替换,利用语言模型对最小语义单元进行预训练;
S2,数据增广模块:基于方剂语义单元顺序性弱的特点,对原始样本进行随机乱序处理,生成副样本,所述原始样本与所述副样本共同构成训练样本;
S3,深度学习特征提取网络模块:采用深度学习模型对所述训练样本进行特征提取,得到训练样本特征图;
S4,特征偏差对齐无参网络模块:基于度量学习,对所述训练样本特征图进行偏差计算;
S5,融合特征偏差对齐的优化函数:将所述训练样本特征图偏差计算作为交叉熵损失函数的正则项,共同参与网络参数的更新计算,提升网络样本特征的学习能力。
进一步地,在步骤S1的所述数据预处理模块中,利用方剂组成弱语序特点,采用人工智能技术提升深度学习模型在方剂功效分类上的性能。
进一步地,步骤S1的所述数据预处理模块还包括:
S11,中药单元抽取,针对方剂数据,以每味中药名为最小语义单元,进行原始方剂组成划分与清洗;
S12,最小语义单元替换,构建中药别名库,针对方剂中存在的同物异名、同名异物中药进行替换;
S13,中药向量化表示,采用自然语言处理领域词向量技术,对方剂样本进行预训练,获得中药的初始化向量表示。
进一步地,步骤S11的所述中药单元抽取中,以有功效的方剂数据为有标签方剂数据,无功效的方剂数据为无标签方剂数据;以所述无标签方剂数据进行无监督的语言模型训练,所述有标签方剂数据中的中药进行检索获得对应的词向量表示。
进一步地,步骤S2所述数据增广模块中,对每一个方剂样本中的中药组成进行随机排序,改变原有的顺序,形成一个副样本,其他特征均不改变,所述原始样本与所述副样本共同构成训练样本。
进一步地,步骤S3中所述深度学习特征提取网络模块中,采用深度学习模型进行特征提取,所述原始样本与所述副样本同时进行训练,得到所述训练样本的特征图,将训练样本特征图进行归一化得到模型预测的所述原始样本与所述副样本标签分布结果。
进一步地,步骤S4的所述特征偏差对齐无参网络模块中,采用度量学习方法,对比所述原始样本与所述副样本的预测输出是否相等;
若相等,则表明网络对所述原始样本与所述副样本学习到了相近的特征;
若不相等,则表明网络对所述原始样本与所述副样本学习到的特征存在差异。
进一步地,所述原始样本与所述副样本预测输出不相等时,利用距离公式计算所述原始样本的特征图和所述副样本的特征图以及预测输出之间的距离;相等,赋予0值。
进一步地,步骤S5的所述融合特征偏差对齐的优化函数,对所述原始样本、所述副样本和所述原始样本的真实标签进行交叉熵损失计算;将所述原始样本、所述副样本的特征图距离、所述原始样本与所述副样本标签分布距离作为交叉熵计算的正则项参与网络的可训练参数的梯度计算,进行参数更新。
进一步地,训练完成后的深度学习模型,用以方剂功效分类。
本发明提供的基于特征偏差对齐的方剂功效分类方法,有益效果在于:
一、本发明提供的基于特征偏差对齐的方剂功效分类方法,针对方剂数据,以每味中药名为最小语义单元,进行原始方剂组成划分与清洗,构建中药别名库,针对方剂中存在的同物异名中药进行替换。有效降低方剂的特征维度,降低下游模型参数的复杂度。
二、本发明提供的基于特征偏差对齐的方剂功效分类方法,采用自然语言处理领域词向量技术,对方剂样本进行预训练,获得中药的初始化向量表示。从而代替传统的人工编码方式与简化复杂的特征工程步骤。
三、本发明提供的基于特征偏差对齐的方剂功效分类方法,对训练样本中的方剂的中药组成进行随机排序,形成一个副样本,其他特征均不改变,与原始样本构成一个样本对。在增添样本量的同时增强样本的多样性。
四、本发明提供的基于特征偏差对齐的方剂功效分类方法,设计特征偏差对齐无参网络模块,采用度量学习方法,对比原始样本与副样本预测输出是否相同,若不同,计算深度学习网络对原始样本与副样本训练获得的特征图的差异。
五、本发明提供的基于特征偏差对齐的方剂功效分类方法,将特征图、预测输出之间的距离作为交叉熵计算的正则项参与网络的可训练参数的梯度计算,进行参数更新,提升网络对方剂特征的学习能力,最终提升网络的方剂功效分类性能。为挖掘组方配伍原理,阐明中医原创思维做出新的贡献。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的基于特征偏差对齐的方剂功效分类方法的流程示意图;
图2是本发明的基于特征偏差对齐的方剂功效分类方法中,以卷积神经网络为例,进行特征提取获得特征图的流程示意图。
图1中,具体的分类方法流程为:
(1)对当前批次样本集进行数据增广,每个样本基于单词级别随机排序生成一个副样本,原始样本与副样本构成一个样本对,即原始样本与副样本共同构成训练样本,将训练样本集合作为训练数据;
(2)由特征提取层F进行特征提取,获得训练样本的特征图表示Pi、Pi′,并将Pi、Pi′输入全连接层FC得到线性输出空间映射Yi、Yi′;
(3)将Yi、Yi′输入特征对齐无参网络层进行偏差对齐,计算两者的差异EC
(4)Yi、Yi′进行softmax输出空间非线性映射,判断非线性空间内两者是否相等,不相等则计算Pi、Pi′间的差值EP,相等EP赋予0值;
(5)计算批次内样本与真实标签之间的误差LY,将累加后的值进行网络梯度计算,并反向传播更新网络参数;
(6)更新后的网络输入下一批次样本集重复步骤(1)-(5),直到训练结束。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式作进一步的说明。
在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例一
请参考图1和图2,本实施例的一种基于特征偏差对齐的方剂功效分类方法,该方法包括以下步骤:
S1,数据预处理模块:将方剂以最小语义单元进行划分,对同物异名中药进行替换,利用语言模型对最小语义单元进行预训练;
S2,数据增广模块:基于方剂语义单元顺序性弱的特点,对原始样本进行随机乱序处理,生成副样本,原始样本与副样本共同构成训练样本;
S3,深度学习特征提取网络模块:采用深度学习模型对训练样本进行特征提取,得到训练样本特征图;
S4,特征偏差对齐无参网络模块:基于度量学习,对训练样本特征图进行偏差计算;
S5,融合特征偏差对齐的优化函数:将训练样本特征图偏差计算作为交叉熵损失函数的正则项,共同参与网络参数的更新计算,提升网络样本特征的学习能力。
作为优选的实施方式,在步骤S1的数据预处理模块中,利用方剂组成弱语序特点,采用人工智能技术提升深度学习模型在方剂功效分类上的性能。
其中,步骤S1的数据预处理模块还包括:
S11,中药单元抽取,针对方剂数据,以每味中药名为最小语义单元,进行原始方剂组成划分与清洗;
S12,最小语义单元替换,构建中药别名库,针对方剂中存在的同物异名、同名异物中药进行替换;
S13,中药向量化表示,采用自然语言处理领域词向量技术,对方剂样本进行预训练,获得中药的初始化向量表示。
步骤S11的中药单元抽取中,以有功效的方剂数据为有标签方剂数据,无功效的方剂数据为无标签方剂数据;以无标签方剂数据进行无监督的语言模型训练,有标签方剂数据中的中药进行检索获得对应的词向量表示。
优选地,步骤S2数据增广模块中,对每一个方剂样本中的中药组成进行随机排序,改变原有的顺序,形成一个副样本,其他特征均不改变,原始样本与副样本共同构成训练样本。
步骤S3中深度学习特征提取网络模块中,采用深度学习模型进行特征提取,原始样本与副样本同时进行训练,得到训练样本的特征图,将训练样本特征图进行归一化得到模型预测的原始样本与所述副样本标签分布结果。
步骤S4的特征偏差对齐无参网络模块中,采用度量学习方法,对比原始样本与副样本的预测输出是否相等;
若相等,则表明网络对所述原始样本与所述副样本学习到了相近的特征;
若不相等,则表明网络对所述原始样本与所述副样本学习到的特征存在差异。
优选地,原始样本与副样本预测输出不相等时,利用距离公式计算原始样本的特征图和副样本的特征图以及预测输出之间的距离;相等,赋予0值。
步骤S5的融合特征偏差对齐的优化函数,对原始样本、副样本和原始样本的真实标签进行交叉熵损失计算;将原始样本、副样本的特征图距离、原始样本与副样本标签分布距离作为交叉熵计算的正则项参与网络的可训练参数的梯度计算,进行参数更新。
训练完成后的深度学习模型,用以方剂功效分类。
需要说明的是,本发明中所提及的文本组成乱序方法生成新样本,是基于方剂文本弱语序的特点。针对公共领域文本,应根据具体的数据特点进行新样本增广方法的合理选择。
实施例二
参考图1和图2,本实施例的一种基于特征偏差对齐的方剂功效分类方法,包括数据预处理模块、特征提取以及特征偏差对齐模块。其中数据预处理涉及数据增广模块,特征提取包含深度学习特征提取网络模块,融合特征偏差对齐的优化函数。各功能模块的作用、工作原理具体阐述如下:
数据预处理模块,将方剂以最小语义单元进行划分,对同物异名中药进行替换,利用语言模型对最小语义单元进行预训练。具体为:
中药单元抽取:针对方剂数据,以每味中药名为最小语义单元,进行原始方剂组成划分与清洗,清洗后的数据示例见表1所示;
表1数据示例
最小语义单元替换:中医发展至今,不同地区、学派以及时期都有自己的命名规则、用药习惯。中药中存在大量“同物异名”、“同名异物”的中药。“同物异名”即同一个物种有多个不同的名字,如表2中麦门冬有麦冬、忍冬、不死药等其他表示名称,然而本质上是相同的药性功效,“同物异名”现象的存在无疑会导致中医语料库文本特征维度增大,在数据量小的情况下,带来特征学习上的困难。“同名异物”指同一个名字可能涵括多个不同的中药品种,如表2 中地黄,可分为鲜地黄、干地黄和熟地黄,干地黄,性味甘苦,凉,归经入心、肝、肾经,而熟地黄性味甘,归经归肝、肾经,两者不能一概而论,然而方剂样本中存在大量未明确指明用药品种的数据,导致研究结果存在偏差。因此有必要构建中药别名库,针对方剂中存在的同物异名、同名异物中药进行替换;
表2部分同物异名及同名异物中药数据
中药向量化表示:对文本数据数字化转变是进行机器学习挖掘的前提,采用自然语言处理领域词向量技术,如Word2Vec、Elmo、Bert等预训练模型对方剂样本进行预训练,获得中药的初始化向量表示。
数据增广模块,基于方剂语义单元顺序性弱的特点,对训练样本进行随机乱序处理,生成副样本。原始样本集合以X表示,对齐样本集合以X′表示,则一个训练批次的样本S°={X,X′}。
特征提取模块,采用深度学习模型对原始样本-副样本对进行特征提取,得到样本对特征图。以卷积神经网络为例,进行特征提取获得特征图的流程见图2 所示:
公式计算见公式1至公式3,E(·)表示中药向量映射矩阵,W表示卷积核的参数。ci表示一个卷积结果,C表示一个内核结果的拼接。
ci=f(W·E(Xi)+b) (公式1)
C=[c1,c2,...,cj] (公式2)
P=tanh[pooling(C1),pooling(C2),...,pooling(Ck)] (公式3)
特征偏差对齐无参网络模块:通过数据增广生成的对齐样本Xi′来源于Xi,两者有相同的最小语义组成单元,同时实验数据集组成长度短且语义单元之间前后顺序关系微弱,组成位置的变换对特征提取结果影响较小。Xi、Xi′经空间映射得到的特征图Pi、Pi′,Pi即为特征提取网络获得的“先验知识”,Pi、Pi′为基于“先验知识”的归纳偏置,理想情况下Pi、Pi′、具有相似的空间分布;Pi、 Pi′经过全连接层映射到线性向量空间得到的Yi、Yi′同满足于上述假设,即Yi、Yi′应具有相似的概率分布(公式4,公式5,ω代表全连接层神经元参数)。基于以上思想,模型的特征学习能力越强则Pi、Pi′在样本特征空间内对齐程度越高;模型的预测性能越好,则Yi、Yi′在输出预测映射空间对齐程度越高。基于度量学习,对特征图进行偏差计算,计算公式如公式(4)所示;
Y=FC(pi,ω) 公式(4)
Yi′=FC(pi′,ω) 公式(5)
融合特征偏差对齐的优化函数,将特征图偏差损失计算(公式6,公式7,θ为网络可训练的参数)作为交叉熵损失函数的正则项,共同参与网络参数的更新计算,提升网络样本特征的学习能力。
线性预测映射空间中Y′逼近Yi,两者之间的差异计算本质属于回归问题,本发明采用均方误差(MSE,公式8)计算与之间的对齐距离:
将Yi与Y′与进行非线性映射到对应的类别表示空间g(Yi)与g(Yi′),g为非线性函数。g(Yi)与g(Yi′)两者相等,表明当前网络对两个样本学习到的特征无限接近;反之,网络对Xi、Xi′学习到的特征归纳偏差明显,此时需进行特征图偏差对齐。同理,Pi′应无限接近Pi,本发明使用MSE计算特征图表示偏差。LB为当前训练批次对齐累计偏差,公式见公式(9),算法见算法1。
LB(X,θ,ω)=∑B(Ep+Ec) 公式(9)
使用多分类交叉熵损失函数作为基础损失函数,定义见公式(10),YT为真实标签,YP为预测标签。融合特征偏差损失,得到本发明提出的融合特征偏差对齐的优化函数,如公式(11)所示。
PL(YT,YP)=-YP+∑jexp(YT[j]) 公式(10)
Loss=PL(YT,YP)+LB(X,θ,ω) 公式(11)
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。
以上结合附图对本发明的实施方式作出详细说明,但本发明不局限于所描述的实施方式。对本领域的技术人员而言,在不脱离本发明的原理和精神的情况下对这些实施例进行的多种变化、修改、替换和变型均仍落入在本发明的保护范围之内。

Claims (9)

1.一种基于特征偏差对齐的方剂功效分类方法,其特征在于,所述方法包括以下步骤:
S1,数据预处理模块:将方剂以最小语义单元进行划分,对同物异名中药进行替换,利用语言模型对最小语义单元进行预训练;
S2,数据增广模块:基于方剂语义单元顺序性弱的特点,对原始样本进行随机乱序处理,生成副样本,所述原始样本与所述副样本共同构成训练样本;
S3,深度学习特征提取网络模块:采用深度学习模型对所述训练样本进行特征提取,得到训练样本特征图;
S4,特征偏差对齐无参网络模块:基于度量学习,对所述训练样本特征图进行偏差计算;
S5,融合特征偏差对齐的优化函数:将所述训练样本特征图偏差计算作为交叉熵损失函数的正则项,共同参与网络参数的更新计算,提升网络样本特征的学习能力;其中,对所述原始样本、所述副样本和所述原始样本的真实标签进行交叉熵损失计算,将所述原始样本、所述副样本的特征图距离、所述原始样本与所述副样本标签分布距离作为交叉熵计算的正则项参与网络的可训练参数的梯度计算,进行参数更新。
2.根据权利要求1所述的方剂功效分类方法,其特征在于,在步骤S1的所述数据预处理模块中,利用方剂组成弱语序特点,采用人工智能技术提升深度学习模型在方剂功效分类上的性能。
3.根据权利要求1所述的方剂功效分类方法,其特征在于,步骤S1的所述数据预处理模块还包括:
S11,中药单元抽取,针对方剂数据,以每味中药名为最小语义单元,进行原始方剂组成划分与清洗;
S12,最小语义单元替换,构建中药别名库,针对方剂中存在的同物异名、同名异物中药进行替换;
S13,中药向量化表示,采用自然语言处理领域词向量技术,对方剂样本进行预训练,获得中药的初始化向量表示。
4.根据权利要求3所述的方剂功效分类方法,其特征在于,步骤S11的所述中药单元抽取中,以有功效的方剂数据为有标签方剂数据,无功效的方剂数据为无标签方剂数据;以所述无标签方剂数据进行无监督的语言模型训练,所述有标签方剂数据中的中药进行检索获得对应的词向量表示。
5.根据权利要求1所述的方剂功效分类方法,其特征在于,步骤S2所述数据增广模块中,对每一个方剂样本中的中药组成进行随机排序,改变原有的顺序,形成一个副样本,其他特征均不改变,所述原始样本与所述副样本共同构成训练样本。
6.根据权利要求5所述的方剂功效分类方法,其特征在于,步骤S3中所述深度学习特征提取网络模块中,采用深度学习模型进行特征提取,所述原始样本与所述副样本同时进行训练,得到所述训练样本的特征图,将训练样本特征图进行归一化得到模型预测的所述原始样本与所述副样本标签分布结果。
7.根据权利要求1所述的方剂功效分类方法,其特征在于,步骤S4的所述特征偏差对齐无参网络模块中,采用度量学习方法,对比所述原始样本与所述副样本的预测输出是否相等;
若相等,则表明网络对所述原始样本与所述副样本学习到了相近的特征;
若不相等,则表明网络对所述原始样本与所述副样本学习到的特征存在差异。
8.根据权利要求7所述的方剂功效分类方法,其特征在于,所述原始样本与所述副样本预测输出不相等时,利用距离公式计算所述原始样本的特征图和所述副样本的特征图以及预测输出之间的距离;相等,赋予0值。
9.根据权利要求1所述的方剂功效分类方法,其特征在于,训练完成后的深度学习模型,用以方剂功效分类。
CN202210574304.3A 2022-05-25 2022-05-25 一种基于特征偏差对齐的方剂功效分类方法 Active CN114822874B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210574304.3A CN114822874B (zh) 2022-05-25 2022-05-25 一种基于特征偏差对齐的方剂功效分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210574304.3A CN114822874B (zh) 2022-05-25 2022-05-25 一种基于特征偏差对齐的方剂功效分类方法

Publications (2)

Publication Number Publication Date
CN114822874A CN114822874A (zh) 2022-07-29
CN114822874B true CN114822874B (zh) 2023-10-10

Family

ID=82517448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210574304.3A Active CN114822874B (zh) 2022-05-25 2022-05-25 一种基于特征偏差对齐的方剂功效分类方法

Country Status (1)

Country Link
CN (1) CN114822874B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116484905B (zh) * 2023-06-20 2023-08-29 合肥高维数据技术有限公司 针对非对齐样本的深度神经网络模型训练方法
CN116680619A (zh) * 2023-07-28 2023-09-01 江西中医药大学 煎药时长分类预测方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108776835A (zh) * 2018-05-28 2018-11-09 嘉兴善索智能科技有限公司 一种深度神经网络训练方法
CN111476793A (zh) * 2020-03-10 2020-07-31 西北大学 动态增强磁共振成像处理方法、系统、存储介质、终端
CN111652216A (zh) * 2020-06-03 2020-09-11 北京工商大学 基于度量学习的多尺度目标检测模型方法
CN112597918A (zh) * 2020-12-25 2021-04-02 创新奇智(西安)科技有限公司 文本检测方法及装置、电子设备、存储介质
CN113870315A (zh) * 2021-10-18 2021-12-31 南京硅基智能科技有限公司 一种动作迁移模型的训练方法及动作迁移方法
CN114398983A (zh) * 2022-01-14 2022-04-26 腾讯科技(深圳)有限公司 分类预测方法、装置、设备、存储介质及计算机程序产品

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008842A (zh) * 2019-03-09 2019-07-12 同济大学 一种基于深度多损失融合模型的行人重识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108776835A (zh) * 2018-05-28 2018-11-09 嘉兴善索智能科技有限公司 一种深度神经网络训练方法
CN111476793A (zh) * 2020-03-10 2020-07-31 西北大学 动态增强磁共振成像处理方法、系统、存储介质、终端
CN111652216A (zh) * 2020-06-03 2020-09-11 北京工商大学 基于度量学习的多尺度目标检测模型方法
CN112597918A (zh) * 2020-12-25 2021-04-02 创新奇智(西安)科技有限公司 文本检测方法及装置、电子设备、存储介质
CN113870315A (zh) * 2021-10-18 2021-12-31 南京硅基智能科技有限公司 一种动作迁移模型的训练方法及动作迁移方法
CN114398983A (zh) * 2022-01-14 2022-04-26 腾讯科技(深圳)有限公司 分类预测方法、装置、设备、存储介质及计算机程序产品

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于深度递归神经网络的图像匹配;罗栋豪;《信息科技》(第1期);全文 *
多级注意力特征网络的小样本学习;汪荣贵;韩梦雅;杨娟;薛丽霞;胡敏;;电子与信息学报(第03期);全文 *

Also Published As

Publication number Publication date
CN114822874A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN111414393B (zh) 一种基于医学知识图谱的语义相似病例检索方法及设备
CN114822874B (zh) 一种基于特征偏差对齐的方剂功效分类方法
CN107016438B (zh) 一种基于中医辨证人工神经网络算法模型的系统
Yang et al. Emotion recognition for multiple context awareness
CN110297908A (zh) 诊疗方案预测方法及装置
CN112102937A (zh) 一种慢性病辅助决策的患者数据可视化方法及系统
CN110390021A (zh) 药品知识图谱构建方法、装置、计算机设备及存储介质
CN109669994A (zh) 一种健康知识图谱的构建方法及系统
Chen et al. CAAN: Context-aware attention network for visual question answering
CN113707339B (zh) 一种多源异质数据库间概念对齐与内容互译方法及系统
CN111754532B (zh) 图像分割模型搜索方法、装置、计算机设备及存储介质
CN116682553A (zh) 一种融合知识与患者表示的诊断推荐系统
Pan et al. Deep neural network-based classification model for Sentiment Analysis
CN113779220A (zh) 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法
CN117217223A (zh) 基于多特征嵌入的中文命名实体识别方法及系统
Liu et al. Deep neural network-based recognition of entities in Chinese online medical inquiry texts
Al-Sabri et al. Multi-view graph neural architecture search for biomedical entity and relation extraction
Lan et al. Contrastive knowledge integrated graph neural networks for Chinese medical text classification
Song et al. An intelligent virtual standard patient for medical students training based on oral knowledge graph
Sui et al. Trigger-gnn: a trigger-based graph neural network for nested named entity recognition
CN110299194A (zh) 基于综合特征表示与改进宽深度模型的相似病例推荐方法
Wan et al. Document-level relation extraction with hierarchical dependency tree and bridge path
CN112837820A (zh) 一种基于关联规则的中医体质分析方法
CN109859062A (zh) 一种结合深度稀疏编码器和拟牛顿法的社区发现分析方法
Li et al. Mapping client messages to a unified data model with mixture feature embedding convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant