CN115879546A - 一种复合神经网络心理医学知识图谱构建方法及系统 - Google Patents

一种复合神经网络心理医学知识图谱构建方法及系统 Download PDF

Info

Publication number
CN115879546A
CN115879546A CN202211510443.6A CN202211510443A CN115879546A CN 115879546 A CN115879546 A CN 115879546A CN 202211510443 A CN202211510443 A CN 202211510443A CN 115879546 A CN115879546 A CN 115879546A
Authority
CN
China
Prior art keywords
layer
psychology
vector
neural network
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211510443.6A
Other languages
English (en)
Inventor
刘子轩
苏文婷
申艳光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Engineering
Original Assignee
Hebei University of Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Engineering filed Critical Hebei University of Engineering
Priority to CN202211510443.6A priority Critical patent/CN115879546A/zh
Publication of CN115879546A publication Critical patent/CN115879546A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种复合神经网络心理医学知识图谱构建方法及系统,涉及心理医学知识图谱领域。包括构建心理医学实体识别模型,包括改进的多层级特征提取BERT预处理层、BiLSTM双向长短记忆神经网络层,前向神经网络注意力层FNNAttention和CRF条件随机场四层;构建心理医学关系抽取模型,包括MFE‑BERT预处理层、CNN卷积神经网络层和FNNAttention三层。MFE‑BERT在BERT模型基础将其内部所有Encoder层特征进行合并输出,以获取包含更多语义的特征向量,同时对两复合模型采用FNNAttention机制强化词级关系,解决长文本全文标注不一致问题。

Description

一种复合神经网络心理医学知识图谱构建方法及系统
技术领域
本发明涉及心理医学知识图谱领域,具体而言,涉及一种复合神经网络心理医学知识图谱构建方法及系统。
背景技术
国内缺少开源的心理医学健康领域的知识图谱,参考当前已有文献,中文医学知识图谱所依赖知识源广泛,应用场景偏向通用化,不能很好适用心理医学领域,且心理医学领域知识种类复杂,相互依赖,已有的同领域数据主要通过封装的API接口对应用提供服务,仅有一小部分开源数据,使得构建心理医学领域知识图谱比较困难。现有的深度学习算法难以保证在文本的实体识别以及关系抽取的准确率。例如,传统实体识别方法是基于规则和字典的方法,多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、和中心词等方法,以模式和字符串相匹配为主要手段,这类系统大多依赖于知识库和词典的建立。但基于规则和字典的方法也有其缺陷:1、规则往往依赖于具体语言、领域和文本风格,制定规则的过程耗时且难以涵盖所有的语言,特别容易产生错误,对于不同的系统需要语言学专家重新书写规则。2、代价太大,存在系统建设周期长、需要建立不同领域知识库作为辅助以提高系统识别能力等问题。而采用基于统计学习的方法,最大熵模型结构紧凑,具有较好的通用性,主要缺点是训练时间复杂性非常高,有时甚至导致训练代价难以承受,另外由于需要明确的归一化计算,导致开销比较大。条件随机场为命名实体识别提供了一个特征灵活、全局最优的标注框架,但同时存在收敛速度慢、训练时间长的问题。因此,如何构建一个能够提高系统识别能力,特征灵活且训练时间快的心理医学知识图谱,是现有技术的重要研究内容。
发明内容
本发明的目的在于提供一种复合神经网络心理医学知识图谱构建方法,其能够建一个提高系统识别能力,特征灵活且训练时间快的心理医学知识图谱。
本发明的另一目的在于提供一种复合神经网络心理医学知识图谱构建系统,其能够建一个提高系统识别能力,特征灵活且训练时间快的心理医学知识图谱。
本发明的实施例是这样实现的:
第一方面,本申请实施例提供一种复合神经网络心理医学知识图谱构建方法,其包括如下步骤,S1心理医学数据源采集与处理:获取心理医学知识图谱的医学数据源;手动进行特殊字符清洗,将部分数据进行标注;S2心理医学实体识别:构建心理医学实体识别模型,包括改进的多层级特征提取BERT预处理层MFE-BERT、BiLSTM双向长短记忆神经网络层,前向神经网络注意力层FNNAttention和CRF条件随机场四层;上述心理医学实体识别模型的数据预处理层使用具有多头自注意力机制的双向Transformer,对其中输入的文本信息采用多层级特征抽取运算;具体运算如下:向量En=[e1,e2...en]进入Encoder层中经过线性变化得到查询矩阵Q、表征上下文关系矩阵K以及内容矩阵V,Q矩阵与K转置矩阵的积通过缩放因子
Figure BDA0003970612640000021
与softmax函数计算之后,对应各个词之间的相互关联程度,由点积内容矩阵K得到注意力分数值,如公式(1);
Figure BDA0003970612640000031
MFE-BERT模型中Encoder层使用多头注意力机制,每个head有64维,通过不同的线性变化获取Q、K、V矩阵,点积对应的权重矩阵Wi Q,Wi K,Wi V,从而得到每层注意力分值,如公式(2):headi=Attention(QWi Q,KWi K,VWi V)(2);将每层注意力分值进行Concat拼接以后,点乘附加的权重矩阵WO,即获得768维具有上下文语义信息的特征向量eij,如公式(3);eij=Concat(head1,…,head12)Wo(3),公式(4)是对12层Encoder中输出的特征向量通过Concat函数进行拼接工作,如公式(4);cei=Concat(ei1,ei2,…,ei12)(4),对向量进行全链接映射降维处理:xi=tanh(cei+bi)(5),其中bi为位置偏置向量;上述位置偏置向量与特征向量的和通过正切函数tanh()进行降维,使得MFE-BERT模型训练出的特征向量维度与下游任务维度对应,最终输出一个具有深层语义信息的特征向量,即输入下一模型双向长短记忆神经网络层的词嵌入,如公式(6):ft=σ(Wf·[ht-1,xt]+bf)(6),其中,ft为遗忘门输出值,xt为t时刻输入词向量,bf为遗忘门位置偏置向量,Wf为遗忘门权重矩阵,ht-1为隐藏层前一时刻状态,σ为Sigmoid激活函数;it=σ(Wi·[ht-1,xt]+bi)(7),其中,it为记忆门输出值,bi为记忆门位置偏置向量,Wi为记忆门权重矩阵;/>
Figure BDA0003970612640000032
其中,/>
Figure BDA0003970612640000033
为记忆神经元临时状态,bc为临时状态位置偏置向量,Wc为临时状态权重矩阵,tanh()为正切函数进行降维;/>
Figure BDA0003970612640000034
其中,t时刻记忆神经元更新状态Ct;ot=σ(Wo[ht-1,xt]+bo)(10),其中,ot为输出门输出值,bo为记忆门位置偏置向量,Wo为输出门权重矩阵;其中,LSTM模型的遗忘、记忆与输出由上一时刻隐藏层状态ht和t时刻输入词向量xt计算出来的遗忘门ft,记忆门it,输出门ot来决定,ht=ot*tanh(Ct)(11);FNNAttention层采用前向神经网络注意力机制,具体运算细则如下:et=μ(lt)(12),其中,μ()是前向神经网络自学习函数,仅通过状态序列lt学习;lt是通过双向长短期记忆网络得到每个字的全文状态序列表示;/>
Figure BDA0003970612640000041
其中,经过神经网络自学习得到数值k,再通过softmax指数函数来获取其注意力权重αt
Figure BDA0003970612640000042
其中,注意力机制是通过计算参数ht的自调整加权平均值得到的具有全局特征信息的向量c;其中,将向量c与状态序列lt进行拼接,通过非线性激活函数计算得到pt:pt=tanh[lt,c](15);gt=tanh(Wppt+bp)(16),zt=tanh(Wzpt+bz)(17),其中,pt通过一个全链接层得到低维向量gt,gt重复上一计算得到更低维向量zt,zt再次映射得到各字增强语义向量;CRF条件随机场的CRF模型将输入序列定义为X(i)={x1,x2,x3,...,xi},预测序列定义为Y(i)={y1,y2,y3,...,yi},词向量的个数为n,标签的数量为k;CRF模型在已给的输入序列X的基础上,计算输出序列的条件分布概率分布P(Y|X);其中向量集每个标签的评分公式为:/>
Figure BDA0003970612640000043
M表示转移矩阵,大小为(k+2)×(k+2),Mij表示第i个标签转移为第j个标签的分数,Pij表示为第i个词第j个标签的分数,大小为n×k;预测序列Y产生的概率为:/>
Figure BDA0003970612640000044
其中,/>
Figure BDA0003970612640000045
表示真实标签序列,YX表示所有标签序列集合,通过极大似然函数计算得到正确标签的最大概率,如公式(20):
Figure BDA0003970612640000046
通过Viterbi算法来获得全局最优序列,如公式(21):/>
Figure BDA0003970612640000047
S3心理医学关系抽取:构建心理医学关系抽取模型,包括改进的多层级特征提取BERT预处理层MFE-BERT,CNN卷积神经网络层和前向神经网络注意力层FNNAttention
三层;心理医学关系抽取模型采用的MFE-BERT预处理层和FNNAttention层与上述心理医学实体识别模型采用的MFE-BERT预处理层和FNNAttention层相同;心理医学关系抽取模型采用基本卷积神经网络模型,具体运算如下:
Figure BDA0003970612640000051
表示/>
Figure BDA0003970612640000052
特征图对应的权值大小,/>
Figure BDA0003970612640000053
表示特征偏移向量,对其集合进行激活函数计算得到
Figure BDA0003970612640000054
即卷积层的特征图;S4形成自动化构建知识图谱系统:构建心理医学知识图谱,包括通过数据层提取信息,以及将多元组数据转储至图数据库;其中上述数据层通过上述心理医学实体识别模型进行实体识别,上述心理医学关系抽取模型进行关系抽取,将文本数据转为Json形式的上述多元组数据;根据上述多元组数据构建上述心理医学知识图谱,同时将内容保存至Neo4j图数据库中。
第二方面,本申请实施例提供一种复合神经网络心理医学知识图谱构建系统,其包括如下内容,心理医学数据源采集与处理模块:获取心理医学知识图谱的医学数据源;手动进行特殊字符清洗,将部分数据进行标注;心理医学实体识别模块:构建心理医学实体识别模型,包括MFE-BERT预处理层、BiLSTM双向长短记忆神经网络层、FNNAttention前向神经网络注意力机制和CRF条件随机场四层;上述心理医学实体识别模型的数据预处理层使用具有多头自注意力机制的双向Transformer,对其中输入的文本信息采用多层级特征抽取运算;具体运算如下:向量En=[e1,e2...en]进入Encoder层中经过线性变化得到查询矩阵Q、表征上下文关系矩阵K以及内容矩阵V,Q矩阵与K转置矩阵的积通过缩放因子
Figure BDA0003970612640000055
与softmax函数计算之后,对应各个词之间的相互关联程度,由点积内容矩阵K得到注意力分数值,如公式(1);/>
Figure BDA0003970612640000061
MFE-BERT模型中Encoder层使用多头注意力机制,每个head有64维,通过不同的线性变化获取Q、K、V矩阵,点积对应的权重矩阵Wi Q,Wi K,Wi V,从而得到每层注意力分值,如公式(2):headi=Attention(QWi Q,KWi K,VWi V)(2);将每层注意力分值进行Concat拼接以后,点乘附加的权重矩阵WO,即获得768维具有上下文语义信息的特征向量eij,如公式(3):eij=Concat(head1,…,head12)Wo(3),对12层Encoder中输出的特征向量通过Concat函数进行拼接工作,如公式(4):cei=Concat(ei1,ei2,…,ei12)(4);对向量进行全链接映射降维处理:xi=tanh(cei+bi)(5),其中bi为位置偏置向量;上述位置偏置向量与特征向量的和通过正切函数tanh()进行降维,使得MFE-BERT模型训练出的特征向量维度与下游任务维度对应,最终输出一个具有深层语义信息的特征向量,即输入下一模型双向长短记忆神经网络层的词嵌入,如公式(6):ft=σ(Wf·[ht-1,xt]+bf)(6),其中,ft为遗忘门输出值,xt为t时刻输入词向量,bf为遗忘门位置偏置向量,Wf为遗忘门权重矩阵,ht-1为隐藏层前一时刻状态,σ为Sigmoid激活函数;it=σ(Wi·[ht-1,xt]+bi)(7),其中,it为记忆门输出值,bi为记忆门位置偏置向量,Wi为记忆门权重矩阵;/>
Figure BDA0003970612640000062
其中,/>
Figure BDA0003970612640000063
为记忆神经元临时状态,bc为临时状态位置偏置向量,Wc为临时状态权重矩阵,tanh()为正切函数进行降维;/>
Figure BDA0003970612640000064
其中,t时刻记忆神经元更新状态Ct;ot=σ(Wo[ht-1,xt]+bo)(10),其中,ot为输出门输出值,bo为记忆门位置偏置向量,Wo为输出门权重矩阵;其中,LSTM模型的遗忘、记忆与输出由上一时刻隐藏层状态ht和t时刻输入词向量xt计算出来的遗忘门ft,记忆门it,输出门ot来决定,ht=ot*tanh(Ct)(11);FNNAttention层采用前向神经网络注意力机制,具体运算细则如下:et=μ(lt)(12),其中,μ()是前向神经网络自学习函数,仅通过状态序列lt学习;lt是通过双向长短期记忆网络得到每个字的全文状态序列表示;/>
Figure BDA0003970612640000071
其中,经过神经网络自学习得到数值k,再通过softmax指数函数来获取其注意力权重αt
Figure BDA0003970612640000072
其中,注意力机制是通过计算参数ht的自调整加权平均值得到的具有全局特征信息的向量c;其中,将向量c与状态序列lt进行拼接,通过非线性激活函数计算得到pt:pt=tanh[lt,c](15);gt=tanh(Wppt+bp)(16),zt=tanh(Wzpt+bz)(17),其中,pt通过一个全链接层得到低维向量gt,gt重复上一计算得到更低维向量zt,zt再次映射得到各字增强语义向量;CRF条件随机场的CRF模型将输入序列定义为X(i)={x1,x2,x3,...,xi},预测序列定义为Y(i)={y1,y2,y3,...,yi},词向量的个数为n,标签的数量为k;CRF模型在已给的输入序列X的基础上,计算输出序列的条件分布概率分布P(Y|X);其中向量集每个标签的评分公式为:/>
Figure BDA0003970612640000073
(18),其中M表示转移矩阵,大小为(k+2)×(k+2),Mij表示第i个标签转移为第j个标签的分数,Pij表示为第i个词第j个标签的分数,大小为n×k;预测序列Y产生的概率为:/>
Figure BDA0003970612640000074
其中,/>
Figure BDA0003970612640000075
表示真实标签序列,YX表示所有标签序列集合,通过极大似然函数计算得到正确标签的最大概率,如公式(20):
Figure BDA0003970612640000076
通过Viterbi算法来获得全局最优序列,如公式(21):/>
Figure BDA0003970612640000077
心理医学关系抽取模块:构建心理医学关系抽取模型,包括改进的多层级特征提取BERT预处理层MFE-BERT,CNN卷积神经网络层和前向神经网络注意力层FNNAttention三层;心理医学关系抽取模型采用的MFE-BERT预处理层和FNNAttention层与上述心理医学实体识别模型采用的MFE-BERT预处理层和FNNAttention层相同;心理医学关系抽取模型采用基本卷积神经网络模型,具体运算如下:
Figure BDA0003970612640000081
表示/>
Figure BDA0003970612640000082
特征图对应的权值大小,/>
Figure BDA0003970612640000083
表示特征偏移向量,对其集合进行激活函数计算得到/>
Figure BDA0003970612640000084
即卷积层的特征图;知识图谱系统自动化构建模块:构建心理医学知识图谱,包括通过数据层提取信息,以及将多元组数据转储至图数据库;其中上述数据层通过上述心理医学实体识别模型进行实体识别,上述心理医学关系抽取模型进行关系抽取,将文本数据转为Json形式的上述多元组数据;根据上述多元组数据构建上述心理医学知识图谱,同时将内容保存至Neo4j图数据库中。
相对于现有技术,本发明的实施例至少具有如下优点或有益效果:针对第一方面~第二方面:本发明利用改进的BERT预处理层和改进的注意力层提出MFE-BERT-BiLSTM-FNNAttention-CRF模型,从而构建心理医学实体识别模型;在心理医学实体识别模型中,通过改进Transformer Encoder编码器的MFE-BERT预处理模型,能够提取具有更全面上下文语义特征信息的词向量,通过双向长短期记忆网络再次对向量进行特征提取,对应用于全局前向神经网络注意力机制的改进能很好地获取文本长距离,最后通过CRF模型生成最优标签序列。对于长文本的实体识别与关系抽取仍然存在一个问题,字符标签在长文本中不统一。在长段落文本中,位置相距较远的相同的心理医学实体概率性被算法赋予不同的实体标签,存在长序列语义稀释问题,这就使得模型正确率难以提高,上述问题主要是由于长短期记忆网络记忆不足所导致注意力机制的引进可以很好地解决这个问题,其本质就是词向量的权重分配,通过计算词向量之间的语义关联程度,获取词级关系。通过注意力机制可以有效利用段落上下文之间的语义信息,获取全局信息向量,整合于当前特征向量进行计算,把注意力主要分配给关键词。由于心理医学文本字符较多,计算数据量随之也会成倍复杂难以计数,改进设计采用前向神经网络注意力机制可以有效缓解这一问题,CRF是一种在无向图模型基础上进行发展的经典判别式模型,相对于传统模型对每个字符标签进行独立序列标注任务处理,CRF层可以很好的约束标签之间的依赖关系,通过对序列标签建模来获得一个最优序列。在CNN模型中,卷积层主要负责对输入向量进行特征提取,卷积层内包含多个特征提取卷积核,在对字向量进行处理以后得到维向量,进而可以得到行维向量矩阵。为了减少模型训练参数个数,提高训练效率,卷积层上神经元通过卷积核与上一层神经元相连接,再通过激活函数计算得到多个特征图输出。单纯使用CNN模型容易忽略词级上下文之间的相关性,很难提高心理医学实体关系抽取准确率。鉴于此,利用提出MFE-BERT-CNN-FNNAttention模型,从而构建心理医学关系抽取模型进行心理医学实体关系抽取。首先通过MFE-BERT模型对心理医学文本进行预训练,接着把训练好的词向量输入给CNN模型,通过神经网络学习到全局特征,最后融合改进全局前向神经网络注意力机制对特征进行权重分配,达到长距离动态获取文本关系效果。心理医学知识图谱的数据层通过心理医学实体识别模型进行实体识别,心理医学关系抽取模型进行关系抽取,两复合模型将文本数据转为Json形式的多元组数据。通过数据层提取信息以及将多元组数据转储至图数据库两部分组成心理医学知识图谱。此模型有效提高了心理医学实体识别准确率,且可以为其他复杂实体识别和抽取领域提供参考。
附图说明
图1为本发明实施例复合神经网络心理医学知识图谱构建方法的流程图;图2为本发明实施例心理医学实体识别模型的模型图;图3为本发明实施例心理医学实体识别模型中改进注意力机制的MFE-BERT模型图;图4为本发明实施例心理医学实体识别模型中LSTM神经网络结构图;图5为本发明实施例前向神经网络注意力机制示意图;图6为本发明实施例心理医学关系抽取模型示意图;图7为本发明实施例心理医学知识图谱。
具体实施方式
实施例
如1所示为本申请实施例提供的复合神经网络心理医学知识图谱构建方法的流程示意图。本申请实施例提供一种复合神经网络心理医学知识图谱构建方法,其包括如下步骤,S1心理医学数据源采集与处理:获取心理医学知识图谱的医学数据源;手动进行特殊字符清洗,将部分数据进行标注;S2心理医学实体识别:构建心理医学实体识别模型,包括改进的多层级特征提取BERT预处理层MFE-BERT、BiLSTM双向长短记忆神经网络层,前向神经网络注意力层FNNAttention和CRF条件随机场四层;上述心理医学实体识别模型的数据预处理层使用具有多头自注意力机制的双向Transformer,对其中输入的文本信息采用多层级特征抽取运算;具体运算如下:向量En=[e1,e2...en]进入Encoder层中经过线性变化得到查询矩阵Q、表征上下文关系矩阵K以及内容矩阵V,Q矩阵与K转置矩阵的积通过缩放因子
Figure BDA0003970612640000101
与softmax函数计算之后,对应各个词之间的相互关联程度,由点积内容矩阵K得到注意力分数值,如公式(1);
Figure BDA0003970612640000102
MFE-BERT模型中Encoder层使用多头注意力机制,每个head有64维,通过不同的线性变化获取Q、K、V矩阵,点积对应的权重矩阵Wi Q,Wi K,Wi V,从而得到每层注意力分值,如公式(2):headi=Attention(QWi Q,KWi K,VWi V)(2);将每层注意力分值进行Concat拼接以后,点乘附加的权重矩阵WO,即获得768维具有上下文语义信息的特征向量eij,如公式(3);eij=Concat(head1,…,head12)Wo(3),公式(4)是对12层Encoder中输出的特征向量通过Concat函数进行拼接工作,如公式(4);cei=Concat(ei1,ei2,…,ei12)(4),对向量进行全链接映射降维处理:xi=tanh(cei+bi)(5),其中bi为位置偏置向量;上述位置偏置向量与特征向量的和通过正切函数tanh()进行降维,使得MFE-BERT模型训练出的特征向量维度与下游任务维度对应,最终输出一个具有深层语义信息的特征向量,即输入下一模型双向长短记忆神经网络层的词嵌入,如公式(6):ft=σ(Wf·[ht-1,xt]+bf)(6),其中,ft为遗忘门输出值,xt为t时刻输入词向量,bf为遗忘门位置偏置向量,Wf为遗忘门权重矩阵,ht-1为隐藏层前一时刻状态,σ为Sigmoid激活函数;it=σ(Wi·[ht-1,xt]+bi)(7),其中,it为记忆门输出值,bi为记忆门位置偏置向量,Wi为记忆门权重矩阵;/>
Figure BDA0003970612640000111
其中,/>
Figure BDA0003970612640000112
为记忆神经元临时状态,bc为临时状态位置偏置向量,Wc为临时状态权重矩阵,tanh()为正切函数进行降维;/>
Figure BDA0003970612640000113
其中,t时刻记忆神经元更新状态Ct;ot=σ(Wo[ht-1,xt]+bo)(10),其中,ot为输出门输出值,bo为记忆门位置偏置向量,Wo为输出门权重矩阵;其中,LSTM模型的遗忘、记忆与输出由上一时刻隐藏层状态ht和t时刻输入词向量xt计算出来的遗忘门ft,记忆门it,输出门ot来决定,ht=ot*tanh(Ct)(11);FNNAttention层采用前向神经网络注意力机制,具体运算细则如下:et=μ(lt)(12),其中,μ()是前向神经网络自学习函数,仅通过状态序列lt学习;lt是通过双向长短期记忆网络得到每个字的全文状态序列表示;/>
Figure BDA0003970612640000121
其中,经过神经网络自学习得到数值k,再通过softmax指数函数来获取其注意力权重αt
Figure BDA0003970612640000122
其中,注意力机制是通过计算参数ht的自调整加权平均值得到的具有全局特征信息的向量c;其中,将向量c与状态序列lt进行拼接,通过非线性激活函数计算得到pt:pt=tanh[lt,c](15);gt=tanh(Wppt+bp)(16),zt=tanh(Wzpt+bz)(17),其中,pt通过一个全链接层得到低维向量gt,gt重复上一计算得到更低维向量zt,zt再次映射得到各字增强语义向量;CRF条件随机场的CRF模型将输入序列定义为X(i)={x1,x2,x3,...,xi},预测序列定义为Y(i)={y1,y2,y3,...,yi},词向量的个数为n,标签的数量为k;CRF模型在已给的输入序列X的基础上,计算输出序列的条件分布概率分布P(Y|X);其中向量集每个标签的评分公式为:/>
Figure BDA0003970612640000123
M表示转移矩阵,大小为(k+2)×(k+2),Mij表示第i个标签转移为第j个标签的分数,Pij表示为第i个词第j个标签的分数,大小为n×k;预测序列Y产生的概率为:/>
Figure BDA0003970612640000124
其中,/>
Figure BDA0003970612640000125
表示真实标签序列,YX表示所有标签序列集合,通过极大似然函数计算得到正确标签的最大概率,如公式(20):
Figure BDA0003970612640000126
通过Viterbi算法来获得全局最优序列,如公式(21):/>
Figure BDA0003970612640000127
S3心理医学关系抽取:构建心理医学关系抽取模型,包括改进的多层级特征提取BERT预处理层MFE-BERT,CNN卷积神经网络层和前向神经网络注意力层FNNAttention三层;心理医学关系抽取模型采用的MFE-BERT预处理层和FNNAttention层与上述心理医学实体识别模型采用的MFE-BERT预处理层和FNNAttention层相同;心理医学关系抽取模型采用基本卷积神经网络模型,具体运算如下:
Figure BDA0003970612640000131
表示/>
Figure BDA0003970612640000132
特征图对应的权值大小,/>
Figure BDA0003970612640000133
表示特征偏移向量,对其集合进行激活函数计算得到/>
Figure BDA0003970612640000134
即卷积层的特征图;S4形成自动化构建知识图谱系统:构建心理医学知识图谱,包括通过数据层提取信息,以及将多元组数据转储至图数据库;其中上述数据层通过上述心理医学实体识别模型进行实体识别,上述心理医学关系抽取模型进行关系抽取,将文本数据转为Json形式的上述多元组数据;根据上述多元组数据构建上述心理医学知识图谱,同时将内容保存至Neo4j图数据库中。
在本发明的一些实施例中,上述步骤S1心理医学数据源采集与处理中,利用Python爬虫程序获取多个心理医学网站的心理医学数据,同时通过开源医学数据集提取相关数据文本,共同组成心理医学知识图谱的上述医学数据源。在本发明的一些实施例中,上述步骤S1心理医学数据源采集与处理中,手动进行特殊字符清洗,包括在变量分箱时如果字符串中多了空格符号则识别为错误。在本发明的一些实施例中,上述步骤S1心理医学数据源采集与处理中,采用BIO的标注方式在已经清洗了的文本进行数据标注。在本发明的一些实施例中,上述步骤S4形成自动化构建知识图谱系统中,上述多元组数据为三元组数据,上述三元组数据根据实体、属性和关系构建上述心理医学知识图谱。在本发明的一些实施例中,上述步骤S4形成自动化构建知识图谱系统中,构建上述心理医学知识图谱时,同时将内容保存至Neo4j图数据库中。
数据采集与处理时,利用Python爬虫程序在“友心理”,“有来医生”等互联网心理医学网站获取心理医学数据,同时通过ChineseBLUE开源医学数据集提取相关数据文本,共同组成心理医学知识图谱的数据源。对采集到的数据源进行手动清洗,当出现特殊字符时进行数据筛除清洗。比如清洗性别特征时,当存储时出现了“男”加空格,那么在变量分箱时由于字符串中多了空格而识别错误。进行数据清洗后,将部分数据进行标注。采用BIO的标注方式在已经清洗了的文本进行数据标注,方便模型的深度学习训练。例如,心理医学实体共有胸B_symptom、闷I_symptom、呼B_symptom、吸I_symptom、困I_symptom、难I_symptom、是O、怎O、以及么O,一共7种类型,每种类型都采用BIO的标志体系,其中B(Begin)代表一个心理医学实体的开始,I(Intermediate)代表一个心理医学实体的中间部分,O(other)表示其他部分。心理医学实体识别如图2所示,心理医学实体识别模型主要由四层组成,分别是MFE-BERT预处理层,双向长短记忆神经网络层(BiLSTM),前向神经网络注意力层和CRF条件随机场。实体识别复合模型应用了改进的BERT预处理层和改进的注意力层。对于心理医学文本,其语句冗长且复杂,实体关联性强,在对序列的单个向量进行预处理时,由于Transformer Encoder采用前馈传播特征向量的形式,在单向传递的过程中所包含的语义信息逐层递减,伴随着每一层Encoder都输入了序列其他token的语义信息,则当前token的特征信息就会有所稀释,最终可能造成输出的特征向量语义不全的问题。MFE-BERT模型在原有全连接的BERT模型基础上,令其中11个Encode层中处理以后的信息输出至最上层,此时模型拥有了输入序列不同抽象力度的特征信息,通过Concat函数将12层中具有上下文语义信息的特征向量进行拼接,特征向量的维度增加至之前的12倍,再通过全链接层对向量进行映射降维处理,最后输出一个hiddem_size为768维的特征向量。为了提取每层所包含信息占比,采用前向神经网络的Attention机制,让模型进行深度自主学习每层关联信息所占权重。改进BERT模型结构图如图3所示,具体运算如下:向量En=[e1,e2...en]进入Encoder层中经过线性变化得到查询矩阵Q、表征上下文关系矩阵K以及内容矩阵V,通过缩放因子
Figure BDA0003970612640000141
与softmax函数之后,对应各个词之间的相互关联程度,由点积内容矩阵K得到注意力分数值,如公式(1);/>
Figure BDA0003970612640000151
MFE-BERT模型中Encoder层使用了多头(12head)注意力机制,因此公式(2)是对每个head有64维,通过不同的线性变化获取Q、K、V矩阵,点积对应的权重矩阵Wi Q,Wi K,Wi V,从而得到每层注意力分值,最后将其进行Concat拼接以后,点乘附加的权重矩阵WO,即获得768维具有上下文语义信息的特征向量eij,如公式(3);headi=Attention(QWi Q,KWi K,VWi V)(2),eij=Concat(head1,…,head12)Wo(3),公式(4)是对12层Encoder中输出的特征向量通过Concat函数进行拼接工作;cei=Concat(ei1,ei2,…,ei12)(4),xi=tanh(cei+bi)(5),公式(5)是对向量进行了全链接映射降维处理,bi为位置偏置向量,与特征向量的和通过正切函数tanh()进行降维,使得MFE-BERT模型训练出的特征向量维度与下游任务维度对应,最终输出一个具有深层语义信息的特征向量,即输入下一模型双向长短记忆神经网络层的词嵌入;长短期记忆网络(LSTM)是一种特殊的循环神经网络(RNN)同时利用门控单元缓解了RNN模型训练时产生的梯度爆炸和梯度消失问题,实现长期记忆且可以高效获得序列依赖信息。LSTM单元结构图如图4所示。LSTM的主要结构包括遗忘门,输入门,输出门以及Cell记忆神经元。通过遗忘门的sigmoid网络层来决定从Cell状态里要舍弃的信息,输入门决定在Cell状态里要存储的新信息,整个模型的输出值主要是记忆神经元的输出值和输出门的输出值相乘所构成,模型主要计算公式如以下公式所示:ft=σ(Wf·[ht-1,xt]+bf)(6),it=σ(Wi·[ht-1,xt]+bi)(7),
Figure BDA0003970612640000152
Figure BDA0003970612640000153
ot=σ(Wo[ht-1,xt]+bo)(10),ht=ot*tanh(Ct)(11)。LSTM模型公式是由t时刻输入词向量xt,t时刻记忆神经元更新状态Ct,记忆神经元临时状态/>
Figure BDA0003970612640000161
隐藏层状态ht,遗忘门ft,记忆门it,输出门ot组成。其中,遗忘、记忆与输出由上个时刻隐藏层状态ht和t时刻输入词向量xt计算出来的遗忘门ft,记忆门it,输出门ot来决定。单向长短期记忆网络只能通过上下文信息获取当前结果,无法同时利用下文信息,而双向长短期记忆网络(BiLSTM)可以有效同时处理利用上下文信息,其具体做法就是对每个词向量序列分别采取前向和后向的长短期记忆网络,然后对同一组的输出结果进行拼接处理。因此,BiLSTM模型的输出向量具有全面的双向语义特征。
改进设计采用前向神经网络注意力机制的模型图如图5所示,具体运算细则如下:et=μ(lt)(12),
Figure BDA0003970612640000162
pt=tanh[lt,c](15),gt=tanh(Wppt+bp)(16),zt=tanh(Wzpt+bz)(17),其中μ()是前向神经网络自学习函数,仅通过状态序列lt来学习。lt是统通过短期记忆网络的Transformer Encoder得到每个字的全文状态序列表示。经过神经网络自学习得到的数值k,再通过softmax指数函数来获取其注意力权重αt。公式中的注意力机制具体表示是通过计算参数ht的自调整加权平均值来得到具有全局特征信息的向量c,再将向量c与状态序列lt进行拼接,通过非线性激活函数计算得到pt,pt通过一个全链接层得到低维向量gt,gt重复上一计算得到更低维向量zt。zt再次映射得到各字增强语义向量。CRF是一种在无向图模型基础上进行发展的经典判别式模型,相对于传统模型对每个字符标签进行独立序列标注任务处理,CRF层可以很好的约束标签之间的依赖关系,通过对序列标签建模来获得一个最优序列。将输入序列定义为X(i)={x1,x2,x3,...,xi},预测序列定义为Y(i)={y1,y2,y3,...,yi},词向量的个数为n,标签的数量为k,CRF模型的定义就是在已给的输入序列X的基础上,计算输出序列的条件分布概率分布P(Y|X)。向量集每个标签的评分公式为:/>
Figure BDA0003970612640000171
M表示转移矩阵,大小为(k+2)×(k+2),Mij表示第i个标签转移为第j个标签的分数,Pij表示为第i个词第j个标签的分数,大小为n×k。预测序列Y产生的概率为:/>
Figure BDA0003970612640000172
表示真实标签序列,YX表示所有标签序列集合,再通过极大似然函数计算使得到正确标签的概率最大如公式20,通过Viterbi算法来获得全局最优序列如公式21。
Figure BDA0003970612640000173
信息抽取技术是搭建知识图谱过程重的重要一步,也是自然语言处理任务的支撑基础,而关系抽取作为信息抽取技术的最关键步骤,如图6所示,心理医学关系模型由三层组成,分别是BERT预处理层,卷积神经网络层和注意力层。关系抽取复合模型同样应用了上述改进的BERT预处理层和改进的注意力层。在CNN模型中,卷积层主要负责对输入向量进行特征提取,卷积层内包含多个特征提取卷积核,在对字向量进行处理以后得到d维向量,进而可以得到s行d维向量矩阵。为了减少模型训练参数个数,提高训练效率,卷积层上神经元通过卷积核与上一层神经元相连接,再通过激活函数计算得到多个特征图输出。关系抽取模型中CNN采用Lecun所提出的基本卷积神经网络模型,具体运算如下:/>
Figure BDA0003970612640000174
表示/>
Figure BDA0003970612640000175
特征图对应的权值大小,/>
Figure BDA0003970612640000176
表示特征偏移向量,对其集合进行激活函数计算得到
Figure BDA0003970612640000177
即卷积层的特征图。形成自动化构建知识图谱系统时,心理医学知识图谱主要通过数据层提取信息以及将三元组数据转储至图数据库两部分组成。数据层通过MFE-BERT-BiLSTM-FNNAttention-CRF模型进行实体识别,MFE-BERT-CNN-FNNAttention模型进行关系抽取,两复合模型将文本数据转为Json形式的三元组数据。根据三元组数据所包含的实体、属性和关系构建心理医学知识图谱,同时将内容保存至Neo4j图数据库中。其中心理医学知识图谱可视化效果如图7所示。/>

Claims (7)

1.一种复合神经网络心理医学知识图谱构建方法,其特征在于,包括如下步骤,S1心理医学数据源采集与处理:获取心理医学知识图谱的医学数据源;手动进行特殊字符清洗,将部分数据进行标注;S2心理医学实体识别:构建心理医学实体识别模型,包括改进的多层级特征提取BERT预处理层MFE-BERT、BiLSTM双向长短记忆神经网络层,前向神经网络注意力层FNNAttention和CRF条件随机场四层;所述心理医学实体识别模型的数据预处理层使用具有多头自注意力机制的双向Transformer,对其中输入的文本信息采用多层级特征抽取运算;具体运算如下:向量En=[e1,e2...en]进入Encoder层中经过线性变化得到查询矩阵Q、表征上下文关系矩阵K以及内容矩阵V,Q矩阵与K转置矩阵的积通过缩放因子
Figure FDA0003970612630000011
与softmax函数计算之后,对应各个词之间的相互关联程度,由点积内容矩阵K得到注意力分数值,如公式(1);/>
Figure FDA0003970612630000012
MFE-BERT模型中Encoder层使用多头注意力机制,每个head有64维,通过不同的线性变化获取Q、K、V矩阵,点积对应的权重矩阵Wi Q,Wi K,Wi V,从而得到每层注意力分值,如公式(2):headi=Attention(QWi Q,KWi K,VWi V) (2);将每层注意力分值进行Concat拼接以后,点乘附加的权重矩阵WO,即获得768维具有上下文语义信息的特征向量eij,如公式(3);eij=Concat(head1,…,head12)Wo (3),公式(4)是对12层Encoder中输出的特征向量通过Concat函数进行拼接工作,如公式(4);cei=Concat(ei1,ei2,…,ei12) (4),对向量进行全链接映射降维处理:xi=tanh(cei+bi) (5),其中bi为位置偏置向量;所述位置偏置向量与特征向量的和通过正切函数tanh()进行降维,使得MFE-BERT模型训练出的特征向量维度与下游任务维度对应,最终输出一个具有深层语义信息的特征向量,即输入下一模型双向长短记忆神经网络层的词嵌入,如公式(6):ft=σ(Wf·[ht-1,xt]+bf) (6),其中,ft为遗忘门输出值,xt为t时刻输入词向量,bf为遗忘门位置偏置向量,Wf为遗忘门权重矩阵,ht-1为隐藏层前一时刻状态,σ为Sigmoid激活函数;it=σ(Wi·[ht-1,xt]+bi) (7),其中,it为记忆门输出值,bi为记忆门位置偏置向量,Wi为记忆门权重矩阵;/>
Figure FDA0003970612630000021
其中,/>
Figure FDA0003970612630000022
为记忆神经元临时状态,bc为临时状态位置偏置向量,Wc为临时状态权重矩阵,tanh()为正切函数进行降维;
Figure FDA0003970612630000023
其中,t时刻记忆神经元更新状态Ct;ot=σ(Wo[ht-1,xt]+bo) (10),其中,ot为输出门输出值,bo为记忆门位置偏置向量,Wo为输出门权重矩阵;其中,LSTM模型的遗忘、记忆与输出由上一时刻隐藏层状态ht和t时刻输入词向量xt计算出来的遗忘门ft,记忆门it,输出门ot来决定,ht=ot*tanh(Ct) (11);FNNAttention层采用前向神经网络注意力机制,具体运算细则如下:et=μ(lt) (12),其中,μ()是前向神经网络自学习函数,仅通过状态序列lt学习;lt是通过双向长短期记忆网络得到每个字的全文状态序列表示;/>
Figure FDA0003970612630000024
其中,经过神经网络自学习得到数值k,再通过softmax指数函数来获取其注意力权重αt;/>
Figure FDA0003970612630000025
其中,注意力机制是通过计算参数ht的自调整加权平均值得到的具有全局特征信息的向量c;其中,将向量c与状态序列lt进行拼接,通过非线性激活函数计算得到pt:pt=tanh[lt,c] (15);gt=tanh(Wppt+bp) (16),zt=tanh(Wzpt+bz) (17),其中,pt通过一个全链接层得到低维向量gt,gt重复上一计算得到更低维向量zt,zt再次映射得到各字增强语义向量;CRF条件随机场的CRF模型将输入序列定义为X(i)={x1,x2,x3,...,xi},预测序列定义为Y(i)={y1,y2,y3,...,yi},词向量的个数为n,标签的数量为k;CRF模型在已给的输入序列X的基础上,计算输出序列的条件分布概率分布P(Y|X);其中向量集每个标签的评分公式为:/>
Figure FDA0003970612630000031
M表示转移矩阵,大小为(k+2)×(k+2),Mij表示第i个标签转移为第j个标签的分数,Pij表示为第i个词第j个标签的分数,大小为n×k;预测序列Y产生的概率为:/>
Figure FDA0003970612630000032
其中,/>
Figure FDA0003970612630000033
表示真实标签序列,YX表示所有标签序列集合,通过极大似然函数计算得到正确标签的最大概率,如公式(20):/>
Figure FDA0003970612630000034
通过Viterbi算法来获得全局最优序列,如公式(21):/>
Figure FDA0003970612630000035
S3心理医学关系抽取:构建心理医学关系抽取模型,包括改进的多层级特征提取BERT预处理层MFE-BERT,CNN卷积神经网络层和前向神经网络注意力层FNNAttention
三层;心理医学关系抽取模型采用的MFE-BERT预处理层和FNNAttention层与所述心理医学实体识别模型采用的MFE-BERT预处理层和FNNAttention层相同;心理医学关系抽取模型采用基本卷积神经网络模型,具体运算如下:
Figure FDA0003970612630000036
Figure FDA0003970612630000037
表示/>
Figure FDA0003970612630000038
特征图对应的权值大小,/>
Figure FDA0003970612630000039
表示特征偏移向量,对其集合进行激活函数计算得到/>
Figure FDA00039706126300000310
即卷积层的特征图;S4形成自动化构建知识图谱系统:构建心理医学知识图谱,包括通过数据层提取信息,以及将多元组数据转储至图数据库;其中所述数据层通过所述心理医学实体识别模型进行实体识别,所述心理医学关系抽取模型进行关系抽取,将文本数据转为Json形式的所述多元组数据;根据所述多元组数据构建所述心理医学知识图谱,同时将内容保存至Neo4j图数据库中。
2.如权利要求1所述的一种复合神经网络心理医学知识图谱构建方法,其特征在于,步骤S1心理医学数据源采集与处理中,利用Python爬虫程序获取多个心理医学网站的心理医学数据,同时通过开源医学数据集提取相关数据文本,共同组成心理医学知识图谱的所述医学数据源。
3.如权利要求1所述的一种复合神经网络心理医学知识图谱构建方法,其特征在于,步骤S1心理医学数据源采集与处理中,手动进行特殊字符清洗,包括在变量分箱时如果字符串中多了空格符号则识别为错误。
4.如权利要求1所述的一种复合神经网络心理医学知识图谱构建方法,其特征在于,步骤S1心理医学数据源采集与处理中,采用BIO的标注方式在已经清洗了的文本进行数据标注。
5.如权利要求1所述的一种复合神经网络心理医学知识图谱构建方法,其特征在于,步骤S4形成自动化构建知识图谱系统中,所述多元组数据为三元组数据,所述三元组数据根据实体、属性和关系构建所述心理医学知识图谱。
6.如权利要求5所述的一种复合神经网络心理医学知识图谱构建方法,其特征在于,步骤S4形成自动化构建知识图谱系统中,构建所述心理医学知识图谱时,同时将内容保存至Neo4j图数据库中。
7.一种复合神经网络心理医学知识图谱构建系统,其特征在于,包括如下内容,心理医学数据源采集与处理模块:获取心理医学知识图谱的医学数据源;手动进行特殊字符清洗,将部分数据进行标注;心理医学实体识别模块:构建心理医学实体识别模型,包括MFE-BERT预处理层、BiLSTM双向长短记忆神经网络层、FNNAttention前向神经网络注意力机制和CRF条件随机场四层;所述心理医学实体识别模型的数据预处理层使用具有多头自注意力机制的双向Transformer,对其中输入的文本信息采用多层级特征抽取运算;具体运算如下:向量En=[e1,e2...en]进入Encoder层中经过线性变化得到查询矩阵Q、表征上下文关系矩阵K以及内容矩阵V,Q矩阵与K转置矩阵的积通过缩放因子
Figure FDA0003970612630000051
与softmax函数计算之后,对应各个词之间的相互关联程度,由点积内容矩阵K得到注意力分数值,如公式(1);
Figure FDA0003970612630000052
MFE-BERT模型中Encoder层使用多头注意力机制,每个head有64维,通过不同的线性变化获取Q、K、V矩阵,点积对应的权重矩阵Wi Q,Wi K,Wi V,从而得到每层注意力分值,如公式(2):headi=Attention(QWi Q,KWi K,VWi V) (2);将每层注意力分值进行Concat拼接以后,点乘附加的权重矩阵WO,即获得768维具有上下文语义信息的特征向量eij,如公式(3):eij=Concat(head1,…,head12)Wo (3),对12层Encoder中输出的特征向量通过Concat函数进行拼接工作,如公式(4):cei=Concat(ei1,ei2,…,ei12) (4);对向量进行全链接映射降维处理:xi=tanh(cei+bi) (5),其中bi为位置偏置向量;所述位置偏置向量与特征向量的和通过正切函数tanh()进行降维,使得MFE-BERT模型训练出的特征向量维度与下游任务维度对应,最终输出一个具有深层语义信息的特征向量,即输入下一模型双向长短记忆神经网络层的词嵌入,如公式(6):ft=σ(Wf·[ht-1,xt]+bf) (6),其中,ft为遗忘门输出值,xt为t时刻输入词向量,bf为遗忘门位置偏置向量,Wf为遗忘门权重矩阵,ht-1为隐藏层前一时刻状态,σ为Sigmoid激活函数;it=σ(Wi·[ht-1,xt]+bi) (7),其中,it为记忆门输出值,bi为记忆门位置偏置向量,Wi为记忆门权重矩阵;/>
Figure FDA0003970612630000061
其中,/>
Figure FDA0003970612630000062
为记忆神经元临时状态,bc为临时状态位置偏置向量,Wc为临时状态权重矩阵,tanh()为正切函数进行降维;
Figure FDA0003970612630000063
其中,t时刻记忆神经元更新状态Ct;ot=σ(Wo[ht-1,xt]+bo) (10),其中,ot为输出门输出值,bo为记忆门位置偏置向量,Wo为输出门权重矩阵;其中,LSTM模型的遗忘、记忆与输出由上一时刻隐藏层状态ht和t时刻输入词向量xt计算出来的遗忘门ft,记忆门it,输出门ot来决定,ht=ot*tanh(Ct) (11);FNNAttention层采用前向神经网络注意力机制,具体运算细则如下:et=μ(lt) (12),其中,μ()是前向神经网络自学习函数,仅通过状态序列lt学习;lt是通过双向长短期记忆网络得到每个字的全文状态序列表示;/>
Figure FDA0003970612630000064
其中,经过神经网络自学习得到数值k,再通过softmax指数函数来获取其注意力权重αt;/>
Figure FDA0003970612630000065
其中,注意力机制是通过计算参数ht的自调整加权平均值得到的具有全局特征信息的向量c;其中,将向量c与状态序列lt进行拼接,通过非线性激活函数计算得到pt:pt=tanh[lt,c] (15);gt=tanh(Wppt+bp)(16),zt=tanh(Wzpt+bz) (17),其中,pt通过一个全链接层得到低维向量gt,gt重复上一计算得到更低维向量zt,zt再次映射得到各字增强语义向量;CRF条件随机场的CRF模型将输入序列定义为X(i)={x1,x2,x3,...,xi},预测序列定义为Y(i)={y1,y2,y3,...,yi},词向量的个数为n,标签的数量为k;CRF模型在已给的输入序列X的基础上,计算输出序列的条件分布概率分布P(Y|X);其中向量集每个标签的评分公式为:/>
Figure FDA0003970612630000066
(18),其中M表示转移矩阵,大小为(k+2)×(k+2),Mij表示第i个标签转移为第j个标签的分数,Pij表示为第i个词第j个标签的分数,大小为n×k;预测序列Y产生的概率为:/>
Figure FDA0003970612630000071
其中,
Figure FDA0003970612630000072
表示真实标签序列,YX表示所有标签序列集合,通过极大似然函数计算得到正确标签的最大概率,如公式(20):/>
Figure FDA0003970612630000073
通过Viterbi算法来获得全局最优序列,如公式(21):/>
Figure FDA0003970612630000074
心理医学关系抽取模块:构建心理医学关系抽取模型,包括改进的多层级特征提取BERT预处理层MFE-BERT,CNN卷积神经网络层和前向神经网络注意力层FNNAttention三层;心理医学关系抽取模型采用的MFE-BERT预处理层和FNNAttention层与所述心理医学实体识别模型采用的MFE-BERT预处理层和FNNAttention层相同;心理医学关系抽取模型采用基本卷积神经网络模型,具体运算如下:
Figure FDA0003970612630000075
Figure FDA0003970612630000076
表示/>
Figure FDA0003970612630000077
特征图对应的权值大小,/>
Figure FDA0003970612630000078
表示特征偏移向量,对其集合进行激活函数计算得到/>
Figure FDA0003970612630000079
即卷积层的特征图;知识图谱系统自动化构建模块:构建心理医学知识图谱,包括通过数据层提取信息,以及将多元组数据转储至图数据库;其中所述数据层通过所述心理医学实体识别模型进行实体识别,所述心理医学关系抽取模型进行关系抽取,将文本数据转为Json形式的所述多元组数据;根据所述多元组数据构建所述心理医学知识图谱,同时将内容保存至Neo4j图数据库中。/>
CN202211510443.6A 2022-11-29 2022-11-29 一种复合神经网络心理医学知识图谱构建方法及系统 Pending CN115879546A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211510443.6A CN115879546A (zh) 2022-11-29 2022-11-29 一种复合神经网络心理医学知识图谱构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211510443.6A CN115879546A (zh) 2022-11-29 2022-11-29 一种复合神经网络心理医学知识图谱构建方法及系统

Publications (1)

Publication Number Publication Date
CN115879546A true CN115879546A (zh) 2023-03-31

Family

ID=85764590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211510443.6A Pending CN115879546A (zh) 2022-11-29 2022-11-29 一种复合神经网络心理医学知识图谱构建方法及系统

Country Status (1)

Country Link
CN (1) CN115879546A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117669574A (zh) * 2024-02-01 2024-03-08 浙江大学 基于多语义特征融合的人工智能领域实体识别方法及系统
CN117852507A (zh) * 2024-03-07 2024-04-09 南京信息工程大学 一种餐馆回头客预测模型、方法、系统及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117669574A (zh) * 2024-02-01 2024-03-08 浙江大学 基于多语义特征融合的人工智能领域实体识别方法及系统
CN117669574B (zh) * 2024-02-01 2024-05-17 浙江大学 基于多语义特征融合的人工智能领域实体识别方法及系统
CN117852507A (zh) * 2024-03-07 2024-04-09 南京信息工程大学 一种餐馆回头客预测模型、方法、系统及设备
CN117852507B (zh) * 2024-03-07 2024-05-17 南京信息工程大学 一种餐馆回头客预测模型、方法、系统及设备

Similar Documents

Publication Publication Date Title
CN110210037B (zh) 面向循证医学领域的类别检测方法
CN108628823B (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
CN112115238B (zh) 一种基于bert和知识库的问答方法和系统
CN112818676B (zh) 一种医学实体关系联合抽取方法
CN110287323B (zh) 一种面向目标的情感分类方法
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
US20220129450A1 (en) System and method for transferable natural language interface
CN115879546A (zh) 一种复合神经网络心理医学知识图谱构建方法及系统
CN112163429B (zh) 结合循环网络及bert的句子相关度获取方法、系统及介质
CN114756687A (zh) 基于自学习实体关系联合抽取的钢铁产线设备诊断方法
CN115688752A (zh) 一种基于多语义特征的知识抽取方法
CN114781382A (zh) 基于rwlstm模型融合的医疗命名实体识别系统及方法
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN111540470A (zh) 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法
CN108875024B (zh) 文本分类方法、系统、可读存储介质及电子设备
CN117954081A (zh) 一种基于图Transformer的智能医疗问诊方法及系统
CN113779966A (zh) 一种基于注意力的双向cnn-rnn深度模型的蒙文情感分析方法
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN114357166B (zh) 一种基于深度学习的文本分类方法
Li et al. TransExplain: Using neural networks to find suitable explanations for Chinese phrases
CN114692615A (zh) 一种针对小语种的小样本意图识别方法
Lun et al. Research on agricultural named entity recognition based on pre train BERT
CN115169429A (zh) 一种轻量化方面级文本情感分析方法
Chen et al. Text classification based on a new joint network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination