CN115458135A - 一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统 - Google Patents

一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统 Download PDF

Info

Publication number
CN115458135A
CN115458135A CN202211043573.3A CN202211043573A CN115458135A CN 115458135 A CN115458135 A CN 115458135A CN 202211043573 A CN202211043573 A CN 202211043573A CN 115458135 A CN115458135 A CN 115458135A
Authority
CN
China
Prior art keywords
bgru
attention
crf
intelligent medical
triage system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211043573.3A
Other languages
English (en)
Inventor
吴俊宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Yuantu Technology Co ltd
Original Assignee
Zhejiang Yuantu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Yuantu Technology Co ltd filed Critical Zhejiang Yuantu Technology Co ltd
Priority to CN202211043573.3A priority Critical patent/CN115458135A/zh
Publication of CN115458135A publication Critical patent/CN115458135A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/67ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请公开了一种基于BGRU‑Attention‑CRF的Bio‑NER智慧医疗分诊系统,涉及智慧医疗技术领域,包括一种智慧医疗分诊系统和一种基于BGRU‑Attention‑CRF算法;智慧医疗分诊系统包括用户模块和远程服务模块;还包括以下步骤:步骤201:在云端数据库储存收集过往病人的主诉信息和电子病历,进行数据预处理后,人工标注医疗命名识别类型作为原始训练集;步骤202:对数据进行预处理,将原始训练数据按照比例分为训练集、验证集、测试集;步骤203:构建BGRU‑Attention‑CRF神经网络,用于命名实体识别;步骤204:将命名实体传入科室匹配模块,与过往病人的主诉信息和电子病历中的关键词进行文本相似度计算,得到推荐科室。本申请便于解决现有智慧医疗分诊系统识别率准确率低等缺陷,有效缓解医疗资源不足的情况。

Description

一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统
技术领域
本发明涉及智慧医疗技术领域,具体涉及一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统。
背景技术
根据2022年国家卫生局数据,我国医患的比大约是1∶1500,这远远低于欧美国家的1∶200左右。根据已有数据分析,在患者初次就诊阶段,会因为对自身的病情症状无法匹配正确的科室产生疑惑,从而耽误最佳的治疗时间。随着互联网的发展,越来越多的医院开始采用智慧医疗分诊系统缓解医疗资源的压力。国内的智慧医疗分诊系统主要通过问答系统,缩小疾病范围,最后为患者提供对应的科室。总的来说,智能分诊系统需要多轮输入,部分系统会通过命名实体识别技术(NER)对患者提供的病情资料、电子病历等信息进行关键词识别,最后将识别出的关键词与已有数据库的进行相似度匹配,从而为患者推荐相应的科室。
医疗命名实体识别技术(bio-NER)是自然语言处理中的一项基本任务,其主要任务是对于医疗文本数据中的重要医学术语进行数据标注,比如症状、手术和药物等。在医疗分诊系统的实际应用中,患者往往对自己的病情描述不清,使用bio-NER可以提取患者病情的关键信息,有助于进一步的病情判断。
目前,针对医疗命名实体识别技术的机器学习方法主要有HMM、CRF以及BLSTM-CRF等。其中,隐马尔科夫模型(HMM)为生成式模型,下一状态的预测只依赖于上一状态的概率分布,没有融合前后文信息,条件随机场(CRF)可以计算全局最优,但是需要自己定义特征,而且训练代价大、复杂度高。BLSTM-CRF通过BLSTM训练模型的转移特征融合前后文信息,再通过CRF计算最优解,但是BLSTM计算量大,训练参数多,对于长数据容易发生梯度消失,而且由于信息是时序输入,后面的信息容易覆盖前面的信息。综上,现有的医疗命名实体识别技术识别准确度有待提高。
基于此,我们提出一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统。
发明内容
本发明的目的在于克服现有技术中存在的上述问题,提供一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统,解决现有智慧医疗分诊系统识别率准确率低等缺陷,有效缓解医疗资源不足的情况。
为实现上述技术目的,达到上述技术效果,本发明是通过以下技术方案实现:
一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统,包括一种智慧医疗分诊系统和一种基于BGRU-Attention-CRF算法,智慧医疗分诊系统通过云服务器建立;
所述智慧医疗分诊系统包括用户模块和远程服务模块,所述远程服务模块包括文本预处理模块,特征识别模块,数据库单元模块以及科室匹配模块,所述基于BGRU-Attention-CRF算法位于特征识别模块中;
还包括以下步骤:
步骤201:在云端数据库储存收集过往病人的主诉信息和电子病历,进行数据预处理后,人工标注医疗命名识别类型作为原始训练集;
步骤202:对数据进行预处理,将原始训练数据按照比例分为训练集、验证集、测试集;
步骤203:构建BGRU-Attention-CRF神经网络,用于命名实体识别,利用测试集和验证集对神经网络进行训练;
步骤204:将命名实体传入科室匹配模块,与过往病人的主诉信息和电子病历中的关键词进行文本相似度计算,得到推荐科室。
优选地,所述用户模块为ANDROID应用程序。
基于上述技术特征,用于和云端数据库交互数据。
优选地,所述步骤203中,BGRU神经网络结构采用递归神经网络,属于RNN、LSTM的变体;BGRU网络是一种基于学习时间序列数据关系的循环结构,和采用一层双向GRU网络。
基于上述技术特征,采用一层双向GRU网络能够更加有效地捕获长文本之间的语义关系1
优选地,所述步骤203中,GRU的输入序列为{xt|x1,x2,...,xn},隐藏层序列中间状态为
Figure BSA0000282625960000034
最终状态为{ht|h1,h2,...,hn};GRU网络重置门401rt、更新门402zt,输出序列的计算式子如下:
zt=σg(Wzxt+Uzht-1+bz)
rt=σg(Wrxt+Urht-1+br)
Figure BSA0000282625960000031
Figure BSA0000282625960000032
式中,xt为输入序列,rt为重置门、zt为更新门,‘⊙’为Hadamard点积,
Figure BSA0000282625960000035
为t时刻隐藏层的中间状态,ht为t时刻隐藏层的最终状态,ht-1为t-1时刻隐藏层的最终状态,bz,br,bh表示偏置项,Wz,Wr,Wh,Wo,Uz,Ur,Uh表示可训练矩阵,σg为sigmoid函数。
基于上述技术特征,σg为sigmoid函数,表示sigmoid激活函数
Figure BSA0000282625960000033
优选地,所述步骤203中,在BGRU网络单元之后增加的dropout层;在dropout层后增加Multi-Head Attention,多头注意力机制不仅可以更好地使得特征向量之间更好地融合,而且可以让模型关注不同子空间的信息;相当于对同一个特征空间采用不同的滤波器从而得到不同信息,输出序列的计算式子如下:
Q=WQH
K=WKH
V=WVH
headi=Attention(Qi,Ki,Vi)
MultiHead(Q,K,V)=Concat(head1,head2,...,headn)WO
其中,
Figure BSA0000282625960000041
Figure BSA0000282625960000042
dk为Q、K特征向量的维度,dk=8,Q、K、V均为dropout层输出的矩阵。
基于上述技术特征,在BGRU网络单元之后增加的dropout层,减少过拟合。
优选地,所述步骤203中,采用线性条件随机场和维特比进行编码,得到最终的命名实体,CRF适用于序列标注问题,CRF的优点在于不仅可以考虑相邻标注之间的关系,而且通过维特比解码可以求出当前输入下相对最优的序列标注;和使用
Figure BSA0000282625960000043
代表输入序列,
Figure BSA0000282625960000044
代表预测的标注,
Figure BSA0000282625960000045
代表序列
Figure BSA0000282625960000046
所有可能的标注
Figure BSA0000282625960000047
的集合,则当已知输入序列
Figure BSA0000282625960000048
的前提下,
Figure BSA00002826259600000410
的标注序列为
Figure BSA0000282625960000049
的条件概率公式为,
Figure BSA0000282625960000051
其中,tk(yi-1,yi,x,i)是转移矩阵的特征,来自BGRU-Attention,λk是转移矩阵系数;sl(yi,x,i)是发射矩阵的特征,来自神经网络的参数更新,μl是发射矩阵系数。
基于上述技术特征,当tk(yi-1,yi,x,i)满足特征条件取值为1,否则取值为0;当sl(yi,x,i)满足特征条件取值为1,否则取值为0。
优选地,所述步骤203中,在训练过程中,目标函数是使得
Figure BSA0000282625960000057
尽量大,损失函数采用对数模型,将损失函数转化为对数线性模型,损失函数如下式所示,优化器选取SDG优化器,
Figure BSA0000282625960000052
Figure BSA0000282625960000053
基于上述技术特征,目标函数是使得
Figure BSA0000282625960000054
尽量大,为了使得计算简便。
优选地,所述步骤203中,Viterbi是一种动态规划算法,可以找到一条相对最优路径,即最可能的标注(命名实体),所得相对最优命名实体
Figure BSA0000282625960000055
如下式所示,
Figure BSA0000282625960000056
基于上述技术特征,在验证过程中,通过Viterbi算法利用在训练过程中的转移矩阵和发射矩阵对模型进行解码。
综上所述,本发明包括以下至少一种有益效果:
第一,本发明用于远程问诊,患者在线上得到科室建议之后,可以远程匹配相应科室的医生,在一定程度上缓解了医疗资源的不足。
第二,本发明提出基于BGRU-Attention-CRF算法利用深度学习网络进行文本特征提取,提高了分诊科室建议的准确率。
第三,本发明在用户模块增加了语音识别系统,提高了患者的使用感受,特别方便一些不会输入法的老人,使其也能够及时问诊。
综上,本申请通过智慧医疗分诊系统通过云服务器建立,病人可以在远程医疗客户端输入自己的病情资料,智慧医疗分诊系统运用基于BGRU-Attention-CRF算法对目标文本进行命名实体识别,识别后的结果与云端数据库的进行相似度匹配,在云服务器上在线判断结果,为患者提供适合的科室,从而解决现有智慧医疗分诊系统识别率准确率低等缺陷,有效缓解医疗资源不足的情况。
附图说明
图1是本发明的结构示意图;
图2是本发明的具体实施流程图;
图3是本发明基于BGRU-Attention-CRF算法的神经网络结构示意图;
图4是本发明构建的GRU算法的神经网络结构示意图;
附图中,各标号所代表的部件列表如下:
1-用户模块,2-远程服务模块,21-文本预处理模块,22-特征识别模块,23-数据库单元模块,24-科室匹配模块。
具体实施方式
以下结合附图1-4对本发明作进一步详细说明。
本发明提供的一种实施例:一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统,包含一种智慧医疗分诊系统和一种基于BGRU-Attention-CRF算法,智慧医疗分诊系统通过云服务器建立,这样病人可以在远程医疗客户端输入自己的病情资料,智慧医疗分诊系统运用基于BGRU-Attention-CRF算法对目标文本进行命名实体识别,识别后的结果与云端数据库的进行相似度匹配,在云服务器上在线判断结果,为患者提供适合的科室。智慧医疗分诊系统包括用户模块1和远程服务模块2,用户模块1为ANDROID应用程序,用于和云端数据库交互数据,和用于对用户对自身病情症状等进行相关文字描述;或者用户通过语音叙述病情后,在APP端进行语音识别后将所得文本信息上传至远程服务器模块2。
远程服务模块2包括文本预处理模块21,特征识别模块22,数据库单元模块23以及科室匹配模块24。
文本预处理模块21,将用户端所获取的病情数据进行停用词、分词处理,转化为稠密向量。具体为主要对输入的描述性语言进行预处理,利用事先建立好的停用词表将病情描述中包含停用词的语言剔除,并且利用jieba库对其进行分词处理,然后利用已经训练好的中文词向量Word2vec将输入字词转化为稠密向量进入特征识别模块22。
特征识别模块22,基于BGRU-Attention-CRF算法内置其中,内置的基于BGRU-Attention-CRF算法对输入的稠密向量进行词性标注和命名实体识别,获得输出的疾病命名实体,如图3所示。
在本具体实施方式中,将命名实体分为以下5种,如下表1所示:
表1:医疗命名实体类型及其示例
Figure BSA0000282625960000071
Figure BSA0000282625960000081
每类标签分别用B、I和O来表示对应字符位于每个实体的位置,B表示每个实体的开头,I表示每个实体的结尾,O表示不属于命名实体,故本发明一共有11种标签,分别为B-药物,I-药物,B-部位,I-症状,B-检查,I-检查,B-疾病,I-疾病,O。例如,“我好像得了心绞痛”这句话正确的命名实体标注应为表2所示:
表2
输入 好像
命名实体 O O O O B-疾病 I-疾病 I-疾病
数据库模块23:位于云端服务器,用于储存医院收集过往病人的主诉信息和电子病历。
科室匹配模块24:位于云端服务器,将特征识别模块22所得的命名实体识别与数据库模块23中各个科室中过往病人的主诉信息和电子病历中的关键词进行文本相似度计算,所得相似度最高的科室,即为推荐科室,从而根据已经有的关键词为患者匹配科室。云端服务器将所得推荐科室发送至用户手机端。
如图2所示,一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统,还包括以下步骤:
步骤201:在云端数据库储存收集过往病人的主诉信息和电子病历,进行数据预处理后,人工标注医疗命名识别类型作为原始训练集;
将过往病人的主诉信息和电子病历作为原始数据,首先将原始数据按照科室类别划分后,进行停用词处理,利用事先建立好的停用词表将病情描述中包含停用词的语言剔除,并且利用jieba库对其进行分词处理。本发明选取约30%的数据作为命名实体的训练数据集,其中,每个科室所含的数据量均等,然后进行人工标注。最后,利用已经训练好的词向量Word2vec将输入字词转化为稠密向量。
步骤202:对数据进行预处理,将原始训练数据按照比例分为训练集、验证集、测试集;
本实例训练数据一共12930例,并且按照约6∶3∶1比例分为训练集、测试集、验证集。其中,将数据集长度S设置为50,超过50就截断数据,少于50就对数据进行补零。本发明使用小批量梯度下降法,将Batch Size设置为16。其中小批量梯度下降法可以在保证内存的前提下,使得损失函数本身更加平滑,权重参数向极值所在的方向更新,从而使得模型更快的收敛。本申请使用中文词向量库word2vec,向量特征维度为128。故输入数据X的维度为16×50×128。
步骤203:如图3所示,构建BGRU-Attention-CRF神经网络结构,用于命名实体识别,利用测试集和验证集对神经网络进行训练,使之达到最高精度。
BGRU(Bidirectional Gated recurrent unit)神经网络结构采用递归神经网络,属于RNN、LSTM的变体。与传统的神经网络相比,BGRU在一定程度上缓解了RNN的梯度消失问题,并且在网络结构上优化了LSTM,减少了训练的参数和训练的时间。BGRU网络是一种基于学习时间序列数据关系的循环结构,通过对RNN、LSTM等循环网络结构的优化,LSTM主要使用三个门函数来控制跨越时间步的信息流,用来判断前面信息是需要被保留还是被遗忘。然而,与LSTM相比,GRU仅仅设置重置门和更新门,这使得GRU不仅缓解了梯度消失的问题,而且在计算时间方面更简单、更快。本发明采用一层双向GRU网络,能够更加有效地捕获长文本之间的语义关系。
如图4所示,GRU的输入序列为{xt|x1,x2,...,xn},隐藏层序列中间状态为
Figure BSA0000282625960000091
最终状态为{ht|h1,h2,...,hn}。本发明的GRU网络重置门401rt、更新门402zt,输出序列的计算式子如下:
zt=σg(Wzxt+Uzht-1+bz)
rt=σg(Wrxt+Urht-1+br)
Figure BSA0000282625960000101
Figure BSA0000282625960000102
式中,xt为输入序列,rt为重置门、zt为更新门,‘⊙’为Hadamard点积,
Figure BSA0000282625960000103
为t时刻隐藏层的中间状态,ht为t时刻隐藏层的最终状态,ht-1为t-1时刻隐藏层的最终状态,bz,br,bh表示偏置项,Wz,Wr,Wh,Wo,Uz,Ur,Uh表示可训练矩阵,σg为sigmoid函数,表示sigmoid激活函数
Figure BSA0000282625960000104
在BGRU网络单元之后增加的dropout层,减少过拟合。如图3所示,在dropout层后增加Multi-Head Attention,多头注意力机制不仅可以更好地使得特征向量之间更好地融合,而且可以让模型关注不同子空间的信息。相当于对同一个特征空间采用不同的滤波器从而得到不同信息,输出序列的计算式子如下:
Q=WQH
K=WKH
V=WVH
headi=Attention(Qi,Ki,Vi)
MultiHead(Q,K,V)=Concat(head1,head2,...,headn)WO
其中,
Figure BSA0000282625960000105
Figure BSA0000282625960000106
dk为Q、K特征向量的维度,dk=8,Q、K、V均为dropout层输出的矩阵。
本发明设置ht的维度为64,BGRU最终输出H={ht|h1,h2,...,hn}来自图3中两层不同方向GRU的拼接。在经过dropout层后,按照33%的比例将输出矩阵随机调整至零后输入Multi-Head Attention层。其中,H的维度为B×S×D,其中B为Batch Size=16,S为句子长度50,特征维度为64。Multi-Head Attention将所得矩阵H分别进行不同的线性变换,得到Q、K、V三个矩阵,维度为B×S×D。为了通过多种注意力机制学习不同子空间的语义,设置超参数Head的数量为8,即将Q、K、V在特征维度上平均分割成8份,通过Attention计算出每个headi之后,经过拼接和线性变化最终得到CRF所需发射矩阵sl(yi,x,i)。
如图3所示,本发明采用线性条件随机场(CRF)和维特比进行编码,得到最终的命名实体,CRF适用于序列标注问题,CRF的优点在于不仅可以考虑相邻标注之间的关系,而且通过维特比解码可以求出当前输入下相对最优的序列标注。本发明使用
Figure BSA0000282625960000111
代表输入序列,
Figure BSA0000282625960000112
代表预测的标注,
Figure BSA0000282625960000113
代表序列
Figure BSA0000282625960000114
所有可能的标注
Figure BSA0000282625960000115
的集合,则当已知输入序列
Figure BSA0000282625960000116
的前提下,
Figure BSA0000282625960000117
的标注序列为
Figure BSA0000282625960000118
的条件概率公式为,
Figure BSA0000282625960000119
其中,tk(yi-1,yi,x,i)是转移矩阵的特征,来自BGRU-Attention,当满足特征条件取值为1,否则取值为0,λk是转移矩阵系数;sl(yi,x,i)是发射矩阵的特征,来自神经网络的参数更新,当满足特征条件取值为1,否则取值为0,μl是发射矩阵系数。
本发明在训练过程中,目标函数是使得
Figure BSA0000282625960000121
尽量大,损失函数采用对数模型,将损失函数转化为对数线性模型,损失函数如下式所示,优化器选取SDG优化器,
Figure BSA0000282625960000122
Figure BSA0000282625960000123
本发明使用线性条件随机场,发射矩阵由Multi-Head Attention层输出的特征矩阵经过全连接层转化通过参数更新学习而成,转移矩阵由神经网络训练产生。本发明在验证过程中,通过Viterbi算法利用在训练过程中的转移矩阵和发射矩阵对模型进行解码。Viterbi是一种动态规划算法,可以找到一条相对最优路径,即最可能的标注(命名实体)。所得相对最优命名实体
Figure BSA0000282625960000124
如下式所示,
Figure BSA0000282625960000125
步骤204:将命名实体传入科室匹配模块24,与医院数据库中过往病人的主诉信息和电子病历中的关键词进行文本相似度计算,所得相似度最高的科室,即为推荐科室。云端服务器将所得推荐科室发送至用户手机端。
在训练过程中,选取epoch=300,实验发现在epoch=235时,模型泛化效果最好,测试集在命名实体识别精度达到93.29%,推荐科室的准确率达到91.83%。
将三个不同病人的实施实例输入所得的训练模型,具体如下所示。
实施例1
患者甲,叙述去年10月因为胸痛背痛查出肺部结节,到现在复查了三次,第一次是县城的医院5mm,两个月后到查是6mm,现在胸部背部还是持续性疼痛。
将患者叙述所得输入BGRU-Attention-CRF神经网络后所得命名实体标记结果如下表所示:
命名实体 标记类型
胸痛背痛 症状
肺部结节 疾病
胸部背部 部位
持续性疼痛 症状
将训练好的命名实体传入科室匹配模块24,与医院数据库中过往病人的主诉信息和电子病历中的关键词进行文本相似度计算,所得相似度前五的科室,如下表所示:
推荐科室 推荐指数
胸外科 0.9183204
神经外科 0.6792390
心血管外科 0.5529824
骨外科 0.5487492
创伤骨科 0.4928289
最终推荐科室为胸外科。
实施例2
患者乙,叙述1个月前因砸伤致右足疼痛,伴有烧伤,去当地医院就诊住院治疗,摄片提示右足多发骨折,给予石膏外固定治疗,烧伤处给予植皮治疗。2个半月后拆除石膏。目前左足能稍微负重站立但不能正常走路,活动受限,足底出现湿疹。
将患者叙述所得输入BGRU-Attention-CRF神经网络后所得命名实体标记结果如下表所示:
命名实体 标记类型
右足疼痛 症状
烧伤 疾病
骨折 症状
石膏 药物
左足 部位
湿疹 症状
将训练好的命名实体传入科室匹配模块24,与医院数据库中过往病人的主诉信息和电子病历中的关键词进行文本相似度计算,所得相似度前五的科室,如下表所示:
推荐科室 推荐指数
创伤骨科 0.8938242
骨外科 0.7894924
足踝外科 0.5193488
足外科 0.4592040
皮肤科 0.2983985
最终推荐科室为创伤骨科。
实施例3
患者丙,叙述1年前无明显诱因出现头痛,头痛呈间歇性发作,表现为后脑部阵发性作痛,严重时需服用止痛药止痛,口干多饮。近两周患者头痛,口干多饮加重。口服瑞舒伐他汀钙片治疗。治疗后症状未见明显改善。
将患者叙述所得输入BGRU-Attention-CRF神经网络后所得命名实体标记结果如下表所示:
命名实体 标记类型
头痛 症状
后脑 部位
阵发性作痛 症状
口干多饮 症状
瑞舒伐他汀钙片 药物
将训练好的命名实体传入科室匹配模块24,与医院数据库中过往病人的主诉信息和电子病历中的关键词进行文本相似度计算,所得相似度前五的科室,如下表所示:
推荐科室 推荐指数
神经内科 0.9203948
内分泌科 0.5392983
血液科 0.4892948
免疫科 0.2984828
心血管内科 0.1038485
最终推荐科室为神经内科。
总之,以上所述仅为本发明的较佳实施例,本发明基于BGRU-Attention-CRF的命名实体技术,辅助分诊实现了较高的精准度。凡依本发明申请专利范围所作的均等变化与修饰,皆应属本发明专利的涵盖范围。

Claims (8)

1.一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统,包括一种智慧医疗分诊系统和一种基于BGRU-Attention-CRF算法,智慧医疗分诊系统通过云服务器建立;
所述智慧医疗分诊系统包括用户模块(1)和远程服务模块(2),所述远程服务模块(2)包括文本预处理模块(21),特征识别模块(22),数据库单元模块(23)以及科室匹配模块(24),所述基于BGRU-Attention-CRF算法位于特征识别模块(22)中;
还包括以下步骤:
步骤201:在云端数据库储存收集过往病人的主诉信息和电子病历,进行数据预处理后,人工标注医疗命名识别类型作为原始训练集;
步骤202:对数据进行预处理,将原始训练数据按照比例分为训练集、验证集、测试集;
步骤203:构建BGRU-Attention-CRF神经网络,用于命名实体识别,利用测试集和验证集对神经网络进行训练;
步骤204:将命名实体传入科室匹配模块(24),与过往病人的主诉信息和电子病历中的关键词进行文本相似度计算,得到推荐科室。
2.根据权利要求1所述的一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统,其特征在于:所述用户模块(1)为ANDROID应用程序。
3.根据权利要求1所述的一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统,其特征在于:所述步骤203中,BGRU神经网络结构采用递归神经网络,属于RNN、LSTM的变体;BGRU网络是一种基于学习时间序列数据关系的循环结构,和采用一层双向GRU网络。
4.根据权利要求1所述的一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统,其特征在于:所述步骤203中,GRU的输入序列为{xt|x1,x2,...,xn},隐藏层序列中间状态为
Figure FSA0000282625950000021
最终状态为{ht|h1,h2,...,hn};GRU网络重置门401rt、更新门402zt,输出序列的计算式子如下:
zt=σg(Wzxt+Uzht-1+bz)
rt=σg(Wrxt+Urht-1+br)
Figure FSA0000282625950000022
Figure FSA0000282625950000023
式中,xt为输入序列,rt为重置门、zt为更新门,‘⊙’为Hadamard点积,
Figure FSA0000282625950000024
为t时刻隐藏层的中间状态,ht为t时刻隐藏层的最终状态,ht-1为t-1时刻隐藏层的最终状态,bz,br,bh表示偏置项,Wz,Wr,Wh,Wo,Uz,Ur,Uh表示可训练矩阵,σg为sigmoid函数。
5.根据权利要求1所述的一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统,其特征在于:所述步骤203中,在BGRU网络单元之后增加的dropout层;在dropout层后增加Multi-Head Attention,多头注意力机制不仅可以更好地使得特征向量之间更好地融合,而且可以让模型关注不同子空间的信息;相当于对同一个特征空间采用不同的滤波器从而得到不同信息,输出序列的计算式子如下:
Q=WQH
K=WKH
V=WVH
headi=Attention(Qi,Ki,Vi)
MultiHead(Q,K,V)=Concat(head1,head2,...,headn)WO
其中,
Figure FSA0000282625950000031
Figure FSA0000282625950000032
dk为Q、K特征向量的维度,dk=8,Q、K、V均为dropout层输出的矩阵。
6.根据权利要求1所述的一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统,其特征在于:所述步骤203中,采用线性条件随机场和维特比进行编码,得到最终的命名实体,CRF适用于序列标注问题,CRF的优点在于不仅可以考虑相邻标注之间的关系,而且通过维特比解码可以求出当前输入下相对最优的序列标注;和使用
Figure FSA0000282625950000033
代表输入序列,
Figure FSA0000282625950000034
代表预测的标注,
Figure FSA0000282625950000035
代表序列
Figure FSA0000282625950000036
所有可能的标注
Figure FSA0000282625950000037
的集合,则当已知输入序列
Figure FSA0000282625950000038
的前提下,
Figure FSA0000282625950000039
的标注序列为
Figure FSA00002826259500000310
的条件概率公式为,
Figure FSA00002826259500000311
其中,tk(yi-1,yi,x,i)是转移矩阵的特征,来自BGRU-Attention,λk是转移矩阵系数;sl(yi,x,i)是发射矩阵的特征,来自神经网络的参数更新,μl是发射矩阵系数。
7.根据权利要求1所述的一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统,其特征在于:所述步骤203中,在训练过程中,目标函数是使得
Figure FSA00002826259500000313
尽量大,损失函数采用对数模型,将损失函数转化为对数线性模型,损失函数如下式所示,优化器选取SDG优化器,
Figure FSA00002826259500000312
Figure FSA0000282625950000041
8.根据权利要求1所述的一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统,其特征在于:所述步骤203中,Viterbi是一种动态规划算法,可以找到一条相对最优路径,即最可能的标注(命名实体),所得相对最优命名实体
Figure FSA0000282625950000042
如下式所示,
Figure FSA0000282625950000043
CN202211043573.3A 2022-08-19 2022-08-19 一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统 Pending CN115458135A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211043573.3A CN115458135A (zh) 2022-08-19 2022-08-19 一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211043573.3A CN115458135A (zh) 2022-08-19 2022-08-19 一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统

Publications (1)

Publication Number Publication Date
CN115458135A true CN115458135A (zh) 2022-12-09

Family

ID=84301757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211043573.3A Pending CN115458135A (zh) 2022-08-19 2022-08-19 一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统

Country Status (1)

Country Link
CN (1) CN115458135A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116823803A (zh) * 2023-07-21 2023-09-29 深圳鑫舟生物信息科技有限公司 一种生物补偿理疗系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116823803A (zh) * 2023-07-21 2023-09-29 深圳鑫舟生物信息科技有限公司 一种生物补偿理疗系统
CN116823803B (zh) * 2023-07-21 2024-01-30 深圳鑫舟生物信息科技有限公司 一种生物补偿理疗系统

Similar Documents

Publication Publication Date Title
CN109670179B (zh) 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN109920501B (zh) 基于卷积神经网络和主动学习的电子病历分类方法及系统
CN107016438B (zh) 一种基于中医辨证人工神经网络算法模型的系统
CN111048167B (zh) 一种层级式病例结构化方法及系统
US20220147838A1 (en) Self-supervised visual-relationship probing
CN112447300B (zh) 基于图神经网络的医疗查询方法、装置、计算机设备及存储介质
CN110931137B (zh) 机器辅助对话系统、方法及装置
JP7464800B2 (ja) 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム
CN111091906A (zh) 一种基于真实世界数据的辅助医疗诊断方法及系统
WO2023178971A1 (zh) 就医的互联网挂号方法、装置、设备及存储介质
CN110444261B (zh) 序列标注网络训练方法、电子病历处理方法及相关装置
CN115472252A (zh) 基于对话的电子病历生成方法、装置、设备和存储介质
CN113409907A (zh) 一种基于互联网医院的智能预问诊方法及系统
CN116092699A (zh) 一种基于预训练模型的癌症问答交互方法
CN101615182A (zh) 中医症状信息存储系统及中医症状信息存储方法
CN115458135A (zh) 一种基于BGRU-Attention-CRF的Bio-NER智慧医疗分诊系统
CN116052858A (zh) 一种基于bert和特征融合的智能导诊方法
CN111128388A (zh) 一种值域数据匹配方法、装置及相关产品
CN116108000B (zh) 医疗数据管理查询方法
CN117591655A (zh) 基于中药知识图谱的智能问答系统
CN116469534A (zh) 医院叫号管理系统及其方法
CN116453674A (zh) 一种智慧医疗系统
CN115565655A (zh) 一种增强的辅助问诊方法
CN113488165B (zh) 基于知识图谱的文本匹配方法、装置、设备以及存储介质
CN115579153A (zh) 问诊评价方法、问诊评价装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination