CN114428860A - 院前急救病例文本的识别方法、装置、终端及存储介质 - Google Patents

院前急救病例文本的识别方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN114428860A
CN114428860A CN202210096034.XA CN202210096034A CN114428860A CN 114428860 A CN114428860 A CN 114428860A CN 202210096034 A CN202210096034 A CN 202210096034A CN 114428860 A CN114428860 A CN 114428860A
Authority
CN
China
Prior art keywords
text
neural network
network model
information
emergency case
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210096034.XA
Other languages
English (en)
Inventor
生龙
张旭
田丰
赵继军
陈湘国
马晓雨
魏忠诚
王巍
王超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Engineering
Original Assignee
Hebei University of Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Engineering filed Critical Hebei University of Engineering
Priority to CN202210096034.XA priority Critical patent/CN114428860A/zh
Publication of CN114428860A publication Critical patent/CN114428860A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Abstract

本发明提供一种院前急救病例文本的识别方法、装置、终端及存储介质。该方法包括:对获取院前急救病例文本进行预处理,得到处理后的目标文本;根据目标文本的上下文动态地对每个词语进行编码,得到词向量;将词向量分别进行全局信息提取和局部信息提取,并将提取的全局信息和局部信息进行信息融合,得到特征向量;将特征向量输入到目标图卷积神经网络模型进行文本分类识别。本发明能够实现对相似专业词汇的准确提取,从而可以提高文本分类识别的准确率,且实现对词向量的全局特征和局部特征的提取,使得提取的特征向量表达更全面准确。

Description

院前急救病例文本的识别方法、装置、终端及存储介质
技术领域
本发明涉及文本数据处理技术领域,尤其涉及一种院前急救病例文本的识别方法、装置、终端及存储介质。
背景技术
院前急救在救死扶伤的医疗救治中具有重要作用,院前急救系统主要依赖于接线员的经验以及工作效率。当接线员接到急救电话后,应在短时间内了解患者的发病原因、基本情况和生活状态,进行院前急救病例文本的急救患者的病情信息记录。深度学习在电子病历上信息抽取、静态预测等方面得到了应用,并取得了良好的结果,因此可以采用基于深度学习的文本分类模型提取院前急救病例文本中的语义特征,能够分析出急重症疾病的特征,并根据病情信息辅助接线员快速诊断,提升院前诊断的效率以及患者的救治率。
然而,发明人发现,目前院前急救病例文本中存在着大量的相似专业词汇,这些相似词汇极大提高了文本特征的获取难度,导致院前急救病例文本的分类准确率降低。
发明内容
本发明实施例提供了一种院前急救病例文本的识别方法、装置、终端及存储介质,以解决现有技术中识别相似专业词汇难度大,导致院前急救病例文本的分类准确率降低的问题。
第一方面,本发明实施例提供了一种院前急救病例文本的识别方法,包括:
对获取院前急救病例文本进行预处理,得到处理后的目标文本;
根据所述目标文本的上下文动态地对每个词语进行编码,得到词向量;
将所述词向量分别进行全局信息提取和局部信息提取,并将提取的全局信息和局部信息进行信息融合,得到特征向量;
将所述特征向量输入到目标图卷积神经网络模型进行文本分类识别。
在一种可能的实现方式中,在所述将所述特征向量输入到目标图卷积神经网络模型进行文本分类识别之前,还包括:
对预设图卷积神经网络模型中进行模型训练,得到所述目标图卷积神经网络模型,其中,在进行模型训练时,采用激活函数控制激活神经元。
在一种可能的实现方式中,所述激活函数为
Figure BDA0003490808650000021
其中,βc表示第c个句子对应的激活状态参数,σ表示第一激活函数,W表示卷积操作,xc,h表示第c个句子中第h个特征向量,H表示词向量总数。
在一种可能的实现方式中,所述对预设图卷积神经网络模型中进行模型训练,得到所述目标图卷积神经网络模型,包括:
根据得到所述特征向量的方法得到训练数据和测试数据;
将所述训练数据输入预设图卷积神经网络模型中进行模型训练,得到初始图卷积神经网络模型;
采用所述测试数据对所述初始图卷积神经网络模型进行测试,得到分类准确率;
当所述分类准确率大于或等于预设分类准确率时,确定所述初始图卷积神经网络模型为目标图卷积神经网络模型;
当所述分类准确率小于预设分类准确率时,继续对所述初始图卷积神经网络模型进行模型训练,直到分类准确率大于或等于预设分类准确率时结束训练。
在一种可能的实现方式中,所述预设图卷积神经网络模型中包括两层GCN、一层Meta-ACON和softmax分类器;
在训练所述预设图卷积神经网络模型中的所述两层GCN时,根据
Figure BDA0003490808650000031
确定高阶邻域信息;
其中,Lj+1表示第(j+1)层GCN中的邻域信息,ρ表示第二激活函数,A表示特征向量矩阵对应的邻接矩阵,
Figure BDA0003490808650000032
表示归一化的邻接矩阵,D表示所述邻接矩阵的度矩阵,Lj表示第j层GCN中的邻域信息,j表示大于等于0的整数,其中,L0=G,G表示所述训练数据或者所述测试数据对应的特征向量矩阵,Wj表示第j层GCN中权重矩阵。
在一种可能的实现方式中,邻接矩阵确定的方法包括:
根据所述训练数据对应的文本中的特征向量,计算任两个特征向量之间的边的权重;
根据所述训练数据对应的文本中的特征向量,计算任一特征向量在所述文本中出现的概率;
根据所述权重和所述概率,确定邻接矩阵。
在一种可能的实现方式中,所述对获取院前急救病例文本进行预处理,得到处理后的目标文本,包括:
获取院前急救病例文本;
从所述院前急救病例文本中筛选疾病信息,并将筛选出的疾病信息进行文本清洗,得到清洗后的文本;
根据所述清洗后的文本和预设分类标准,确定对应的格式化标签;
在预设类别表查找设置了格式化标签的文本对应的类别,得到处理后的目标文本。
第二方面,本发明实施例提供了一种院前急救病例文本的识别装置,包括:
预处理模块,用于对获取院前急救病例文本进行预处理,得到处理后的目标文本;
编码模块,用于根据所述目标文本的上下文动态地对每个词语进行编码,得到词向量;
特征提取模块,用于将所述词向量分别进行全局信息提取和局部信息提取,并将提取的全局信息和局部信息进行信息融合,得到特征向量;
分类模块,用于将所述特征向量输入到目标图卷积神经网络模型进行文本分类识别。
第三方面,本发明实施例提供了一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上第一方面或第一方面的任一种可能的实现方式所述的院前急救病例文本的识别方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上第一方面或第一方面的任一种可能的实现方式所述的院前急救病例文本的识别方法的步骤。
本发明实施例提供一种院前急救病例文本的识别方法、装置、终端及存储介质,通过对获取院前急救病例文本进行预处理,得到处理后的目标文本;根据所述目标文本的上下文动态地对每个词语进行编码,得到词向量,实现对相似专业词汇的准确提取,从而可以提高文本分类识别的准确率;将所述词向量分别进行全局信息提取和局部信息提取,并将提取的全局信息和局部信息进行信息融合,得到特征向量,实现对词向量的全局特征和局部特征的提取,使得提取的特征向量表达更全面准确;将所述特征向量输入到目标图卷积神经网络模型进行文本分类识别,可以得到准确率更该的分类。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的院前急救病例文本的识别方法的流程图;
图2是本发明实施例提供的院前急救病例文本的预处理的示意图;
图3是本发明实施例提供的词向量获取过程的示意图;
图4是本发明实施例提供的得到特征向量的方法的实现流程图;
图5是本发明实施例提供的院前急救病例文本的识别装置的结构示意图;
图6是本发明实施例提供的终端的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图通过具体实施例来进行说明。
图1为本发明实施例提供的一种院前急救病例文本的识别方法的实现流程图,详述如下:
步骤101,对获取院前急救病例文本进行预处理,得到处理后的目标文本。
在一实施例中,本步骤可以包括:获取院前急救病例文本;从院前急救病例文本中筛选疾病信息,并将筛选出的疾病信息进行文本清洗,得到清洗后的文本;根据清洗后的文本和预设分类标准,确定对应的格式化标签;在预设类别表查找设置了格式化标签的文本对应的类别,得到处理后的目标文本。
其中,院前急救病例文本中包含了任务编码、序号,性别、年龄、国籍、职业、病情、病因、主诉、现病史等信息。这些信息中有的和疾病相关,有的和疾病无关,由于我们是想获得与疾病相关的信息以便进行后续的文本识别,辅助急救科医生进行判断,因此从院前急救病例文本中筛选疾病信息,信息筛选的目的是尽量选择与疾病相关的信息,使得文本中的特征尽量稠密,降低其他无关信息对文本分类的影响。
可选的,在从院前急救病例文本中筛选疾病信息时,根据院前急救病例文本中的词语或句子在预设标准疾病词语表中进行查找,从而筛选出疾病相关信息。
由于筛选后的疾病信息中可能存在特殊符号、空白或者一些无关的词汇,因此将筛选出的疾病信息进行文本清洗,让文本中不包括这些无用的信息,降低后续进行文本识别的工作量。文本清洗可以降低文本数据的噪声,在一定程度上降低了文本的输入维度,进而提高了文本分类的性能。
由于清洗后的文本中记录的疾病种类多且数量不均匀,可能存在共病现象,因此可以采用第十套国际分类标准进行编码,即将各个疾病小类整合到疾病大类中,依次增加各类的数据量并减少标签种类,使得文本中记录的疾病可以归结到一个大的疾病种类中,还可以从此大疾病种类中发现记录的疾病小种类中的共同特征,为工作人员提供数据支持,更好更准确的判断对应的疾病。对于共病现象,选择将第一诊断作为清洗后的文本的格式化标签,这里第一诊断即为大疾病种类,当第一诊断不能对应清洗后的文本的标签时,则采用第一诊断中包括的第二诊断,即小疾病种类,直到对应的格式化标签可以明确表明清洗后的文本对应的疾病种类。
预设类别表为根据医生经验设置的疾病种类,院前急救数据中的诊断是根据病症信息而做出的判断,因此使用诊断信息表明该样本的分类类别。可以采用有监督的文本分类算法,将设置了格式化标签的文本对应到特定类别中。
参见图2,在接线员记录下院前急救病例文本后,经过疾病信息筛选、文本清洗、格式化标签设置以及类别匹配后得到了处理后的目标文本,后续根据目标文本进行文本识别。
步骤102,根据目标文本的上下文动态地对每个词语进行编码,得到词向量。
在一实施例中,采用基于Transformer的双向编码器表征(BidirectionalEncoder Representations from Transformer,BERT)对目标文本的上下文中的每个词语进行编码,BERT采用的是Transformer,并且在处理一个单词的时候,还能够考虑到该词前面和后面的单词,得到它在上下文中的含义。我们知道,Transformer的attention机制在对语境中的单词进行特征抽取时有着很好的效果,而且从直觉上看,考虑上下文的双向编码要比只考虑上文(或下文)的单向效果更好,因此可以解决一词多义的现象。
如图3所示的词向量获取过程,对输入的目标文本中的每个句子采用[CLS]和[SEP]分割。[CLS]为序列开头特定的标志,[SEP]放在序列中每个句子的后面,以分开序列中不同的句子。图2中,一个句子由三个词构成,在第一个词1的前面标注[CLS],在词3的后面标注[SEP]。BERT词向量共由三部分叠加而成,字向量、句子向量和位置向量。其中,字向量负责将词转换为固定维度的向量;句子向量只有两种向量表示,即1和0,前一个向量将0赋给第一个句子的各个字向量,后一个向量将1赋给第二个句子中的各个字向量,用于区分不同句子;位置向量用于标注输入的目标文本的顺序属性。将以上三种向量中对应向量相加即得到了BERT的线性序列输入表示。参见图2中,[CLS]对应的字向量为E[CLS],词1对应的字向量为E[词1],词2对应的字向量为E[词2],词3对应的字向量为E[词3],[SEP]对应的字向量为E[SEP]。句子向量对应的所有值均为Ea。位置向量对应标注每个词的位置,例如E1、E2、E3、E4和E5,每个词对应的字向量、句子向量和位置向量进行叠加,叠加之后得到Eout1、Eout2、Eout3、Eout4和Eout5,即词1、词2和词3构成的句子对应的词向量为Eout1、Eout2、Eout3、Eout4和Eout5。
步骤103,将词向量分别进行全局信息提取和局部信息提取,并将提取的全局信息和局部信息进行信息融合,得到特征向量。
在本实施例中,参见图4,将得到的词向量分别输入双向长期短期记忆(Bi-directional Long Short-Term Memory,BiLSTM)和基于卷积神经网络的文本分类模型(Text-Convolutional Neural Networks,Text-CNN)中进行特征提取,BiLSTM可以从输入的词向量的全局方面获取文本的特征,TextCNN可以从输入的词向量的局部方面获取文本的特征,因此通过将词向量分别输入BiLSTM和TextCNN中,然后再将输出的全局信息和局部信息进行融合,则得到了包含全局和局部两方面的特征向量,提高了文本的分类性能。
步骤104,将特征向量输入到目标图卷积神经网络模型进行文本分类识别。
在对特征向量进行分类之前,还需要对预设图卷积神经网络模型中进行模型训练,得到目标图卷积神经网络模型,然后采用训练成功的目标图卷积神经网络模型对特征向量进行分类,得到文本识别结果。
在一实施例中,对预设图卷积神经网络模型中进行模型训练,得到目标图卷积神经网络模型,包括:根据得到特征向量的方法得到训练数据和测试数据;将训练数据输入预设图卷积神经网络模型中进行模型训练,得到初始图卷积神经网络模型;采用测试数据对初始图卷积神经网络模型进行测试,得到分类准确率;当分类准确率大于或等于预设分类准确率时,确定初始图卷积神经网络模型为目标图卷积神经网络模型;当分类准确率小于预设分类准确率时,继续对初始图卷积神经网络模型进行模型训练,直到分类准确率大于或等于预设分类准确率时结束训练。
本实施例中采用的图卷积神经网络模型为(Graph Convolutional Network,GCN),可以从单词和文档两方面获取文本特征,再通过自适用激活函数(MetaActivateornot,Meta-ACON)输出文本特征,最终通过softmax进行文本分类。即预设图卷积神经网络模型中包括两层GCN、一层Meta-ACON和softmax分类器。
GCN是一种多层神经网络,它直接在一个图上操作,因此称为图卷积神经网络模型。GCN根据节点邻域的性质输出节点的嵌入向量。这里节点指特征向量,正式地说,假设一个图采用G=(V,E)表示,其中V(|V|=n)为节点集,E是边集。假设每个节点都与自身相连,即对于任意v有(v,v)∈E。设X∈Rn×m为包含n个节点的特征向量的矩阵,这里特征向量即为信息融合后得到的特征向量,其中m为特征向量的维数,每行xv∈Rm为节点v的特征向量。A是特征向量矩阵G的邻接矩阵,D是G的度矩阵,其中
Figure BDA0003490808650000091
Dii表示D中的第i行第i列元素,Aij表示A中第i行第j列的元素。由于存在自环,A的对角线元素为1。GCN的一个卷积层只能捕获近领域信息,当多个GCN层堆叠时,将会汇总更大的领域信息,对于单层GCN,k维节点特征矩阵L∈Rn×k计算如下:
Figure BDA0003490808650000092
其中,
Figure BDA0003490808650000093
表示归一化的邻接矩阵,
Figure BDA0003490808650000094
W0∈Rm×k表示权重矩阵。
在训练预设图卷积神经网络模型中的两层GCN时,根据
Figure BDA0003490808650000095
确定高阶邻域信息;
其中,Lj+1表示第(j+1)层GCN中的邻域信息,ρ表示第二激活函数,A表示特征向量矩阵对应的邻接矩阵,
Figure BDA0003490808650000096
表示归一化的邻接矩阵,D表示邻接矩阵的度矩阵,Lj表示第j层GCN中的邻域信息,j表示大于等于0的整数,其中,L0=G,Wj表示第j层GCN中权重矩阵。需要说明的是,ρ在第一层GCN中表示Meta-ACON激活函数,在第二层GCN中表示softmax激活函数。
通过将特征向量输入GCN中,可以确定两层GCN的邻域信息,然后邻接矩阵的确定还需要确定两个词或词与句之间的边的权重,因此邻接矩阵确定的方法包括:
根据训练数据对应的文本中的特征向量,计算任两个特征向量之间的边的权重;根据训练数据对应的文本中的特征向量,计算任一特征向量在文本中出现的概率;根据权重和概率,确定邻接矩阵。
这里,文本中特征向量的出现(文档节点与词节点的边)和特征向量中词共现(词节点与词节点之间的边)在节点之间建立边,两个词节点之间边的权重用点互信息表示。计算方式如下:
Figure BDA0003490808650000101
其中,PMI(i,j)表示词节点i与词节点j之间的边的权重,P(i,j)表示同时包含词节点i与词节点j的滑动窗口所占比例,P(i)表示包括词节点i的滑动窗口所占比例,P(j)表示包括词节点j的滑动窗口所占比例,N(i,j)表示同时包括词节点i与词节点j的滑动窗口数,N(i)表示包括词节点i的滑动窗口数,N表示语料库中滑动窗口的总数。
PMI(i,j)的值为正,表示文本中词节点之间的语义相关性很高,而PMI(i,j)的值为负则意味着文本中词节点之间的语义相关性很小或没有。因此,只在PMI(i,j)值为正的词节点对之间添加边。
综上,确定的邻接矩阵,可以包括:
Figure BDA0003490808650000102
目前一般的深度学习模型中往往会忽略单词和文档之间的关系,导致计算的邻接矩阵的准确性不高,导致最后文本分类准确率较低,而本方案中通过综合考虑单词之间的关系和单词及文本之间的关系确定邻接矩阵,从而可以得到准确性高的邻接矩阵,从而训练的目标图卷积神经网络模型的分类准确率较高。
在上述图卷积神经网络模型训练过程中,采用激活函数控制激活神经元。激活函数是在神经网络层间输入与输出之间的一种函数变换,目的是为了加入非线性因素,增强模型的表达能力。ReLU尽管稀疏性可以提升计算高效性,但同样也可能阻碍训练过程。通常,激活函数的输入值有一偏置项,假设偏置项变得太小,以至于输入激活函数的值总是负的,那么反向传播过程经过该处的梯度恒为0,对应的权重和偏置参数此次无法得到更新。如果对于所有的样本输入,该激活函数的输入都是负的,那么该神经元再也无法学习,称为神经元“死亡”问题。
Meta-ACON能够通过β值来控制是否激活神经元。其公式如下:
fmeta-acon(x)=(p1-p2)x·σ[β(p1-p2)x]+p2x;
其中,fmeta-acon(x)表示特征向量x所在的神经元是否激活的函数,p1和p2表示可学习的参数,即两个变量,x表示特征向量,σ表示第一激活函数,即sigmoid函数,β表示控制神经元的激活状态参数。
β一般应用在图像处理中,其对应的计算公式为:
Figure BDA0003490808650000111
其中,W0和W1分别表示代表的卷积操作,H表示特征向量总数,B表示像素,xc,h,b表示第c个图像中第h个通道的第b个像素,βc表示第c个句子对应的激活状态参数。
根据文本特征的表示方式,将β应用到本实施例中,进行神经元激活判断,该激活函数可以修改为:
Figure BDA0003490808650000112
其中,βc表示第c个句子对应的激活状态参数,σ表示激活函数,W表示卷积操作,xc,h表示第c个句子中第h个特征向量,H表示特征向量总数。
修改后的激活函数表示仅对特征向量进行卷积操作来得到对应的βc,灵活性更高,可以实现对每个神经元的精准控制,从而可以提高模型的分类性能。
通过训练预设图卷积神经网络模型,可以得到目标图卷积神经网络模型,最后将特征向量输入到目标图卷积神经网络模型中进行文本分类。需要说明的是用于训练预设图卷积神经网络模型采用的特征向量和输入到目标图卷积神经网络模型中进行文本分类的特征向量,均是经过步骤101-步骤103处理后得到的特征向量。
最后通过softmax分类器进行文本分类,softmax分类器可以表示为
Figure BDA0003490808650000121
其中,Z表示分类器函数,
Figure BDA0003490808650000122
表示当前神经元是否激活,softmax表示激活神经元的(0,1)区间的映射值,根据映射值对应得位置确定最终得分类结果。
上述院前急救病例文本的识别方法,通过对获取院前急救病例文本进行预处理,得到处理后的目标文本;根据目标文本的上下文动态地对每个词语进行编码,得到词向量,实现对相似专业词汇的准确提取,从而可以提高文本分类识别的准确率;将词向量分别进行全局信息提取和局部信息提取,并将提取的全局信息和局部信息进行信息融合,得到特征向量,实现对词向量的全局特征和局部特征的提取,使得提取的特征向量表达更全面准确;将特征向量输入到目标图卷积神经网络模型进行文本分类识别,可以得到准确率更该的分类。在进行图卷积神经网络模型训练时,采用自适应激活函数激活当前神经元,提高控制灵活性,实现对每个神经元的精准控制,提高整个模型的泛化能力。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
以下为本发明的装置实施例,对于其中未详尽描述的细节,可以参考上述对应的方法实施例。
图5示出了本发明实施例提供的院前急救病例文本的识别装置的结构示意图,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
如图5所示,院前急救病例文本的识别装置包括:预处理模块501、编码模块502、特征提取模块503和分类模块504。
预处理模块501,用于对获取院前急救病例文本进行预处理,得到处理后的目标文本;
编码模块502,用于根据目标文本的上下文动态地对每个词语进行编码,得到词向量;
特征提取模块503,用于将词向量分别进行全局信息提取和局部信息提取,并将提取的全局信息和局部信息进行信息融合,得到特征向量;
分类模块504,用于将特征向量输入到目标图卷积神经网络模型进行文本分类识别。
在一实施例中,在分类模块504将特征向量输入到目标图卷积神经网络模型进行文本分类识别之前,还用于:
对预设图卷积神经网络模型中进行模型训练,得到目标图卷积神经网络模型,其中,在进行模型训练时,采用激活函数控制激活神经元。
在一实施例中,激活函数为
Figure BDA0003490808650000131
其中,βc表示第c个句子对应的激活状态参数,σ表示第一激活函数,W表示卷积操作,xc,h表示第c个句子中第h个特征向量,H表示词向量总数。
在一实施例中,分类模块504对预设图卷积神经网络模型中进行模型训练,得到目标图卷积神经网络模型时,用于:
根据得到特征向量的方法得到训练数据和测试数据;
将训练数据输入预设图卷积神经网络模型中进行模型训练,得到初始图卷积神经网络模型;
采用测试数据对初始图卷积神经网络模型进行测试,得到分类准确率;
当分类准确率大于或等于预设分类准确率时,确定初始图卷积神经网络模型为目标图卷积神经网络模型;
当分类准确率小于预设分类准确率时,继续对初始图卷积神经网络模型进行模型训练,直到分类准确率大于或等于预设分类准确率时结束训练。
在一实施例中,预设图卷积神经网络模型中包括两层GCN、一层Meta-ACON和softmax分类器;
在分类模块504训练预设图卷积神经网络模型中的两层GCN时,根据
Figure BDA0003490808650000141
确定高阶邻域信息;
其中,Lj+1表示第(j+1)层GCN中的邻域信息,ρ表示第二激活函数,A表示特征向量矩阵对应的邻接矩阵,
Figure BDA0003490808650000142
表示归一化的邻接矩阵,D表示邻接矩阵的度矩阵,Lj表示第j层GCN中的邻域信息,j表示大于等于0的整数,其中,L0=G,G表示训练数据或者测试数据对应的特征向量矩阵,Wj表示第j层GCN中权重矩阵。
在一实施例中,分类模块504还用于:
根据训练数据对应的文本中的特征向量,计算任两个特征向量之间的边的权重;
根据训练数据对应的文本中的特征向量,计算任一特征向量在文本中出现的概率;
根据权重和概率,确定邻接矩阵。
在一实施例中,预处理模块501对获取院前急救病例文本进行预处理,得到处理后的目标文本时,用于:
获取院前急救病例文本;
从院前急救病例文本中筛选疾病信息,并将筛选出的疾病信息进行文本清洗,得到清洗后的文本;
根据清洗后的文本和预设分类标准,确定对应的格式化标签;
在预设类别表查找设置了格式化标签的文本对应的类别,得到处理后的目标文本。
上述院前急救病例文本的识别装置,通过预处理模块对获取院前急救病例文本进行预处理,得到处理后的目标文本;编码模块根据目标文本的上下文动态地对每个词语进行编码,得到词向量,实现对相似专业词汇的准确提取,从而可以提高文本分类识别的准确率;特征提取模块将词向量分别进行全局信息提取和局部信息提取,并将提取的全局信息和局部信息进行信息融合,得到特征向量,实现对词向量的全局特征和局部特征的提取,使得提取的特征向量表达更全面准确;分类模块将特征向量输入到目标图卷积神经网络模型进行文本分类识别,可以得到准确率更该的分类。在进行图卷积神经网络模型训练时,采用自适应激活函数激活当前神经元,提高控制灵活性,实现对每个神经元的精准控制,提高整个模型的泛化能力。
图6是本发明实施例提供的终端的示意图。如图6所示,该实施例的终端6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62。所述处理器60执行所述计算机程序62时实现上述各个院前急救病例文本的识别方法实施例中的步骤,例如图1所示的步骤101至步骤104。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图5所示的模块/单元501至504的功能。
示例性的,所述计算机程序62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序62在所述终端6中的执行过程。例如,所述计算机程序62可以被分割成图5所示的模块/单元501至504。
所述终端6可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端6的示例,并不构成对终端6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端还可以包括输入输出设备、网络接入设备、总线等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述终端6的内部存储单元,例如终端6的硬盘或内存。所述存储器61也可以是所述终端6的外部存储设备,例如所述终端6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述终端6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个院前急救病例文本的识别方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种院前急救病例文本的识别方法,其特征在于,包括:
对获取院前急救病例文本进行预处理,得到处理后的目标文本;
根据所述目标文本的上下文动态地对每个词语进行编码,得到词向量;
将所述词向量分别进行全局信息提取和局部信息提取,并将提取的全局信息和局部信息进行信息融合,得到特征向量;
将所述特征向量输入到目标图卷积神经网络模型进行文本分类识别。
2.根据权利要求1所述的院前急救病例文本的识别方法,其特征在于,在所述将所述特征向量输入到目标图卷积神经网络模型进行文本分类识别之前,还包括:
对预设图卷积神经网络模型中进行模型训练,得到所述目标图卷积神经网络模型,其中,在进行模型训练时,采用激活函数控制激活神经元。
3.根据权利要求2所述的院前急救病例文本的识别方法,其特征在于,所述激活函数为
Figure FDA0003490808640000011
其中,βc表示第c个句子对应的激活状态参数,σ表示第一激活函数,W表示卷积操作,xc,h表示第c个句子中第h个特征向量,H表示词向量总数。
4.根据权利要求2所述的院前急救病例文本的识别方法,其特征在于,所述对预设图卷积神经网络模型中进行模型训练,得到所述目标图卷积神经网络模型,包括:
根据得到所述特征向量的方法得到训练数据和测试数据;
将所述训练数据输入预设图卷积神经网络模型中进行模型训练,得到初始图卷积神经网络模型;
采用所述测试数据对所述初始图卷积神经网络模型进行测试,得到分类准确率;
当所述分类准确率大于或等于预设分类准确率时,确定所述初始图卷积神经网络模型为目标图卷积神经网络模型;
当所述分类准确率小于预设分类准确率时,继续对所述初始图卷积神经网络模型进行模型训练,直到分类准确率大于或等于预设分类准确率时结束训练。
5.根据权利要求4所述的院前急救病例文本的识别方法,其特征在于,所述预设图卷积神经网络模型中包括两层GCN、一层Meta-ACON和softmax分类器;
在训练所述预设图卷积神经网络模型中的所述两层GCN时,根据
Figure FDA0003490808640000021
确定高阶邻域信息;
其中,Lj+1表示第(j+1)层GCN中的邻域信息,ρ表示第二激活函数,A表示特征向量矩阵对应的邻接矩阵,
Figure FDA0003490808640000022
表示归一化的邻接矩阵,D表示所述邻接矩阵的度矩阵,Lj表示第j层GCN中的邻域信息,j表示大于等于0的整数,其中,L0=G,G表示所述训练数据或者所述测试数据对应的特征向量矩阵,Wj表示第j层GCN中权重矩阵。
6.根据权利要求5所述的院前急救病例文本的识别方法,其特征在于,邻接矩阵确定的方法包括:
根据所述训练数据对应的文本中的特征向量,计算任两个特征向量之间的边的权重;
根据所述训练数据对应的文本中的特征向量,计算任一特征向量在所述文本中出现的概率;
根据所述权重和所述概率,确定邻接矩阵。
7.根据权利要求1-6中任一项所述的院前急救病例文本的识别方法,其特征在于,所述对获取院前急救病例文本进行预处理,得到处理后的目标文本,包括:
获取院前急救病例文本;
从所述院前急救病例文本中筛选疾病信息,并将筛选出的疾病信息进行文本清洗,得到清洗后的文本;
根据所述清洗后的文本和预设分类标准,确定对应的格式化标签;
在预设类别表查找设置了格式化标签的文本对应的类别,得到处理后的目标文本。
8.一种院前急救病例文本的识别装置,其特征在于,包括:
预处理模块,用于对获取院前急救病例文本进行预处理,得到处理后的目标文本;
编码模块,用于根据所述目标文本的上下文动态地对每个词语进行编码,得到词向量;
特征提取模块,用于将所述词向量分别进行全局信息提取和局部信息提取,并将提取的全局信息和局部信息进行信息融合,得到特征向量;
分类模块,用于将所述特征向量输入到目标图卷积神经网络模型进行文本分类识别。
9.一种终端,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上的权利要求1至7中任一项所述的院前急救病例文本的识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上的权利要求1至7中任一项所述的院前急救病例文本的识别方法的步骤。
CN202210096034.XA 2022-01-26 2022-01-26 院前急救病例文本的识别方法、装置、终端及存储介质 Pending CN114428860A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210096034.XA CN114428860A (zh) 2022-01-26 2022-01-26 院前急救病例文本的识别方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210096034.XA CN114428860A (zh) 2022-01-26 2022-01-26 院前急救病例文本的识别方法、装置、终端及存储介质

Publications (1)

Publication Number Publication Date
CN114428860A true CN114428860A (zh) 2022-05-03

Family

ID=81312715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210096034.XA Pending CN114428860A (zh) 2022-01-26 2022-01-26 院前急救病例文本的识别方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN114428860A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115631852A (zh) * 2022-11-02 2023-01-20 北京大学重庆大数据研究院 证型推荐方法、装置、电子设备及非易失性存储介质
CN116306589A (zh) * 2023-05-10 2023-06-23 之江实验室 一种急救场景的医疗文本纠错及智能提取的方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115631852A (zh) * 2022-11-02 2023-01-20 北京大学重庆大数据研究院 证型推荐方法、装置、电子设备及非易失性存储介质
CN115631852B (zh) * 2022-11-02 2024-04-09 北京大学重庆大数据研究院 证型推荐方法、装置、电子设备及非易失性存储介质
CN116306589A (zh) * 2023-05-10 2023-06-23 之江实验室 一种急救场景的医疗文本纠错及智能提取的方法及装置
CN116306589B (zh) * 2023-05-10 2024-02-09 之江实验室 一种急救场景的医疗文本纠错及智能提取的方法及装置

Similar Documents

Publication Publication Date Title
RU2691214C1 (ru) Распознавание текста с использованием искусственного интеллекта
CN109740620B (zh) 人群画像分类模型的建立方法、装置、设备和存储介质
CN112966074B (zh) 一种情感分析方法、装置、电子设备以及存储介质
CN111259142A (zh) 基于注意力编码和图卷积网络的特定目标情感分类方法
CN111091175A (zh) 神经网络模型训练方法、分类方法、装置和电子设备
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CN112131383A (zh) 特定目标的情感极性分类方法
CN111476023A (zh) 识别实体关系的方法及装置
CN111881671B (zh) 一种属性词提取方法
CN114428860A (zh) 院前急救病例文本的识别方法、装置、终端及存储介质
CN112667782A (zh) 一种文本分类方法、装置、设备及存储介质
CN112749274A (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN113704396A (zh) 短文本分类方法、装置、设备及存储介质
CN116150367A (zh) 一种基于方面的情感分析方法及系统
CN113836992A (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
CN110717407A (zh) 基于唇语密码的人脸识别方法、装置及存储介质
CN114332893A (zh) 表格结构识别方法、装置、计算机设备和存储介质
CN115859989A (zh) 基于远程监督的实体识别方法及系统
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
CN115358817A (zh) 基于社交数据的智能产品推荐方法、装置、设备及介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN115238645A (zh) 资产数据识别方法、装置、电子设备和计算机存储介质
CN114117037A (zh) 意图识别方法、装置、设备和存储介质
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination