CN116386895B

CN116386895B - 基于异构图神经网络的流行病舆情实体识别方法与装置

Info

Publication number: CN116386895B
Application number: CN202310358447.5A
Authority: CN
Inventors: 侯琳琳; 张吉; 余婷
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-11-28
Anticipated expiration: 2043-04-06
Also published as: CN116386895A

Abstract

本发明公开了一种基于异构图神经网络的流行病舆情实体识别方法与装置，包括：采集流行病舆情文本，并按实体类别分类标注，再输入至BERT网络，得到第一特征向量；将第一特征向量输入BiLSTM，得到包含流行病舆情文本中各个字符对应的第二特征向量，将每个字符对应的第二特征向量组成第一向量表示矩阵；构建异构图，其中，异构图中的字符节点的初始向量表示为BiLSTM输出的各个字符对应的第二特征向量，子句虚拟节点的初始向量表示为子句中每一字符对应的第二特征向量的平均值；利用异构图注意力网络算法对异构图进行聚合更新，得到第二向量表示矩阵；将第二向量表示矩阵拼接于第一向量表示矩阵后，将拼接结果输入至条件随机场预测模型，得到预测标签。

Description

基于异构图神经网络的流行病舆情实体识别方法与装置

技术领域

本发明属于数据挖掘领域和自然语言处理领域，尤其涉及一种基于异构图神经网络的流行病舆情实体识别方法与装置。

背景技术

全球流行病的爆发，将极大地冲击全球公共卫生系统，对人们的生活产生巨大的影响。世界各国也采取了各种防疫措施，如家庭隔离，这也使得人们更加频繁地通过互联网和其他社交媒体(如Twitter、微博)获取和发布信息，表达自己的心情、意见等，从而产生了大量的网络舆情信息。针对这些信息，高效、准确地进行挖掘和分析变得越来越重要，其中实体挖掘是重要的研究任务之一。疫情舆情的实体挖掘有助于主题挖掘、后续情绪分析和其他预测任务，并能发现有用的知识和关键信息。挖掘出的关键实体促进了自然语言处理(Natural Language Processing，NLP)的研究和下游的应用(如：实体关联、情感分析)。对疫情防控起到了辅助和指导作用，为提高公共服务质量提供了可靠参考。

现有的流行病舆情实体的挖掘方法大多只是简单地使用现有的机器学习模型和深度学习模型，如LSTM、BiLSTM、RNN、BERT等，而很少针对疫情特征构建新的模型。一方面，舆情文本数量庞大，涉及各个领域的知识，如：医学术语、新闻要素、多语种混合词汇等。文中的知识元素和专业术语有复杂的表达方式，如：缩写、全名、长短语、表情符号、特殊符号等。例如疾病名称、发病症状、药物名称、诊断或治疗方法，工具，政策，这些实体类型在流行病社交媒体帖子中相对频繁地出现，实体类型应该在文本中具有实用性和可用性。它们比普通实体更难识别。普通的命名实体识别(NER)任务可以识别具有简单实体形式的专有名词，如地方、组织、人、时间实体等。因此，流行病舆情的实体识别的任务与普通的NER任务不同，更加困难和特殊。

另一方面，现有的研究工作在设计模型时忽略了句子中词与词之间的潜在关联信息，缺乏合理的图数据来存储舆情信息，无法捕捉到隐藏的多种关联信息。现有的方法多使用句法依赖树，可以捕捉到语义信息，但往往忽略了结构信息和结构性知识。

因此，亟需提出一种新的实体识别方法以实现对流行病舆情的实体识别。

发明内容

本发明针对现有技术不足，本发明提出了一种基于异构图神经网络的流行病舆情实体识别方法与装置。

为实现上述发明目的，本发明的技术方案为

根据本发明实施例的第一方面，提供了一种基于异构图神经网络的流行病舆情实体识别方法，其特征在于，所述方法包括以下步骤：

采集流行病舆情文本，并按照实体类别进行分类标注；

将标注好的流行病舆情文本输入至BERT网络，得到第一特征向量；

将第一特征向量输入至BiLSTM神经网络进行学习，得到包含流行病舆情文本中各个字符对应的第二特征向量，将每个字符对应的第二特征向量组成第一向量表示矩阵；

定义节点类型与边的连接方式，构建异构图，其中，异构图中的字符节点的初始向量表示为BiLSTM神经网络输出的各个字符对应的第二特征向量，子句虚拟节点的初始向量表示为子句中每一字符对应的第二特征向量的平均值；利用异构图注意力网络算法对异构图进行聚合更新，得到一流行病舆情文本句子中所有字符的第二向量表示矩阵；

将第二向量表示矩阵拼接于第一向量表示矩阵后，得到拼接结果；

将拼接结果输入至条件随机场预测模型，得到流行病舆情文本的预测标签。

根据本发明实施例的第二方面，提供了一种基于异构图神经网络的流行病舆情的实体识别系统，所述系统包括：

流行病舆情文本采集标注模块，用于采集流行病舆情文本，并按照实体类别进行分类标注；

第一特征向量获取模块，用于将标注好的流行病舆情文本输入至BERT网络，得到第一特征向量；

第一向量表示矩阵获取模块，用于将第一特征向量输入至BiLSTM神经网络进行学习，得到包含流行病舆情文本中各个字符对应的第二特征向量，将每个字符对应的第二特征向量组成第一向量表示矩阵；

异构图构建模块，定义节点类型与边的连接方式，构建并初始化异构图；其中，异构图中的字符节点的初始向量表示为BiLSTM神经网络输出的各个字符对应的第二特征向量，子句虚拟节点的初始向量表示为子句中每一字符对应的第二特征向量的平均值；

第二向量表示矩阵获取模块，利用异构图注意力网络算法对异构图进行聚合更新，得到一流行病舆情文本句子中所有字符的第二向量表示矩阵；

矩阵拼接模块，用于将第二向量表示矩阵拼接于第一向量表示矩阵后，得到拼接结果；

流行病舆情文本预测标签获取模块，用于将拼接结果输入至条件随机场预测网络，得到流行病舆情文本的预测标签。

根据本发明实施例的第三方面，提供了一种基于异构图神经网络的流行病舆情的实体识别装置，包括一个或多个处理器，用于上述的基于异构图神经网络的流行病舆情实体识别方法。

根据本发明实施例的第四方面，提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述的基于异构图神经网络的流行病舆情实体识别方法。

与现有技术相比，本发明的有益效果为：

(1)本发明通过构建异构图，可以包含不同粒度级别的语义节点和信息，充分考虑了词与词、子句与子句之间的潜在关联信息，能够捕捉到隐藏的多种关联信息；

(2)本发明将BiLSTM神经网络的输出与异构图注意力网络HGAN的输出进行拼接，能够将HGAN的优点更好地保留，结合全局语义信息，并避免传播过程中的信息丢失；

(3)本发明能够效地提取社交媒体中与流行病舆情相关的关键实体，有效提高复杂多变的实体形式的识别，大大提高了领域实体的检测准确率，为下游任务如实体关系抽取、实体情感分析、知识图谱等提供基础。有助于人们更好地理解公共舆论。

(4)本发明应用场景广泛，对于其他流行病舆情数据，均可以应用测试。同时能够解决多领域的命名实体标注问题，拥有端到端的优势。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于异构图神经网络的流行病舆情实体识别方法的流程图；

图2为本发明实施例提供的流行病舆情实体挖掘过程的示意图；

图3为本发明实施例提供的异构图神经网络的示意图；

图4为本发明实施例提供的一种基于异构图神经网络的流行病舆情的实体识别系统的示意图；

图5为本发明实施例提供的一种基于异构图神经网络的流行病舆情的实体识别装置的示意图。

具体实施方式

为使本发明的技术方案更加清楚，下面结合附图，具体说明本发明的实施方式。具体实施方式的说明能够使得本发明解决的技术问题、采用的技术方案和达到的技术效果阐述更加清楚。可以理解的是，此处所描述的具体实施例仅用于更加清楚地解释本发明，而不能以此来限制本申请的保护范围。另外还需说明，为了方便描述，附图中仅示出了与本发明相关的部分而非全部内容。

下面对本发明实施例中的技术方案进行清楚、完整地描述。

对于网络舆情下复杂多变的实体类型，词语是丰富多样的，文本中存在着不同粒度的对象及其相互作用，因此将描述文本建模为异构图是很自然和合理的。因此，在流行病舆情的实体识别的任务中，本发明实施例通过字符和子句的关系来构建文本数据的异构图，以解决这些问题。

本发明实施例的目的是提取与流行病文本有关的关键实体信息，并且为自然语言处理中的其他下游应用任务做基础。本发明方法通过构建异构图进行流行病舆情的实体识别，该方法结合了BiLSTM和异构图神经网络，使用子句虚拟节点和四类边来构建异构图，将BiLSTM和异构图神经网络串联起来，直接将BiLSTM和异构图神经网络的输出拼接作为解码器CRF的输入。

如图1和图2所示，本发明提出了一种基于异构图神经网络的流行病舆情实体识别方法，所述方法具体包括以下步骤：

步骤S1，筛选有关流行病舆情的文本，并按照实体类别进行分类标注。

需要说明的是，在步骤S1中，所述实体类别包括人名、地点、组织、时间、疾病名称、发病症状、药物名称、诊断治疗方法、工具和政策等，采用BIO(Begin Inner Other)标记策略进行分类标注。

步骤S2，构建流行病舆情实体识别模型，所述流行病舆情实体识别模型包括依次连接的BERT网络、BiLSTM神经网络、异构图注意力网络和条件随机场预测网络。将步骤S1标注好的流行病舆情文本输入至BERT网络，得到第一特征向量。

具体地，将步骤S1标注好的流行病舆情文本记为{w₁，w₂，…w_m}，将其输入至BERT(Bidirectional Encoder Representations from Transformers)网络，利用预训练BERT网络求出每个字符融合了上下文语义信息后的第一特征向量{x₁，x₂，…x_m}。

步骤S3，将第一特征向量输入至BiLSTM神经网络进行学习，得到包含流行病舆情文本中各个字符的第二特征向量，将每个字符对应的第二特征向量组成第一特征向量表示矩阵。

具体地，将第一特征向量{x₁，x₂，…x_m}输入至BiLSTM神经网络(Bi-directionalLong Short-Term Memory)学习句法和语义信息，其中，所述BiLSTM神经网络包含前向LSTM和后向LSTM，输出得到流行病舆情文本的句子中各个字符对应的第二特征向量h_t，表达式如下：

其中，d_h表示隐藏单元的数量，为前向LSTM输出的特征向量，/>为后向LSTM输出的特征向量；记一个流行病舆情文本句子中所有字符的第一特征向量表示矩阵为H^bi＝(h₁，h₂，…，h_m)，m为一流行病舆情文本句子中字符的数量。

步骤S4，构建异构图，其中，异构图中的字符节点的初始向量表示为BiLSTM神经网络输出的各个字符对应的第二特征向量，子句虚拟节点的初始向量表示为子句中每一字符对应的第二特征向量的平均值；利用异构图注意力网络算法对异构图进行聚合更新，得到一流行病舆情文本句子中所有字符的第二向量表示矩阵。

具体地，所述步骤S4具体包括以下子步骤：

步骤S401，构建异构图

其中，Q表示节点的类型分类集合，在本实例中，定义两种类型的节点：q₁表示每个字符为一种节点类型，q₂表示每个子句为一种虚拟子句节点类型，即Q＝{q₁，q₂}，|Q|＝2。

V表示异构图中的节点集合，假设一个中文句子有m个字符，k个子句，则字符节点集合为{v₁，v₂，…，v_m}，子句节点集合为{v_m+1，…，v_m+k}，因此异构图中的节点集合为V＝{v₁，…，v_m，v_m+1，…，v_m+k}。

E表示节点之间的所有边的集合，即字符或子句之间的相互关系构成的边。

R表示边的类型集合，定义四种类型的边：(1)r₁表示子句之间的全局连接，即每个子句节点之间是互相连接的；(2)r₂表示子句节点和与之对应的字符之间的边，即每个子句节点与属于自己内的字符之间是互相连接的；(3)r₃表示字符之间的全局连接，即每个字符之间是互相连接的；(4)r₄表示字符之间的句法依存树，因此R＝{r₁，r₂，r₃，r₄}，|R|＝4。

为节点和类型之间的映射函数，/>

ψ为边和类型之间的映射函数，ψ：E→R，ψ(e)＝r∈R。

节点v_i的邻居为所有类型的邻居集合为：

节点v_i关于某种类型r_k的邻居N_i定义为：

步骤402，将异构图中的字符节点的初始向量表示为BiLSTM神经网络输出的各个字符对应的第二特征向量，将异构图中的子句虚拟节点的初始向量表示为子句中每一字符对应的第二特征向量的平均值。

步骤403，利用异构图注意力网络算法(Heterogeneous Graph AttentionNetwork，HGAN)对异构图中所有节点进行聚合更新，通过多头自注意力机制不断更新图网络结构中各结点的嵌入表示。

具体地，令为HGAN中第l+1层中的一种关系类型的注意力分数计算函数，l＝{1,2,…L}，r＝{1,2,…,|R|}，L为HGAN网络的层数。采用其线性变换向量和每个字符表示的拼接来计算未归一化的注意力权重。然后，采用softmax函数来生成归一化的注意力权重矩阵。

对于给定一个节点v_i，在关系r下，节点v_j是v_i的邻居，将两个节点的表示向量拼接，然后通过softmax计算出节点v_j对于节点v_i的权重系数，然后聚合节点v_i的所有邻居节点的系数，计算出节点v_i的新的表示向量L为HGAN网络的层数。

对一流行病舆情文本句子中所有字符对应的第L层向量表示进行拼接，得到一流行病舆情文本句子中所有字符的第二向量表示矩阵，记为m为一流行病舆情文本句子中字符的数量。

进一步地，HGAN计算公式如下：

其中，h_i为节点v_i的表示向量，h_j表示为节点v_j的表示向量，W为可学习的参数矩阵，α表示注意力权重，不同类型的邻居将会对节点v_i最终的嵌入表示有不同的影响，[*,*]表示拼接，N_i为节点v_i的所有邻居集合，这里HGAN更新时包含自环节点，因此这里节点的邻居包含它自己。σ₁和σ₂为激活函数，σ₁一般取LeakyReLu。初始为步骤S3中BiLSTM的输出结果，参数W初始为随机初始化得到，然后通过不断更新学习，得到一流行病舆情文本句子中所有字符的第二向量表示矩阵，记为/>

步骤S5，将第二向量表示矩阵拼接于第一向量表示矩阵后，得到拼接结果。

在本实例中，改进一般的连接方法，采用直连结构，将BiLSTM输出的第一向量表示矩阵H^bi和HGAN输出的第二向量表示矩阵H^hg进行拼接，表达式如下：

H^out＝[H^bi,H^hg]

接下来，添加一个线性映射，以生成每个角色的概率分数。因此，通过将H^out映射到C类的标记空间的完整连接来计算自我关注层的最终输出表示，表达式如下：

H＝H^outW^out+b^out.

式中，H为拼接层的输出结果，W^out为可学习的参数矩阵，b^out为可学习的偏置参数。

步骤S6，将BiLSTM和HGAN的拼接结果H输入至条件随机场预测模型(ConditionalRandom Field，CRF)，得到流行病舆情文本的预测标签序列

预测序列{y₁,y₂,…,y_m}的解码分数计算公式如下：

式中，H是拼接结果H即从自我关注层生成的输入序列得分矩阵，第i个字符被分配给y_i标记的概率分数被计算为Z设置为概率H的转移矩阵，/>是从标签y_i到标签y_i+1的转移概率，其中y_i,y_i+1∈L。

通过最大化对数似然概率ln(p)来训练参数。对于输入x，y^x表示真正的标记序列，Y_x为训练集中具有标签的数据索引集合，因此数据集表示为{(x,y^x)}。

在预测阶段，通过最大化score(x,y)，得到预测标签序列：

其中，y^*为预测的标签序列。

本发明方法还包括：

训练流行病舆情实体识别模型，具体地，流行病舆情实体识别模型经过反向传播和训练，更新参数，从而达到流行病舆情实体识别模型的不断优化，CRF计算完成后,进行下一批数据的训练，在训练损失收敛后，则流行病舆情实体识别模型训练完成，得到最优的流行病舆情实体识别模型。

实施例1

本实例中，筛选出部分有关疫情的文本，对本发明提供的基于异构图神经网络的流行病舆情实体识别方法进行进一步的阐述。

步骤S1，采集流行病舆情文本，并按照实体类别进行分类标注。

首先筛选微博数据中有关疫情的文本，然后人工标注。对流行病舆情文本数据的训练集部分进行人工标注，标注出文本中包含的实体词。例如：“流感多发季节，去人多的地方必要时可戴上口罩”，其中包含的实体词有“流感”和“口罩”。本实例中，将命名实体划分为如下类别：人名(person)、地点(location)、组织(organization)、时间(time)、疾病名称(disease)、发病症状(symptom)、药物名称(medicine)、诊断或治疗方法(treatment)，工具(tool)，政策(policy)，分别简记为：PER、ORG、LOC、TIME、DIS、SYM、MED、TREAT、TOOL、POL。命名实体分类见下表1所示。对于给定的中文句子{w₁,w₂,…w_m}，采用字符级标注序列，其中w_i表示第i个字符，m是句子的长度。任务的目标是在一个句子中识别每个字符的标签。本实例使用“BIO”(起始字符Begin,内部字符Inside和其他字符Other)标记方案，实体中的字符被分配有位置指示符和命名实体，位置指示器为“B、I”，非实体字符标记为“其他”，简记为“O”。例如，“B-PER”表示“人名”的开始字符的标签，“I-PER”是“人名”的内部字符的标签。因此标签集合为C＝{B-PER,I-PER,B-ORG,I-ORG,…,B-POL,I-POL,O}，|C|＝21。以目标文本“我发热了”为例，对该目标文本进行处理，得到4个字符{“我”、“发”、“热”、“了”}，该句子的字符级标注序列为{“O”、“B-SYM”、“I-SYM”、“O”}。

表1：命名实体分类表

步骤S2，将标注好的流行病舆情文本输入至BERT网络，得到第一特征向量；

步骤S3，将第一特征向量输入至BiLSTM神经网络进行学习，得到包含流行病舆情文本中各个字符对应的第二特征向量，将每个字符对应的第二特征向量组成第一向量表示矩阵；

步骤S4，定义节点类型与边的连接方式，构建异构图，其中，异构图中的字符节点的初始向量表示为BiLSTM神经网络输出的各个字符对应的第二特征向量，子句虚拟节点的初始向量表示为子句中每一字符对应的第二特征向量的平均值；利用异构图注意力网络算法对异构图进行聚合更新，得到一流行病舆情文本句子中所有字符的第二向量表示矩阵；

步骤S5，将第二向量表示矩阵拼接于第一向量表示矩阵后，得到拼接结果；

步骤S6，将拼接结果输入至条件随机场预测模型，得到流行病舆情文本的预测标签。

如图4所示，相应地，本发明还提供了一种基于异构图神经网络的流行病舆情的实体识别系统，所述系统包括：

流行病舆情文本采集标注模块，用于采集流行病舆情文本，并按照实体类别进行分类标注。

第一特征向量获取模块，用于将标注好的流行病舆情文本输入至BERT网络，得到第一特征向量。

第一向量表示矩阵获取模块，用于将第一特征向量输入至BiLSTM神经网络进行学习，得到包含流行病舆情文本中各个字符对应的第二特征向量，将每个字符对应的第二特征向量组成第一向量表示矩阵。

异构图构建模块，定义节点类型与边的连接方式，构建并初始化异构图；其中，异构图中的字符节点的初始向量表示为BiLSTM神经网络输出的各个字符对应的第二特征向量，子句虚拟节点的初始向量表示为子句中每一字符对应的第二特征向量的平均值。

第二向量表示矩阵获取模块，利用异构图注意力网络算法对异构图进行聚合更新，得到一流行病舆情文本句子中所有字符的第二向量表示矩阵。

与前述基于异构图神经网络的流行病舆情实体识别方法的实施例相对应，本发明还提供了基于异构图神经网络的流行病舆情的实体识别装置的实施例。

参见图5，本发明实施例提供的一种基于异构图神经网络的流行病舆情的实体识别装置，包括一个或多个处理器，用于实现上述实施例中的基于异构图神经网络的流行病舆情实体识别方法。

本发明基于异构图神经网络的流行病舆情的实体识别装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明基于异构图神经网络的流行病舆情的实体识别装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于异构图神经网络的流行病舆情实体识别方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

上述内容仅为本发明的较佳实施例，不能因此而理解为对本发明专利的范围的限制。对于本领域的技术人员来说，能够进行各种变化、组合、替代、简化、修饰和重新调整等，均应为等效的置换方式，都属于本发明的保护范围之内。因此，虽然通过上述实施示例对本发明进行了较为详细的描述，但是本发明不仅仅限于以上实施示例，在不脱离本发明构思的前提下，还包括更多其它等效实施示例。

Claims

1.一种基于异构图神经网络的流行病舆情实体识别方法，其特征在于，所述方法包括以下步骤：

采集流行病舆情文本，并按照实体类别进行分类标注；

将拼接结果输入至条件随机场预测网络，得到流行病舆情文本的预测标签。

2.根据权利要求1所述的基于异构图神经网络的流行病舆情实体识别方法，其特征在于，将第一特征向量输入至BiLSTM神经网络进行学习，得到包含流行病舆情文本中各个字符的第二特征向量，将每个字符对应的第二特征向量组成第一特征向量表示矩阵包括：

将第一特征向量输入至BiLSTM神经网络学习句法和语义信息，其中，所述BiLSTM神经网络包含前向LSTM和后向LSTM，输出得到流行病舆情文本的句子中各个字符对应的第二特征向量h_t，表达式如下：

其中，d_h表示隐藏单元的数量，为前向LSTM输出的特征向量，/>为后向LSTM输出的特征向量；

将一流行病舆情文本句子中每个字符对应的第二特征向量组成第一特征向量表示矩阵，记为H^bi＝(h₁,h₂,…,h_m)，m为一流行病舆情文本句子中字符的数量。

3.根据权利要求1所述的基于异构图神经网络的流行病舆情实体识别方法，其特征在于，构建异构图包括：

异构图的表达式为：

G＝(V,E,Q,R,ф,ψ)

式中，V表示异构图中的节点集合，E表示节点之间的所有边的集合，Q表示节点的类型分类集合，R表示边的类型集合，ф为节点和节点类型之间的映射函数，ψ为边和边类型之间的映射函数。

4.根据权利要求3所述的基于异构图神经网络的流行病舆情实体识别方法，其特征在于，异构图中的节点包括两种类型：每个字符为一个节点，每个子句为一个虚拟子句节点。

5.根据权利要求3所述的基于异构图神经网络的流行病舆情实体识别方法，其特征在于，异构图中的边的连接方式包括四种类型：子句之间全局连接的边；子句节点和与之对应的字符之间的边；字符之间全局连接的边；字符之间的句法依存树。

6.根据权利要求3所述的基于异构图神经网络的流行病舆情实体识别方法，其特征在于，利用异构图注意力网络算法对异构图进行聚合更新，得到一流行病舆情文本句子中所有字符的第二向量表示矩阵包括：

对于一节点v_i，在关系r下，r＝{1,2,…,|R|}，节点v_j是v_i的邻居节点，将节点v_i和节点v_j的表示向量进行拼接，通过softmax函数计算出节点v_j对于节点v_i的权重系数，聚合节点v_i的所有邻居节点的系数，得到节点v_i的新的表示向量L为异构图注意力网络的层数；

7.根据权利要求1所述的基于异构图神经网络的流行病舆情实体识别方法，其特征在于，将第二向量表示矩阵拼接于第一向量表示矩阵后，得到拼接结果包括：

将BiLSTM输出的第一向量表示矩阵H^bi和异构图注意力网络输出的第二向量表示矩阵H^hg进行拼接，表达式如下：

H^out＝[H^bi,H^hg]

对H^out添加一线性映射，得到拼接结果，表达式如下：

H＝[H^bi,H^hg]W^out+b^out

式中，H为拼接结果，W^out为参数矩阵，b^out为偏置参数。

8.一种基于异构图神经网络的流行病舆情实体识别系统，其特征在于，所述系统包括：

9.一种基于异构图神经网络的流行病舆情实体识别装置，其特征在于，包括一个或多个处理器，用于实现权利要求1-7中任一项所述的基于异构图神经网络的流行病舆情实体识别方法。

10.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时，用于实现权利要求1-7中任一项所述的基于异构图神经网络的流行病舆情实体识别方法。