CN116386895B - 基于异构图神经网络的流行病舆情实体识别方法与装置 - Google Patents

基于异构图神经网络的流行病舆情实体识别方法与装置 Download PDF

Info

Publication number
CN116386895B
CN116386895B CN202310358447.5A CN202310358447A CN116386895B CN 116386895 B CN116386895 B CN 116386895B CN 202310358447 A CN202310358447 A CN 202310358447A CN 116386895 B CN116386895 B CN 116386895B
Authority
CN
China
Prior art keywords
epidemic
public opinion
character
vector
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310358447.5A
Other languages
English (en)
Other versions
CN116386895A (zh
Inventor
侯琳琳
张吉
余婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202310358447.5A priority Critical patent/CN116386895B/zh
Publication of CN116386895A publication Critical patent/CN116386895A/zh
Application granted granted Critical
Publication of CN116386895B publication Critical patent/CN116386895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于异构图神经网络的流行病舆情实体识别方法与装置,包括:采集流行病舆情文本,并按实体类别分类标注,再输入至BERT网络,得到第一特征向量;将第一特征向量输入BiLSTM,得到包含流行病舆情文本中各个字符对应的第二特征向量,将每个字符对应的第二特征向量组成第一向量表示矩阵;构建异构图,其中,异构图中的字符节点的初始向量表示为BiLSTM输出的各个字符对应的第二特征向量,子句虚拟节点的初始向量表示为子句中每一字符对应的第二特征向量的平均值;利用异构图注意力网络算法对异构图进行聚合更新,得到第二向量表示矩阵;将第二向量表示矩阵拼接于第一向量表示矩阵后,将拼接结果输入至条件随机场预测模型,得到预测标签。

Description

基于异构图神经网络的流行病舆情实体识别方法与装置
技术领域
本发明属于数据挖掘领域和自然语言处理领域,尤其涉及一种基于异构图神经网络的流行病舆情实体识别方法与装置。
背景技术
全球流行病的爆发,将极大地冲击全球公共卫生系统,对人们的生活产生巨大的影响。世界各国也采取了各种防疫措施,如家庭隔离,这也使得人们更加频繁地通过互联网和其他社交媒体(如Twitter、微博)获取和发布信息,表达自己的心情、意见等,从而产生了大量的网络舆情信息。针对这些信息,高效、准确地进行挖掘和分析变得越来越重要,其中实体挖掘是重要的研究任务之一。疫情舆情的实体挖掘有助于主题挖掘、后续情绪分析和其他预测任务,并能发现有用的知识和关键信息。挖掘出的关键实体促进了自然语言处理(Natural Language Processing,NLP)的研究和下游的应用(如:实体关联、情感分析)。对疫情防控起到了辅助和指导作用,为提高公共服务质量提供了可靠参考。
现有的流行病舆情实体的挖掘方法大多只是简单地使用现有的机器学习模型和深度学习模型,如LSTM、BiLSTM、RNN、BERT等,而很少针对疫情特征构建新的模型。一方面,舆情文本数量庞大,涉及各个领域的知识,如:医学术语、新闻要素、多语种混合词汇等。文中的知识元素和专业术语有复杂的表达方式,如:缩写、全名、长短语、表情符号、特殊符号等。例如疾病名称、发病症状、药物名称、诊断或治疗方法,工具,政策,这些实体类型在流行病社交媒体帖子中相对频繁地出现,实体类型应该在文本中具有实用性和可用性。它们比普通实体更难识别。普通的命名实体识别(NER)任务可以识别具有简单实体形式的专有名词,如地方、组织、人、时间实体等。因此,流行病舆情的实体识别的任务与普通的NER任务不同,更加困难和特殊。
另一方面,现有的研究工作在设计模型时忽略了句子中词与词之间的潜在关联信息,缺乏合理的图数据来存储舆情信息,无法捕捉到隐藏的多种关联信息。现有的方法多使用句法依赖树,可以捕捉到语义信息,但往往忽略了结构信息和结构性知识。
因此,亟需提出一种新的实体识别方法以实现对流行病舆情的实体识别。
发明内容
本发明针对现有技术不足,本发明提出了一种基于异构图神经网络的流行病舆情实体识别方法与装置。
为实现上述发明目的,本发明的技术方案为
根据本发明实施例的第一方面,提供了一种基于异构图神经网络的流行病舆情实体识别方法,其特征在于,所述方法包括以下步骤:
采集流行病舆情文本,并按照实体类别进行分类标注;
将标注好的流行病舆情文本输入至BERT网络,得到第一特征向量;
将第一特征向量输入至BiLSTM神经网络进行学习,得到包含流行病舆情文本中各个字符对应的第二特征向量,将每个字符对应的第二特征向量组成第一向量表示矩阵;
定义节点类型与边的连接方式,构建异构图,其中,异构图中的字符节点的初始向量表示为BiLSTM神经网络输出的各个字符对应的第二特征向量,子句虚拟节点的初始向量表示为子句中每一字符对应的第二特征向量的平均值;利用异构图注意力网络算法对异构图进行聚合更新,得到一流行病舆情文本句子中所有字符的第二向量表示矩阵;
将第二向量表示矩阵拼接于第一向量表示矩阵后,得到拼接结果;
将拼接结果输入至条件随机场预测模型,得到流行病舆情文本的预测标签。
根据本发明实施例的第二方面,提供了一种基于异构图神经网络的流行病舆情的实体识别系统,所述系统包括:
流行病舆情文本采集标注模块,用于采集流行病舆情文本,并按照实体类别进行分类标注;
第一特征向量获取模块,用于将标注好的流行病舆情文本输入至BERT网络,得到第一特征向量;
第一向量表示矩阵获取模块,用于将第一特征向量输入至BiLSTM神经网络进行学习,得到包含流行病舆情文本中各个字符对应的第二特征向量,将每个字符对应的第二特征向量组成第一向量表示矩阵;
异构图构建模块,定义节点类型与边的连接方式,构建并初始化异构图;其中,异构图中的字符节点的初始向量表示为BiLSTM神经网络输出的各个字符对应的第二特征向量,子句虚拟节点的初始向量表示为子句中每一字符对应的第二特征向量的平均值;
第二向量表示矩阵获取模块,利用异构图注意力网络算法对异构图进行聚合更新,得到一流行病舆情文本句子中所有字符的第二向量表示矩阵;
矩阵拼接模块,用于将第二向量表示矩阵拼接于第一向量表示矩阵后,得到拼接结果;
流行病舆情文本预测标签获取模块,用于将拼接结果输入至条件随机场预测网络,得到流行病舆情文本的预测标签。
根据本发明实施例的第三方面,提供了一种基于异构图神经网络的流行病舆情的实体识别装置,包括一个或多个处理器,用于上述的基于异构图神经网络的流行病舆情实体识别方法。
根据本发明实施例的第四方面,提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述的基于异构图神经网络的流行病舆情实体识别方法。
与现有技术相比,本发明的有益效果为:
(1)本发明通过构建异构图,可以包含不同粒度级别的语义节点和信息,充分考虑了词与词、子句与子句之间的潜在关联信息,能够捕捉到隐藏的多种关联信息;
(2)本发明将BiLSTM神经网络的输出与异构图注意力网络HGAN的输出进行拼接,能够将HGAN的优点更好地保留,结合全局语义信息,并避免传播过程中的信息丢失;
(3)本发明能够效地提取社交媒体中与流行病舆情相关的关键实体,有效提高复杂多变的实体形式的识别,大大提高了领域实体的检测准确率,为下游任务如实体关系抽取、实体情感分析、知识图谱等提供基础。有助于人们更好地理解公共舆论。
(4)本发明应用场景广泛,对于其他流行病舆情数据,均可以应用测试。同时能够解决多领域的命名实体标注问题,拥有端到端的优势。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于异构图神经网络的流行病舆情实体识别方法的流程图;
图2为本发明实施例提供的流行病舆情实体挖掘过程的示意图;
图3为本发明实施例提供的异构图神经网络的示意图;
图4为本发明实施例提供的一种基于异构图神经网络的流行病舆情的实体识别系统的示意图;
图5为本发明实施例提供的一种基于异构图神经网络的流行病舆情的实体识别装置的示意图。
具体实施方式
为使本发明的技术方案更加清楚,下面结合附图,具体说明本发明的实施方式。具体实施方式的说明能够使得本发明解决的技术问题、采用的技术方案和达到的技术效果阐述更加清楚。可以理解的是,此处所描述的具体实施例仅用于更加清楚地解释本发明,而不能以此来限制本申请的保护范围。另外还需说明,为了方便描述,附图中仅示出了与本发明相关的部分而非全部内容。
下面对本发明实施例中的技术方案进行清楚、完整地描述。
对于网络舆情下复杂多变的实体类型,词语是丰富多样的,文本中存在着不同粒度的对象及其相互作用,因此将描述文本建模为异构图是很自然和合理的。因此,在流行病舆情的实体识别的任务中,本发明实施例通过字符和子句的关系来构建文本数据的异构图,以解决这些问题。
本发明实施例的目的是提取与流行病文本有关的关键实体信息,并且为自然语言处理中的其他下游应用任务做基础。本发明方法通过构建异构图进行流行病舆情的实体识别,该方法结合了BiLSTM和异构图神经网络,使用子句虚拟节点和四类边来构建异构图,将BiLSTM和异构图神经网络串联起来,直接将BiLSTM和异构图神经网络的输出拼接作为解码器CRF的输入。
如图1和图2所示,本发明提出了一种基于异构图神经网络的流行病舆情实体识别方法,所述方法具体包括以下步骤:
步骤S1,筛选有关流行病舆情的文本,并按照实体类别进行分类标注。
需要说明的是,在步骤S1中,所述实体类别包括人名、地点、组织、时间、疾病名称、发病症状、药物名称、诊断治疗方法、工具和政策等,采用BIO(Begin Inner Other)标记策略进行分类标注。
步骤S2,构建流行病舆情实体识别模型,所述流行病舆情实体识别模型包括依次连接的BERT网络、BiLSTM神经网络、异构图注意力网络和条件随机场预测网络。将步骤S1标注好的流行病舆情文本输入至BERT网络,得到第一特征向量。
具体地,将步骤S1标注好的流行病舆情文本记为{w1,w2,…wm},将其输入至BERT(Bidirectional Encoder Representations from Transformers)网络,利用预训练BERT网络求出每个字符融合了上下文语义信息后的第一特征向量{x1,x2,…xm}。
步骤S3,将第一特征向量输入至BiLSTM神经网络进行学习,得到包含流行病舆情文本中各个字符的第二特征向量,将每个字符对应的第二特征向量组成第一特征向量表示矩阵。
具体地,将第一特征向量{x1,x2,…xm}输入至BiLSTM神经网络(Bi-directionalLong Short-Term Memory)学习句法和语义信息,其中,所述BiLSTM神经网络包含前向LSTM和后向LSTM,输出得到流行病舆情文本的句子中各个字符对应的第二特征向量ht,表达式如下:
其中,dh表示隐藏单元的数量,为前向LSTM输出的特征向量,/>为后向LSTM输出的特征向量;记一个流行病舆情文本句子中所有字符的第一特征向量表示矩阵为Hbi=(h1,h2,…,hm),m为一流行病舆情文本句子中字符的数量。
步骤S4,构建异构图,其中,异构图中的字符节点的初始向量表示为BiLSTM神经网络输出的各个字符对应的第二特征向量,子句虚拟节点的初始向量表示为子句中每一字符对应的第二特征向量的平均值;利用异构图注意力网络算法对异构图进行聚合更新,得到一流行病舆情文本句子中所有字符的第二向量表示矩阵。
具体地,所述步骤S4具体包括以下子步骤:
步骤S401,构建异构图
其中,Q表示节点的类型分类集合,在本实例中,定义两种类型的节点:q1表示每个字符为一种节点类型,q2表示每个子句为一种虚拟子句节点类型,即Q={q1,q2},|Q|=2。
V表示异构图中的节点集合,假设一个中文句子有m个字符,k个子句,则字符节点集合为{v1,v2,…,vm},子句节点集合为{vm+1,…,vm+k},因此异构图中的节点集合为V={v1,…,vm,vm+1,…,vm+k}。
E表示节点之间的所有边的集合,即字符或子句之间的相互关系构成的边。
R表示边的类型集合,定义四种类型的边:(1)r1表示子句之间的全局连接,即每个子句节点之间是互相连接的;(2)r2表示子句节点和与之对应的字符之间的边,即每个子句节点与属于自己内的字符之间是互相连接的;(3)r3表示字符之间的全局连接,即每个字符之间是互相连接的;(4)r4表示字符之间的句法依存树,因此R={r1,r2,r3,r4},|R|=4。
为节点和类型之间的映射函数,/>
ψ为边和类型之间的映射函数,ψ:E→R,ψ(e)=r∈R。
节点vi的邻居为所有类型的邻居集合为:
节点vi关于某种类型rk的邻居Ni定义为:
步骤402,将异构图中的字符节点的初始向量表示为BiLSTM神经网络输出的各个字符对应的第二特征向量,将异构图中的子句虚拟节点的初始向量表示为子句中每一字符对应的第二特征向量的平均值。
步骤403,利用异构图注意力网络算法(Heterogeneous Graph AttentionNetwork,HGAN)对异构图中所有节点进行聚合更新,通过多头自注意力机制不断更新图网络结构中各结点的嵌入表示。
具体地,令为HGAN中第l+1层中的一种关系类型的注意力分数计算函数,l={1,2,…L},r={1,2,…,|R|},L为HGAN网络的层数。采用其线性变换向量和每个字符表示的拼接来计算未归一化的注意力权重。然后,采用softmax函数来生成归一化的注意力权重矩阵。
对于给定一个节点vi,在关系r下,节点vj是vi的邻居,将两个节点的表示向量拼接,然后通过softmax计算出节点vj对于节点vi的权重系数,然后聚合节点vi的所有邻居节点的系数,计算出节点vi的新的表示向量L为HGAN网络的层数。
对一流行病舆情文本句子中所有字符对应的第L层向量表示进行拼接,得到一流行病舆情文本句子中所有字符的第二向量表示矩阵,记为m为一流行病舆情文本句子中字符的数量。
进一步地,HGAN计算公式如下:
其中,hi为节点vi的表示向量,hj表示为节点vj的表示向量,W为可学习的参数矩阵,α表示注意力权重,不同类型的邻居将会对节点vi最终的嵌入表示有不同的影响,[*,*]表示拼接,Ni为节点vi的所有邻居集合,这里HGAN更新时包含自环节点,因此这里节点的邻居包含它自己。σ1和σ2为激活函数,σ1一般取LeakyReLu。初始为步骤S3中BiLSTM的输出结果,参数W初始为随机初始化得到,然后通过不断更新学习,得到一流行病舆情文本句子中所有字符的第二向量表示矩阵,记为/>
步骤S5,将第二向量表示矩阵拼接于第一向量表示矩阵后,得到拼接结果。
在本实例中,改进一般的连接方法,采用直连结构,将BiLSTM输出的第一向量表示矩阵Hbi和HGAN输出的第二向量表示矩阵Hhg进行拼接,表达式如下:
Hout=[Hbi,Hhg]
接下来,添加一个线性映射,以生成每个角色的概率分数。因此,通过将Hout映射到C类的标记空间的完整连接来计算自我关注层的最终输出表示,表达式如下:
H=HoutWout+bout.
式中,H为拼接层的输出结果,Wout为可学习的参数矩阵,bout为可学习的偏置参数。
步骤S6,将BiLSTM和HGAN的拼接结果H输入至条件随机场预测模型(ConditionalRandom Field,CRF),得到流行病舆情文本的预测标签序列
预测序列{y1,y2,…,ym}的解码分数计算公式如下:
式中,H是拼接结果H即从自我关注层生成的输入序列得分矩阵,第i个字符被分配给yi标记的概率分数被计算为Z设置为概率H的转移矩阵,/>是从标签yi到标签yi+1的转移概率,其中yi,yi+1∈L。
通过最大化对数似然概率ln(p)来训练参数。对于输入x,yx表示真正的标记序列,Yx为训练集中具有标签的数据索引集合,因此数据集表示为{(x,yx)}。
在预测阶段,通过最大化score(x,y),得到预测标签序列:
其中,y*为预测的标签序列。
本发明方法还包括:
训练流行病舆情实体识别模型,具体地,流行病舆情实体识别模型经过反向传播和训练,更新参数,从而达到流行病舆情实体识别模型的不断优化,CRF计算完成后,进行下一批数据的训练,在训练损失收敛后,则流行病舆情实体识别模型训练完成,得到最优的流行病舆情实体识别模型。
实施例1
本实例中,筛选出部分有关疫情的文本,对本发明提供的基于异构图神经网络的流行病舆情实体识别方法进行进一步的阐述。
步骤S1,采集流行病舆情文本,并按照实体类别进行分类标注。
首先筛选微博数据中有关疫情的文本,然后人工标注。对流行病舆情文本数据的训练集部分进行人工标注,标注出文本中包含的实体词。例如:“流感多发季节,去人多的地方必要时可戴上口罩”,其中包含的实体词有“流感”和“口罩”。本实例中,将命名实体划分为如下类别:人名(person)、地点(location)、组织(organization)、时间(time)、疾病名称(disease)、发病症状(symptom)、药物名称(medicine)、诊断或治疗方法(treatment),工具(tool),政策(policy),分别简记为:PER、ORG、LOC、TIME、DIS、SYM、MED、TREAT、TOOL、POL。命名实体分类见下表1所示。对于给定的中文句子{w1,w2,…wm},采用字符级标注序列,其中wi表示第i个字符,m是句子的长度。任务的目标是在一个句子中识别每个字符的标签。本实例使用“BIO”(起始字符Begin,内部字符Inside和其他字符Other)标记方案,实体中的字符被分配有位置指示符和命名实体,位置指示器为“B、I”,非实体字符标记为“其他”,简记为“O”。例如,“B-PER”表示“人名”的开始字符的标签,“I-PER”是“人名”的内部字符的标签。因此标签集合为C={B-PER,I-PER,B-ORG,I-ORG,…,B-POL,I-POL,O},|C|=21。以目标文本“我发热了”为例,对该目标文本进行处理,得到4个字符{“我”、“发”、“热”、“了”},该句子的字符级标注序列为{“O”、“B-SYM”、“I-SYM”、“O”}。
表1:命名实体分类表
步骤S2,将标注好的流行病舆情文本输入至BERT网络,得到第一特征向量;
步骤S3,将第一特征向量输入至BiLSTM神经网络进行学习,得到包含流行病舆情文本中各个字符对应的第二特征向量,将每个字符对应的第二特征向量组成第一向量表示矩阵;
步骤S4,定义节点类型与边的连接方式,构建异构图,其中,异构图中的字符节点的初始向量表示为BiLSTM神经网络输出的各个字符对应的第二特征向量,子句虚拟节点的初始向量表示为子句中每一字符对应的第二特征向量的平均值;利用异构图注意力网络算法对异构图进行聚合更新,得到一流行病舆情文本句子中所有字符的第二向量表示矩阵;
步骤S5,将第二向量表示矩阵拼接于第一向量表示矩阵后,得到拼接结果;
步骤S6,将拼接结果输入至条件随机场预测模型,得到流行病舆情文本的预测标签。
如图4所示,相应地,本发明还提供了一种基于异构图神经网络的流行病舆情的实体识别系统,所述系统包括:
流行病舆情文本采集标注模块,用于采集流行病舆情文本,并按照实体类别进行分类标注。
第一特征向量获取模块,用于将标注好的流行病舆情文本输入至BERT网络,得到第一特征向量。
第一向量表示矩阵获取模块,用于将第一特征向量输入至BiLSTM神经网络进行学习,得到包含流行病舆情文本中各个字符对应的第二特征向量,将每个字符对应的第二特征向量组成第一向量表示矩阵。
异构图构建模块,定义节点类型与边的连接方式,构建并初始化异构图;其中,异构图中的字符节点的初始向量表示为BiLSTM神经网络输出的各个字符对应的第二特征向量,子句虚拟节点的初始向量表示为子句中每一字符对应的第二特征向量的平均值。
第二向量表示矩阵获取模块,利用异构图注意力网络算法对异构图进行聚合更新,得到一流行病舆情文本句子中所有字符的第二向量表示矩阵。
矩阵拼接模块,用于将第二向量表示矩阵拼接于第一向量表示矩阵后,得到拼接结果;
流行病舆情文本预测标签获取模块,用于将拼接结果输入至条件随机场预测网络,得到流行病舆情文本的预测标签。
与前述基于异构图神经网络的流行病舆情实体识别方法的实施例相对应,本发明还提供了基于异构图神经网络的流行病舆情的实体识别装置的实施例。
参见图5,本发明实施例提供的一种基于异构图神经网络的流行病舆情的实体识别装置,包括一个或多个处理器,用于实现上述实施例中的基于异构图神经网络的流行病舆情实体识别方法。
本发明基于异构图神经网络的流行病舆情的实体识别装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明基于异构图神经网络的流行病舆情的实体识别装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于异构图神经网络的流行病舆情实体识别方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
上述内容仅为本发明的较佳实施例,不能因此而理解为对本发明专利的范围的限制。对于本领域的技术人员来说,能够进行各种变化、组合、替代、简化、修饰和重新调整等,均应为等效的置换方式,都属于本发明的保护范围之内。因此,虽然通过上述实施示例对本发明进行了较为详细的描述,但是本发明不仅仅限于以上实施示例,在不脱离本发明构思的前提下,还包括更多其它等效实施示例。

Claims (10)

1.一种基于异构图神经网络的流行病舆情实体识别方法,其特征在于,所述方法包括以下步骤:
采集流行病舆情文本,并按照实体类别进行分类标注;
将标注好的流行病舆情文本输入至BERT网络,得到第一特征向量;
将第一特征向量输入至BiLSTM神经网络进行学习,得到包含流行病舆情文本中各个字符对应的第二特征向量,将每个字符对应的第二特征向量组成第一向量表示矩阵;
定义节点类型与边的连接方式,构建异构图,其中,异构图中的字符节点的初始向量表示为BiLSTM神经网络输出的各个字符对应的第二特征向量,子句虚拟节点的初始向量表示为子句中每一字符对应的第二特征向量的平均值;利用异构图注意力网络算法对异构图进行聚合更新,得到一流行病舆情文本句子中所有字符的第二向量表示矩阵;
将第二向量表示矩阵拼接于第一向量表示矩阵后,得到拼接结果;
将拼接结果输入至条件随机场预测网络,得到流行病舆情文本的预测标签。
2.根据权利要求1所述的基于异构图神经网络的流行病舆情实体识别方法,其特征在于,将第一特征向量输入至BiLSTM神经网络进行学习,得到包含流行病舆情文本中各个字符的第二特征向量,将每个字符对应的第二特征向量组成第一特征向量表示矩阵包括:
将第一特征向量输入至BiLSTM神经网络学习句法和语义信息,其中,所述BiLSTM神经网络包含前向LSTM和后向LSTM,输出得到流行病舆情文本的句子中各个字符对应的第二特征向量ht,表达式如下:
其中,dh表示隐藏单元的数量,为前向LSTM输出的特征向量,/>为后向LSTM输出的特征向量;
将一流行病舆情文本句子中每个字符对应的第二特征向量组成第一特征向量表示矩阵,记为Hbi=(h1,h2,…,hm),m为一流行病舆情文本句子中字符的数量。
3.根据权利要求1所述的基于异构图神经网络的流行病舆情实体识别方法,其特征在于,构建异构图包括:
异构图的表达式为:
G=(V,E,Q,R,ф,ψ)
式中,V表示异构图中的节点集合,E表示节点之间的所有边的集合,Q表示节点的类型分类集合,R表示边的类型集合,ф为节点和节点类型之间的映射函数,ψ为边和边类型之间的映射函数。
4.根据权利要求3所述的基于异构图神经网络的流行病舆情实体识别方法,其特征在于,异构图中的节点包括两种类型:每个字符为一个节点,每个子句为一个虚拟子句节点。
5.根据权利要求3所述的基于异构图神经网络的流行病舆情实体识别方法,其特征在于,异构图中的边的连接方式包括四种类型:子句之间全局连接的边;子句节点和与之对应的字符之间的边;字符之间全局连接的边;字符之间的句法依存树。
6.根据权利要求3所述的基于异构图神经网络的流行病舆情实体识别方法,其特征在于,利用异构图注意力网络算法对异构图进行聚合更新,得到一流行病舆情文本句子中所有字符的第二向量表示矩阵包括:
对于一节点vi,在关系r下,r={1,2,…,|R|},节点vj是vi的邻居节点,将节点vi和节点vj的表示向量进行拼接,通过softmax函数计算出节点vj对于节点vi的权重系数,聚合节点vi的所有邻居节点的系数,得到节点vi的新的表示向量L为异构图注意力网络的层数;
对一流行病舆情文本句子中所有字符对应的第L层向量表示进行拼接,得到一流行病舆情文本句子中所有字符的第二向量表示矩阵,记为m为一流行病舆情文本句子中字符的数量。
7.根据权利要求1所述的基于异构图神经网络的流行病舆情实体识别方法,其特征在于,将第二向量表示矩阵拼接于第一向量表示矩阵后,得到拼接结果包括:
将BiLSTM输出的第一向量表示矩阵Hbi和异构图注意力网络输出的第二向量表示矩阵Hhg进行拼接,表达式如下:
Hout=[Hbi,Hhg]
对Hout添加一线性映射,得到拼接结果,表达式如下:
H=[Hbi,Hhg]Wout+bout
式中,H为拼接结果,Wout为参数矩阵,bout为偏置参数。
8.一种基于异构图神经网络的流行病舆情实体识别系统,其特征在于,所述系统包括:
流行病舆情文本采集标注模块,用于采集流行病舆情文本,并按照实体类别进行分类标注;
第一特征向量获取模块,用于将标注好的流行病舆情文本输入至BERT网络,得到第一特征向量;
第一向量表示矩阵获取模块,用于将第一特征向量输入至BiLSTM神经网络进行学习,得到包含流行病舆情文本中各个字符对应的第二特征向量,将每个字符对应的第二特征向量组成第一向量表示矩阵;
异构图构建模块,定义节点类型与边的连接方式,构建并初始化异构图;其中,异构图中的字符节点的初始向量表示为BiLSTM神经网络输出的各个字符对应的第二特征向量,子句虚拟节点的初始向量表示为子句中每一字符对应的第二特征向量的平均值;
第二向量表示矩阵获取模块,利用异构图注意力网络算法对异构图进行聚合更新,得到一流行病舆情文本句子中所有字符的第二向量表示矩阵;
矩阵拼接模块,用于将第二向量表示矩阵拼接于第一向量表示矩阵后,得到拼接结果;
流行病舆情文本预测标签获取模块,用于将拼接结果输入至条件随机场预测网络,得到流行病舆情文本的预测标签。
9.一种基于异构图神经网络的流行病舆情实体识别装置,其特征在于,包括一个或多个处理器,用于实现权利要求1-7中任一项所述的基于异构图神经网络的流行病舆情实体识别方法。
10.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时,用于实现权利要求1-7中任一项所述的基于异构图神经网络的流行病舆情实体识别方法。
CN202310358447.5A 2023-04-06 2023-04-06 基于异构图神经网络的流行病舆情实体识别方法与装置 Active CN116386895B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310358447.5A CN116386895B (zh) 2023-04-06 2023-04-06 基于异构图神经网络的流行病舆情实体识别方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310358447.5A CN116386895B (zh) 2023-04-06 2023-04-06 基于异构图神经网络的流行病舆情实体识别方法与装置

Publications (2)

Publication Number Publication Date
CN116386895A CN116386895A (zh) 2023-07-04
CN116386895B true CN116386895B (zh) 2023-11-28

Family

ID=86968940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310358447.5A Active CN116386895B (zh) 2023-04-06 2023-04-06 基于异构图神经网络的流行病舆情实体识别方法与装置

Country Status (1)

Country Link
CN (1) CN116386895B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662554B (zh) * 2023-07-26 2023-11-14 之江实验室 基于异构图卷积神经网络的传染病方面级情感分类方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117472A (zh) * 2018-11-12 2019-01-01 新疆大学 一种基于深度学习的维吾尔文命名实体识别方法
CN111506785A (zh) * 2020-03-06 2020-08-07 之江实验室 基于社交文本的网络舆情话题识别方法和系统
CN111783462A (zh) * 2020-06-30 2020-10-16 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法
CN112015863A (zh) * 2020-08-26 2020-12-01 华东师范大学 一种基于图神经网络的多元特征融合中文文本分类方法
CN112100388A (zh) * 2020-11-18 2020-12-18 南京华苏科技有限公司 一种长文本新闻舆情的情感极性的分析方法
CN113255366A (zh) * 2021-05-28 2021-08-13 西安交通大学 一种基于异构图神经网络的方面级文本情感分析方法
WO2021174774A1 (zh) * 2020-07-30 2021-09-10 平安科技(深圳)有限公司 神经网络关系抽取方法、计算机设备及可读存储介质
CN113468884A (zh) * 2021-06-10 2021-10-01 北京信息科技大学 一种中文事件触发词抽取方法及装置
CN113656604A (zh) * 2021-10-19 2021-11-16 之江实验室 基于异构图神经网络的医疗术语规范化系统及方法
CN113779429A (zh) * 2021-09-18 2021-12-10 平安国际智慧城市科技股份有限公司 交通拥堵态势预测方法、装置、设备及存储介质
CN113919320A (zh) * 2021-11-01 2022-01-11 湖南工商大学 异构图神经网络的早期谣言检测方法、系统及设备
CN114564573A (zh) * 2022-03-14 2022-05-31 天津大学 基于异构图神经网络的学术合作关系预测方法
CN114628008A (zh) * 2022-03-22 2022-06-14 广东工业大学 一种基于异质图注意力网络的社交用户抑郁倾向检测方法
CN114817466A (zh) * 2022-04-16 2022-07-29 内蒙古工业大学 一种主客观可解释的双向图神经网络的蒙古语谣言检测方法
CN115204140A (zh) * 2022-06-22 2022-10-18 西安交通大学 一种基于注意力机制与知识图谱的法律条文预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254648B (zh) * 2021-06-22 2021-10-22 暨南大学 一种基于多层次图池化的文本情感分析方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117472A (zh) * 2018-11-12 2019-01-01 新疆大学 一种基于深度学习的维吾尔文命名实体识别方法
CN111506785A (zh) * 2020-03-06 2020-08-07 之江实验室 基于社交文本的网络舆情话题识别方法和系统
CN111783462A (zh) * 2020-06-30 2020-10-16 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法
WO2021174774A1 (zh) * 2020-07-30 2021-09-10 平安科技(深圳)有限公司 神经网络关系抽取方法、计算机设备及可读存储介质
CN112015863A (zh) * 2020-08-26 2020-12-01 华东师范大学 一种基于图神经网络的多元特征融合中文文本分类方法
CN112100388A (zh) * 2020-11-18 2020-12-18 南京华苏科技有限公司 一种长文本新闻舆情的情感极性的分析方法
CN113255366A (zh) * 2021-05-28 2021-08-13 西安交通大学 一种基于异构图神经网络的方面级文本情感分析方法
CN113468884A (zh) * 2021-06-10 2021-10-01 北京信息科技大学 一种中文事件触发词抽取方法及装置
CN113779429A (zh) * 2021-09-18 2021-12-10 平安国际智慧城市科技股份有限公司 交通拥堵态势预测方法、装置、设备及存储介质
CN113656604A (zh) * 2021-10-19 2021-11-16 之江实验室 基于异构图神经网络的医疗术语规范化系统及方法
CN113919320A (zh) * 2021-11-01 2022-01-11 湖南工商大学 异构图神经网络的早期谣言检测方法、系统及设备
CN114564573A (zh) * 2022-03-14 2022-05-31 天津大学 基于异构图神经网络的学术合作关系预测方法
CN114628008A (zh) * 2022-03-22 2022-06-14 广东工业大学 一种基于异质图注意力网络的社交用户抑郁倾向检测方法
CN114817466A (zh) * 2022-04-16 2022-07-29 内蒙古工业大学 一种主客观可解释的双向图神经网络的蒙古语谣言检测方法
CN115204140A (zh) * 2022-06-22 2022-10-18 西安交通大学 一种基于注意力机制与知识图谱的法律条文预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于多注意力的中文命名实体识别;顾凌云;;信息与电脑(理论版)(第09期);第41-48页 *
基于注意力机制的Bi-LSTM结合CRF的新闻命名实体识别及其情感分类;胡甜甜 等;计算机应用;第40卷(第07期);第1879-1883页 *

Also Published As

Publication number Publication date
CN116386895A (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN110717017B (zh) 一种处理语料的方法
US11501182B2 (en) Method and apparatus for generating model
Gillick et al. Context-dependent fine-grained entity type tagging
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN108460011B (zh) 一种实体概念标注方法及系统
CN106537370A (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
CN112597296B (zh) 一种基于计划机制和知识图谱引导的摘要生成方法
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN112100332A (zh) 词嵌入表示学习方法及装置、文本召回方法及装置
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
Jain et al. Video captioning: a review of theory, techniques and practices
WO2021082086A1 (zh) 机器阅读方法、系统、装置及存储介质
CN116386895B (zh) 基于异构图神经网络的流行病舆情实体识别方法与装置
CN110245349A (zh) 一种句法依存分析方法、装置及一种电子设备
CN114925170B (zh) 文本校对模型训练方法及装置、计算设备
Chen et al. Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey
CN113158051B (zh) 一种基于信息传播和多层上下文信息建模的标签排序方法
CN114048314A (zh) 一种自然语言隐写分析方法
Li et al. Effective representation for easy-first dependency parsing
CN114358021A (zh) 基于深度学习的任务型对话语句回复生成方法及存储介质
CN116384371A (zh) 一种基于bert和依存句法联合实体及关系抽取方法
CN116266268A (zh) 基于对比学习与语义感知的语义解析方法及装置
Xia et al. Generating Questions Based on Semi-Automated and End-to-End Neural Network.
Du et al. Multi-transformer based on prototypical enhancement network for few-shot relation classification with domain adaptation
US11995394B1 (en) Language-guided document editing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant