CN113239663A - 一种基于知网的多义词中文实体关系识别方法 - Google Patents

一种基于知网的多义词中文实体关系识别方法 Download PDF

Info

Publication number
CN113239663A
CN113239663A CN202110309085.1A CN202110309085A CN113239663A CN 113239663 A CN113239663 A CN 113239663A CN 202110309085 A CN202110309085 A CN 202110309085A CN 113239663 A CN113239663 A CN 113239663A
Authority
CN
China
Prior art keywords
word
vector
corpus
semantic
semantic vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110309085.1A
Other languages
English (en)
Other versions
CN113239663B (zh
Inventor
赵忠华
余在洋
王禄恒
张磊
赵志云
王勇
葛自发
孙小宁
万欣欣
李欣
孙立远
付培国
王晴
杜宛真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
National Computer Network and Information Security Management Center
Original Assignee
Institute of Information Engineering of CAS
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS, National Computer Network and Information Security Management Center filed Critical Institute of Information Engineering of CAS
Priority to CN202110309085.1A priority Critical patent/CN113239663B/zh
Publication of CN113239663A publication Critical patent/CN113239663A/zh
Application granted granted Critical
Publication of CN113239663B publication Critical patent/CN113239663B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于知网的多义词中文实体关系识别方法,其步骤包括:1)对中文网事数据中的每一条语料样本基于知网进行字颗粒度的向量化,得到每一个字对的字颗粒度向量;然后对每一字颗粒度向量所在的位置信息进行编码,得到语料中每个字与预标注的待识别实体关系对的相对位置编码;2)根据步骤1)所得结果生成每一语料样本的字颗粒度语义向量集合;3)基于知网生成每一语料的词颗粒度语义向量集合;4)利用各语义向量及其对应位置编码训练深度自注意力神经网络,得到深度自注意力神经网络编码器;5)生成待处理语料中字和词汇的语义向量及其对应位置编码输入深度自注意力神经网络编码器,得到该待处理语料中的实体关系。

Description

一种基于知网的多义词中文实体关系识别方法
技术领域
本发明设计一种基于多义词表征的中文新闻网事数据的实体关系抽取方法,对中文新闻网事数据中的实体关系进行抽取,属于自然语言处理范畴。
背景技术
伴随着言论开放程度越来越高,更多的官方媒体、自媒体、机构、个人参与到了新闻媒体社交活动中,随之而来的是大量的中文新闻网事数据。多类媒体下的新闻网络环境语料有文本结构差异大、词汇用语习惯性变化强、不同地域词语用法不一致等特点。所以说,有极大的价值去挖掘这类复杂的中文新闻网事数据语料的潜在信息。
在中文新闻网事数据当中,由于发布者所属机构、地区往往存在着很大的差异。在这样的背景下,提供一种自动化的实体关系识别工具,从而实现对这些新闻发布者的真实意图切实、快速的抓取网络舆情,可以极大的节约政府机构的人力成本。在中文新闻网事数据的基础上,本方法极大的为新闻网络监管者提供了便利。
目前,现有的中文新闻网事数据的实体关系抽取方法往往基于预训练的词向量字典,或是基于统计学的word2vec的词向量特征用于对原始的中文新闻网事数据进行向量化。但是,此类传统的向量化方法往往没有考虑到因中文新闻网事数据发布者所处地域、机构等的差异性所产生的一词多义等现象。最重要的是若仅使用这类方法在不同语境下表示多义词词汇,同时仅仅采用同一表示方法表示多义词,会导致忽略了多义词在不同语料中的多含义的特性。本方法主要是抽取中文新闻网事数据中的实体关系。与传统的实体关系抽取不同的是,中文新闻网事数据发布者来自多方媒体,发布信息术语具有极大的差异性。同时,由于中文本身在不同的上下文语境中存在有极大的歧义性,中文新闻网事数据的实体关系抽取相较于传统的单一发布媒体源的中文新闻网事数据的实体关系抽取更具困难性。
词向量的生成主要分为两大类:基于概率学和预训练模型的方法。较早的基于概率学的方法有Skip-gram方法、CBow方法等等。这类方法直接通过统计原始输入的样本,从而生成词向量。这类方法只能抓取出以字为单位的向量特征。虽然相较于其他词向量生成方法,它具有编码时间短,占用资源较少等优点。但其缺陷在于无法抓取丰富的以词为单位的中文词向量特征。同时Skip-gram方法、CBow方法等概率学方法需要设置训练窗口大小,而过小的窗口无法将预料当中的上下文信息体现在以字为单位的向量特征中,同时,过大的窗口往往无法提取出词向量在语料中的高纬度特征。所以说基于概率学的方法无法在歧义性较大的中文新闻网事数据中产生较好效果。
而基于预训练模型的方法如Bert中文词向量字典、Electra中文词向量字典等等。这类词向量生成方法往往基于Seq2Seq模型如:Transformer、LSTM、GPT等结构。这类方法通过对大量的网络数据进行编码,从而生成出词向量字典。虽然这类方法的训练数据量较大,但是这类网络训练数据本身随意性较强,所以相较于中文新闻网事数据有较大的差异性,从而导致这类预训练的词典,无法准确的表示出在中文新闻网事数据所体现的词义特征。同时由于这类字典不提供对多义词的多表示编码,所以仅对于不同语义的同一词汇仅做出一种表示。所以说此类基于预训练模型的词向量字典也无法表示出中文新闻网事数据的多维度信息。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于知网的多义词中文实体关系识别方法。本方法能够深度抽取出中文新闻网事数据中的潜在的实体关系,首先运用知网(Hownet)对中文新闻网事数据进行再编码,在编码的过程主要从两个方向上先后进行。本发明先以span的结构分别对语料中的词颗粒度语料和字颗粒度语料进行再编码;同时为了充分考虑到存在于新闻网事数据的一词多义的现象,将存在于中文新闻网事数据的多义词通过表示为多种颗粒度下的向量作为输入,在训练过程中同时输入至模型中作为训练样本;之后,会对待抽取的实体关系对进行位置编码。编码过程结束,由(Transformer-encoder)深度自注意力神经网络结构对Span编码结构下的新闻网事数据进行训练。通过多义词的词向量表示方法、和两种颗粒度下的表示向量可以更好的抽取出语料中的高纬度特征,同时采用(Transformer-encoder)深度自注意力神经网络的并行编码器,可以在一次训练中,考虑所有的上下文语义。结果表明,本方法能在中文新闻网事数据更好的实现实体关系抽取。
本法方法采用自然语言技术,自动化、准确高效的抽取出中文网事数据的实体关系。为维护网络信息内容安全、实时把握媒体言论提供了极大便利。
本发明第一方面是提供基于知网(Hownet)的中文网事数据实体关系抽取方法,在这一部分中将基于知网(Hownet)的中文词向量对中文网事数据再编码为词格结构(Span),并提出了一种多颗粒度的中文网事数据编码方式,之后将以多颗粒度、词格结构(Span)的数据输入到深度自注意力神经网络结构(Transformer-encoder),以提高对中文网事数据关系抽取的效果。
根据本发明的第一个方面,首先对中文网事数据中以句为单位的每一条语料样本基于知网(Hownet)进行词、字颗粒度的向量化。
在字颗粒度的条件下,首先对一条语料s={c1,c2…cM}(M代表一条语料所含字总数,c代表一个字,s表示为一条语料,cM为一条语料中第M个字),采用skip-gram算法生成每一个字对应的向量。其中每一个字对应的向量定义为
Figure BDA0002989040420000031
(其中
Figure BDA0002989040420000032
代表语料中第i个字对应的向量,其中
Figure BDA0002989040420000033
代表字向量维度)。之后会对字颗粒度向量
Figure BDA0002989040420000034
所在的位置信息进行再编码,从而计算语料中的每个字和预标注的待识别实体关系对的相对位置编码,计算语料中第i个字ci的相对于待识别实体关系对的位置编码
Figure BDA0002989040420000035
与计算公式定义如下:
Figure BDA0002989040420000036
同时
Figure BDA0002989040420000037
的计算公式同理。其中b1、e1代表当前待识别实体在语料中的起始位置和结束位置。将计算得到的
Figure BDA0002989040420000038
转置为向量
Figure BDA0002989040420000039
其中dp为位置编码向量维度。之后将
Figure BDA00029890404200000310
向量拼接为
Figure BDA00029890404200000311
Figure BDA00029890404200000312
代表一个字向量。一条长度为M的语料的字颗粒度语义向量集合xc表示为
Figure BDA00029890404200000313
在词颗粒度的条件下,一条语料将通过与知网(Hownet)字典中的词汇匹配出句中的词颗粒度原始中文词,其中单个词表示为wb,e(b代表词汇w在语料中的起始相对位置,e代表词汇w在语料中的终止相对位置)。之后基于知网(Hownet)中的多义词字典和skip-gram词向量生成算法生成词向量集合Sense(wb,e),代表一个多义词(wb,e)的多词义词向量集合。其中若一多义词wb,e具有k重多义,则在词向量集合Sense(wb,e)匹配其k重释义的语义向量表示为
Figure BDA00029890404200000314
故每一个多义词的释义包含于生成词向量集合Sense(wb,e)表示为
Figure BDA00029890404200000315
一个多义词wb,e的词向量表示为
Figure BDA00029890404200000316
(b代表词汇w在语料中的起始相对位置,e代表词汇w在语料中的终止相对位置,k代表该多义词w的第k种释义)。其中
Figure BDA00029890404200000317
(其中
Figure BDA00029890404200000318
代表词向量维度)。一个多义词的语义向量集合表示为
Figure BDA00029890404200000319
一条长度为N的语料的词颗粒度语义向量集合表示为
Figure BDA00029890404200000320
根据中文新闻网事数据中存在的发布者多源性所导致的语料多歧义性的情况,本发明在数据的语义向量生成过程中,从词颗粒度和子颗粒度两个角度对原始语料中的数据进行了再编码,从而更好的提取出原始语料在词颗粒度和子颗粒度两个方面的向量特征。同时基于知网(Hownet)的多义词字典,在词向量维度将多义词生成为多种词向量,从而全面的抽取出存在于语料中多义词表示特征。子向量和词向量维度的编码过程如图1,图2所示。本发明从存在于语料中的多颗粒维度以及词向量的多语义维度充分考虑到了词向量在中文新闻网事数据歧义性,从而提高了语义向量对原始语义表示的准确性。
根据本发明的第二个方面,对第一个方面的多颗粒度的语义向量编码为(Span)词格结构数据格式。从而更好的抽取出存在于语料中的如下3种关系(字与字,字与词汇,词汇与词汇),属一种基于相对位置的再编码发明。
在一条中文网事数据中的所有字向量
Figure BDA0002989040420000041
词向量
Figure BDA0002989040420000042
基础上对以上两种颗粒度的向量拼接x={xc,xsen}从而构成多颗粒度的span结构语义向量,其中一条语义向量xi对xc(字向量)以及xsen词向量进行了统一。其中x代表一条语料中的所有span结构语义向量集合。对存在于语料中的所有span进行相对位置编码。相对位置编码基于在语义向量在语料中的位置,记为:一条语义向量xi(即可能为xc中的一字向量或xsen中的一词向量)的相对起始位置head,一条语义向量xi的相对终止位置tail。其中head[i],tail[i]代表xi在语料中的起始、终止相对位置,如图3。
比如对于“达尔文研究所”,其对应的span结构为:达#尔#文#达尔文#研#究#所#研究所#;其中如‘达’为子颗粒度,‘达尔文’为词可粒度语义向量,将子颗粒度与词可粒度拼接构成span结构语义向量。故span结构语义向量为对子颗粒度以及词可粒度向量的总称。
在生成语料中所有位置编码的条件下,为了表示语料中词与字的相对位置关系:包含、交错、分离的相对位置关系。以一条语料为处理最小单位,故每一条语料生成四个对应的相对位置矩阵,包括矩阵d(hh)、矩阵d(ht)、矩阵d(th)和矩阵d(tt),生成相对位置矩阵如图4,其中矩阵内的相对距离由如下公式计算:
Figure BDA0002989040420000043
Figure BDA0002989040420000044
Figure BDA0002989040420000045
Figure BDA0002989040420000046
其中i,j代表语义向量在语料中的位置序号,dij代表相对位置矩阵中第i行第j列元素的取值。
Figure BDA0002989040420000047
代表序号为i的语义向量xi的相对起始位置与序号为j的语义向量xj的相对起始位置的距离。
Figure BDA0002989040420000048
代表序号为i的语义向量xi的相对起始位置与序号为j的语义向量xj的相对终止位置的距离、
Figure BDA0002989040420000049
代表序号为i的语义向量xi的相对终止位置与序号为j的语义向量xj的相对起始位置的距离、
Figure BDA0002989040420000051
代表序号为i的语义向量xi的相对终止位置与序号为j的语义向量xj的相对终止位置的距离。
由于中文数据本身的歧义性以及网事阅读者的断句习惯的不同,会在中文网事数据的实体关系抽取过程中带来极大的的困难。在考虑到以上问题的基础上,本发明对存在于语料中的所有字、词颗粒度的相对位置进行了再编码,从而生成相对位置矩阵。充分考虑到了存在于多颗粒下的语义相关性信息,实现了在多种断句习惯下的所有词向量、字向量的再编码。从而为中文网事数据的实体关系抽取提供了更为准确的高纬度特征信息。
根据本发明的第三个方面,以(Transformer-encoder)深度自注意力神经网络架构,同时引入多颗粒度、多语义的Span格式数据,以及由Span结构生成的相对位置矩阵作为输入。对原始的中文新闻网事数据实体关系进行抽取。属一种实体关系分类方法。
对于语料中的单个Span结构语义向量(即可能为xc中的一字向量或xsen中的一词向量),其位置向量由4个对应的位置距离
Figure BDA0002989040420000052
构成,为了便于输入至(Transformer-encoder)深度自注意力神经网络结构进行再编码。对4个维度的位置编码进行转置,Ri,j代表为存在于一条语料中的xi与xj之间的相对位置关系,公式如下:
Figure BDA0002989040420000053
其中,Relu为非线性激活函数,Wr为训练参数,
Figure BDA0002989040420000054
代表在向量维度上的拼接,
Figure BDA0002989040420000055
Figure BDA0002989040420000056
统一表示为Pd代表4个维度的位置编码。以
Figure BDA0002989040420000057
计算为例,首先计算一条中文语料中xi相对起始位置与xj相对起始位置之间的相对距离
Figure BDA0002989040420000058
之后基于如下公式计算
Figure BDA0002989040420000059
Figure BDA00029890404200000510
Figure BDA00029890404200000511
其中,k代表当前Span(即可能为xc中的一字向量或xsen中的一词向量)在整条拼接后的语料x={xc,xsen}的绝对位置。若绝对位置k为偶数,则采用sin函数。若k的绝对位置为奇数,则采用cos函数。dmodel代表一条Span结构语义向量(即可能为xc中的一字向量或xsen中的一词向量)的向量维度。而d代表位置编码在相对位置矩阵中的取值。
之后基于相对位置Ri,j(Ri,j代表为存在于一条语料中的xi与xj之间的相对位置关系)和第一个方面中的多颗粒度下的语义向量(xi与xj)计算语义向量xi对语义向量xj的注意力权重Ai,j,公式如下:
Figure BDA0002989040420000061
Wq,Wk,R,Wk,E,u,v为(Transformer-encoder)深度自注意力神经网络参数,为本领域公知。其中Wq,Wk,R,
Figure BDA0002989040420000062
为训练参数。
Figure BDA0002989040420000063
为训练参数。dmodel为span的输入维度,dhead为(Transformer-encoder)深度自注意力神经网络结构的输出维度。Ai,j代表语义向量xi对语义向量xj的注意力权重,
Figure BDA0002989040420000064
为语义向量xi与xj的词向量表示。
通过softmax函数计算(Transformer-encoder)深度自注意力神经网络的输出,公式如下:
m=Att(A,V)=softmax(A)V
其中V为训练参数,是(Transformer-encoder)深度自注意力神经网络参数,为本领域公知。其中维度表示为:
Figure BDA0002989040420000065
m为注意力权重线性变化的中间向量。
对(Transformer-encoder)深度自注意力神经网络的输出分布降维,从而实现对整体中文网事数据做词、字颗粒度的注意力机制,得到自注意力向量h*。再将h*输入至softmax函数得到该中文网事数据语料的实体关系分布。公式如下:
H=tanh(m)
α=softmax(lTH)
h*=mαT
o=Wh*+b
p(y∣S)=softmax(o)
l、W、b为注意力机制的训练超参数。其中l为softmax函数的降维超参数、W为自注意力向量h*的降维权重超参数、b为自注意力向量h*的降维偏置项超参数。其中l、W、b的维度表示为
Figure BDA0002989040420000066
b∈RY,为模型的训练参数,Y代表输出的实体的类型数,p(y∣S)代表语义向量xi、xj对应的实体关系y属于S类别的概率。
本方面采用(Transformer-encoder)深度自注意力神经网络结构对中文网事数据进行了中文实体关系抽取,在给定的多颗粒度、多语义、多相对位置的关系的语义向量下,将语料中潜在的多语义、多相对位置关系融合,作为(Transformer-encoder)深度自注意力神经网络结构的输入训练数据。充分利用了(Span)词格结构下的多语义词义向量。从而更为准确的抽取出存在于中文网事数据的实体关系。
根据本发明的第四个方面,模型在训练阶段以句为单位对所有训练样本语料依据预训练的语义向量字典匹配对应的多颗粒度语义向量,依据知网(Hownet)知识库匹配多词义语义向量。从而生成多语义多颗粒度的语义向量。之后将数据输入至公知的(Transformer-encoder)深度自注意力神经网络结构中,从而输出对多语义多颗粒度的语义向量的解码向量,作为模型的中间向量。最后,将解码向量由公知的条件随机场方法(CRF)映射至对应的输出分布。
在训练过程中,本模型采用公知的交错熵算法,从而计算模型的预测分布与数据本身的真实分布之间的差值。其公式如下:
Figure BDA0002989040420000071
其中n代表类型所预测的关系的类型总数。p(y∣S)代表当前语料属于S类别的概率。Ygroundtruth代表当前词条语料的真实标签。
模型通过公知的梯度下降算法迭代公知的(Transformer-encoder)深度自注意力神经网络结构以及公知的条件随机场方法(CRF)中的模型参数。其公式如下
Figure BDA0002989040420000072
其中timestep代表当前训练模型轮次。Weighttimestep为相对应的当前训练模型轮次的模型所有参数缩写。
Figure BDA0002989040420000073
为公知的数学偏导数符号。lr为预设定的模型学习率,用于调节模型迭代速度。
本方面采用交叉熵的方式计算模型输出的预测分布与数据真实标签分布的差值。从而衡量模型在当前训练轮次的表现。之后,模型基于梯度下降算法,对存在于模型中的参数优化,进而优化模型输出。模型通过预设定的训练轮次常数以固定模型的训练次数,当模型达到最终训练轮次,则停止训练,并存储相对应的模型训练参数。
根据本发明的第五个方面,模型需对一组未标注的中文网事新闻数据进行实体关系识别,从而实现本发明的实体关系抽取功能的应用。
以一条中文网事数据为例。应用阶段本方法的预处理流程与训练阶段一致。依据外部的知识库知识,生成对应的多语义多颗粒度向量。之后根据生成的多语义多颗粒度向量构成Span结构数据,从而多维度的生成相对位置矩阵。将由模型外部预处理的多维度的生成相对位置矩阵以及多语义多颗粒度向量同时作为模型输入,输入至(Transformer-encoder)深度自注意力神经网络结构。此时的(Transformer-encoder)深度自注意力神经网络参数加载第四个方面存储的模型训练参数。从而得到模型的预测输出分布。
由于应用阶段须输出存在于语料中的最大概率值标签,故采用以下公知的最大概率值标签公式实现对语料标签的预测。
Figure BDA0002989040420000081
其中i代表标签的种类所对应的序号。
Figure BDA0002989040420000082
代表模型预测输出属于第i标签的预测值。label代表模型预测的当前语料所属的实体关系类型。
本方面在预处理阶段,在训练模型外构成多语义多颗粒度的语义向量以及多维度的相对位置矩阵以作为公知的(Transformer-encoder)深度自注意力神经网络结构的模型输入,其中模型的参数需加载训练阶段本地化的模型参数,从而得到精准的模型输出结果分布。模型输出分布需要采用本方面提出的的最大概率值标签公式以输出模型的关系标签。
本发明和现有技术相比有如下优势:
该中文新闻网事数据的实体关系抽取方法主要创新点是:(1)针对丰富存在于语料中的多义词采取了多颗粒度的语义向量编码方式。(2)针对存在于中文语料中因断句所导致的理解偏差现象,采用Span的结构对多断句形式下的数据进行了相对位置再编码。(3)采用Transforner-encoder结构融合多语义、多颗粒度、多相对位置的语义向量对存在于中文新闻网事数据的实体关系进行了分类。
附图说明
图1为子向量维度的编码过程图;
图2为词向量维度的编码过程图;
图3为对span进行相对位置编码示意图;
图4为相对位置矩阵生成方法流程图;
图5为多义词实体关系识别方法流程。
具体实施方式
下面结合附图对本发明的优选实例进行详细阐述。
本发明基于知网(Hownet)的多义词实体关系识别方法流程如图5,首先对原始输入语料生成字颗粒度的语义向量。之后基于知网(Hownet)的多义词字典,对存在于原始输入语料的词生成词颗粒度的语义向量。然后根据存在于语料中的所有字颗粒度语义向量、词颗粒度语义向量转化为(Span)词格结构数据并生成相对位置矩阵。最后将多颗粒度、多语义的(Span)词格数据以及由(Span)词格数据生成的相对位置矩阵共同作为(Transformer-encoder)深度自注意力神经网络编码器的输入数据从而对存在于中文新闻网事的实体关系进行抽取。
本方法中存在的多关键性特征直接影响实体关系抽取模型的有效性,因此,选取如下特征作为模型的关键特征:
1.字颗粒度特征:以字颗粒度为特征的语义向量。
2.词颗粒度特征集合:以词颗粒度为特征的语义向量集合,因为一个词可有多义,故表示为一个集合。
3.(Span)词格结构特征:包含语义特征的语义信息、相对起始位置信息、相对终止位置信息。
4.相对位置特征矩阵:包含存在于多颗粒度、多语义的(Span)词格数据中各个语义向量之间的相对位置关系所构成的4个维度的矩阵。
5.实体关系特征:由(Transformer-encoder)深度自注意力神经网络编码器抽取出的中文网事数据的实体关系。
本方法在(Transformer-encoder)深度自注意力神经网络中分为两步实现对中文网事数据的实体关系抽取,首先对语义向量进行以语义向量为训练最小单位的并行训练。然后对语义向量的训练结果采用softmax分布函数预测实体关系类型。
以上所述仅是本发明的一种优选方案,应当指出,对于本技术领域的普通人员来说,在不脱离本发明的原理前提下,还可以做出若干修饰和润色,在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容,本发明的保护范围以权利要求书界定的范围为准。

Claims (8)

1.一种基于知网的多义词中文实体关系识别方法,其步骤包括:
1)对中文网事数据中的每一条语料样本基于知网进行字颗粒度的向量化,得到每一个字对的字颗粒度向量;然后对每一字颗粒度向量所在的位置信息进行编码,得到语料中每个字与预标注的待识别实体关系对的相对位置编码;
2)根据步骤1)所得结果生成每一语料样本的字颗粒度语义向量集合
Figure FDA0002989040410000011
其中,M为一条语料样本的字数,语料样本中第i个字ci对应的字颗粒度向量记为
Figure FDA0002989040410000012
ci相对于待识别实体关系对的位置编码为
Figure FDA0002989040410000013
Figure FDA0002989040410000014
转置为向量
Figure FDA0002989040410000015
Figure FDA0002989040410000016
向量拼接为
Figure FDA0002989040410000017
Figure FDA0002989040410000018
代表ci的字向量,i=1~M;
3)基于知网获取中文网事数据中的每一条语料样本中的词汇并生成每一词汇的词向量集合;其中词汇w表示为wb,e,当词汇w具有K重多义时,多义词w的第k种释义的语义向量表示为
Figure FDA0002989040410000019
b代表词汇w在语料中的起始相对位置,e代表词汇w在语料中的终止相对位置,k代表多义词w的第k种释义,k=1~K;多义词w对应的语义向量集合表示为
Figure FDA00029890404100000110
一条长度为N的语料的词颗粒度语义向量集合表示为
Figure FDA00029890404100000111
Figure FDA00029890404100000112
为第N个词汇对应的语义向量集合;
4)将每条语料样本中的字向量
Figure FDA00029890404100000113
词向量
Figure FDA00029890404100000114
拼接得到向量x={xc,xsen},构成多颗粒度的词格结构语义向量,对存在于语料中的所有词格span进行相对位置编码;其中,利用语义向量xi代表xc中的一字向量或xsen中的一词向量,head[i]、tail[i]代表xi在语料中的起始、终止相对位置;
5)根据每条语料样本中xi对应的词格span相对位置编码,生成xi的位置编码;
6)利用各语义向量及其对应位置编码训练深度自注意力神经网络,得到深度自注意力神经网络编码器;
7)对于待处理语料,生成该待处理语料中字和词汇的语义向量,然后将每一语义向量及其对应位置编码输入深度自注意力神经网络编码器,得到该待处理语料中的实体关系。
2.如权利要求1所述的方法,其特征在于,深度自注意力神经网络根据公式
Figure FDA00029890404100000115
Figure FDA00029890404100000116
确定语料中的语义向量xi语义向量与xj之间的相对位置关系Ri,j;然后基于相对位置关系Ri,j和语义向量xi、xj,计算语义向量xi对语义向量xj的注意力权重
Figure FDA00029890404100000117
然后基于注意力权重计算深度自注意力神经网络的输出m;然后依次通过公式H=tanh(m)、α=softmax(lTH)、h*=mαT、o=Wh*+b、p(y∣S)=softmax(o),计算实体关系;其中,
Figure FDA0002989040410000021
为xi四个维度的位置编码;Wq,Wk,R,Wk,E,u,v,V为深度自注意力神经网络参数,m为注意力权重线性变化的中间向量,
Figure FDA00029890404100000210
为语义向量xi的词向量表示,
Figure FDA00029890404100000211
为语义向量xj的词向量表示,l为softmax函数的降维超参数、W为自注意力向量h*的降维权重超参数、b为自注意力向量h*的降维偏置项超参数,p(y∣S)代表语义向量xi、xj对应的实体关系y属于类别S的概率。
3.如权利要求2所述的方法,其特征在于,用d代表
Figure FDA0002989040410000022
位置编码方法为:
Figure FDA0002989040410000023
k代表词格span在x中的绝对位置,若绝对位置k为偶数,则采用sin函数;若k为奇数,则采用cos函数;其中dmodel代表一条词格结构语义向量的向量维度;
Figure FDA0002989040410000024
代表xi的相对起始位置与语义向量xj的相对起始位置的距离,
Figure FDA0002989040410000025
代表xi的相对起始位置与语义向量xj的相对终止位置的距离,
Figure FDA0002989040410000026
代表xi的相对终止位置与语义向量xj的相对起始位置的距离,
Figure FDA0002989040410000027
代表xi的相对终止位置与语义向量xj的相对终止位置的距离。
4.如权利要求2所述的方法,其特征在于,
Figure FDA0002989040410000028
Figure FDA0002989040410000029
5.如权利要求1所述的方法,其特征在于,采用交错熵算法训练深度自注意力神经网络。
6.如权利要求1或5所述的方法,其特征在于,基于梯度下降算法优化深度自注意力神经网络中的参数。
7.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至6任一所述方法中各步骤的指令。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法的步骤。
CN202110309085.1A 2021-03-23 2021-03-23 一种基于知网的多义词中文实体关系识别方法 Active CN113239663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110309085.1A CN113239663B (zh) 2021-03-23 2021-03-23 一种基于知网的多义词中文实体关系识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110309085.1A CN113239663B (zh) 2021-03-23 2021-03-23 一种基于知网的多义词中文实体关系识别方法

Publications (2)

Publication Number Publication Date
CN113239663A true CN113239663A (zh) 2021-08-10
CN113239663B CN113239663B (zh) 2022-07-12

Family

ID=77130412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110309085.1A Active CN113239663B (zh) 2021-03-23 2021-03-23 一种基于知网的多义词中文实体关系识别方法

Country Status (1)

Country Link
CN (1) CN113239663B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492420A (zh) * 2022-04-02 2022-05-13 北京中科闻歌科技股份有限公司 文本分类方法、装置、设备及计算机可读存储介质
CN115169326A (zh) * 2022-04-15 2022-10-11 山西长河科技股份有限公司 一种中文关系抽取方法、装置、终端及存储介质
CN116541705A (zh) * 2023-05-06 2023-08-04 石家庄铁道大学 文本分类模型的训练方法及文本分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法
CN110334354A (zh) * 2019-07-11 2019-10-15 清华大学深圳研究生院 一种中文关系抽取方法
US10496752B1 (en) * 2018-01-04 2019-12-03 Facebook, Inc. Consumer insights analysis using word embeddings
WO2020133039A1 (zh) * 2018-12-27 2020-07-02 深圳市优必选科技有限公司 对话语料中实体的识别方法、装置和计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10496752B1 (en) * 2018-01-04 2019-12-03 Facebook, Inc. Consumer insights analysis using word embeddings
CN108595590A (zh) * 2018-04-19 2018-09-28 中国科学院电子学研究所苏州研究院 一种基于融合注意力模型的中文文本分类方法
WO2020133039A1 (zh) * 2018-12-27 2020-07-02 深圳市优必选科技有限公司 对话语料中实体的识别方法、装置和计算机设备
CN110334354A (zh) * 2019-07-11 2019-10-15 清华大学深圳研究生院 一种中文关系抽取方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492420A (zh) * 2022-04-02 2022-05-13 北京中科闻歌科技股份有限公司 文本分类方法、装置、设备及计算机可读存储介质
CN115169326A (zh) * 2022-04-15 2022-10-11 山西长河科技股份有限公司 一种中文关系抽取方法、装置、终端及存储介质
CN116541705A (zh) * 2023-05-06 2023-08-04 石家庄铁道大学 文本分类模型的训练方法及文本分类方法
CN116541705B (zh) * 2023-05-06 2024-06-11 石家庄铁道大学 文本分类模型的训练方法及文本分类方法

Also Published As

Publication number Publication date
CN113239663B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN113239663B (zh) 一种基于知网的多义词中文实体关系识别方法
CN107798140B (zh) 一种对话系统构建方法、语义受控应答方法及装置
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
CN110275936B (zh) 一种基于自编码神经网络的相似法律案例检索方法
CN113792818A (zh) 意图分类方法、装置、电子设备及计算机可读存储介质
CN111160031A (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN108874896B (zh) 一种基于神经网络和幽默特征的幽默识别方法
CN114818717B (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN111125367A (zh) 一种基于多层次注意力机制的多种人物关系抽取方法
CN113220890A (zh) 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
CN109918647A (zh) 一种安全领域命名实体识别方法及神经网络模型
CN111881256B (zh) 文本实体关系抽取方法、装置及计算机可读存储介质设备
CN117236338B (zh) 一种稠密实体文本的命名实体识别模型及其训练方法
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN114238649A (zh) 一种常识概念增强的语言模型预训练方法
CN115238693A (zh) 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及系统
CN113139050B (zh) 基于命名实体识别附加标签和先验知识的文本摘要生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant