CN111104509A - 一种基于概率分布自适应的实体关系分类方法 - Google Patents

一种基于概率分布自适应的实体关系分类方法 Download PDF

Info

Publication number
CN111104509A
CN111104509A CN201911085383.6A CN201911085383A CN111104509A CN 111104509 A CN111104509 A CN 111104509A CN 201911085383 A CN201911085383 A CN 201911085383A CN 111104509 A CN111104509 A CN 111104509A
Authority
CN
China
Prior art keywords
domain data
probability distribution
level feature
data
target domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911085383.6A
Other languages
English (en)
Other versions
CN111104509B (zh
Inventor
熊盛武
陈振东
段鹏飞
刁月月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Shuixiang Electronic Technology Co ltd
Wuhan University of Technology WUT
Original Assignee
Wuhan Shuixiang Electronic Technology Co ltd
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Shuixiang Electronic Technology Co ltd, Wuhan University of Technology WUT filed Critical Wuhan Shuixiang Electronic Technology Co ltd
Priority to CN201911085383.6A priority Critical patent/CN111104509B/zh
Publication of CN111104509A publication Critical patent/CN111104509A/zh
Application granted granted Critical
Publication of CN111104509B publication Critical patent/CN111104509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于概率分布自适应的实体关系分类方法,首先获取源域数据和目标域数据,训练两个领域数据的字向量特征和实体词的位置特征;接着经过深度神经网络模型的前向传播计算,得到两个领域数据的高级特征表示;接下来计算领域数据高级特征表示之间边缘概率分布差异和条件概率分布差异;然后计算两种概率分布之间的A‑distance,赋予两种概率分布差异不同的学习权重,并在训练过程中自动更新权重;再经过损失函数计算,并结合概率分布差异的损失,反向传播更新网络参数,最终训练得到分类模型进行分类测试。本发明通过降低不同领域数据之间的分布差异达到领域适应,利用源域的大量数据提升目标域分类效果。

Description

一种基于概率分布自适应的实体关系分类方法
技术领域
本发明涉及机器学习与自然语言处理技术领域,具体涉及一种基于概率分布自适应的实体关系分类方法。
背景技术
近年来随着互联网技术的蓬勃发展,尤其是移动网络设备的普及,全球互联网用户数量超过了40亿,产生的数据量呈现几何级增长。网络中的信息有不同的组织形式,而非结构化或半结构化的文本是最常见的信息载体。信息抽取技术是指从结构化程度不同的文本数据中提取符合特定需求的信息,在海量文本信息处理和知识库构建中扮演了重要角色。
实体关系抽取任务,则是为了抽取文本中两个实体之间的关系,是信息抽取研究中的一个重要任务。在知识库和知识图谱构建过程中,实体间关系的抽取效果直接影响了知识库的易用性和准确性,因此成为近年来的研究热点。现有的关系抽取机器学习方法,大多以有监督学习方法为主,将关系抽取任务当作分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。但是基于有监督的机器学习的关系抽取方法需要以大量有标签的训练数据为前提,这带来了大量的人力和时间上的花费。为了缓解训练数据缺乏的困扰,迁移学习方法应运而生,并逐渐成为研究热点。在面对特定领域如地理领域的数据量不足问题时,通过迁移学习的方法,可以使用其他领域学习到的知识,通过领域适应的调整,应用到本领域的学习中,并提升本领域的关系抽取等任务的效果。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
目前较多的实体关系抽取研究多应用在英文公开语料库中,并且不同领域的关系类型不同不可通用,而中文关系提取需要更多的自然语言处理任务的支持,如分词和命名实体识别等,相比英文更为复杂,更容易产生误差,经过迭代运算会放大误差影响性能,过多的自然语言处理工作获取的特征不利于迁移学习提升目标任务的性能。目前较多的基于深度迁移学习方法的工作,大都围绕图像分类领域展开,但是在NLP领域,无法像图像信息一般直观地感受到不同领域之间的区别。
由此可知,现有技术中的方法存在分类效果不佳的技术问题。
发明内容
有鉴于此,本发明提供了一种基于概率分布自适应的实体关系分类方法,用以解决或者至少部分解决现有技术中的方法存在的分类效果不佳的技术问题。
为了解决上述技术问题,本发明提供了一种基于概率分布自适应的实体关系分类方法,包括:
步骤S1:将获取的有类别标记的数据作为源域数据,获取的待进行实体关系分类的领域标注数据作为目标域数据,并训练获得源域数据字向量特征和实体词的位置特征、目标域数据的字向量特征和实体词的位置特征;
步骤S2:将源域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算,得到源域数据的高级特征表示,将目标域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算,得到目标域数据的高级特征表示;
步骤S3:计算源域数据高级特征表示与目标域数据高级特征表示之间的最大均值差异,作为边缘概率分布差异,计算源域数据高级特征表示与目标域数据高级特征表示之间的条件概率分布的最大均值差异,作为关系分类的条件概率分布差异;
步骤S4:计算源域数据边缘概率分布和目标域数据边缘概率分布之间的第一距离、源域数据条件概率分布和目标域数据条件概率分布之间的第二距离,并根据计算出的第一距离和第二距离,对边缘概率分布差异和条件概率分布差异分配相应的权重,得到概率分布差异的损失函数;
步骤S5:将源域数据和目标域数据通过预设领域关系类型的损失函数和概率分布差异的损失函数的计算,反向传播更新网络参数,得到分类模型;
步骤S6:利用分类模型对待处理的数据进行实体关系分类。
在一种实施方式中,步骤S1具体包括:
步骤S1.1:获取ACE05关系抽取数据集中的中文数据子集,将其作为源域数据DS,获取目标域的预设量数据,并进行标注,作为目标域数据DT
步骤S1.2:通过训练好的word2vec工具计算源域数据和目标域数据的字向量特征,对于源域数据和目标域数据中的实体词,通过计算实体词与每个文本字符的字符距离,构建源域数据和目标域数据包含的语句中实体词的位置特征向量。
在一种实施方式中,预设深度神经网络模型为基于注意力机制的双向长短期记忆神经网络,步骤S2具体包括:
步骤S2.1:将得到的源域数据包含的语句中每个字的字向量组成的特征矩阵,并拼接实体词的位置特征向量,经过Bi-LSTM层的前向传播计算和注意力层的注意力计算,得到源域数据的高级特征表示;
步骤S2.2:将得到的目标域数据包含的语句中每个字的字向量组成的特征矩阵,并拼接实体词的位置特征向量,经过Bi-LSTM层的前向传播计算和注意力层的注意力计算,得到目标域的高级特征表示。
在一种实施方式中,步骤S3具体包括:
步骤S3.1:根据公式(1)计算源域数据高级特征表示与目标域数据高级特征表示之间的最大均值差异,作为边缘概率分布差异:
Figure BDA0002265233460000031
其中,RS、RT分别代表源域数据高级特征向量和目标域数据高级特征向量,m、n分别表示源域数据高级特征向量的总数、目标域数据高级特征向量的总数,
Figure BDA0002265233460000032
分别表示目标域数据中第i个的高级特征向量和第j个高级特征向量,
Figure BDA0002265233460000033
Figure BDA0002265233460000034
分别表示源域数据中第i个的高级特征向量和第j个高级特征向量;高斯核函数的形式为k(x,y)=exp(-||x-y||2/2σ2),其中x,y代表待计算的向量,σ为控制高斯核函数局部作用范围的带宽参数,高级特征向量为高级特征的表示形式;
步骤S3.2:根据公式(1)计算源域数据高级特征表示与目标域数据高级特征表示之间的条件概率分布的最大均值差异,作为关系分类的条件概率分布差异:
Figure BDA0002265233460000035
其中,c代表该类别对应的高级特征数据,nc、mc分别表示源域数据高级特征在第c类的向量的总数、目标域数据高级特征在第c类的向量的总数,
Figure BDA0002265233460000036
分别表示目标域数据中在第c类的第i个的高级特征向量和第j个高级特征向量,
Figure BDA0002265233460000041
分别表示源域数据中在第c类的第i个的高级特征向量和第j个高级特征向量。
在一种实施方式中,步骤S4具体包括:
步骤S4.1:根据公式(3)计算源域数据边缘概率分布和目标域数据边缘概率分布之间的第一距离:
dP=dA(RS,RT)=2(1-2ε(h)) (3)
其中,RS表示源域数据高级特征向量,RT表示目标域数据高级特征向量,ε(h)线性分类器h区分源域数据和目标域数据高级特征向量之间的误差;
步骤S4.2:根据公式(4)计算源域数据条件概率分布和目标域数据条件概率分布之间的第二距离:
Figure BDA0002265233460000042
其中,
Figure BDA0002265233460000043
表示分类为第c类的源域数据的高级特征向量,
Figure BDA0002265233460000044
表示表示分类为第c类的目标域数据的高级特征向量;
步骤S4.3:根据第一距离和第二距离所占比例的大小分配边缘概率分布差异和条件概率分布差异的权重,得到概率分布差异的损失函数
Figure BDA0002265233460000045
Figure BDA0002265233460000046
Figure BDA0002265233460000047
其中,
Figure BDA0002265233460000048
表示边缘概率分布差异,
Figure BDA0002265233460000049
表示条件概率分布差异,γ表示边缘概率分布差异自适应超参数,μ(c)表示条件概率分布差异的自适应超参数。
在一种实施方式中,步骤S5具体包括:
步骤S5.1:基于预设领域关系类型的损失函数分别计算源域的分类损失和目标域的分类损失,并将源域的分类损失和目标域的分类损失相加得到总体损失,其中,预设领域关系类型的损失函数为交叉熵函数;
步骤S5.2:在反向传播过程结合概率分布差异损失函数,得到目标损失函数;
步骤S5.3:基于目标损失函数的梯度更新,训练得到分类模型。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的方法,首先获取源域数据和目标域数据,并分别获取两个领域数据的字向量特征和实体词的位置特征;然后通过深度神经网络模型的前向传播计算,得到两个领域数据的高级特征表示;接着计算领域数据高级特征表示之间边缘概率分布差异和条件概率分布差异;接下来计算两种概率分布之间的A-distance(第一距离和第二距离),赋予两种概率分布差异不同的权重,并在训练过程中自动更新权重;再经过损失函数计算,并结合概率分布差异的损失,反向传播更新网络参数,训练得到分类模型,最后利用分类模型对待处理的数据进行实体关系分类。本发明可以通过降低不同领域数据之间的分布差异达到领域适应,利用源域的大量数据可以提升目标域分类效果,从而解决现有技术中的方法存在的分类效果不佳的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于概率分布自适应的实体关系分类方法的流程示意图;
图2为本发明实施例提供基于概率分布自适应的实体关系分类方法总体技术框图;
图3为本发明实施例中分类模型的结构示意图。
具体实施方式
本发明的旨在提供一种基于概率分布自适应的实体关系分类方法,用以解决传统方法中对于实体关系分类的误差大的问题,从而达到较佳的分类效果。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供了一种基于概率分布自适应的实体关系分类方法,请参见图1,该方法包括:
步骤S1:将获取的有类别标记的数据作为源域数据,获取的待进行实体关系分类的领域标注数据作为目标域数据,并训练获得源域数据字向量特征和实体词的位置特征、目标域数据的字向量特征和实体词的位置特征。
具体来说,对于源域数据和目标域数据,可以通过训练词向量的方式得到对应的字向量特征和实体词的位置特征。
在一种实施方式中,步骤S1具体包括:
步骤S1.1:获取ACE05关系抽取数据集中的中文数据子集,将其作为源域数据DS,获取目标域的预设量数据,并进行标注,作为目标域数据DT
步骤S1.2:通过训练好的word2vec工具计算源域数据和目标域数据的字向量特征,对于源域数据和目标域数据中的实体词,通过计算实体词与每个文本字符的字符距离,构建源域数据和目标域数据包含的语句中实体词的位置特征向量。
具体来说,将DS和DT作为训练语料中的训练集文本,通过word2vec工具计算字向量特征,然后通过计算字与实体词的字符距离,得到实体词的位置特征。
步骤S2:将源域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算,得到源域数据的高级特征表示,将目标域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算,得到目标域数据的高级特征表示。
具体来说,步骤S2是通过预设深度神经网络结合双向长短记忆和注意力机制,进一步提出两个领域中数据的高级特征表示。
在一种实施方式中,预设深度神经网络模型为基于注意力机制的双向长短期记忆神经网络,步骤S2具体包括:
步骤S2.1:将得到的源域数据包含的语句中每个字的字向量组成的特征矩阵,并拼接实体词的位置特征向量,经过Bi-LSTM层的前向传播计算和注意力层的注意力计算,得到源域数据的高级特征表示;
步骤S2.2:将得到的目标域数据包含的语句中每个字的字向量组成的特征矩阵,并拼接实体词的位置特征向量,经过Bi-LSTM层的前向传播计算和注意力层的注意力计算,得到目标域的高级特征表示。
具体来说,构建双向长短期记忆神经网络(Bi-LSTM)层,基于Bi-LSTM层应用注意力机制,进一步提取Bi-LSTM层中更为有效的特征;输入DS与DT的数据特征,经过前向传播计算最终输出源域的高级特征RS和目标域的高级特征RT
步骤S3:计算源域数据高级特征表示与目标域数据高级特征表示之间的最大均值差异,作为边缘概率分布差异,计算源域数据高级特征表示与目标域数据高级特征表示之间的条件概率分布的最大均值差异,作为关系分类的条件概率分布差异。
具体来说,步骤S3通过两个领域数据的高级特征表示的计算,从而得到边缘概率分布差异和关系分类的条件概率分布差异。
在一种实施方式中,步骤S3具体包括:
步骤S3.1:根据公式(1)计算源域数据高级特征表示与目标域数据高级特征表示之间的最大均值差异,作为边缘概率分布差异:
Figure BDA0002265233460000071
其中,RS、RT分别代表源域数据高级特征向量和目标域数据高级特征向量,m、n分别表示源域数据高级特征向量的总数、目标域数据高级特征向量的总数,
Figure BDA0002265233460000072
分别表示目标域数据中第i个的高级特征向量和第j个高级特征向量,
Figure BDA0002265233460000073
Figure BDA0002265233460000074
分别表示源域数据中第i个的高级特征向量和第j个高级特征向量;高斯核函数的形式为k(x,y)=exp(-||x-y||2/2σ2),其中x,y代表待计算的向量,σ为控制高斯核函数局部作用范围的带宽参数,高级特征向量为高级特征的表示形式;
步骤S3.2:根据公式(1)计算源域数据高级特征表示与目标域数据高级特征表示之间的条件概率分布的最大均值差异,作为关系分类的条件概率分布差异:
Figure BDA0002265233460000075
其中,c代表该类别对应的高级特征数据,nc、mc分别表示源域数据高级特征在第c类的向量的总数、目标域数据高级特征在第c类的向量的总数,
Figure BDA0002265233460000081
分别表示目标域数据中在第c类的第i个的高级特征向量和第j个高级特征向量,
Figure BDA0002265233460000082
分别表示源域数据中在第c类的第i个的高级特征向量和第j个高级特征向量。
步骤S4:计算源域数据边缘概率分布和目标域数据边缘概率分布之间的第一距离、源域数据条件概率分布和目标域数据条件概率分布之间的第二距离,并根据计算出的第一距离和第二距离,对边缘概率分布差异和条件概率分布差异分配相应的权重,得到概率分布差异的损失函数。
具体来说,边缘概率分布的A-distance为第一距离,条件概率分布的A-distance为第二距离,在计算时,分别从两个领域中得到相应的数据分布。
在一种实施方式中,步骤S4具体包括:
步骤S4.1:根据公式(3)计算源域数据边缘概率分布和目标域数据边缘概率分布之间的第一距离:
dP=dA(RS,RT)=2(1-2ε(h)) (3)
其中,RS表示源域数据高级特征向量,RT表示目标域数据高级特征向量,ε(h)线性分类器h区分源域数据和目标域数据高级特征向量之间的误差;
步骤S4.2:根据公式(4)计算源域数据条件概率分布和目标域数据条件概率分布之间的第二距离:
Figure BDA0002265233460000083
其中,
Figure BDA0002265233460000084
表示分类为第c类的源域数据的高级特征向量,
Figure BDA0002265233460000085
表示表示分类为第c类的目标域数据的高级特征向量;
步骤S4.3:根据第一距离和第二距离所占比例的大小分配边缘概率分布差异和条件概率分布差异的权重,得到概率分布差异的损失函数
Figure BDA0002265233460000086
Figure BDA0002265233460000087
Figure BDA0002265233460000088
其中,
Figure BDA0002265233460000089
表示边缘概率分布差异,
Figure BDA00022652334600000810
表示条件概率分布差异,γ表示边缘概率分布差异自适应超参数,μ(c)表示条件概率分布差异的自适应超参数。
具体来说,本实施方式采用一种近似方法来估计A-distance,定义为:线性分类器(二分类)区分两个领域高级特征的误差值。将源域数据的高级特征向量RS和目标域数据的高级特征向量RT分别分类为0和1,并将高级特征向量输入简单二分类器进行训练并得出损失值,本发明具体实施方式为采用单隐藏层二分类神经网络实现A-distance估计。形式上,定义线性分类器h区分RS和RT的误差为ε(h),从而得到边缘概率分布A-distance(即第一距离)的计算方法dP=dA(RS,RT)=2(1-2ε(h)),在计算条件概率分布的情况下,每一类的A-distance(第二距离)计算方法为
Figure BDA0002265233460000091
计算得到相应的A-distance后,可以根据dP
Figure BDA0002265233460000092
所占比例的大小分配γ和μ的取值(dP
Figure BDA0002265233460000093
各自所占比例=各自的值÷两者总和),最终为两概率分布差异赋予权重,得到概率分布差异的损失函数
Figure BDA0002265233460000094
步骤S5:将源域数据和目标域数据通过预设领域关系类型的损失函数和概率分布差异的损失函数的计算,反向传播更新网络参数,得到分类模型。
在一种实施方式中,步骤S5具体包括:
步骤S5.1:基于预设领域关系类型的损失函数分别计算源域的分类损失和目标域的分类损失,并将源域的分类损失和目标域的分类损失相加得到总体损失,其中,预设领域关系类型的损失函数为交叉熵函数;
步骤S5.2:在反向传播过程结合概率分布差异损失函数,得到目标损失函数;
步骤S5.3:基于目标损失函数的梯度更新,训练得到分类模型。
具体来说,两个领域数据分别经过其领域关系类型的损失函数计算,并结合概率分布差异的损失,反向传播更新网络参数,最终训练得到分类模型进行分类测试。分类损失由交叉熵损失函数JC计算得到,其形式为:
Figure BDA0002265233460000095
N为样本总量,x为样本,对于每一个样本,yi表示x的真实标签,
Figure BDA0002265233460000096
表示预测标签。
对于源域与目标域,由于标签类型的不同,因此分别计算两个领域的分类损失并相加得到总体损失,反向传播过程加入概率分布差异损失
Figure BDA0002265233460000097
最终经过所有损失的梯度更新,训练分类模型。
请参见图2,为本发明实施例的总体技术框图,通过深度神经网络根据输入的源域数据特征和目标域数据特征,抽取出源域高级特征和目标域高级特征,然后计算领域数据高级特征表示之间边缘概率分布差异和条件概率分布差异;接着计算两种概率分布之间的A-distance,赋予两种概率分布差异不同的学习权重,并在训练过程中自动更新权重,得到概率分布差异损失,并结合关系分类损失,反向传播更新网络参数,最终训练得到分类模型。
需要说明的是,图2中,源域数据特征为源域数据字向量特征和实体词的位置特征,目标域数据特征为目标域数据的字向量特征和实体词的位置特征。概率分布差异损失为概率分布差异损失函数。
请参见图3,为本发明实施例中分类模型的结构示意图,该模型包括字嵌入位置嵌入层、Bi-LSTM层、注意力层、高级特征层和分类输出层。
步骤S6:利用分类模型对待处理的数据进行实体关系分类。
具体来说,通过前述步骤得到训练好的分类模型后,则可以利用分类模型对待处理数据进行实体关系分类。
下面结合附图和实施例对本发明提供的实体关系分类方法做进一步的说明。
步骤101,获取有类别标记的数据作为源域数据,获取待进行实体关系分类的领域标注数据作为目标域数据,训练两个领域数据的字向量特征和实体词的位置特征。获取ACE05关系抽取数据集中的中文数据子集作为源域DS,获取目标域的一定量数据,并进行标注,作为目标域数据DT。整合两个领域的训练集文本数据,使用word2vec工具训练100维的字向量特征,对于未知字符视为零向量。对于语句中的实体词,计算实体词与每个文本字符的字符距离,也就是相隔的字符数量,构建实体词的位置特征向量。
步骤102,使源域数据特征与目标域数据特征分别经过深度神经网络模型的前向传播计算,得到两领域数据的高级特征表示。构建基于注意力机制的双向长短期记忆神经网络(Bi-LSTM),其输入特征为步骤1中得到的语句中每个字的字向量组成的特征矩阵,并拼接位置特征向量。经过Bi-LSTM层的前向传播计算和注意力层的注意力计算,最终输出源域的高级特征RS和目标域的高级特征RT,具体地,获取高级特征层的隐藏权重表示源域和目标域数据的特征。
步骤103,计算领域数据高级特征表示之间的最大均值差异,代表边缘概率分布的差异,计算领域数据高级特征之间类条件概率分布的最大均值差异,代表关系分类的条件概率分布差异。声明高斯核函数的形式为k(x,y)=exp(-||x-y||2/2σ2)。基于高级特征RS与RT,根据源域与目标域的特征向量rs与rt计算边缘概率分布差异
Figure BDA0002265233460000111
Figure BDA0002265233460000112
其中m、n为特征向量的总数。根据对应领域中softmax层的分类情况,获得每一类别对应的特征向量
Figure BDA0002265233460000113
Figure BDA0002265233460000114
条件概率分布差异计算如下式中
Figure BDA0002265233460000115
其中c代表该类别对应的高级特征数据。
Figure BDA0002265233460000116
步骤104,计算边缘概率分布与条件概率分布之间的A-distance,依据此度量方法赋予两种概率分布差异不同的学习权重,并在训练过程中自动更新权重。
步骤105,两个领域数据分别经过其领域关系类型的损失函数计算,并结合概率分布差异的损失,反向传播更新网络参数,最终训练得到分类模型进行分类测试。分类损失由交叉熵损失函数JC计算得到。对于源域与目标域,由于标签类型的不同,因此分别计算两个领域的分类损失并相加得到总体损失,反向传播过程加入概率分布差异损失
Figure BDA0002265233460000117
最终经过所有损失的梯度更新,训练分类模型。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种基于概率分布自适应的实体关系分类方法,其特征在于,包括:
步骤S1:将获取的有类别标记的数据作为源域数据,获取的待进行实体关系分类的领域标注数据作为目标域数据,并训练获得源域数据字向量特征和实体词的位置特征、目标域数据的字向量特征和实体词的位置特征;
步骤S2:将源域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算,得到源域数据的高级特征表示,将目标域数据的字向量特征和实体词的位置特征通过预设深度神经网络模型的前向传播计算,得到目标域数据的高级特征表示;
步骤S3:计算源域数据高级特征表示与目标域数据高级特征表示之间的最大均值差异,作为边缘概率分布差异,计算源域数据高级特征表示与目标域数据高级特征表示之间的条件概率分布的最大均值差异,作为关系分类的条件概率分布差异;
步骤S4:计算源域数据边缘概率分布和目标域数据边缘概率分布之间的第一距离、源域数据条件概率分布和目标域数据条件概率分布之间的第二距离,并根据计算出的第一距离和第二距离,对边缘概率分布差异和条件概率分布差异分配相应的权重,得到概率分布差异的损失函数;
步骤S5:将源域数据和目标域数据通过预设领域关系类型的损失函数和概率分布差异的损失函数的计算,反向传播更新网络参数,得到分类模型;
步骤S6:利用分类模型对待处理的数据进行实体关系分类。
2.如权利要求1所述的方法,其特征在于,步骤S1具体包括:
步骤S1.1:获取ACE05关系抽取数据集中的中文数据子集,将其作为源域数据DS,获取目标域的预设量数据,并进行标注,作为目标域数据DT
步骤S1.2:通过训练好的word2vec工具计算源域数据和目标域数据的字向量特征,对于源域数据和目标域数据中的实体词,通过计算实体词与每个文本字符的字符距离,构建源域数据和目标域数据包含的语句中实体词的位置特征向量。
3.如权利要求1所述的方法,其特征在于,预设深度神经网络模型为基于注意力机制的双向长短期记忆神经网络,步骤S2具体包括:
步骤S2.1:将得到的源域数据包含的语句中每个字的字向量组成的特征矩阵,并拼接实体词的位置特征向量,经过Bi-LSTM层的前向传播计算和注意力层的注意力计算,得到源域数据的高级特征表示;
步骤S2.2:将得到的目标域数据包含的语句中每个字的字向量组成的特征矩阵,并拼接实体词的位置特征向量,经过Bi-LSTM层的前向传播计算和注意力层的注意力计算,得到目标域的高级特征表示。
4.如权利要求1所述的方法,其特征在于,步骤S3具体包括:
步骤S3.1:根据公式(1)计算源域数据高级特征表示与目标域数据高级特征表示之间的最大均值差异,作为边缘概率分布差异:
Figure FDA0002265233450000021
其中,RS、RT分别代表源域数据高级特征向量和目标域数据高级特征向量,m、n分别表示源域数据高级特征向量的总数、目标域数据高级特征向量的总数,rt i、rt j分别表示目标域数据中第i个的高级特征向量和第j个高级特征向量,
Figure FDA0002265233450000022
Figure FDA0002265233450000023
分别表示源域数据中第i个的高级特征向量和第j个高级特征向量;高斯核函数的形式为k(x,y)=exp(-||x-y||2/2σ2),其中x,y代表待计算的向量,σ为控制高斯核函数局部作用范围的带宽参数,高级特征向量为高级特征的表示形式;
步骤S3.2:根据公式(1)计算源域数据高级特征表示与目标域数据高级特征表示之间的条件概率分布的最大均值差异,作为关系分类的条件概率分布差异:
Figure FDA0002265233450000024
其中,c代表该类别对应的高级特征数据,nc、mc分别表示源域数据高级特征在第c类的向量的总数、目标域数据高级特征在第c类的向量的总数,rt ci、rt cj分别表示目标域数据中在第c类的第i个的高级特征向量和第j个高级特征向量,
Figure FDA0002265233450000025
分别表示源域数据中在第c类的第i个的高级特征向量和第j个高级特征向量。
5.如权利要求1所述的方法,其特征在于,步骤S4具体包括:
步骤S4.1:根据公式(3)计算源域数据边缘概率分布和目标域数据边缘概率分布之间的第一距离:
dP=dA(RS,RT)=2(1-2ε(h)) (3)
其中,RS表示源域数据高级特征向量,RT表示目标域数据高级特征向量,ε(h)线性分类器h区分源域数据和目标域数据高级特征向量之间的误差;
步骤S4.2:根据公式(4)计算源域数据条件概率分布和目标域数据条件概率分布之间的第二距离:
Figure FDA0002265233450000031
其中,
Figure FDA0002265233450000032
表示分类为第c类的源域数据的高级特征向量,
Figure FDA0002265233450000033
表示表示分类为第c类的目标域数据的高级特征向量;
步骤S4.3:根据第一距离和第二距离所占比例的大小分配边缘概率分布差异和条件概率分布差异的权重,得到概率分布差异的损失函数
Figure FDA0002265233450000034
Figure FDA0002265233450000035
Figure FDA0002265233450000036
其中,
Figure FDA0002265233450000037
表示边缘概率分布差异,
Figure FDA0002265233450000038
表示条件概率分布差异,γ表示边缘概率分布差异自适应超参数,μ(c)表示条件概率分布差异的自适应超参数。
6.如权利要求1所述的方法,其特征在于,步骤S5具体包括:
步骤S5.1:基于预设领域关系类型的损失函数分别计算源域的分类损失和目标域的分类损失,并将源域的分类损失和目标域的分类损失相加得到总体损失,其中,预设领域关系类型的损失函数为交叉熵函数;
步骤S5.2:在反向传播过程结合概率分布差异损失函数,得到目标损失函数;
步骤S5.3:基于目标损失函数的梯度更新,训练得到分类模型。
CN201911085383.6A 2019-11-08 2019-11-08 一种基于概率分布自适应的实体关系分类方法 Active CN111104509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911085383.6A CN111104509B (zh) 2019-11-08 2019-11-08 一种基于概率分布自适应的实体关系分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911085383.6A CN111104509B (zh) 2019-11-08 2019-11-08 一种基于概率分布自适应的实体关系分类方法

Publications (2)

Publication Number Publication Date
CN111104509A true CN111104509A (zh) 2020-05-05
CN111104509B CN111104509B (zh) 2023-06-16

Family

ID=70420461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911085383.6A Active CN111104509B (zh) 2019-11-08 2019-11-08 一种基于概率分布自适应的实体关系分类方法

Country Status (1)

Country Link
CN (1) CN111104509B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111728609A (zh) * 2020-08-26 2020-10-02 腾讯科技(深圳)有限公司 脑电信号的分类方法、分类模型的训练方法、装置及介质
CN113360633A (zh) * 2021-06-09 2021-09-07 南京大学 一种基于深度域适应的跨域测试文档分类方法
CN113420775A (zh) * 2021-03-31 2021-09-21 中国矿业大学 基于非线性度自适应子域领域适应的极少量训练样本下图片分类方法
CN113553440A (zh) * 2021-06-25 2021-10-26 武汉理工大学 一种基于层次推理的医学实体关系抽取方法
CN113997989A (zh) * 2021-11-29 2022-02-01 中国人民解放军国防科技大学 磁浮列车单点悬浮系统安全检测方法、装置、设备及介质
CN114387207A (zh) * 2021-12-02 2022-04-22 浙江大学 基于自注意力机制与双重领域自适应的轮胎瑕疵检测方法及模型
CN115470830A (zh) * 2022-10-28 2022-12-13 电子科技大学 一种基于多源域适应的脑电信号跨用户警觉性监测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
US9928448B1 (en) * 2016-09-23 2018-03-27 International Business Machines Corporation Image classification utilizing semantic relationships in a classification hierarchy
CN107958286A (zh) * 2017-11-23 2018-04-24 清华大学 一种领域适应性网络的深度迁移学习方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202044A (zh) * 2016-07-07 2016-12-07 武汉理工大学 一种基于深度神经网络的实体关系抽取方法
US9928448B1 (en) * 2016-09-23 2018-03-27 International Business Machines Corporation Image classification utilizing semantic relationships in a classification hierarchy
CN107958286A (zh) * 2017-11-23 2018-04-24 清华大学 一种领域适应性网络的深度迁移学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DUBEY M, ETC.: "Earl: Joint entity and relation linking for question answering over knowledge graphs" *
谢逸等: "基于CNN和LSTM混合模型的中文词性标注" *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111728609A (zh) * 2020-08-26 2020-10-02 腾讯科技(深圳)有限公司 脑电信号的分类方法、分类模型的训练方法、装置及介质
CN113420775A (zh) * 2021-03-31 2021-09-21 中国矿业大学 基于非线性度自适应子域领域适应的极少量训练样本下图片分类方法
CN113420775B (zh) * 2021-03-31 2024-03-29 中国矿业大学 基于非线性度自适应子域领域适应的极少量训练样本下图片分类方法
CN113360633A (zh) * 2021-06-09 2021-09-07 南京大学 一种基于深度域适应的跨域测试文档分类方法
CN113360633B (zh) * 2021-06-09 2023-10-17 南京大学 一种基于深度域适应的跨域测试文档分类方法
CN113553440A (zh) * 2021-06-25 2021-10-26 武汉理工大学 一种基于层次推理的医学实体关系抽取方法
CN113553440B (zh) * 2021-06-25 2022-08-16 武汉理工大学 一种基于层次推理的医学实体关系抽取方法
CN113997989A (zh) * 2021-11-29 2022-02-01 中国人民解放军国防科技大学 磁浮列车单点悬浮系统安全检测方法、装置、设备及介质
CN113997989B (zh) * 2021-11-29 2024-03-29 中国人民解放军国防科技大学 磁浮列车单点悬浮系统安全检测方法、装置、设备及介质
CN114387207A (zh) * 2021-12-02 2022-04-22 浙江大学 基于自注意力机制与双重领域自适应的轮胎瑕疵检测方法及模型
CN115470830A (zh) * 2022-10-28 2022-12-13 电子科技大学 一种基于多源域适应的脑电信号跨用户警觉性监测方法
CN115470830B (zh) * 2022-10-28 2023-04-07 电子科技大学 一种基于多源域适应的脑电信号跨用户警觉性监测方法

Also Published As

Publication number Publication date
CN111104509B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN111104509B (zh) 一种基于概率分布自适应的实体关系分类方法
CN111967266B (zh) 中文命名实体识别系统、模型构建方法和应用及相关设备
US20230016365A1 (en) Method and apparatus for training text classification model
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN110008338B (zh) 一种融合gan和迁移学习的电商评价情感分析方法
Luo et al. Online learning of interpretable word embeddings
CN110309514A (zh) 一种语义识别方法及装置
CN110222178A (zh) 文本情感分类方法、装置、电子设备及可读存储介质
US11763203B2 (en) Methods and arrangements to adjust communications
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN107480688B (zh) 基于零样本学习的细粒度图像识别方法
WO2018023356A1 (en) Machine translation method and apparatus
CN106970981B (zh) 一种基于转移矩阵构建关系抽取模型的方法
CN107341143A (zh) 一种句子连贯性判断方法及装置和电子设备
WO2023137911A1 (zh) 基于小样本语料的意图分类方法、装置及计算机设备
CN111709225B (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN114239584A (zh) 一种基于自监督学习的命名实体识别方法
CN113761885A (zh) 一种基于BayesLSTM的语种识别方法
Rajani Shree et al. POS tagger model for Kannada text with CRF++ and deep learning approaches
Verwimp et al. Reverse transfer learning: Can word embeddings trained for different nlp tasks improve neural language models?
CN113821571A (zh) 基于bert和改进pcnn的食品安全关系抽取方法
CN112183103A (zh) 融合不同预训练词向量的卷积神经网络实体关系抽取方法
Sejwal et al. Sentiment Analysis Using Hybrid CNN-LSTM Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant