CN106294593A - 结合从句级远程监督和半监督集成学习的关系抽取方法 - Google Patents

结合从句级远程监督和半监督集成学习的关系抽取方法 Download PDF

Info

Publication number
CN106294593A
CN106294593A CN201610615087.2A CN201610615087A CN106294593A CN 106294593 A CN106294593 A CN 106294593A CN 201610615087 A CN201610615087 A CN 201610615087A CN 106294593 A CN106294593 A CN 106294593A
Authority
CN
China
Prior art keywords
relation
sample
relationship example
semi
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610615087.2A
Other languages
English (en)
Other versions
CN106294593B (zh
Inventor
陈岭
余小康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201610615087.2A priority Critical patent/CN106294593B/zh
Publication of CN106294593A publication Critical patent/CN106294593A/zh
Application granted granted Critical
Publication of CN106294593B publication Critical patent/CN106294593B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种结合从句级远程监督和半监督集成学习的关系抽取方法,具体实施如下:步骤1,通过远程监督将知识库中的关系三元组对齐到语料库,构建关系实例集;步骤2,使用基于句法分析的从句识别去除关系实例集中的噪声数据;步骤3,抽取关系实例的词法特征,并转化为分布式表征向量,构建特征数据集;步骤4,选择特征数据集中全部的正例数据和少部分负例数据组成标注数据集,其余负例数据在去除标签后组成未标注数据集,使用半监督集成学习算法训练关系分类器。本发明结合从句识别、远程监督和半监督集成学习进行关系抽取,在自动问答系统构建、海量信息处理、知识库自动构建、搜索引擎和特定文本挖掘等领域具有广阔的应用前景。

Description

结合从句级远程监督和半监督集成学习的关系抽取方法
技术领域
本发明涉及信息抽取领域,具体涉及一种结合从句级远程监督和半监督集成学习的关系抽取方法。
背景技术
信息抽取(Information Extraction)是指从一段文本中抽取实体、事件、关系等类型的信息,形成结构化数据存入数据库中以供用户查询和使用的过程。关系抽取(Relation Extraction)是信息抽取的关键内容,旨在抽取实体之间存在的语义关系。关系抽取技术在自动问答系统构建、海量信息处理、知识库自动构建、搜索引擎和特定文本挖掘等领域具有广阔的应用前景。
传统的关系抽取研究一般采用有监督的机器学习方法,该类方法将关系抽取看作分类问题,使用人工标注的训练数据,通过抽取的词法特征和句法特征训练关系分类器,能取得一定的分类效果。但是,由于需要代价高昂的人工标注数据,使得有监督的关系抽取方法能识别的关系类型局限于特定领域且不能适应海量网络文本的情况。
为了解决有监督的关系抽取方法人工标注数据不足的问题,研究人员提出了自动生成标注数据的方法—远程监督(Distant Supervision),其假设如果两个实体之间有某种语义关系,则所有包含它们的句子都在一定程度上表达了这种关系。基于上述假设,远程监督利用知识库蕴含的大量关系三元组,通过与训练语料的文本对齐,可以生成大量的标注数据。远程监督解决了有监督的关系抽取方法标注数据不足的问题,但由于其假设并不总是正确,导致生成的标注数据中存在大量的错误标注数据(即噪声数据),对关系抽取模型造成不利影响。
针对噪声问题,现有处理方法一般通过修改关系抽取模型的方式来减小噪声数据的负面影响,虽然能够取得一定的效果,但并不能够从根本上解决噪声问题。
另外,基于远程监督的关系抽取普遍存在负例数据利用不足的问题,这是因为通过远程监督生成的关系实例集中负例关系实例数量远大于正例关系实例数据数量,导致特征数据集中负例数据的数量远大于正例数据数量,为保证参与训练的正例数据和负例数据数量均衡,一般选取特征数据集全部的正例数据和少部分负例数据组成训练数据集,剩余的大部分负例数据被搁置不用。
发明内容
为了解决关系抽取方法中噪声数据和负例数据问题,本发明提供了一种结合从句级远程监督和半监督集成学习的关系抽取方法,该方法既能够去除噪声数据,又能够充分利用负例数据。
一种结合从句级远程监督和半监督集成学习的关系抽取方法,主要包括如下步骤:
步骤1,通过远程监督将知识库中的关系三元组对齐到语料库,构建关系实例集;
步骤2,使用基于句法分析的从句识别去除关系实例集中的噪声数据;
步骤3,抽取关系实例的词法特征并转化为分布式表征向量,构建特征数据集;
步骤4,选择特征数据集中全部的正例数据和少部分负例数据组成标注数据集,其余负例数据在去除标签后组成未标注数据集,使用半监督集成学习算法训练关系分类器。
在步骤1中,通过远程监督将知识库K中的关系三元组对齐到语料库D,构建关系实例集Q={qn丨qn=(sm,ei,rk,ej),sm∈D}。
其中,qn为关系实例,sm为句子,ei和ej为实体,rk为ei和ej之间存在的实体关系。
如果句子sm同时包含实体ei和实体ej,且知识库K中存在关系三元组(ei,rk,ej),则qn=(sm,ei,rk,ej)为正例关系实例,同时选择一些不符合上述条件的关系实例作为负例关系实例。
步骤2的具体步骤如下:
步骤2-1,使用概率上下文无关文法对关系实例qn的句子sm进行解析,得到其语法树,根据语法树表示的句子sm的词之间的结构关系,将sm划分成从句;
步骤2-2,根据关系实例qn的实体对(ei,ej)是否同时出现在句子sm的某一个从句当中来判断关系实例qn是否是噪声数据;如果qn是噪声数据,则将其从关系实例集Q中去除;
如果关系实例qn=(sm,ei,rk,ej)是正例关系实例,当句子sm对应的实体对(ei,ej)没有出现在句子sm的任一从句中时,认为关系实例qn是噪声数据,并将其从关系实例集Q中去除;
如果关系实例qn=(sm,ei,rk,ej)是负例关系实例,当句子sm对应的实体对(ei,ej)出现在句子sm的某一从句中时,认为关系实例qn是噪声数据,并将其从关系实例集Q中去除。
步骤3的具体步骤如下:
步骤3-1,抽取关系实例集Q中每个关系实例qn的词法特征lexn
步骤3-2,将词法特征lexn转化为分布式表征向量vn,构建特征数据集M。
在步骤3-1中,对于关系实例qn=(sm,ei,rk,ej),其词法特征lexn为实体对(ei,ej)本身以及(ei,ej)在句子sm中的上下文,具体的词法特征类型如表1所示。
表1词法特征类型
在步骤3-2中,将词法特征lexn转化为分布式表征向量vn,然后将所有的vn集合起来组成特征数据集M;关系实例集Q中正例关系实例的词法特征向量化后变为M的正例数据,关系实例集Q中负例关系实例的词法特征向量化后变为M的负例数据。
步骤4的具体步骤如下:
步骤4-1,选择特征数据集M中全部的正例数据和少部分负例数据组成标注数据集L;剩余负例数据在去除标签后作为未标注数据集U;
步骤4-2,从标注数据集L中有放回地选取n个初始样本集L1,L2,…,Ln
步骤4-3,使用初始样本集Li和第t-1轮选出的高置信度的未标注样本集Ui,t-1训练对应的关系分类器Ci,其中,i=1,2,…,n;
步骤4-4,n个关系分类器C1,C2,…,Cn对未标注数据集U中未标注样本xu的类标记分别进行预测,通过投票法生成高置信度的未标注样本集Fi,t
步骤4-5,根据一定的过滤筛选准则,从高置信度的未标注样本集Fi,t中,为第i个关系分类器Ci挑选一定数量的未标注样本xu,构成Ui,t,在下一轮迭代过程中加入到第i个关系分类器Ci的训练集中,然后重新训练对应的关系分类器Ci
步骤4-6,重复步骤4-4,4-5,4-6,当所有Ui,t都为空集,即没有新的未标注样本xu加入到训练集中时,或者迭代次数已经达到预先设定的最大迭代次数时,该训练过程停止。
在步骤4-3中,Ui,t-1表示在第t-1轮迭代中,关系分类器为第i个关系分类器Ci时,挑选的未标注样本xu的集合,该未标注样本xu由U中的未标注样本xu以及从t-1轮迭代中得到的类标记组成,其中t大于等于2,当t=1时,Ui,t-1为空集。
注意,t-1轮前添加到训练集的未标注样本xu将会从训练集中被删除掉,重新加入到未标注样本集Fi,t中,每一轮迭代中训练集都只扩充上一轮添加的未标注样本xu
在步骤4-4中,Fi,t表示在第t轮迭代中,关系分类器为Ci时,挑选的高置信度未标注样本xu的集合,该集合经过一定的过滤筛选后,留下来的未标注样本xu将构成Ui,t
针对未标注样本xu,用hi(xu)表示第i个关系分类器Ci对未标注样本xu预测的类标记。
关系分类器E中删除Ci后的集合设为Ei,即Ei={Cj∈E|j≠i}。
未标注样本xu的类标记由Ei中的多个关系分类器Ei投票决定,选择票数最多的类标记作为未标注样本xu的类标记。
样本预测结果的一致性程度,即为置信度,关系分类器Ei根据其预测的样本标记的一致性计算置信度,计算公式为公式1-1:
conf i ( x u ) = Σ j = 0 , j ≠ i n I ( h j ( x u ) = l ^ x u i ) n - 1 , - - - ( 1 - 1 )
其中,confi(xu)表示xu的真实类标记为的置信度;I()是一个指示函数,如果输入为假,该函数值为0,否则为1。
高置信度的未标注样本xu能够有效地提升关系分类器的分类准确率,如果在保证未标注样本标记高置信度的前提下,考虑Ci和Ei在同一样本上预测结果的不一致性,进而选择出能够纠正关系分类器Ci的未标注样本集Fi,t,则能进一步提升关系分类器的分类准确率。
因此,在第t轮迭代过程中,公式1-2为第i个关系分类器选择高置信度的未标注样本xu
F i , t = x | conf i ( x ) ≥ θ Λ h i ( x ) ≠ l ^ x i , x ∈ U , - - - ( 1 - 2 )
其中θ是一个预设的阈值,只有未标注样本xu的置信度大于该阈值,并且Ci与Ei的预测结果不一致时,该样本才会被选择加入到Fi,t中。
在步骤4-5中,对于未标注样本xu,令P(hi(xu))表示Ci预测xu输出为hi(xu)的概率值,在过滤筛选时,同时考虑P(hi(xu))和confi(xu),将Fi,t集合中的高置信度未标注样本按照confi(xu)、P(hi(xu))的顺序依次降序排序,即confi(xu)越大的样本越靠前,confi(xu)相同的情况下,P(hi(xu))越大的样本越靠前;经过排序后,取前mi,t个样本构成Ui,t
本发明结合了从句识别和半监督集成学习算法,在去除关系实例噪声的同时,充分利用负例数据。与现有的技术相比,本发明的优点包括:
(1)通过从句识别去除训练数据中的噪声数据,提高了训练数据的标记准确度,从而提高了关系抽取的分类准确度。
(2)通过半监督集成学习算法训练关系分类器,将传统关系抽取中未被利用的负例数据去除标签后作为无标注数据使用,提高了负例数据的利用率,从而提高了关系抽取的分类准确度。
附图说明
图1是结合从句识别与半监督集成学习的关系抽取方法流程图;
图2是第t轮迭代流程图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
图1所示的是本发明一种结合从句级远程监督与半监督集成学习的关系抽取方法的流程图,该方法分为数据处理和模型训练两个阶段。
数据处理阶段
数据处理的具体步骤如下:
步骤a-1,通过远程监督将知识库K中的关系三元组对齐到语料库D,构建关系实例集Q={qn丨qn=(sm,ei,rk,ej),sm∈D}。
如果句子sm同时包含实体ei和ej,且知识库K中存在关系三元组(ei,rk,ej),则(sm,ei,rk,ej)为正例关系实例,同时选择一些不符合上述条件的关系实例作为负例关系实例。
步骤a-2,使用概率上下文无关文法对关系实例qn的句子sm进行解析,得到其语法树,根据语法树表示的句子sm的词之间的结构关系,将sm划分成从句。
步骤a-3,根据关系实例qn的实体对(ei,ej)是否同时出现在句子sm的某一个从句当中来判断关系实例qn是否是噪声数据;如果qn是噪声数据,则将其从关系实例集Q中去除;
如果关系实例qn=(sm,ei,rk,ej)是正例关系实例,当句子sm对应的实体对(ei,ej)没有出现在句子sm的任一从句当中时,认为关系实例qn是噪声数据,并将其从关系实例集Q中去除;
如果关系实例qn=(sm,ei,rk,ej)是负例关系实例,当句子sm对应的实体对(ei,ej)出现在句子sm的某一从句中时,认为关系实例qn是噪声数据,并将其从关系实例集Q中去除。
步骤a-4,抽取关系实例集Q中每个关系实例qn的词法特征lexn
对于关系实例qn=(sm,ei,rk,ej),其词法特征lexn为实体对(ei,ej)本身以及(ei,ej)在句子sm中的上下文,具体的词法特征类型如表1所示。
表2词法特征类型
步骤a-5,将词法特征lexn转化为分布式表征向量vn,构建特征数据集M。
将词法特征lexn转化为分布式表征向量vn,然后将所有的vn集合起来组成特征数据集M;关系实例集Q中正例关系实例的词法特征向量化后变为M的正例数据,关系实例集Q中负例关系实例的词法特征向量化后变为M的负例数据。
模型训练阶段
模型训练是一个迭代式学习过程,其第t次迭代如图2所示。
步骤b-1,选择特征数据集M中全部的正例数据和少部分负例数据组成标注数据集,记作L;剩余负例数据在去除标签后作为未标注数据集,记作U。
步骤b-2,从标注数据集L中有放回地选取n个初始样本集L1,L2,…,Ln
步骤b-3,使用初始样本集Li和第t-1轮选出的高置信度未标注样本集Ui,t-1训练对应的关系分类器Ci,其中,i=1,2,…,n。
Ui,t-1表示在第t-1轮迭代中,关系分类器为第i个关系分类器Ci时,挑选的未标注样本xu的集合,该未标注样本xu由U中的未标注样本xu以及从t-1轮迭代中得到的类标记组成,其中t大于等于2,当t=1时,Ui,t-1为空集。
注意,t-1轮前添加到训练集的未标注样本xu将会从训练集中被删除掉,重新加入到未标注样本集Fi,t中,每一轮迭代中训练集都只扩充上一轮添加的未标注样本xu
步骤b-4,n个关系分类器C1,C2,…,Cn对未标注数据集U中未标注样本xu的类标记分别进行预测,通过投票法生成高置信度的未标注样本集Fi,t
Fi,t表示在第t轮迭代中,关系分类器为Ci时,挑选的高置信度未标注样本xu的集合,该集合经过一定的过滤筛选后,留下来的未标注样本xu将构成Ui,t
针对未标注样本xu,用hi(xu)表示第i个关系分类器Ci对未标注样本xu预测的类标记。
关系分类器E中删除Ci后的集合设为Ei,即Ei={Cj∈E|j≠i}。
未标注样本xu的类标记由Ei中的多个关系分类器Ei投票决定,选择票数最多的类标记作为未标注样本xu的类标记。
样本预测结果的一致性程度,即为置信度,关系分类器Ei根据其预测的样本标记的一致性计算置信度,计算公式为公式1-1:
conf i ( x u ) = Σ j = 0 , j ≠ i n I ( h j ( x u ) = l ^ x u i ) n - 1 , - - - ( 1 - 1 )
其中,confi(xu)表示xu的真实类标记为的置信度;I()是一个指示函数,如果输入为假,该函数值为0,否则为1。
高置信度的未标注样本xu能够有效地提升关系分类器的分类准确率,如果在保证未标注样本标记高置信度的前提下,考虑Ci和Ei在同一样本上预测结果的不一致性,进而选择出能够纠正关系分类器Ci的未标注样本集Fi,t,则能进一步提升关系分类器的分类准确率。
因此,在第t轮迭代过程中,公式2为第i个关系分类器选择高置信度的未标注样本,
F i , t = x | conf i ( x ) ≥ θ Λ h i ( x ) ≠ l ^ x i , x ∈ U , - - - ( 1 - 2 )
其中θ是一个预设的阈值,只有未标注样本xu的置信度大于该阈值,并且Ci与Ei的预测结果不一致时,该样本才会被选择加入到Fi,t中。
步骤b-5,根据一定的过滤筛选准则,从高置信度的未标注样本集Fi,t中,为第i个关系分类器Ci挑选一定数量的未标注样本xu,构成Ui,t,在下一轮迭代过程中加入到第i个关系分类器Ci的训练集中,然后重新训练对应的关系分类器Ci
对于未标注样本xu,令P(hi(xu))表示Ci预测xu输出为hi(xu)的概率值,在过滤筛选时,同时考虑P(hi(xu))和confi(xu),将Fi,t集合中的高置信度未标注样本按照confi(xu)、P(hi(xu))的顺序依次降序排序,即confi(xu)越大的样本越靠前,confi(xu)相同的情况下,P(hi(xu))越大的样本越靠前。经过排序后,取前mi,t个样本构成Ui,t
步骤b-6,重复步骤b-3、b-4、b-5,当所有Ui,t都为空集,即没有新的未标注样本加入到训练集中时,或者迭代次数已经达到预先设定的最大迭代次数时,该训练过程停止。

Claims (10)

1.一种结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,包括如下步骤:
步骤1,通过远程监督将知识库中的关系三元组对齐到语料库,构建关系实例集;
步骤2,使用基于句法分析的从句识别去除关系实例集中的噪声数据;
步骤3,抽取关系实例的词法特征,并转化为分布式表征向量,构建特征数据集;
步骤4,选择特征数据集中全部的正例数据和少部分负例数据组成标注数据集,其余负例数据在去除标签后组成未标注数据集,使用半监督集成学习算法训练关系分类器。
2.如权利要求1所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,在步骤1中,通过远程监督将知识库K中的关系三元组对齐到语料库D,构建关系实例集Q={qn丨qn=(sm,ei,rk,ej),sm∈D},
其中,qn为关系实例,sm为句子,ei和ej为实体,rk为ei和ej之间的实体关系;
如果句子sm同时包含实体ei和实体ej,且知识库K中存在关系三元组(ei,rk,ej),则qn=(sm,ei,rk,ej)为正例关系实例,并且选择不符合上述条件的关系实例作为负例关系实例。
3.如权利要求1所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,步骤2的具体步骤如下:
步骤2-1,使用概率上下文无关文法对关系实例qn的句子sm进行解析,得到其语法树,根据语法树表示的句子sm的词之间的结构关系,将sm划分成从句;
步骤2-2,根据关系实例qn的实体对(ei,ej)是否出现在句子sm的某一个从句当中来判断关系实例qn是否为噪声数据;如果qn是噪声数据,则将其从关系实例集Q中去除。
4.如权利要求3所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,如果关系实例qn=(sm,ei,rk,ej)是正例关系实例,当句子sm对应的实体对(ei,ej)没有出现在句子sm的任一从句中时,认为关系实例qn是噪声数据,并将其从关系实例集Q中去除;如果关系实例qn=(sm,ei,rk,ej)是负例关系实例,当句子sm对应的实体对(ei,ej)出现在句子sm的某一从句中时,认为关系实例qn是噪声数据,并将其从关系实例集Q中去除。
5.如权利要求1所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,步骤3的具体步骤如下:
步骤3-1,抽取关系实例集Q中每个关系实例qn的词法特征lexn
步骤3-2,将词法特征lexn转化为分布式表征向量vn,构建特征数据集M。
6.如权利要求5所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,在步骤3-1中,对于关系实例qn=(sm,ei,rk,ej),其词法特征lexn为实体对(ei,ej)本身以及(ei,ej)在句子sm中的上下文;在步骤3-2中,将词法特征lexn转化为分布式表征向量vn,然后将所有的vn集合起来组成特征数据集M;关系实例集Q中正例关系实例的词法特征向量化后变为M的正例数据,关系实例集Q中负例关系实例的词法特征向量化后变为M的负例数据。
7.如权利要求1所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,步骤4的具体步骤如下:
步骤4-1,选择特征数据集M中全部的正例数据和少部分负例数据组成标注数据集L;剩余负例数据在去除标签后作为未标注数据集U;
步骤4-2,从标注数据集L中有放回地选取n个初始样本集L1,L2,…,Ln
步骤4-3,使用初始样本集Li和第t-1轮选出的高置信度的未标注样本集Ui,t-1训练对应的关系分类器Ci,其中,i=1,2,…,n;
步骤4-4,n个关系分类器C1,C2,…,Cn对未标注数据集U中未标注样本xu的类标记分别进行预测,通过投票法生成高置信度的未标注样本集Fi,t
步骤4-5,根据一定的过滤筛选准则,从高置信度的未标注样本集Fi,t中,为第i个关系分类器Ci挑选一定数量的未标注样本xu,构成Ui,t,在下一轮迭代过程中加入到第i个关系分类器Ci的训练集中,然后重新训练对应的关系分类器Ci
步骤4-6,重复步骤4-4,4-5,4-6,当所有Ui,t都为空集,或者迭代次数已经达到预先设定的最大迭代次数时,该训练过程停止。
8.如权利要求7所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,在步骤4-3中,Ui,t-1表示在第t-1轮迭代中,关系分类器为第i个关系分类器Ci时,挑选的未标注样本xu的集合,该未标注样本xu由U中的未标注样本xu以及从t-1轮迭代中得到的类标记组成,其中t大于等于2,当t=1时,Ui,t-1为空集。
9.如权利要求7所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,在步骤4-4中,Fi,t表示在第t轮迭代中,关系分类器为Ci时,挑选的高置信度未标注样本xu的集合,该集合经过一定的过滤筛选后,留下来的未标注样本xu将构成Ui,t
针对未标注样本xu,用hi(xu)表示第i个关系分类器Ci对未标注样本xu预测的类标记;
关系分类器E中删除Ci后的集合设为Ei,Ei={Cj∈E|j≠i};
未标注样本xu的类标记由Ei中的多个关系分类器Ei投票决定,选择票数最多的类标记作为未标注样本xu的类标记;
样本预测结果的一致性程度为置信度,关系分类器Ei根据其预测的样本标记的一致性计算置信度,计算公式为公式(1-1):
conf i ( x u ) = Σ j = 0 , j ≠ i n I ( h j ( x u ) = l ^ x u i ) n - 1 , - - - ( 1 - 1 )
其中,confi(xu)表示xu的真实类标记为的置信度;I()是一个指示函数,如果输入为假,该函数值为0,否则为1;
在第t轮迭代过程中,公式(1-2)为第i个关系分类器选择高置信度的未标注样本xu
F i , t = x | conf i ( x ) ≥ θ Λ h i ( x ) ≠ l ^ x i , x ∈ U , - - - ( 1 - 2 )
其中θ是一个预设的阈值,只有未标注样本xu的置信度大于该阈值,并且Ci与Ei的预测结果不一致时,该样本才会被选择加入到Fi,t中。
10.如权利要求7所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,在步骤4-5中,对于未标注样本xu,令P(hi(xu))表示Ci预测xu输出为hi(xu)的概率值,在过滤筛选时,同时考虑P(hi(xu))和confi(xu),将Fi,t集合中的高置信度未标注样本按照confi(xu)、P(hi(xu))的顺序依次降序排序,confi(xu)越大的样本越靠前,confi(xu)相同的情况下,P(hi(xu))越大的样本越靠前;经过排序后,取前mi,t个样本构成Ui,t
CN201610615087.2A 2016-07-28 2016-07-28 结合从句级远程监督和半监督集成学习的关系抽取方法 Active CN106294593B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610615087.2A CN106294593B (zh) 2016-07-28 2016-07-28 结合从句级远程监督和半监督集成学习的关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610615087.2A CN106294593B (zh) 2016-07-28 2016-07-28 结合从句级远程监督和半监督集成学习的关系抽取方法

Publications (2)

Publication Number Publication Date
CN106294593A true CN106294593A (zh) 2017-01-04
CN106294593B CN106294593B (zh) 2019-04-09

Family

ID=57663460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610615087.2A Active CN106294593B (zh) 2016-07-28 2016-07-28 结合从句级远程监督和半监督集成学习的关系抽取方法

Country Status (1)

Country Link
CN (1) CN106294593B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933804A (zh) * 2017-03-10 2017-07-07 上海数眼科技发展有限公司 一种基于深度学习的结构化信息抽取方法
CN107169079A (zh) * 2017-05-10 2017-09-15 浙江大学 一种基于Deepdive的领域文本知识抽取方法
CN107292330A (zh) * 2017-05-02 2017-10-24 南京航空航天大学 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法
CN107291828A (zh) * 2017-05-27 2017-10-24 北京百度网讯科技有限公司 基于人工智能的口语查询解析方法、装置及存储介质
CN108763353A (zh) * 2018-05-14 2018-11-06 中山大学 基于规则和远程监督的百度百科关系三元组抽取方法
CN108829722A (zh) * 2018-05-08 2018-11-16 国家计算机网络与信息安全管理中心 一种远程监督的Dual-Attention关系分类方法及系统
CN108959252A (zh) * 2018-06-28 2018-12-07 中国人民解放军国防科技大学 基于深度学习的半监督中文命名实体识别方法
CN110032650A (zh) * 2019-04-18 2019-07-19 腾讯科技(深圳)有限公司 一种训练样本数据的生成方法、装置及电子设备
CN110209836A (zh) * 2019-05-17 2019-09-06 北京邮电大学 远程监督关系抽取方法及装置
CN110334355A (zh) * 2019-07-15 2019-10-15 苏州大学 一种关系抽取方法、系统及相关组件
CN110543634A (zh) * 2019-09-02 2019-12-06 北京邮电大学 语料数据集的处理方法、装置、电子设备及存储介质
CN110728148A (zh) * 2018-06-29 2020-01-24 富士通株式会社 实体关系抽取方法和装置
CN111191461A (zh) * 2019-06-06 2020-05-22 北京理工大学 一种基于课程学习的远程监督关系抽取方法
CN111914555A (zh) * 2019-05-09 2020-11-10 中国人民大学 基于Transformer结构的自动化关系抽取系统
CN112329463A (zh) * 2020-11-27 2021-02-05 上海汽车集团股份有限公司 遥监督关系抽取模型的训练方法及相关装置
CN113378563A (zh) * 2021-02-05 2021-09-10 中国司法大数据研究院有限公司 一种基于遗传变异、半监督和强化学习的案件特征提取方法及装置
WO2022116417A1 (zh) * 2020-12-03 2022-06-09 平安科技(深圳)有限公司 三元组信息提取方法、装置、设备及计算机可读存储介质
CN115619192A (zh) * 2022-11-10 2023-01-17 国网江苏省电力有限公司物资分公司 一种面向需求计划规则的混合式关系提取算法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN103886330A (zh) * 2014-03-27 2014-06-25 西安电子科技大学 基于半监督svm集成学习的分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN103886330A (zh) * 2014-03-27 2014-06-25 西安电子科技大学 基于半监督svm集成学习的分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DAOJIAN ZENG ET AL.: "Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks", 《PROCEEDINGS OF THE 2015 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 *
TOMAS MIKOLOV ET AL.: "Distributed Representations ofWords and Phrases and their Compositionality", 《ARXIV》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933804A (zh) * 2017-03-10 2017-07-07 上海数眼科技发展有限公司 一种基于深度学习的结构化信息抽取方法
CN106933804B (zh) * 2017-03-10 2020-03-31 上海数眼科技发展有限公司 一种基于深度学习的结构化信息抽取方法
CN107292330A (zh) * 2017-05-02 2017-10-24 南京航空航天大学 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法
CN107169079A (zh) * 2017-05-10 2017-09-15 浙江大学 一种基于Deepdive的领域文本知识抽取方法
CN107169079B (zh) * 2017-05-10 2019-09-20 浙江大学 一种基于Deepdive的领域文本知识抽取方法
CN107291828B (zh) * 2017-05-27 2021-06-11 北京百度网讯科技有限公司 基于人工智能的口语查询解析方法、装置及存储介质
CN107291828A (zh) * 2017-05-27 2017-10-24 北京百度网讯科技有限公司 基于人工智能的口语查询解析方法、装置及存储介质
CN108829722A (zh) * 2018-05-08 2018-11-16 国家计算机网络与信息安全管理中心 一种远程监督的Dual-Attention关系分类方法及系统
CN108829722B (zh) * 2018-05-08 2020-10-02 国家计算机网络与信息安全管理中心 一种远程监督的Dual-Attention关系分类方法及系统
CN108763353A (zh) * 2018-05-14 2018-11-06 中山大学 基于规则和远程监督的百度百科关系三元组抽取方法
CN108959252A (zh) * 2018-06-28 2018-12-07 中国人民解放军国防科技大学 基于深度学习的半监督中文命名实体识别方法
CN108959252B (zh) * 2018-06-28 2022-02-08 中国人民解放军国防科技大学 基于深度学习的半监督中文命名实体识别方法
CN110728148A (zh) * 2018-06-29 2020-01-24 富士通株式会社 实体关系抽取方法和装置
CN110728148B (zh) * 2018-06-29 2023-07-14 富士通株式会社 实体关系抽取方法和装置
CN110032650A (zh) * 2019-04-18 2019-07-19 腾讯科技(深圳)有限公司 一种训练样本数据的生成方法、装置及电子设备
CN111914555B (zh) * 2019-05-09 2022-08-23 中国人民大学 基于Transformer结构的自动化关系抽取系统
CN111914555A (zh) * 2019-05-09 2020-11-10 中国人民大学 基于Transformer结构的自动化关系抽取系统
CN110209836A (zh) * 2019-05-17 2019-09-06 北京邮电大学 远程监督关系抽取方法及装置
CN111191461A (zh) * 2019-06-06 2020-05-22 北京理工大学 一种基于课程学习的远程监督关系抽取方法
CN111191461B (zh) * 2019-06-06 2021-08-03 北京理工大学 一种基于课程学习的远程监督关系抽取方法
CN110334355A (zh) * 2019-07-15 2019-10-15 苏州大学 一种关系抽取方法、系统及相关组件
CN110334355B (zh) * 2019-07-15 2023-08-18 苏州大学 一种关系抽取方法、系统及相关组件
CN110543634B (zh) * 2019-09-02 2021-03-02 北京邮电大学 语料数据集的处理方法、装置、电子设备及存储介质
CN110543634A (zh) * 2019-09-02 2019-12-06 北京邮电大学 语料数据集的处理方法、装置、电子设备及存储介质
CN112329463A (zh) * 2020-11-27 2021-02-05 上海汽车集团股份有限公司 遥监督关系抽取模型的训练方法及相关装置
WO2022116417A1 (zh) * 2020-12-03 2022-06-09 平安科技(深圳)有限公司 三元组信息提取方法、装置、设备及计算机可读存储介质
CN113378563A (zh) * 2021-02-05 2021-09-10 中国司法大数据研究院有限公司 一种基于遗传变异、半监督和强化学习的案件特征提取方法及装置
CN115619192A (zh) * 2022-11-10 2023-01-17 国网江苏省电力有限公司物资分公司 一种面向需求计划规则的混合式关系提取算法
CN115619192B (zh) * 2022-11-10 2023-10-03 国网江苏省电力有限公司物资分公司 一种面向需求计划规则的混合式关系提取方法

Also Published As

Publication number Publication date
CN106294593B (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN106294593A (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
CN110597735B (zh) 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法
CN108595632B (zh) 一种融合摘要与主体特征的混合神经网络文本分类方法
CN112528676B (zh) 文档级别的事件论元抽取方法
CN104076944B (zh) 一种聊天表情输入的方法和装置
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
CN112347268A (zh) 一种文本增强的知识图谱联合表示学习方法及装置
CN102867040B (zh) 一种面向中文搜索引擎混杂语言的查询纠错方法及系统
CN109063159B (zh) 一种基于神经网络的实体关系抽取方法
CN108182295A (zh) 一种企业知识图谱属性抽取方法及系统
CN106156365A (zh) 一种知识图谱的生成方法及装置
CN106844741A (zh) 一种面向特定领域的问题解答方法
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN106250412A (zh) 基于多源实体融合的知识图谱构建方法
CN111241294A (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN106156286A (zh) 面向专业文献知识实体的类型抽取系统及方法
CN102411611B (zh) 一种面向即时交互文本的事件识别与跟踪方法
CN109670039A (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN109543764B (zh) 一种基于智能语义感知的预警信息合法性检测方法及检测系统
CN104484380A (zh) 个性化搜索方法及装置
CN110188359B (zh) 一种文本实体抽取方法
CN111274804A (zh) 基于命名实体识别的案件信息提取方法
CN110210036A (zh) 一种意图识别方法及装置
CN105955953A (zh) 一种分词系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant