CN106294593B - 结合从句级远程监督和半监督集成学习的关系抽取方法 - Google Patents
结合从句级远程监督和半监督集成学习的关系抽取方法 Download PDFInfo
- Publication number
- CN106294593B CN106294593B CN201610615087.2A CN201610615087A CN106294593B CN 106294593 B CN106294593 B CN 106294593B CN 201610615087 A CN201610615087 A CN 201610615087A CN 106294593 B CN106294593 B CN 106294593B
- Authority
- CN
- China
- Prior art keywords
- relationship
- sample
- semi
- classifier
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000013480 data collection Methods 0.000 claims abstract description 18
- 239000000203 mixture Substances 0.000 claims abstract description 12
- 238000012512 characterization method Methods 0.000 claims abstract description 9
- 238000010276 construction Methods 0.000 claims abstract description 6
- 239000012141 concentrate Substances 0.000 claims abstract description 4
- 238000004458 analytical method Methods 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 9
- 238000012804 iterative process Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims 1
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000009412 basement excavation Methods 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种结合从句级远程监督和半监督集成学习的关系抽取方法,具体实施如下:步骤1,通过远程监督将知识库中的关系三元组对齐到语料库,构建关系实例集;步骤2,使用基于句法分析的从句识别去除关系实例集中的噪声数据;步骤3,抽取关系实例的词法特征,并转化为分布式表征向量,构建特征数据集;步骤4,选择特征数据集中全部的正例数据和少部分负例数据组成标注数据集,其余负例数据在去除标签后组成未标注数据集,使用半监督集成学习算法训练关系分类器。本发明结合从句识别、远程监督和半监督集成学习进行关系抽取,在自动问答系统构建、海量信息处理、知识库自动构建、搜索引擎和特定文本挖掘等领域具有广阔的应用前景。
Description
技术领域
本发明涉及信息抽取领域,具体涉及一种结合从句级远程监督和半监督集成学习的关系抽取方法。
背景技术
信息抽取(Information Extraction)是指从一段文本中抽取实体、事件、关系等类型的信息,形成结构化数据存入数据库中以供用户查询和使用的过程。关系抽取(Relation Extraction)是信息抽取的关键内容,旨在抽取实体之间存在的语义关系。关系抽取技术在自动问答系统构建、海量信息处理、知识库自动构建、搜索引擎和特定文本挖掘等领域具有广阔的应用前景。
传统的关系抽取研究一般采用有监督的机器学习方法,该类方法将关系抽取看作分类问题,使用人工标注的训练数据,通过抽取的词法特征和句法特征训练关系分类器,能取得一定的分类效果。但是,由于需要代价高昂的人工标注数据,使得有监督的关系抽取方法能识别的关系类型局限于特定领域且不能适应海量网络文本的情况。
为了解决有监督的关系抽取方法人工标注数据不足的问题,研究人员提出了自动生成标注数据的方法—远程监督(Distant Supervision),其假设如果两个实体之间有某种语义关系,则所有包含它们的句子都在一定程度上表达了这种关系。基于上述假设,远程监督利用知识库蕴含的大量关系三元组,通过与训练语料的文本对齐,可以生成大量的标注数据。远程监督解决了有监督的关系抽取方法标注数据不足的问题,但由于其假设并不总是正确,导致生成的标注数据中存在大量的错误标注数据(即噪声数据),对关系抽取模型造成不利影响。
针对噪声问题,现有处理方法一般通过修改关系抽取模型的方式来减小噪声数据的负面影响,虽然能够取得一定的效果,但并不能够从根本上解决噪声问题。
另外,基于远程监督的关系抽取普遍存在负例数据利用不足的问题,这是因为通过远程监督生成的关系实例集中负例关系实例数量远大于正例关系实例数据数量,导致特征数据集中负例数据的数量远大于正例数据数量,为保证参与训练的正例数据和负例数据数量均衡,一般选取特征数据集全部的正例数据和少部分负例数据组成训练数据集,剩余的大部分负例数据被搁置不用。
发明内容
为了解决关系抽取方法中噪声数据和负例数据问题,本发明提供了一种结合从句级远程监督和半监督集成学习的关系抽取方法,该方法既能够去除噪声数据,又能够充分利用负例数据。
一种结合从句级远程监督和半监督集成学习的关系抽取方法,主要包括如下步骤:
步骤1,通过远程监督将知识库中的关系三元组对齐到语料库,构建关系实例集;
步骤2,使用基于句法分析的从句识别去除关系实例集中的噪声数据;
步骤3,抽取关系实例的词法特征并转化为分布式表征向量,构建特征数据集;
步骤4,选择特征数据集中全部的正例数据和少部分负例数据组成标注数据集,其余负例数据在去除标签后组成未标注数据集,使用半监督集成学习算法训练关系分类器。
在步骤1中,通过远程监督将知识库K中的关系三元组对齐到语料库D,构建关系实例集Q={qn丨qn=(sm,ei,rk,ej),sm∈D}。
其中,qn为关系实例,sm为句子,ei和ej为实体,rk为ei和ej之间存在的实体关系。
如果句子sm同时包含实体ei和实体ej,且知识库K中存在关系三元组(ei,rk,ej),则qn=(sm,ei,rk,ej)为正例关系实例,同时选择一些不符合上述条件的关系实例作为负例关系实例。
步骤2的具体步骤如下:
步骤2-1,使用概率上下文无关文法对关系实例qn的句子sm进行解析,得到其语法树,根据语法树表示的句子sm的词之间的结构关系,将sm划分成从句;
步骤2-2,根据关系实例qn的实体对(ei,ej)是否同时出现在句子sm的某一个从句当中来判断关系实例qn是否是噪声数据;如果qn是噪声数据,则将其从关系实例集Q中去除;
如果关系实例qn=(sm,ei,rk,ej)是正例关系实例,当句子sm对应的实体对(ei,ej)没有出现在句子sm的任一从句中时,认为关系实例qn是噪声数据,并将其从关系实例集Q中去除;
如果关系实例qn=(sm,ei,rk,ej)是负例关系实例,当句子sm对应的实体对(ei,ej)出现在句子sm的某一从句中时,认为关系实例qn是噪声数据,并将其从关系实例集Q中去除。
步骤3的具体步骤如下:
步骤3-1,抽取关系实例集Q中每个关系实例qn的词法特征lexn;
步骤3-2,将词法特征lexn转化为分布式表征向量vn,构建特征数据集M。
在步骤3-1中,对于关系实例qn=(sm,ei,rk,ej),其词法特征lexn为实体对(ei,ej)本身以及(ei,ej)在句子sm中的上下文,具体的词法特征类型如表1所示。
表1词法特征类型
在步骤3-2中,将词法特征lexn转化为分布式表征向量vn,然后将所有的vn集合起来组成特征数据集M;关系实例集Q中正例关系实例的词法特征向量化后变为M的正例数据,关系实例集Q中负例关系实例的词法特征向量化后变为M的负例数据。
步骤4的具体步骤如下:
步骤4-1,选择特征数据集M中全部的正例数据和少部分负例数据组成标注数据集L;剩余负例数据在去除标签后作为未标注数据集U;
步骤4-2,从标注数据集L中有放回地选取n个初始样本集L1,L2,…,Ln;
步骤4-3,使用初始样本集Li和第t-1轮选出的高置信度的未标注样本集Ui,t-1训练对应的关系分类器Ci,其中,i=1,2,…,n;
步骤4-4,n个关系分类器C1,C2,…,Cn对未标注数据集U中未标注样本xu的类标记分别进行预测,通过投票法生成高置信度的未标注样本集Fi,t;
步骤4-5,根据一定的过滤筛选准则,从高置信度的未标注样本集Fi,t中,为第i个关系分类器Ci挑选一定数量的未标注样本xu,构成Ui,t,在下一轮迭代过程中加入到第i个关系分类器Ci的训练集中,然后重新训练对应的关系分类器Ci;
步骤4-6,重复步骤4-4,4-5,4-6,当所有Ui,t都为空集,即没有新的未标注样本xu加入到训练集中时,或者迭代次数已经达到预先设定的最大迭代次数时,该训练过程停止。
在步骤4-3中,Ui,t-1表示在第t-1轮迭代中,关系分类器为第i个关系分类器Ci时,挑选的未标注样本xu的集合,该未标注样本xu由U中的未标注样本xu以及从t-1轮迭代中得到的类标记组成,其中t大于等于2,当t=1时,Ui,t-1为空集。
注意,t-1轮前添加到训练集的未标注样本xu将会从训练集中被删除掉,重新加入到未标注样本集Fi,t中,每一轮迭代中训练集都只扩充上一轮添加的未标注样本xu。
在步骤4-4中,Fi,t表示在第t轮迭代中,关系分类器为Ci时,挑选的高置信度未标注样本xu的集合,该集合经过一定的过滤筛选后,留下来的未标注样本xu将构成Ui,t。
针对未标注样本xu,用hi(xu)表示第i个关系分类器Ci对未标注样本xu预测的类标记。
关系分类器E中删除Ci后的集合设为Ei,即Ei={Cj∈E|j≠i}。
未标注样本xu的类标记由Ei中的多个关系分类器Ei投票决定,选择票数最多的类标记作为未标注样本xu的类标记。
样本预测结果的一致性程度,即为置信度,关系分类器Ei根据其预测的样本标记的一致性计算置信度,计算公式为公式1-1:
其中,confi(xu)表示xu的真实类标记为的置信度;I()是一个指示函数,如果输入为假,该函数值为0,否则为1。
高置信度的未标注样本xu能够有效地提升关系分类器的分类准确率,如果在保证未标注样本标记高置信度的前提下,考虑Ci和Ei在同一样本上预测结果的不一致性,进而选择出能够纠正关系分类器Ci的未标注样本集Fi,t,则能进一步提升关系分类器的分类准确率。
因此,在第t轮迭代过程中,公式1-2为第i个关系分类器选择高置信度的未标注样本xu,
其中θ是一个预设的阈值,只有未标注样本xu的置信度大于该阈值,并且Ci与Ei的预测结果不一致时,该样本才会被选择加入到Fi,t中。
在步骤4-5中,对于未标注样本xu,令P(hi(xu))表示Ci预测xu输出为hi(xu)的概率值,在过滤筛选时,同时考虑P(hi(xu))和confi(xu),将Fi,t集合中的高置信度未标注样本按照confi(xu)、P(hi(xu))的顺序依次降序排序,即confi(xu)越大的样本越靠前,confi(xu)相同的情况下,P(hi(xu))越大的样本越靠前;经过排序后,取前mi,t个样本构成Ui,t。
本发明结合了从句识别和半监督集成学习算法,在去除关系实例噪声的同时,充分利用负例数据。与现有的技术相比,本发明的优点包括:
(1)通过从句识别去除训练数据中的噪声数据,提高了训练数据的标记准确度,从而提高了关系抽取的分类准确度。
(2)通过半监督集成学习算法训练关系分类器,将传统关系抽取中未被利用的负例数据去除标签后作为无标注数据使用,提高了负例数据的利用率,从而提高了关系抽取的分类准确度。
附图说明
图1是结合从句识别与半监督集成学习的关系抽取方法流程图;
图2是第t轮迭代流程图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
图1所示的是本发明一种结合从句级远程监督与半监督集成学习的关系抽取方法的流程图,该方法分为数据处理和模型训练两个阶段。
数据处理阶段
数据处理的具体步骤如下:
步骤a-1,通过远程监督将知识库K中的关系三元组对齐到语料库D,构建关系实例集Q={qn丨qn=(sm,ei,rk,ej),sm∈D}。
如果句子sm同时包含实体ei和ej,且知识库K中存在关系三元组(ei,rk,ej),则(sm,ei,rk,ej)为正例关系实例,同时选择一些不符合上述条件的关系实例作为负例关系实例。
步骤a-2,使用概率上下文无关文法对关系实例qn的句子sm进行解析,得到其语法树,根据语法树表示的句子sm的词之间的结构关系,将sm划分成从句。
步骤a-3,根据关系实例qn的实体对(ei,ej)是否同时出现在句子sm的某一个从句当中来判断关系实例qn是否是噪声数据;如果qn是噪声数据,则将其从关系实例集Q中去除;
如果关系实例qn=(sm,ei,rk,ej)是正例关系实例,当句子sm对应的实体对(ei,ej)没有出现在句子sm的任一从句当中时,认为关系实例qn是噪声数据,并将其从关系实例集Q中去除;
如果关系实例qn=(sm,ei,rk,ej)是负例关系实例,当句子sm对应的实体对(ei,ej)出现在句子sm的某一从句中时,认为关系实例qn是噪声数据,并将其从关系实例集Q中去除。
步骤a-4,抽取关系实例集Q中每个关系实例qn的词法特征lexn。
对于关系实例qn=(sm,ei,rk,ej),其词法特征lexn为实体对(ei,ej)本身以及(ei,ej)在句子sm中的上下文,具体的词法特征类型如表1所示。
表2词法特征类型
步骤a-5,将词法特征lexn转化为分布式表征向量vn,构建特征数据集M。
将词法特征lexn转化为分布式表征向量vn,然后将所有的vn集合起来组成特征数据集M;关系实例集Q中正例关系实例的词法特征向量化后变为M的正例数据,关系实例集Q中负例关系实例的词法特征向量化后变为M的负例数据。
模型训练阶段
模型训练是一个迭代式学习过程,其第t次迭代如图2所示。
步骤b-1,选择特征数据集M中全部的正例数据和少部分负例数据组成标注数据集,记作L;剩余负例数据在去除标签后作为未标注数据集,记作U。
步骤b-2,从标注数据集L中有放回地选取n个初始样本集L1,L2,…,Ln。
步骤b-3,使用初始样本集Li和第t-1轮选出的高置信度未标注样本集Ui,t-1训练对应的关系分类器Ci,其中,i=1,2,…,n。
Ui,t-1表示在第t-1轮迭代中,关系分类器为第i个关系分类器Ci时,挑选的未标注样本xu的集合,该未标注样本xu由U中的未标注样本xu以及从t-1轮迭代中得到的类标记组成,其中t大于等于2,当t=1时,Ui,t-1为空集。
注意,t-1轮前添加到训练集的未标注样本xu将会从训练集中被删除掉,重新加入到未标注样本集Fi,t中,每一轮迭代中训练集都只扩充上一轮添加的未标注样本xu。
步骤b-4,n个关系分类器C1,C2,…,Cn对未标注数据集U中未标注样本xu的类标记分别进行预测,通过投票法生成高置信度的未标注样本集Fi,t;
Fi,t表示在第t轮迭代中,关系分类器为Ci时,挑选的高置信度未标注样本xu的集合,该集合经过一定的过滤筛选后,留下来的未标注样本xu将构成Ui,t。
针对未标注样本xu,用hi(xu)表示第i个关系分类器Ci对未标注样本xu预测的类标记。
关系分类器E中删除Ci后的集合设为Ei,即Ei={Cj∈E|j≠i}。
未标注样本xu的类标记由Ei中的多个关系分类器Ei投票决定,选择票数最多的类标记作为未标注样本xu的类标记。
样本预测结果的一致性程度,即为置信度,关系分类器Ei根据其预测的样本标记的一致性计算置信度,计算公式为公式1-1:
其中,confi(xu)表示xu的真实类标记为的置信度;I()是一个指示函数,如果输入为假,该函数值为0,否则为1。
高置信度的未标注样本xu能够有效地提升关系分类器的分类准确率,如果在保证未标注样本标记高置信度的前提下,考虑Ci和Ei在同一样本上预测结果的不一致性,进而选择出能够纠正关系分类器Ci的未标注样本集Fi,t,则能进一步提升关系分类器的分类准确率。
因此,在第t轮迭代过程中,公式2为第i个关系分类器选择高置信度的未标注样本,
其中θ是一个预设的阈值,只有未标注样本xu的置信度大于该阈值,并且Ci与Ei的预测结果不一致时,该样本才会被选择加入到Fi,t中。
步骤b-5,根据一定的过滤筛选准则,从高置信度的未标注样本集Fi,t中,为第i个关系分类器Ci挑选一定数量的未标注样本xu,构成Ui,t,在下一轮迭代过程中加入到第i个关系分类器Ci的训练集中,然后重新训练对应的关系分类器Ci;
对于未标注样本xu,令P(hi(xu))表示Ci预测xu输出为hi(xu)的概率值,在过滤筛选时,同时考虑P(hi(xu))和confi(xu),将Fi,t集合中的高置信度未标注样本按照confi(xu)、P(hi(xu))的顺序依次降序排序,即confi(xu)越大的样本越靠前,confi(xu)相同的情况下,P(hi(xu))越大的样本越靠前。经过排序后,取前mi,t个样本构成Ui,t。
步骤b-6,重复步骤b-3、b-4、b-5,当所有Ui,t都为空集,即没有新的未标注样本加入到训练集中时,或者迭代次数已经达到预先设定的最大迭代次数时,该训练过程停止。
Claims (9)
1.一种结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,包括如下步骤:
步骤1,通过远程监督将知识库中的关系三元组对齐到语料库,构建关系实例集;
步骤2,使用基于句法分析的从句识别去除关系实例集中的噪声数据;
步骤3,抽取关系实例的词法特征,并转化为分布式表征向量,构建特征数据集;
步骤4,选择特征数据集中全部的正例数据和少部分负例数据组成标注数据集,其余负例数据在去除标签后组成未标注数据集,使用半监督集成学习算法训练关系分类器;
步骤4的具体步骤如下:
步骤4-1,选择特征数据集M中全部的正例数据和少部分负例数据组成标注数据集L;剩余负例数据在去除标签后作为未标注数据集U;
步骤4-2,从标注数据集L中有放回地选取n个初始样本集L1,L2,…,Ln;
步骤4-3,使用初始样本集Li和第t-1轮选出的高置信度的未标注样本集Ui,t-1训练对应的关系分类器Ci,其中,i=1,2,…,n;
步骤4-4,n个关系分类器C1,C2,…,Cn对未标注数据集U中未标注样本xu的类标记分别进行预测,通过投票法生成高置信度的未标注样本集Fi,t;
步骤4-5,根据一定的过滤筛选准则,从高置信度的未标注样本集Fi,t中,为第i个关系分类器Ci挑选一定数量的未标注样本xu,构成Ui,t,在下一轮迭代过程中加入到第i个关系分类器Ci的训练集中,然后重新训练对应的关系分类器Ci;
步骤4-6,重复步骤4-4,4-5,4-6,当所有Ui,t都为空集,或者迭代次数已经达到预先设定的最大迭代次数时,该训练过程停止。
2.如权利要求1所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,在步骤1中,通过远程监督将知识库K中的关系三元组对齐到语料库D,构建关系实例集Q={qn丨qn=(sm,ei,rk,ej),sm∈D},
其中,qn为关系实例,sm为句子,ei和ej为实体,rk为ei和ej之间的实体关系;
如果句子sm同时包含实体ei和实体ej,且知识库K中存在关系三元组(ei,rk,ej),则qn=(sm,ei,rk,ej)为正例关系实例,并且选择不符合上述条件的关系实例作为负例关系实例。
3.如权利要求1所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,步骤2的具体步骤如下:
步骤2-1,使用概率上下文无关文法对关系实例qn的句子sm进行解析,得到其语法树,根据语法树表示的句子sm的词之间的结构关系,将sm划分成从句;
步骤2-2,根据关系实例qn的实体对(ei,ej)是否出现在句子sm的某一个从句当中来判断关系实例qn是否为噪声数据;如果qn是噪声数据,则将其从关系实例集Q中去除。
4.如权利要求3所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,如果关系实例qn=(sm,ei,rk,ej)是正例关系实例,当句子sm对应的实体对(ei,ej)没有出现在句子sm的任一从句中时,认为关系实例qn是噪声数据,并将其从关系实例集Q中去除;如果关系实例qn=(sm,ei,rk,ej)是负例关系实例,当句子sm对应的实体对(ei,ej)出现在句子sm的某一从句中时,认为关系实例qn是噪声数据,并将其从关系实例集Q中去除。
5.如权利要求1所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,步骤3的具体步骤如下:
步骤3-1,抽取关系实例集Q中每个关系实例qn的词法特征lexn;
步骤3-2,将词法特征lexn转化为分布式表征向量vn,构建特征数据集M。
6.如权利要求5所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,在步骤3-1中,对于关系实例qn=(sm,ei,rk,ej),其词法特征lexn为实体对(ei,ej)本身以及(ei,ej)在句子sm中的上下文;在步骤3-2中,将词法特征lexn转化为分布式表征向量vn,然后将所有的vn集合起来组成特征数据集M;关系实例集Q中正例关系实例的词法特征向量化后变为M的正例数据,关系实例集Q中负例关系实例的词法特征向量化后变为M的负例数据。
7.如权利要求1所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,在步骤4-3中,Ui,t-1表示在第t-1轮迭代中,关系分类器为第i个关系分类器Ci时,挑选的未标注样本xu的集合,该未标注样本xu由U中的未标注样本xu以及从t-1轮迭代中得到的类标记组成,其中t大于等于2,当t=1时,Ui,t-1为空集。
8.如权利要求1所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,在步骤4-4中,Fi,t表示在第t轮迭代中,关系分类器为Ci时,挑选的高置信度未标注样本xu的集合,该集合经过一定的过滤筛选后,留下来的未标注样本xu将构成Ui,t;
针对未标注样本xu,用hi(xu)表示第i个关系分类器Ci对未标注样本xu预测的类标记;
关系分类器E中删除Ci后的集合设为Ei,Ei={Cj∈E|j≠i};
未标注样本xu的类标记由Ei中的多个关系分类器Ei投票决定,选择票数最多的类标记作为未标注样本xu的类标记;
样本预测结果的一致性程度为置信度,关系分类器Ei根据其预测的样本标记的一致性计算置信度,计算公式为公式(1-1):
其中,confi(xu)表示xu的真实类标记为的置信度;I()是一个指示函数,如果输入为假,该函数值为0,否则为1;
在第t轮迭代过程中,公式(1-2)为第i个关系分类器选择高置信度的未标注样本xu,
其中θ是一个预设的阈值,只有未标注样本xu的置信度大于该阈值,并且Ci与Ei的预测结果不一致时,该样本才会被选择加入到Fi,t中。
9.如权利要求1所述的结合从句级远程监督和半监督集成学习的关系抽取方法,其特征在于,在步骤4-5中,对于未标注样本xu,令P(hi(xu))表示Ci预测xu输出为hi(xu)的概率值,在过滤筛选时,同时考虑P(hi(xu))和confi(xu),将Fi,t集合中的高置信度未标注样本按照confi(xu)、P(hi(xu))的顺序依次降序排序,confi(xu)越大的样本越靠前,confi(xu)相同的情况下,P(hi(xu))越大的样本越靠前;经过排序后,取前mi,t个样本构成Ui,t。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610615087.2A CN106294593B (zh) | 2016-07-28 | 2016-07-28 | 结合从句级远程监督和半监督集成学习的关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610615087.2A CN106294593B (zh) | 2016-07-28 | 2016-07-28 | 结合从句级远程监督和半监督集成学习的关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106294593A CN106294593A (zh) | 2017-01-04 |
CN106294593B true CN106294593B (zh) | 2019-04-09 |
Family
ID=57663460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610615087.2A Expired - Fee Related CN106294593B (zh) | 2016-07-28 | 2016-07-28 | 结合从句级远程监督和半监督集成学习的关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106294593B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106933804B (zh) * | 2017-03-10 | 2020-03-31 | 上海数眼科技发展有限公司 | 一种基于深度学习的结构化信息抽取方法 |
CN107292330B (zh) * | 2017-05-02 | 2021-08-06 | 南京航空航天大学 | 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法 |
CN107169079B (zh) * | 2017-05-10 | 2019-09-20 | 浙江大学 | 一种基于Deepdive的领域文本知识抽取方法 |
CN107291828B (zh) * | 2017-05-27 | 2021-06-11 | 北京百度网讯科技有限公司 | 基于人工智能的口语查询解析方法、装置及存储介质 |
CN108829722B (zh) * | 2018-05-08 | 2020-10-02 | 国家计算机网络与信息安全管理中心 | 一种远程监督的Dual-Attention关系分类方法及系统 |
CN108763353B (zh) * | 2018-05-14 | 2022-03-15 | 中山大学 | 基于规则和远程监督的百度百科关系三元组抽取方法 |
CN108959252B (zh) * | 2018-06-28 | 2022-02-08 | 中国人民解放军国防科技大学 | 基于深度学习的半监督中文命名实体识别方法 |
CN110728148B (zh) * | 2018-06-29 | 2023-07-14 | 富士通株式会社 | 实体关系抽取方法和装置 |
CN110032650B (zh) * | 2019-04-18 | 2022-12-13 | 腾讯科技(深圳)有限公司 | 一种训练样本数据的生成方法、装置及电子设备 |
CN111914555B (zh) * | 2019-05-09 | 2022-08-23 | 中国人民大学 | 基于Transformer结构的自动化关系抽取系统 |
CN110209836B (zh) * | 2019-05-17 | 2022-04-26 | 北京邮电大学 | 远程监督关系抽取方法及装置 |
CN111191461B (zh) * | 2019-06-06 | 2021-08-03 | 北京理工大学 | 一种基于课程学习的远程监督关系抽取方法 |
CN110334355B (zh) * | 2019-07-15 | 2023-08-18 | 苏州大学 | 一种关系抽取方法、系统及相关组件 |
CN110543634B (zh) * | 2019-09-02 | 2021-03-02 | 北京邮电大学 | 语料数据集的处理方法、装置、电子设备及存储介质 |
CN112329463A (zh) * | 2020-11-27 | 2021-02-05 | 上海汽车集团股份有限公司 | 遥监督关系抽取模型的训练方法及相关装置 |
CN112507125A (zh) * | 2020-12-03 | 2021-03-16 | 平安科技(深圳)有限公司 | 三元组信息提取方法、装置、设备及计算机可读存储介质 |
CN113378563B (zh) * | 2021-02-05 | 2022-05-17 | 中国司法大数据研究院有限公司 | 一种基于遗传变异和半监督的案件特征提取方法及装置 |
CN115619192B (zh) * | 2022-11-10 | 2023-10-03 | 国网江苏省电力有限公司物资分公司 | 一种面向需求计划规则的混合式关系提取方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101980202A (zh) * | 2010-11-04 | 2011-02-23 | 西安电子科技大学 | 不平衡数据的半监督分类方法 |
CN103886330A (zh) * | 2014-03-27 | 2014-06-25 | 西安电子科技大学 | 基于半监督svm集成学习的分类方法 |
-
2016
- 2016-07-28 CN CN201610615087.2A patent/CN106294593B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101980202A (zh) * | 2010-11-04 | 2011-02-23 | 西安电子科技大学 | 不平衡数据的半监督分类方法 |
CN103886330A (zh) * | 2014-03-27 | 2014-06-25 | 西安电子科技大学 | 基于半监督svm集成学习的分类方法 |
Non-Patent Citations (2)
Title |
---|
Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks;Daojian Zeng et al.;《Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing》;20150921;第1753-1762页 |
Distributed Representations ofWords and Phrases and their Compositionality;Tomas Mikolov et al.;《arXiv》;20131016;第1-9页 |
Also Published As
Publication number | Publication date |
---|---|
CN106294593A (zh) | 2017-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106294593B (zh) | 结合从句级远程监督和半监督集成学习的关系抽取方法 | |
CN109241255B (zh) | 一种基于深度学习的意图识别方法 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN106383877B (zh) | 一种社交媒体在线短文本聚类和话题检测方法 | |
CN109165294B (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN103678670B (zh) | 一种微博热词与热点话题挖掘系统及方法 | |
CN111241294A (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
CN107609052A (zh) | 一种基于语义三角的领域知识图谱的生成方法及装置 | |
CN108984526A (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
CN107066553A (zh) | 一种基于卷积神经网络与随机森林的短文本分类方法 | |
CN108388651A (zh) | 一种基于图核和卷积神经网络的文本分类方法 | |
CN101620615B (zh) | 一种基于决策树学习的自动图像标注与翻译的方法 | |
CN106250412A (zh) | 基于多源实体融合的知识图谱构建方法 | |
CN106294324B (zh) | 一种基于自然语言句法分析树的机器学习情感分析器 | |
CN110175221B (zh) | 利用词向量结合机器学习的垃圾短信识别方法 | |
CN105608218A (zh) | 智能问答知识库的建立方法、建立装置及建立系统 | |
CN101127042A (zh) | 一种基于语言模型的情感分类方法 | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN104268160A (zh) | 一种基于领域词典和语义角色的评价对象抽取方法 | |
CN109670039A (zh) | 基于三部图和聚类分析的半监督电商评论情感分析方法 | |
CN107145514B (zh) | 基于决策树和svm混合模型的中文句型分类方法 | |
CN103970730A (zh) | 一种从单个中文文本中提取多主题词的方法 | |
CN107066555A (zh) | 面向专业领域的在线主题检测方法 | |
CN106126502A (zh) | 一种基于支持向量机的情感分类系统及方法 | |
CN104484380A (zh) | 个性化搜索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190409 |