CN111984790B - 一种实体关系抽取方法 - Google Patents
一种实体关系抽取方法 Download PDFInfo
- Publication number
- CN111984790B CN111984790B CN202010869904.3A CN202010869904A CN111984790B CN 111984790 B CN111984790 B CN 111984790B CN 202010869904 A CN202010869904 A CN 202010869904A CN 111984790 B CN111984790 B CN 111984790B
- Authority
- CN
- China
- Prior art keywords
- entity
- classification result
- relationship
- neural network
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种实体关系抽取方法,属于实体关系抽取领域,本发明的方法为:构建语料库;选取语料库的数据进行标注得到标注数据集;并根据语料库构建正则模板,再通过正则模板对语料库的数据进行标注得到扩充数据集;将标注数据集和扩充数据集分为训练集和测试集;利用训练集训练神经网络模型,再利用训练后的神经网络模型对测试集进行处理得到关系分类结果;利用正则模板对测试集进行匹配得到分类结果;根据关系分类结果和匹配分类结果得到最终关系抽取结果。本发明克服了现有技术中仅使用神经网络模型进行实体关系抽取,抽取时标注数据量较少且抽取效果不佳的不足,本发明通过利用正则模板可以扩充标注数据量,并且可提高实体关系抽取的效果。
Description
技术领域
本发明属于实体关系抽取领域,具体地说,涉及一种实体关系抽取方法。
背景技术
实体关系抽取的任务是对文本中的实体对进行语义识别,根据其在文本和语句中的含义, 判断他们之间是否具有关系或者属于什么类型的关系。目前主流的技术有基于依存分析和基 于模板匹配的方式,由于在英文语句中,文本成分间相互依存和被依存的现象普遍存在,并 且词的词性较为明确,可以准确挖掘出依存分析的核心谓词,所以依存分析的关系抽取适用 于英文文本,单纯的模板匹配则需要大量专家的参与,并且人工成本很大,并且在将抽取规 则应用于别的领域时候,往往受到限制,具有很强的专业性和局限性。随着深度学习时代来 临,神经网络模型则为实体关系抽取带来了新的突破。
机器学习的方法在实体关系抽取中应用非常广泛,无监督、弱监督和有监督的机器学习 方法都在实体关系抽取中得到了相应的研究,基于无监督、弱监督的学习方法不需要太多的 人工标注好的样本数据,在训练学习中减少了对样本数据标签的依赖,但是训练过程容易被 噪声干扰,降低实体关系抽取性能。除了无监督和弱监督的实体关系抽取方法,基于有监督 学习的抽取方法在多个领域得到了研究和应用,也取得较好的抽取效果。有监督学习的实体 关系抽取方法相对需要更多的精力投入,抽取模型会依赖于较多的已经标注好的数据集,需 要充分的标注数据才能使实体关系抽取模型的训练过程顺利进行,而得到这些标注数据较为 费时费力,所以有监督学习的一般前提是要有足够的人工劳动量的投入。
现有技术中一般是采用神经网络对实体关系进行抽取,例如发明创造名称为:一种基于 深度学习的实体关系抽取方法(申请日:2020年3月26日;申请号:202010222471.2)。该 方案使用卷积神经网络和循环神经网络对实体关系抽取,在CNN和LSTM神经网络上加入 文本中的词向量特征和位置特征、局部特征和序列特征等。然后将卷积神经网络和循环神经 网络组合在一起,分别组合成串联、并联的组合模型对实体关系进行抽取,从不同角度去学 习特征,获得更加充分全面的学习能力,还在多种不同结构的神经网络的基础上,将卷积神 经网络和循环神经网络组合在一起,分别使用了串联、并联的方式对样本进行自动抽取。最 后联合了多个基于深度学习的模型,将利用之前设计的多个关系抽取模型,将这些模型联合 在一起进行实体关系抽取,进而选择出样本较优的实体关系。但是该方案的不足之处在于: 抽取时标注数据量较少,且仅使用神经网络模型抽取会造成抽取效果不佳。
发明内容
1.要解决的问题
本发明克服了现有技术中仅使用神经网络模型进行实体关系抽取,抽取时标注数据量 较少且抽取效果不佳的不足,提供了一种实体关系抽取方法,通过利用正则模板可以扩充 标注数据量,进一步将正则模板匹配的分类结果和由神经网络模型得到的分类结果相结合, 通过优先级策略选择更有可能的关系语句分类,提高了实体关系抽取的效果。
2.技术方案
为了解决上述问题,本发明所采用的技术方案如下:
本发明的一种实体关系抽取方法,其特征在于,包括构建语料库;选取语料库的数据进 行标注得到标注数据集;并根据语料库构建正则模板,再通过正则模板对语料库的数据进行 标注得到扩充数据集;再将标注数据集和扩充数据集分为训练集和测试集;之后利用训练集 训练神经网络模型,再利用训练后的神经网络模型对测试集进行处理得到关系分类结果;而 后利用正则模板对测试集进行匹配得到分类结果;再根据关系分类结果和匹配分类结果得到 最终关系抽取结果。
更进一步地,根据语料库构建正则模板的具体过程为:
步骤2-1:从语料库中随机抽取若干篇文本,根据若干篇文本构建正则模板;
步骤2-2:通过标注数据集对正则模板进行测试得到测试结果,测试结果包括准确率和召 回率;根据测试结果中的召回率补充对应的正则模板;
步骤2-3:重复步骤2-2,直至测试结果的准确率和召回率达到阈值,得到构建完毕的正 则模板。
更进一步地,获取关系分类结果的具体过程为:将训练集导入神经网络模型;神经网络 模型根据训练集获取实体特征和文本特征;再根据实体特征和文本特征对测试集进行处理获 取关系分类结果。
更进一步地,根据关系分类结果和匹配分类结果得到最终关系抽取结果的具体过程为: 若关系分类结果和匹配分类结果相同,则将关系分类结果和匹配分类结果作为最终关系抽取 结果;若关系分类结果和匹配分类结果不同,则将匹配分类结果作为最终关系抽取结果。
更进一步地,准确率的阈值为0.9,召回率的阈值为0.8。
更进一步地,神经网络模型根据训练集获取实体特征和文本特征的具体过程为:
神经网络模型对训练集进行处理得到有类型跨度,再利用最大池化的方式对有类型跨度 进行处理得到实体特征和文本特征。
更进一步地,神经网络模型对训练集进行处理得到有类型跨度的具体过程为:神经网络 模型包括预训练模型Bert,先通过预训练模型Bert获取训练集中文本的向量表示,而后神经 网络模型采用优化负采样的方式获取跨度;神经网络模型利用跨度分类器对跨度进行识别分 类得到有类型跨度和无类型跨度。
更进一步地,对有类型跨度进行处理得到实体特征和文本特征的具体过程为:
将有类型跨度作为实体,神经网络模型选择若干对实体组成关系集合;再对两个实体之 间的文本进行最大池化得到关系的向量表示,该关系的向量表示包括实体特征和文本特征。
更进一步地,获取关系分类结果的具体过程为:对实体特征和文本特征进行连接得到关 系特征,再利用神经网络模型的全连接层对关系特征进行处理得到关系分类结果。
3.有益效果
相比于现有技术,本发明的有益效果为:
本发明的一种实体关系抽取方法,可以通过少量标注的关系数据,利用正则模板从爬 取的大量文本中抽取高准确率的关系语句,并扩充神经网络模型的数据集,解决领域关系 抽取标注数据量少的问题。进一步地将正则模板匹配的分类结果和由神经网络模型得到的 分类结果相结合,通过优先级策略选择更有可能的关系语句分类,提高了实体关系抽取的 效果。
附图说明
图1为本发明的一种实体关系抽取方法的流程示意图;
图2为实施例1的方法流程示意图;
图3为引入跨度的联合实体关系抽取模型示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附 图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明 一部分实施例,而不是全部的实施例;而且,各个实施例之间不是相对独立的,根据需要可 以相互组合,从而达到更优的效果。因此,以下对在附图中提供的本发明的实施例的详细描 述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明 中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。
实施例1
结合图1和图2所示,本发明的一种实体关系抽取方法,包括以下步骤:
1)构建语料库
通过采集文本信息构建语料库,本实施例中从网络采集相关领域8.5万篇新闻文本信息。
2)获取数据集
选取语料库的数据进行标注得到标注数据集,本实施例中选取338篇新闻文本信息进行 人工标注。此外,根据语料库构建正则模板,具体地,包括:
步骤2-1:从语料库中随机抽取若干篇文本,根据若干篇文本构建正则模板;本实施例中 抽取100篇文本,根据100篇文本构建对应的正则模板,该正则模板包括关系正则模板以及 实体正则模板。
步骤2-2:通过标注数据集对正则模板进行测试得到测试结果,本实施例中在人工标注的 338篇新闻文本上测试正则模板的效果,测试结果包括准确率和召回率;根据测试结果中的 召回率补充对应的正则模板;
步骤2-3:重复步骤2-2,直至测试结果的准确率和召回率达到阈值,得到构建完毕的正 则模板。值得说明的是,准确率的阈值为0.9,召回率的阈值为0.8。
进一步,通过正则模板对语料库的数据进行标注得到扩充数据集;值得说明的是,通过 正则模板可以在标注数据缺少的情况下有效的扩充领域的训练数据集,提高模型的训练效果。 之后将标注数据集和扩充数据集分为训练集和测试集。
3)获取关系分类结果
利用训练集训练神经网络模型,再利用训练后的神经网络模型对测试集进行处理得到关 系分类结果;具体地,包括以下步骤:
首先值得说明的是,本发明的神经网络模型由跨度分类、跨度过滤、关系分类以及联合 模板分类四部分组成,如图3所示。跨度分类和跨度过滤对实体分别进行识别和筛选,关系 分类进行神经网络模型的关系抽取,联合模板匹配分类则加上了正则匹配的结果,使得联合 模型的分类效果得到优化。
3-1)将训练集导入神经网络模型;具体地,神经网络模型包括预训练模型Bert,将训练 集导入预训练模型Bert;值得说明的是,设置预训练模型Bert即可实现通过少量标注数据得 到较好的分类效果。
3-2)神经网络模型对训练集进行处理得到有类型跨度,具体过程为:
先通过预训练模型Bert获取训练集中文本的向量表示,具体地,先通过预训练模型Bert 获取训练集中文本的向量表示(e1,e2,…en,c),c指的是特殊标记CLS代表的词向量。 而后神经网络模型采用优化负采样的方式获取跨度;
本发明的神经网络模型并不会对实体和关系假设进行波束搜索,而是设定了一个最大值 Ne,本实施例中该最大值设定为50,即在所有可能的实体中最多选取Ne个实体,并将未在训 练集中被标注为正例的样本标记成负例。本发明提出了一种新的选取负例的方式,即首先建 立一个实体的集合S,该集合包含了本次数据集尽可能多的实体(标注数据以及实体正则抽 取的结果),然后利用jieba对语句进行分词,分词会得到所有的可能实体并得到分词结果对 应的词性,例如“我在北京旅游”会得到我、在北京、旅游三个实体,然后首先根据词性过 滤得到所有的名词,然后对这些名词与实体集合S中的实体进行相似度计算,选择相似度最 高的值作为该分词结果的得分,最终负例的选取按照相似度越高优先级越大排序,如果未能 达到Ne,则先用分词剩下的结果填充,然后则采取随机选择跨度的方式,选择越符合实体的 特征但未被标注的实体作为负例能够使得神经网络模型的训练效果更好。
神经网络模型选取好可能的实体后会对实体的向量表示进行处理。实体的向量表示由三 部分组成,分别为实体包含的令牌的向量表示、宽度嵌入以及特殊标记CLS。模型会将实体 的向量表示送入跨度分类。
在第一部分中,对于一个可能的实体跨度(ei,ei+1,…ei+k),在文本中选择一段连续的文 本,其向量表示为f(ei,ei+1,…ei+k),再对f使用最大池化,使得神经网络模型得到了实体令 牌的向量表示。
在第二部分中,宽度嵌入是在训练中学习到的嵌入矩阵,即实体的宽度为k+1表示实体 中包含k+1个令牌,那么实体的宽度嵌入wk+1就会被表示为以k+1为下标,在宽度矩阵中进 行索引得到的宽度为k+1的向量表示。将宽度表示与实体令牌的向量表示连接,公式如下(用 ∞表示连接):
e(s)=f(ei,ei+1,...ei+k)∞wk+1
本发明采用的神经网络模型中使用的CLS是未经池化的向量c。
将这三部分连接,得到了最终的向量表示,公式如下:
Xs=e(s)∞c
之后,神经网络模型利用跨度分类器对跨度进行识别分类得到有类型跨度和无类型跨度。 具体地,将实体表示送入一个全连接加softmax激活函数后,得到了实体的类型,其中也包 括了无类型跨度,具体通过以下公式得到实体的类型:
ys=softmax(ws·xs+bs)
其中,ws和bs为参数,xs为实体的向量表示。
3-3)利用最大池化的方式对有类型跨度进行处理得到实体特征和文本特征,具体过程为:
将有类型跨度作为实体,神经网络模型选择若干对实体组成关系集合;具体地,模型首 先从可能的实体中随机选择最多Nr对实体组成关系集合,本实施例中Nr为100。对于一个由 实体对(s1,s2)构成的实体,其关系向量表示由两部分构成。一部分是由上述公式得到的实 体向量表示e(s1),e(s2);另一部分是文本特征。除了实体特征之外,关系抽取也会依赖文本 特征。在本发明中并没有选择CLS作为文本特征,而是对于两个实体之间的文本进行了最大 池化,保留了实体对之间的上下文信息,得到了文本特征的向量表示c(s1,s2)。如果两个实体 之间没有文本,那么c(s1,s2)将被设置成0。
之后对两个实体之间的文本进行最大池化得到关系的向量表示;该关系的向量表示包括 实体特征和文本特征。值得说明的是,由于实体对的关系往往是非对称的,关系的头尾实体 不能颠倒,所以本发明的每一个实体对都会得到两个相反的关系表示。公式如下:
3-4)根据实体特征和文本特征对测试集进行处理获取关系分类结果。具体过程为:
实体特征和文本特征进行连接得到关系特征;
再利用神经网络模型的全连接层对关系特征进行处理得到关系分类结果;具体地通过以 下公式进行计算得到关系分类结果:
其中,wr和br为参数,表示/>和/>连接,即为实体特征与实体间文本特征拼接后的 表示;σ代表全连接层。
最后,神经网络模型的损失值是实体分类损失γs与关系分类损失γr之和,公式如下:
γ=γs+γr
值得说明的是,由于本发明选用了大量正则关系式匹配的关系语句,这些关系语句中一 句话只存在一条关系并且默认标注的是关系的头尾实体,但是这样不利于关系负样本的抽取, 所以本发明保留了语句中所有的实体,然后将实体对间不存在标注关系的实体对作为负样本。
4)利用正则模板对测试集进行匹配得到分类结果。
5)根据关系分类结果和匹配分类结果得到最终关系抽取结果。具体过程为:
若关系分类结果和匹配分类结果相同,则将关系分类结果和匹配分类结果作为最终关系 抽取结果;即如果关系语句与正则模板匹配,则该关系语句被分类为该类型的正则;若关系 分类结果和匹配分类结果不同,则将匹配分类结果作为最终关系抽取结果;即若关系语句未 匹配到任意一个关系正则,则神经网络模型会用实体正则与该语句匹配并分析匹配得到的实 体类型;若实体和关系都未匹配到相应的正则模板,并且神经网络模型未抽取出该语句的关 系,则认定该语句不存在关系。
之后将得到的最终关系抽取结果应用于知识图谱的构建。
本发明的一种实体关系抽取方法,可以通过少量标注的关系数据,利用正则模板从爬 取的大量文本中抽取高准确率的关系语句,并扩充神经网络模型的数据集,解决领域关系 抽取标注数据量少的问题。进一步地将正则模板匹配的分类结果和由神经网络模型得到的 分类结果相结合,通过优先级策略选择更有可能的关系语句分类,提高了实体关系抽取的 效果。
在上文中结合具体的示例性实施例详细描述了本发明。但是,应当理解,可在不脱离由 所附权利要求限定的本发明的范围的情况下进行各种修改和变型。详细的描述和附图应仅被 认为是说明性的,而不是限制性的,如果存在任何这样的修改和变型,那么它们都将落入在 此描述的本发明的范围内。此外,背景技术旨在为了说明本技术的研发现状和意义,并不旨 在限制本发明或本申请和本发明的应用领域。
Claims (7)
1.一种实体关系抽取方法,其特征在于,包括
构建语料库;
选取语料库的数据进行标注得到标注数据集;并根据语料库构建正则模板,再通过正则模板对语料库的数据进行标注得到扩充数据集;
将标注数据集和扩充数据集分为训练集和测试集;
利用训练集训练神经网络模型,再利用训练后的神经网络模型对测试集进行处理得到关系分类结果;
利用正则模板对测试集进行匹配得到分类结果;
根据关系分类结果和匹配分类结果得到最终关系抽取结果;
获取关系分类结果的具体过程为:
将训练集导入神经网络模型;
神经网络模型根据训练集获取实体特征和文本特征;
根据实体特征和文本特征对测试集进行处理获取关系分类结果;
根据关系分类结果和匹配分类结果得到最终关系抽取结果的具体过程为:
若关系分类结果和匹配分类结果相同,则将关系分类结果和匹配分类结果作为最终关系抽取结果;若关系分类结果和匹配分类结果不同,则将匹配分类结果作为最终关系抽取结果。
2.根据权利要求1所述的一种实体关系抽取方法,其特征在于,根据语料库构建正则模板的具体过程为:
步骤2-1:从语料库中随机抽取若干篇文本,根据若干篇文本构建正则模板;
步骤2-2:通过标注数据集对正则模板进行测试得到测试结果,测试结果包括准确率和召回率;根据测试结果中的召回率补充对应的正则模板;
步骤2-3:重复步骤2-2,直至测试结果的准确率和召回率达到阈值,得到构建完毕的正则模板。
3.根据权利要求2所述的一种实体关系抽取方法,其特征在于,准确率的阈值为0.9,召回率的阈值为0.8。
4.根据权利要求1所述的一种实体关系抽取方法,其特征在于,神经网络模型根据训练集获取实体特征和文本特征的具体过程为:
神经网络模型对训练集进行处理得到有类型跨度,再利用最大池化的方式对有类型跨度进行处理得到实体特征和文本特征。
5.根据权利要求4所述的一种实体关系抽取方法,其特征在于,神经网络模型对训练集进行处理得到有类型跨度的具体过程为:
神经网络模型包括预训练模型Bert,先通过预训练模型Bert获取训练集中文本的向量表示,而后神经网络模型采用优化负采样的方式获取跨度;
神经网络模型利用跨度分类器对跨度进行识别分类得到有类型跨度和无类型跨度。
6.根据权利要求5所述的一种实体关系抽取方法,其特征在于,对有类型跨度进行处理得到实体特征和文本特征的具体过程为:
将有类型跨度作为实体,神经网络模型选择若干对实体组成关系集合;
对两个实体之间的文本进行最大池化得到关系的向量表示,该关系的向量表示包括实体特征和文本特征。
7.根据权利要求4~6任一项所述的一种实体关系抽取方法,其特征在于,获取关系分类结果的具体过程为:对实体特征和文本特征进行连接得到关系特征,再利用神经网络模型的全连接层对关系特征进行处理得到关系分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010869904.3A CN111984790B (zh) | 2020-08-26 | 2020-08-26 | 一种实体关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010869904.3A CN111984790B (zh) | 2020-08-26 | 2020-08-26 | 一种实体关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111984790A CN111984790A (zh) | 2020-11-24 |
CN111984790B true CN111984790B (zh) | 2023-07-25 |
Family
ID=73439610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010869904.3A Active CN111984790B (zh) | 2020-08-26 | 2020-08-26 | 一种实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111984790B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113094513B (zh) * | 2021-04-08 | 2023-08-15 | 北京工商大学 | 一种基于跨度表示的端到端的菜谱信息抽取方法及系统 |
CN113822018B (zh) * | 2021-09-16 | 2022-06-14 | 湖南警察学院 | 实体关系联合抽取方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446526A (zh) * | 2018-10-26 | 2019-03-08 | 苏州大学 | 一种隐式篇章关系语料库的构建方法、装置和存储介质 |
CN110287481A (zh) * | 2019-05-29 | 2019-09-27 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 命名实体语料标注训练系统 |
CN111339407A (zh) * | 2020-02-18 | 2020-06-26 | 北京航空航天大学 | 一种信息抽取云平台的实现方法 |
CN111339774A (zh) * | 2020-02-07 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 文本的实体关系抽取方法和模型训练方法 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6892189B2 (en) * | 2001-01-26 | 2005-05-10 | Inxight Software, Inc. | Method for learning and combining global and local regularities for information extraction and classification |
US20190197433A1 (en) * | 2017-12-22 | 2019-06-27 | Wipro Limited | Methods for adaptive information extraction through adaptive learning of human annotators and devices thereof |
CN108280061B (zh) * | 2018-01-17 | 2021-10-26 | 北京百度网讯科技有限公司 | 基于歧义实体词的文本处理方法和装置 |
-
2020
- 2020-08-26 CN CN202010869904.3A patent/CN111984790B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446526A (zh) * | 2018-10-26 | 2019-03-08 | 苏州大学 | 一种隐式篇章关系语料库的构建方法、装置和存储介质 |
CN110287481A (zh) * | 2019-05-29 | 2019-09-27 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 命名实体语料标注训练系统 |
CN111339774A (zh) * | 2020-02-07 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 文本的实体关系抽取方法和模型训练方法 |
CN111339407A (zh) * | 2020-02-18 | 2020-06-26 | 北京航空航天大学 | 一种信息抽取云平台的实现方法 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
Non-Patent Citations (8)
Title |
---|
Bert-based multi-head selection for joint entity-relation extraction;Huang W, Cheng X, Wang T等;Natural Language Processing and Chinese Computing: 8th CCF International Conference, NLPCC 2019;第713-723页 * |
Improving Graph Convolutional Networks Based on Relation-Aware Attention for End-to-End Relation Extraction;Yin Hong等;IEEE Access;第8卷;第51315 - 51323页 * |
中文文本中实体数值型关系无监督抽取方法;吴胜;刘茂福;胡慧君;张志清;顾进广;;武汉大学学报(理学版)(06);第552-560页 * |
关系抽取综述;谢德鹏;常青;;计算机应用研究(07);第1921-1924页 * |
实体关系抽取方法研究综述;李冬梅;张扬;李东远;林丹琼;;计算机研究与发展(07);第1424-1448页 * |
审判案例自动抽取与标注模型研究;佘贵清;张永安;;现代图书情报技术(06);第23-29页 * |
徐硕.基于论文和资源的技术机会发现方法.科学技术文献出版社,2018,第87页. * |
面向产业合作的半监督关系抽取;孙超;《中国优秀硕士学位论文全文数据库 信息科技辑》;第I138-873页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111984790A (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107239529B (zh) | 一种基于深度学习的舆情热点类别划分方法 | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN106886580B (zh) | 一种基于深度学习的图片情感极性分析方法 | |
CN111914558A (zh) | 基于句袋注意力远程监督的课程知识关系抽取方法及系统 | |
CN112214610A (zh) | 一种基于跨度和知识增强的实体关系联合抽取方法 | |
CN105975454A (zh) | 一种网页文本的中文分词方法和装置 | |
CN109492105B (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
CN111144119B (zh) | 一种改进知识迁移的实体识别方法 | |
CN107577702B (zh) | 一种社交媒体中交通信息的辨别方法 | |
CN111984790B (zh) | 一种实体关系抽取方法 | |
CN103440315B (zh) | 一种基于主题的Web页面清洗方法 | |
CN112307153A (zh) | 一种产业知识库自动构建方法、装置及存储介质 | |
CN111651566B (zh) | 基于多任务的小样本学习的裁判文书争议焦点提取方法 | |
CN114170411A (zh) | 一种融合多尺度信息的图片情感识别方法 | |
CN108415901A (zh) | 一种基于词向量和上下文信息的短文本主题模型 | |
CN110705272A (zh) | 一种面向汽车发动机故障诊断的命名实体识别方法 | |
CN111428481A (zh) | 一种基于深度学习的实体关系抽取方法 | |
CN113360659B (zh) | 一种基于半监督学习的跨领域情感分类方法及系统 | |
CN110969005B (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN110830291A (zh) | 一种基于元路径的异质信息网络的节点分类方法 | |
CN111191033A (zh) | 一种基于分类效用的开集分类方法 | |
CN113157918B (zh) | 一种基于注意力机制的商品名称短文本分类方法和系统 | |
CN109002561A (zh) | 基于样本关键词学习的文本自动分类方法、系统及介质 | |
CN116451114A (zh) | 基于企业多源实体特征信息的物联网企业分类系统及方法 | |
CN108804524B (zh) | 基于层次化分类体系的情感判别和重要性划分方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |