CN110968660B - 基于联合训练模型的信息抽取方法和系统 - Google Patents
基于联合训练模型的信息抽取方法和系统 Download PDFInfo
- Publication number
- CN110968660B CN110968660B CN201911253350.8A CN201911253350A CN110968660B CN 110968660 B CN110968660 B CN 110968660B CN 201911253350 A CN201911253350 A CN 201911253350A CN 110968660 B CN110968660 B CN 110968660B
- Authority
- CN
- China
- Prior art keywords
- model
- entity
- joint
- training
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种基于联合训练模型的信息抽取方法和系统,属于自然语言处理和深度学习技术领域。为解决现有信息抽取技术中存在的耗费大量的人力和时间、模型的灵活性不高、错误传递和信息抽取不完全的问题,本发明包括:对语料进行标注,得到包含标注信息的训练语料;对训练语料进行采样;将采样后的语料中的每个字转化成词向量;将所述词向量输入两个基于不同神经网络的深度学习模型进行联合训练,迭代更新联合模型的神经网络参数,得到训练好的信息抽取联合模型;将待抽取的文本输入所述信息抽取联合模型,提取出包含头实体、尾实体和实体关系的三元组信息。
Description
技术领域
本发明涉及自然语言处理和深度学习技术领域,特别涉及一种基于联合训练模型的信息抽取方法和系统。
背景技术
随着信息技术的迅速发展和硬件设备的不断升级,利用海量数据通过深度学习模型从文本中提取相应信息的需求越来越大,并应用于各种不同的场景中。信息抽取就是从非结构化的文本中提取出结构化的信息,通常情况下,信息抽取任务主要分为实体抽取和关系抽取两个子任务,常用的方法包括基于规则的方法,基于机器学习的方法和基于深度学习的方法。
早期的信息抽取任务主要是基于规则和统计的方法,该方法可分为两个阶段:一是构建规则表达式,二是利用规则表达式对文本进行信息抽取。这种方法需要规则构建人员具有丰富的语言学知识,并且能够穷举到尽可能多的需要匹配的文本元素,所以该方法存在的问题就是需要大量的人力和时间,一个具有较高准确度和精确性的信息抽取模型需要耗费很多人力资源和时间才能完成。
现有技术中,申请号为CN 108647194 A的专利申请提供了一种信息抽取方法及装置,该方法利用统计模型来识别所述文本中的实体和依存成分,从一定程度上扩大了识别词汇的范围,但仍需要通过构建规则来对统计模型进行调用,针对不同的语言场景需要更换不同的规则,模型灵活性不高且前期的规则编写耗时耗力。
申请号为CN 109165279 A的专利申请提供了一种信息抽取方法及装置,该方法完全摆脱了规则的束缚,利用标注语料和深度学习算法来对信息抽取模型进行训练,有效提高了信息抽取的效率。但该方法仅利用双向长短期记忆网络(Bi-LSTM)来对文本中的部分功能性词汇进行抽取,没有抽取出文本中的实体和实体关系。
申请号为CN 108959286 A的专利申请提供了一种信息抽取方法和信息抽取设备,该信息抽取方法采用的是目前较为常用的先识别实体后识别关系的方式,但这种方式存在错误传递的问题,一旦识别实体模块出现错误,该错误将会被传递到关系抽取模块。同时,该方法无法识别出同一对实体存在多种不同关系的情况。
综上所述,现有信息抽取技术存在以下几点问题:
1)基于规则的方法需要耗费大量的人力和时间来对规则进行编写,而且规则无法覆盖复杂的语法结构,模型的灵活性不高。
2)常用的基于机器学习和深度学习的信息抽取模型,采用先识别实体后识别关系的方式,这种方式通常存在错误传递的问题,如果实体抽取错误,那么关系抽取模块也将受到影响。
3)目前的大多数信息抽取模型在抽取三元组时,由于序列标注模型的限制,一般一对实体之间只能预测一种关系,但实际往往同一对实体存在多种关系的情况,所以该类方法存在信息抽取不完全的问题。
发明内容
本发明的目的是提供一种基于联合训练模型的信息抽取方法和系统,解决现有信息抽取技术中存在的耗费大量的人力和时间、模型的灵活性不高、错误传递和信息抽取不完全的问题。
本发明解决其技术问题,采用的技术方案是:基于联合训练模型的信息抽取方法,包括如下步骤:
步骤1、对语料进行标注,得到包含标注信息的训练语料;
步骤2、对训练语料进行采样;
步骤3、将采样后的语料中的每个字转化成词向量;
步骤4、将所述词向量输入两个基于不同神经网络的深度学习模型进行联合训练,迭代更新联合模型的神经网络参数,得到训练好的信息抽取联合模型;
步骤5、将待抽取的文本输入所述信息抽取联合模型,提取出包含头实体、尾实体和实体关系的三元组信息。
进一步的是,步骤2中,对训练语料的采样的方法,包括:对每条文本中的实体和关系进行随机采样或者全采样。
进一步的是,步骤3中,将语料中的文本转换成词向量的方法,包括:随机生成的词向量表示方法,或基于深度学习的语言模型训练得到的向量表示方法,或其它预训练语言模型训练得到的词向量表示方法。
进一步的是,步骤4中,将所述词向量输入的两个基于不同神经网络的深度学习模型,包括:一个用于识别头实体的神经网络模型和一个用于识别尾实体和关系的神经网络模型,用于识别头实体的模型采用双向GRU神经网络和卷积神经网络,模型输入为待抽取文本,输出为头实体位置信息,用于识别尾实体和关系的模型主要采用卷积神经网络,模型输入为待抽取文本和头实体位置信息,输出为含有关系标签的尾实体位置信息。
进一步的是,步骤4中,迭代更新联合模型的神经网络参数的方法,包括:使用焦点损失函数来计算预测值与真实值之间的差距,采用梯度下降算法来对神经网络参数进行优化。
进一步的是,步骤5中,将待抽取的文本输入所述信息抽取联合模型后,提取出包含实体和实体关系的三元组信息的方法,包括:根据头实体模型预测出来的位置信息判断出头实体,再根据头实体的位置信息预测出尾实体和实体关系。
基于联合训练模型的信息抽取系统,包括:
语料标注单元,用于对语料进行标注,得到包含标注信息的训练语料;
语料采样单元,对训练语料进行采样;
文本词向量转换单元,用于将所述语料中的每个字转化成词向量;
深度学习模型联合训练单元,用于将所述词向量输入两个基于不同神经网络的深度学习模型进行联合训练,迭代更新联合模型的神经网络参数,得到训练好的信息抽取联合模型;
信息抽取三元组生成单元,将待抽取的文本输入所述信息抽取联合模型,提取出包含头实体、尾实体和实体关系的三元组信息。
本发明的有益效果是,通过上述基于联合训练模型的信息抽取方法和系统,本发明不需要大量的人力和时间来对规则进行编写,本发明是基于联合训练的深度学习模型,不会产生错误传递问题,提高了信息抽取任务的准确度;本发明能够识别多样的实体对和关系类型,能够有效识别出同一对实体存在多种关系的情况,以及一个实体存在于多对不同关系和实体对中的情况。
附图说明
图1为本发明基于联合训练的信息抽取方法的流程图;
图2为本发明基于联合训练的信息抽取方法中的用于识别头实体的模型框架图;
图3为本发明基于联合训练的信息抽取方法中的用于识别尾实体和对应关系的模型框架图;
图4为本发明基于联合训练的信息抽取系统的系统架构图。
具体实施方式
下面结合附图,详细描述本发明的技术方案。
本发明所述基于联合训练的信息抽取方法,其流程图参见图1,其中,该方法包括:
步骤1、对语料进行标注,得到包含标注信息的训练语料。
标注语料的方法,包括:采用非人工标注方式,通过非监督的方式进行远程标注,得到标注好的训练语料。
步骤2、对训练语料进行采样。
训练语料的采样方法,包括:对每条文本中的实体和实体关系进行随机采样,具体方式是对头实体进行随机采样,再匹配出与该头实体相关联的所有尾实体和关系信息。
训练语料的采样方法,还包括:对文本中的所有实体对和关系进行全采样。
步骤3、将所述采样后的语料中的每个字转化成词向量。
将所述采样后的语料中的每个字转化成词向量的方法,包括:随机生成一定长度的向量表示,在模型训练过程中根据模型参数的迭代更新而更新。
将所述采样后的语料中的每个字转化成词向量的方法,还包括:利用深度学习模型预训练词向量,这样的深度学习模型有word2vec模型,Glove模型等。
步骤4、将所述词向量输入两个基于不同神经网络的深度学习模型进行联合训练,迭代更新联合模型的神经网络参数,得到训练好的信息抽取联合模型。
两个基于不同神经网络的深度学习模型,具体为:一个用于识别文本中头实体的深度学习模型,和一个用于识别与头实体对应的尾实体以及他们对应关系的深度学习模型。用于识别头实体的模型主要采用双向GRU神经网络和卷积神经网络,模型输入为待抽取文本,输出为头实体位置信息,用于识别尾实体和关系的模型主要采用卷积神经网络,模型输入为待抽取文本和头实体位置信息,输出为含有关系标签的尾实体位置信息。
迭代更新联合模型的神经网络参数的方法,包括:使用焦点损失函数来计算预测值与真实值之间的差距,采用梯度下降算法来对神经网络参数进行优化。
步骤5、将待抽取的文本输入所述信息抽取联合模型,提取出包含头实体、尾实体和实体关系的三元组信息。
从待抽取文本中提取出包含实体和实体关系的三元组信息,具体为:先将文本传入头实体预测模型,根据预测出的头实体的位置信息判断出头实体,再将头实体位置信息和待抽取文本传入尾实体和关系预测模型,预测出尾实体和它们之间对应的关系。
如图2所示,是本发明基于联合训练的信息抽取方法中的用于识别头实体的模型框架图,包括:
输入文本向量表示的输入层,随机去掉部分神经元的Dropout层,若干双向GRU网络层,若干卷积层和池化层,采用Sigmoid激活函数的输出层,最后预测出头实体位置信息。
如图3所示,是本发明基于联合训练的信息抽取方法中的用于识别尾实体和对应关系的模型框架图,包括:
输入文本向量表示和头实体位置信息的输入层,将文本信息和头实体位置信息合并的全连接层,若干卷积层和池化层,随机去掉部分神经元的Dropout层,采用Softmax激活函数的输出层,最后预测出尾实体位置信息和其对应的关系。
根据本发明提供的方法,针对任意输入的文本,所述方法能够迅速识别出文本中的实体和实体关系信息,技术人员不需要花费大量的时间和精力来对信息抽取的规则进行编写,同时能够避免常用的信息抽取方法中存在的错误传递问题,提高信息抽取任务的准确度,除此之外,还能够有效识别出存在重叠关系的实体对和关系信息。
如图4所示,是本发明提出的基于联合训练的信息抽取系统的系统架构图,包括:
语料标注单元,用于对语料进行标注,得到包含标注信息的训练语料;
语料采样单元,对训练语料进行采样;
文本词向量转换单元,用于将所述采样后的语料中的每个字转化成词向量;
深度学习模型联合训练单元,用于将所述词向量输入两个基于不同神经网络的深度学习模型进行联合训练,迭代更新联合模型的神经网络参数,得到训练好的信息抽取联合模型;
信息抽取三元组生成单元,将待抽取的文本输入所述信息抽取联合模型,提取出包含头实体、尾实体和实体关系的三元组信息。
根据本发明提供的基于联合训练的信息抽取系统,不需要花费大量的人力和时间在前期的规则编写工作上,能够有效避免传统方法中存在的错误传递问题,还能够识别出同一对实体存在多种关系和同一实体处在不同关系中的复杂三元组信息,提高了信息抽取任务的准确率和召回率。
Claims (6)
1.基于联合训练模型的信息抽取方法,其特征在于,包括如下步骤:
步骤1、对语料进行标注,得到包含标注信息的训练语料;
步骤2、对训练语料进行采样;
步骤3、将采样后的语料中的每个字转化成词向量;
步骤4、将所述词向量输入两个基于不同神经网络的深度学习模型进行联合训练,迭代更新联合模型的神经网络参数,得到训练好的信息抽取联合模型;
步骤5、将待抽取的文本输入所述信息抽取联合模型,提取出包含头实体、尾实体和实体关系的三元组信息;
步骤4中,将所述词向量输入的两个基于不同神经网络的深度学习模型,包括:一个用于识别头实体的神经网络模型和一个用于识别尾实体和关系的神经网络模型,用于识别头实体的模型采用双向GRU神经网络和卷积神经网络,模型输入为待抽取文本,输出为头实体位置信息,用于识别尾实体和关系的模型采用卷积神经网络,模型输入为待抽取文本和头实体位置信息,输出为含有关系标签的尾实体位置信息。
2.根据权利要求1所述的基于联合训练模型的信息抽取方法,其特征在于,步骤2中,对训练语料的采样的方法,包括:对每条文本中的实体和关系进行随机采样或者全采样。
3.根据权利要求1所述的基于联合训练模型的信息抽取方法,其特征在于,步骤3中,将语料中的文本转换成词向量的方法,包括:随机生成的词向量表示方法,或基于深度学习的语言模型训练得到的向量表示方法,或其它预训练语言模型训练得到的词向量表示方法。
4.根据权利要求1所述的基于联合训练模型的信息抽取方法,其特征在于,步骤4中,迭代更新联合模型的神经网络参数的方法,包括:使用焦点损失函数来计算预测值与真实值之间的差距,采用梯度下降算法来对神经网络参数进行优化。
5.根据权利要求1所述的基于联合训练模型的信息抽取方法,其特征在于,步骤5中,将待抽取的文本输入所述信息抽取联合模型后,提取出包含实体和实体关系的三元组信息的方法,包括:根据头实体模型预测出来的位置信息判断出头实体,再根据头实体的位置信息预测出尾实体和实体关系。
6.基于联合训练模型的信息抽取系统,其特征在于,包括:
语料标注单元,用于对语料进行标注,得到包含标注信息的训练语料;
语料采样单元,对训练语料进行采样;
文本词向量转换单元,用于将所述语料中的每个字转化成词向量;
深度学习模型联合训练单元,用于将所述词向量输入两个基于不同神经网络的深度学习模型进行联合训练,迭代更新联合模型的神经网络参数,得到训练好的信息抽取联合模型;将所述词向量输入的两个基于不同神经网络的深度学习模型,包括:一个用于识别头实体的神经网络模型和一个用于识别尾实体和关系的神经网络模型,用于识别头实体的模型采用双向GRU神经网络和卷积神经网络,模型输入为待抽取文本,输出为头实体位置信息,用于识别尾实体和关系的模型采用卷积神经网络,模型输入为待抽取文本和头实体位置信息,输出为含有关系标签的尾实体位置信息;
信息抽取三元组生成单元,将待抽取的文本输入所述信息抽取联合模型,提取出包含头实体、尾实体和实体关系的三元组信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911253350.8A CN110968660B (zh) | 2019-12-09 | 2019-12-09 | 基于联合训练模型的信息抽取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911253350.8A CN110968660B (zh) | 2019-12-09 | 2019-12-09 | 基于联合训练模型的信息抽取方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110968660A CN110968660A (zh) | 2020-04-07 |
CN110968660B true CN110968660B (zh) | 2022-05-06 |
Family
ID=70033562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911253350.8A Active CN110968660B (zh) | 2019-12-09 | 2019-12-09 | 基于联合训练模型的信息抽取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110968660B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523686B (zh) * | 2020-04-23 | 2021-08-03 | 支付宝(杭州)信息技术有限公司 | 一种模型联合训练的方法和系统 |
CN111581975B (zh) * | 2020-05-09 | 2023-06-20 | 北京明朝万达科技股份有限公司 | 案件的笔录文本的处理方法、装置、存储介质和处理器 |
CN111831829B (zh) * | 2020-06-12 | 2024-04-09 | 广州多益网络股份有限公司 | 一种面向开放域的实体关系抽取方法、装置及终端设备 |
CN111931503B (zh) * | 2020-08-04 | 2024-01-26 | 腾讯科技(深圳)有限公司 | 信息抽取方法及装置、设备、计算机可读存储介质 |
CN112417116B (zh) * | 2020-11-18 | 2022-03-15 | 四川长虹电器股份有限公司 | 一种基于少样本语料的问句理解模型训练方法和系统 |
CN112560487A (zh) * | 2020-12-04 | 2021-03-26 | 中国电子科技集团公司第十五研究所 | 一种基于国产设备的实体关系抽取方法及系统 |
CN112818678B (zh) * | 2021-02-24 | 2022-10-28 | 上海交通大学 | 基于依赖关系图的关系推理方法及系统 |
CN113221568B (zh) * | 2021-05-10 | 2022-05-17 | 天津大学 | 一种基于神经网络的改进分层序列标注联合关系抽取方法 |
CN113221571B (zh) * | 2021-05-31 | 2022-07-01 | 重庆交通大学 | 基于实体相关注意力机制的实体关系联合抽取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733792A (zh) * | 2018-05-14 | 2018-11-02 | 北京大学深圳研究生院 | 一种实体关系抽取方法 |
CN109165385A (zh) * | 2018-08-29 | 2019-01-08 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
CN109902171A (zh) * | 2019-01-30 | 2019-06-18 | 中国地质大学(武汉) | 基于分层知识图谱注意力模型的文本关系抽取方法及系统 |
CN110275928A (zh) * | 2019-06-24 | 2019-09-24 | 复旦大学 | 迭代式实体关系抽取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190122111A1 (en) * | 2017-10-24 | 2019-04-25 | Nec Laboratories America, Inc. | Adaptive Convolutional Neural Knowledge Graph Learning System Leveraging Entity Descriptions |
-
2019
- 2019-12-09 CN CN201911253350.8A patent/CN110968660B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733792A (zh) * | 2018-05-14 | 2018-11-02 | 北京大学深圳研究生院 | 一种实体关系抽取方法 |
CN109165385A (zh) * | 2018-08-29 | 2019-01-08 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
CN109902171A (zh) * | 2019-01-30 | 2019-06-18 | 中国地质大学(武汉) | 基于分层知识图谱注意力模型的文本关系抽取方法及系统 |
CN110275928A (zh) * | 2019-06-24 | 2019-09-24 | 复旦大学 | 迭代式实体关系抽取方法 |
Non-Patent Citations (3)
Title |
---|
Jointly Extract Entities and Their Relations From Biomedical Text;Jizhi Chen等;《IEEE Access》;20191107;第7卷;全文 * |
基于半边原理的知识图谱补全;程涛等;《计算机工程》;20191122;第46卷(第11期);全文 * |
基于神经网络的实体识别和关系抽取的联合模型研究;丁琛;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20190815(第8期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110968660A (zh) | 2020-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110968660B (zh) | 基于联合训练模型的信息抽取方法和系统 | |
CN109992782B (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
CN110609891B (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN110110054B (zh) | 一种基于深度学习的从非结构化文本中获取问答对的方法 | |
CN110532355B (zh) | 一种基于多任务学习的意图与槽位联合识别方法 | |
CN109934261B (zh) | 一种知识驱动参数传播模型及其少样本学习方法 | |
CN106502985B (zh) | 一种用于生成标题的神经网络建模方法及装置 | |
WO2023024412A1 (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN112883738A (zh) | 基于神经网络和自注意力机制的医学实体关系抽取方法 | |
CN109543181B (zh) | 一种基于主动学习和深度学习相结合的命名实体模型和系统 | |
CN110309511B (zh) | 基于共享表示的多任务语言分析系统及方法 | |
CN110275928B (zh) | 迭代式实体关系抽取方法 | |
CN112906397B (zh) | 一种短文本实体消歧方法 | |
CN111274804A (zh) | 基于命名实体识别的案件信息提取方法 | |
CN111966812A (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN111914555B (zh) | 基于Transformer结构的自动化关系抽取系统 | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN111651993A (zh) | 融合局部-全局字符级关联特征的中文命名实体识别方法 | |
CN116245097A (zh) | 训练实体识别模型的方法、实体识别方法及对应装置 | |
CN115062123A (zh) | 一种对话生成系统的知识库问答对生成方法 | |
CN117933258A (zh) | 一种命名实体识别方法和系统 | |
CN113177415A (zh) | 语义理解方法、装置、电子设备和存储介质 | |
CN115408506B (zh) | 联合语义解析和语义成分匹配的nl2sql的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |