CN113779260B - 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统 - Google Patents
一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统 Download PDFInfo
- Publication number
- CN113779260B CN113779260B CN202110924326.3A CN202110924326A CN113779260B CN 113779260 B CN113779260 B CN 113779260B CN 202110924326 A CN202110924326 A CN 202110924326A CN 113779260 B CN113779260 B CN 113779260B
- Authority
- CN
- China
- Prior art keywords
- data
- relationship
- training
- model
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于预训练模型的领域图谱实体和关系联合抽取方法,包括以下步骤:步骤A:抓取保险公司相关网站上的保险领域文本信息,数据清洗标注,建立初始数据集U和候选关系集V;步骤B:基于预训练模型,构建关系判别和实体对抽取的联合学习框架,对模型进行训练和测试;步骤C:将测试过程中产生的新抽取数据经过筛选后扩增训练集;步骤D:用更新后的数据集重复迭代直至模型稳定;步骤E:三元组数据导出处理,构建领域知识图谱。本发明还提供了一种实现上述方法的系统。本发明涉及到的方法将目标关系与文本的每一个词相互作用,精确地产生所有可能的实体对,自然地避免了实体重叠问题,同时可以提取多关系和多实体对。
Description
技术领域
本发明属于大数据技术领域,涉及一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统,用于深度学习在获取领域图谱三元组数据有关的研究和分析。
背景技术
随着移动互联网的发展,万物互联成为了可能,这种互联所产生的数据也在爆发式地增长,而且这些数据恰好可以作为分析关系的有效原料。在移动互联网时代,个体之间的关系也必然成为我们需要深入分析的很重要一部分。只要有关系分析的需求,知识图谱就“有可能”派的上用场。从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。知识图谱是一种特殊的图数据,它是语义的和可复用的:知识图谱数据一经获取即可被多领域应用重复使用,这也是知识图谱服务的构建动机。由于结构的特殊性使得它在技术领域的热度也在逐年上升。
因此,图谱数据的获取问题便显得十分重要。衡量一个知识图谱是否运营良好的标准,往往是看其数据多样性和数据规模。而数据从获取、清洗、抽取乃至匹配融合的过程则是构建此类知识图谱的重要部分,如何更好的完成数据抽取成了此中尤为关键的一步。
深度学习的发展为此类问题的分析提供了极大的帮助。由于图谱数据种类繁多,数据来源呈现多样性,且数据之间暗含关联,使用传统的方法不利于对多特征多源的场景进行建模,而深度学习凭借独特的多层网络结构,善于对多特征和多源数据进行建模和分析,从而获取到信息含量更大更有研究价值的图谱数据。
现有的研究更多关注的是实体识别和关系预测两个单独的子问题。他们将整个三元组数据的抽取过程划分为两个单独的子问题,分别训练模型。但其忽略了每一步之间联合的重要特征,也使得图谱构建过程变得冗杂,无法实现联合训练,在一个问题下完成抽取工作。
发明内容
为了解决现有技术存在的不足,本发明的目的是提出了一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统。
本发明所述的数据联合抽取方法,基于领域知识文本,在获取原始数据后,先经过数据清洗保留高质量的文本段落和常见关系,通常情况下,不可避免的会需要一定的标注数据来监督模型,并在实际训练过程中扩增训练集。当然,这其中模型的选择和调整优化也极大影响着最终影响因素的确定。
本发明提出的基于预训练模型的领域图谱实体和关系联合抽取方法,包括以下步骤:
步骤A:获取原始数据,对数据进行标注后划分为训练集和测试集,建立初步小规模保险标注数据集U,和候选关系集V,具体包括以下步骤:
步骤A1:抓取保险公司相关网站上的保险领域文本信息,数据清洗标注并按7:3的比例划分为训练集和测试集,建立小规模保险标注数据集U;
步骤A2:从半结构化文本中按照规则保留常见关系,构成候选关系集V;
步骤B:基于预训练模型,构建关系判别和实体对抽取的联合学习框架,对模型进行训练和测试,具体包括以下步骤:
步骤B1:将句子作为预训练模型的输入获取整个序列的编码向量;
步骤B2:利用多卷积神经网络(CNN)构建的二分类器判断关系;
步骤B3:利用注意力机制(Attention)和长短期记忆网络(LSTM),根据二分类器得到的关系提取所有可能的实体对;
步骤B4:联合训练,计算损失并迭代模型;
步骤C:将测试过程中产生的新抽取数据经筛选后加入训练集,扩增并更新训练集;
步骤D:用更新后的数据集重复迭代直至模型稳定;
步骤E:三元组数据导出并清洗,构建领域知识图谱。
本发明步骤A1中,利用爬虫抓取特定保险的网站的产品介绍和对比分析对象等半结构化数据,最终统一保留成文本形式。所述产品介绍包括产品名、产品条款等;所述对比分析对象包括保障年限、赔付比例、免赔额等。
同时进行数据清洗标注,包括有效文本段落的筛选,以及句子三元组数据标注,构建小规模保险标注数据集U。
本发明步骤A2中,所述规则是指基于人工总结的模板结合同义词和re模块进行模板匹配抽取;所述常见关系包括险种、保障类型、投保渠道、缴费年限、保障责任、给付类型、保费预算、年交保费、投保年龄、等待期、犹豫期、缴费期限、身故/意外身故、豁免责任、职业等级、可保职业范围、最高保额、特别权益、健康告知、正常承保、保单年度、终末期疾病、保障年限、赔付比例、免赔额、保险公司;所述候选关系集V,为关系判别提供辅助,在后续步骤进行关系判别时提高置信度,避免识别的关系过多;
本发明方法中,模型自身的结构和应用是本发明的关键。
具体地,例如网页的数据带有一定的规律和结构,某保险产品的页面下特定每一块介绍一个关系,包括保障年限、赔付比例、免赔额等。只要按照规则抽取每个段落的特定部分就可以全部抽出来,不同数据格式也可以给出不同的规则。本发明步骤B1中,使用Transformer基础的网络,预训练模型编码模块可以有效捕获上下文语义信息,将句子S=[w1,…wn],n表示句子的长度,作为预训练模型的输入来获取句子序列的特征向量表示;为了获得句子wi的上下文表示xi,可以使用不同的Transformer基础的网络,在本发明中使用预训练模型BERT作为基本的编码器,BERT输出如下:
{x1,…,xn}=BERT({w1,…,wn})
此处和常见的一致,句子中每个单词的特征编码xi总和了相应的标记、段和位置信息。
本发明步骤B2中,利用多卷积神经网络(CNN)构建的二分类器判别关系,所述二分类器中的关系分类部分可以识别文本中包含的关系类型。利用卷积神经网络(CNN)构建二分类器,所述二分类器的输出是对应关系是否是可能关系的概率分布:
P=Softmax(MaxPool(Conv(X)))
其中P是输出的概率分布,Softmax(·)为激活函数,MaxPool(·)为最大池化操作,Conv(·)为卷积操作,X=[x1,…,xn]是句子的编码表示。
本发明步骤B3中,利用注意力机制(Attention)和长短期记忆网络(LSTM),根据判别器得到的关系提取所有可能的实体对。给定一个文本,以及由二分类器输出的目标关系类型,提取所有可能的实体对。像大多数识别方法一样,通过识别文本中单词的开始和结束位置索引来确定一个实体,具体公式如下:
其中为注意力机制获取到的该句子中当前字注意力权重,dt为LSTM解码器的隐藏状态,模型可以一次性探索所有可能的关系,预测给定关系的所有可能的实体对;
本发明步骤B4中,联合训练,计算损失并迭代模型。将整个模型构建为端到端分块模式,从文本输入到最后的关系及实体对输出,实现联合训练。
本发明步骤C中,将测试过程中产生的新抽取数据经过筛选后扩增训练集,所述筛选包括过滤错误数据,筛选添加具有代表性或首次出现的数据。
本发明步骤D中,利用更新后的数据集重新测试模型,当出现以下两种情形:1)联合损失L≤0.1或F1得分≥0.8;或2)更新训练数据后模型效果连续两次未得到提升;满足其中任意一条则停止训练,所述模型达到稳定并最终趋于最优,否则继续训练模型;
所述F1得分是分类问题的一个衡量指标,是精确率和召回率的调和平均数,最大为1,最小为0;
所述联合损失通过下式计算:
L=λ·Lrel+(1-λ)Lent
其中,λ是超参数,用于平衡关系判别和实体对识别;Lrel是关系判别的损失;Lent是实体对识别的损失,各部分都遵循交叉熵损失函数来计算。
本发明步骤E中,三元组数据导出,构建领域知识图谱,所述三元组数据表示为<头实体,关系,尾实体>;例如<达尔文3号,保险公司,信泰人寿>,<平安e生保,等待期,30天>等;
所述清洗操作是指由于抽取出的数据始终有部分数据错误,为了更好的展示效果和进行数据再利用,对数据进行纠错、去重、去噪并辅以人工处理;所述领域知识图谱可以用于在可视化的情况下直观感受图谱数据的抽取情况,便于进一步分析。
本发明在实施过程中,区别于现有相关技术将关系和实体的抽取划分为两个独立的任务,本发明则提出了一个新颖的轻量级框架,建立关系和实体的联合抽取模型,在领域知识的三元组抽取上效果显著。同时,现有方法或者没有考虑实体重叠问题,或者无法生成全部实体对。本发明涉及到的方法将目标关系与文本的每一个词相互作用,精确地产生所有可能的实体对,自然地避免了实体重叠问题,同时可以提取多关系和多实体对。
所述实体重叠是指一句话中一个实体可以匹配到多个关系。例如“粽子起源于中国,它的首都是北京”。这里面:粽子——起源——中国,中国——首都——北京。“中国”可以被重复提取。
本发明一开始使用BERT作为初始编码器,在不需要自行训练一个预训练模型的情况下得到含有丰富语义信息的上下文编码表示。CNN可以有效判别关系同时不给模型带来过大的参数负载。普通的模型所有部分的重要性程度都是一样的,而这里的attention-based对于不同的部分,重要的程度则不同,在识别实体对时有较高的自适应性。
基于以上方法,本发明还提出了一种基于预训练模型的领域图谱实体和关系联合抽取系统,所述系统包括:
数据获取模块,用于获取公开保险网站数据信息,筛选标注形成小规模保险标注数据集U,候选关系集V;
关系判别模块,用于判别每个输入的句子中存在的关系;
实体对识别模块,用于根据判别所得的关系识别句中所有的实体对;
数据扩增模块,用于持续添加训练数据,更新模型的训练集;
图谱构建模块,用于完成三元组数据导出和保险图谱构建。
所述系统还包括BERT编码模块:用于有效捕获上下文语义信息,将句子作为预训练模型的输入获取句子序列的特征向量表示。
本发明的有益效果在于:通过数据抓取、清洗,小规模数据集的构建,可以在获取开放域数据的同时避免初期过大的人工成本;模型选择以及联合训练的实现,利用了数据挖掘与深度学习的思想和方法,最终能够得到高质量的模型效果,并成功抽取出可用于构建图谱的三元组数据。相较于现有研究,本发明更加关注联合训练,充分利用了关系判别和实体识别间的相互作用,将一个问题不再拆分成两个单独的问题,减少复杂度。
相对于现有技术,本发明避免了需要专业知识,专家经验的特征工程任务,以更为科学合理的数据驱动的方法自动提取三元组数据,侧面的减少了人工成本,易于理解,另外通过实验证明了该实体关系抽取模型的预测效果具有较先进的水平。
本发明的创新点是将关系和实体的抽取实现联合学习,同时充分利用预训练模型的语义理解能力,从少量数据即可展开,在训练中更新训练集逐步提升模型的抽取能力。最后在实际知识图谱构建场景中进行了实验,验证了本发明的有效性。
本发明在实施过程中,区别于现有相关技术将关系和实体的抽取划分为两个独立的任务,本发明则提出了一个新颖的轻量级框架,建立关系和实体的联合抽取模型,在领域知识的三元组抽取上效果显著。同时,现有方法或者没有考虑实体重叠问题,或者无法生成全部实体对。本发明涉及到的方法将目标关系与文本的每一个词相互作用,精确地产生所有可能的实体对,自然地避免了实体重叠问题,同时可以提取多关系和多实体对。
附图说明
图1为本发明的流程图。
图2为本发明模型抽取示例图。
图3为本发明抽取关系种类占比图。
图4为本发明领域图谱展示示例图。
图5为本发明系统示意图。
具体实施方式
结合以下具体实施例和附图,对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
在本发明的实施过程中,
1)评价指标:模型采用标准精度、召回率和F1评分对抽取结果进行评估。当关系类型和实体对都识别正确时,三元组的才被认为是识别正确的,识别正确这个评判的本质就是判断是否分类正确。
2)参数设置:单词嵌入使用BERT-base预训练模型。LSTM单元数和CNN分类器中使用的滤波器数为100,卷积窗口大小为3,其下的Dense层有一个100维的隐藏层,dropout概率值设为0.6。学习率设置为0.001。损失函数中的权衡参数λ设置为0.4。训练时使用Adam方法来优化参数,批处理大小(batch size)为32。
实施例1
参考图1,说明了本发明方法运行的流程。
本实施例所述基于预训练模型的知识图谱实体和关系抽取方法,包括以下步骤:
(1)获取原始数据,对数据进行标注后划分为训练集和测试集,建立初步小规模保险标注数据集U,和候选关系集V,具体包括以下步骤:
(1.1)抓取保险公司相关网站上的保险领域文本信息,利用爬虫抓取特定保险的网站的产品介绍和对比分析,最终统一保留成文本形式;
(1.2)数据清洗,将获取到的文本筛选出关键段落,去除头尾、图片等无用信息;小规模标注,从中挑选出部分具有代表性的句子段进行人工标注,并按7:3的比例划分为训练集和测试集,建立起小规模保险标注数据集U;
(1.3)从半结构化文本中按照规则保留常见关系,构成候选关系集V;
(2)基于预训练模型,构建联合学习框架,对模型进行训练和测试,具体包括以下步骤:
(2.1)将句子作为预训练模型的输入获取句子序列的编码向量,所采用的预训练模型为BERT中文。
(2.2)利用多卷积神经网络(CNN)构建的二分类器判断关系,该模块用于识别出句子中存在的关系,并为下一步实体对的识别提供依据。
(2.3)根据上一步得到的关系提取其所有可能的实体对,其中核心是注意力模块和长短期记忆网络(LSTM);
(2.4)联合训练,计算损失并迭代模型;
(3)将测试过程中产生的新抽取数据经过筛选后扩增更新训练集;
(4)用新的数据集重复迭代直至模型稳定;
(5)三元组数据导出并清洗,构建领域知识图谱。
实施例2
参考图2,是进行图谱关系和实体对抽取所使用的模型架构,其具体的可以分为三个模块:
(1)预训练模型编码模块:
预训练模型编码模块可以有效捕获上下文语义信息,将句子S=[w1,…wn],n表示句子的长度,作为预训练模型的输入来获取句子序列的特征向量表示,为了获得句子wi每个标记的上下文表示xi,可以使用不同的Transformer基础的网络,在本发明中使用预训练模型BERT(不限于BERT)作为基本的编码器,BERT输出如下:
{x1,…,xn}=BERTw1,…,wn})
此处和常见的一致,句子中每个单词的特征编码xi总和了相应的标记、段和位置信息。
(2)关系判别模块:
关系判别模块旨在识别文本中包含的关系类型。由于文本可能包含多重关系,受多标签分类思想的启发,利用卷积神经网络(CNN)构建的二分类器判断关系。给定了文本表示形式X∈Rnxd,利用CNN构建二分类器,所述二分类器的输出是对应关系是否是可能关系的概率分布:
P=Softmax(MaxPool(Conv(X)))
其中P是输出的概率分布,Softmax(·)为激活函数,MaxPool(·)为最大池化操作,Conv(·为卷积操作,X=[x1,…,xn]是句子的编码表示;
(3)实体识别模块:
根据得到的关系提取其所有可能的实体对,即实体对预测,给定一个文本,以及由二分类器输出的目标关系类型,该模块的预测器目标是提取其所有可能的实体对。像大多数识别方法一样,通过识别文本中单词的开始和结束位置索引来确定一个实体。
其中为注意力机制获取到的该句子中当前字注意力权重,dt为LSTM解码器的隐藏状态,模型可以一次性探索所有可能的关系,预测给定关系的所有可能的实体对;
给定一个文本和一个由关系分类器输出的目标关系类型,可变长度的实体识别模块旨在以一种序列的方式提取其所有可能的实体对。受指针网络找寻位置的方式的启发,模型通过识别文本中单词的开始和结束位置索引来确定一个实体。由于实体对由一系列索引生成。每两个索引可以标识一个实体,每两个实体按顺序形成一个实体对。在这种范式中,模型可以一次性探索所有可能的关系,不像之前的工作必须以多通道的方式预测目标关系。
模型首先预测所有可能的关系,然后对于每个目标关系,模型处理的原理就类似于指针网络,依次生成所有头和尾实体的边界(也就是实体开始和结束的位置),最后模型生成所有可能的实体对作为抽取结果。这样,对于每个判别出来的候选关系类型,只需要执行一次关系检测,就可以提取出所有可能的实体对,避免关系识别的重复过程。顺序地在文本中的任意位置生成实体边界。因此,它允许实体自由地参与不同的三元组。
概述来讲:
在LSTM迭代的过程中,上一层的隐状态h_(t-1)会作用于注意力网络计算出输入句子序列每个位置的注意力权重,根据该值最大的位置来作为实体的指针位置输出当前步t(step)的输出来依次找出实体对的边界。
在该模块,先将BERT编码块获取到的表示通过注意力层得到新的表示,在文本的每个位置,注意机制可获得一个加权值,它表示当前特征向量与目标关系类型之间匹配的程度。辅助判断是否为实体对中实体的开始或者结尾。
实施例3
参考图3,是最后抽取出来的三元组数据中每个关系所占的比例。
原始文本是基于保险领域相关产品的,具有比较强的针对性,对于一个保险产品的描述中,常见的关系种类有限,在实际抽取中模型可以达到较好的效果。最终呈现出图3的比例情况。
其中,最常见的关系种类一般为前十几种,往后的关系出现频率大幅减少,将剩下出现次数不高的所有关系一并归为“其它”后占比几乎与最高的一种关系持平;可见特定领域构建图谱时,很有可能会出现关系种类比较集中的情况,这有助于研究者利用该数据进行后续研究分析。
实施例4
在最开始构建原始数据集的时候,为了控制人力消耗,仅构建小规模的数据集。数据清洗工作可以根据抓取到的页面信息进行规则化的处理,保留有效段落。而在阶段性训练模型的过程中,需要让模型对数据集范围外的文本资料进行预测,抽取出三元组信息。为了提升模型的抽取能力,此时需要人为处理后筛选出部分具有代表性的数据,将其带上标注加入训练集中,扩增数据量的同时也可以增加数据属性的多样性,如此反复迭代,可以使模型学习到更好的表示能力。
最后,将本发明提出的方法,在自主构建的保险领域数据集上和Match-LSTM基准模型以及两个目前表现优异且可调整后使用的关系-实体抽取模型进行比较,可以从表1看到,本发明所提出的方法有明显的效果提升。
表1
实施例5
参考图4,为抽取出的保险领域三元组数据所构建的保险图谱示例图。
在实际判别的过程中,由于领域知识不像开放域那般毫无限制,在本次实验中,所抽取出的保险关系种类虽然繁多,但大部分比较集中,常见的大概有十几种,次常见的也有十几种,其余大都出现次数较少或者是噪音数据。
最终实验结果表明,在领域知识图谱构建时,使用本发明可以在消耗较少人力的同时,从完全没有经过处理的文本数据中,抽取出三元组数据(关系和实体对)。模型没有将命名实体识别和关系预测分开为两个单独的子任务,而是将其看做是一个完整的抽取的问题,构建联合模型实现联合训练。不光控制了人力消耗、简便了流程,同时还取得了较为显著的效果,结果更清晰、关系判别更为明确,更适用于领域数据。
实施例6
参考图5,为本发明系统示意图。
所述系统首先是数据获取模块,主要用于获取公开保险网站数据信息,经筛选标注形成小规模保险标注数据集;该数据集的数据经过预训练模型BERT编码后进入关系判别模块,该模块将输出每个输入的句子中存在的关系;随后进入实体对识别模块,根据上一模块判断所得的关系识别句中对应的所有的实体对;若此时达到预期效果,终止流程输出三元组数据构建知识图谱;若未终止,则将数据扩增模块筛选标注的新数据添加至训练数据中,再度训练模型并重复这个过程直至终止结束。整个系统实现了原始数据到图谱的全过程,不仅架构轻量,模型高效简洁,同时对半结构化的领域数据有着很好的处理效果。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。
Claims (10)
1.一种基于预训练模型的领域图谱实体和关系联合抽取方法,其特征在于,所述方法包括以下步骤:
步骤A:获取原始数据,对数据进行标注后划分为训练集和测试集,建立初步小规模保险标注数据集U和候选关系集V;
步骤B:基于预训练模型,构建关系判别和实体对抽取的联合学习框架,对联合学习框架模型进行训练和测试;
所述步骤B进一步包括以下步骤:
步骤B1:将句子作为预训练模型的输入获取整个序列的编码向量;
步骤B1中,使用Transformer基础的网络,以预训练模型编码模块有效捕获上下文语义信息,将句子S=[w1,…wn],n表示句子的长度,作为输入来获取句子序列的特征向量表示;使用预训练模型BERT作为基本的编码器,获得句子wi的上下文表示xi,BERT输出如下:
{x1,…,xn}=BERT({w1,…,wn})
其中,句子中每个单词的特征编码xi总和了相应的标记、段和位置信息;
步骤B2:利用多卷积神经网络CNN构建的二分类器判断关系;
步骤B3:利用注意力机制Attention和长短期记忆网络LSTM,根据二分类器得到的关系提取所有可能的实体对;
步骤B4:联合训练,计算损失并迭代模型;
步骤C:将测试过程中产生的新抽取数据经筛选后加入训练集,扩增并更新训练集;
步骤D:用更新后的数据集重复迭代直至模型稳定;其中,利用更新后的数据集重新测试模型,当出现以下两种情形中的任意一种:1)联合损失L≤0.1或F1得分≥0.8;或2)更新训练数据后模型效果连续两次未得到提升;则停止训练,所述模型达到稳定并最终趋于最优,否则继续训练模型;
所述F1得分是分类问题的一个衡量指标,是精确率和召回率的调和平均数,最大为1,最小为0;
所述联合损失通过下式计算:
L=λ·Lrel+(1-λ)Lent
其中,λ是超参数,用于平衡关系判别和实体对识别;Lrel是关系判别的损失;Lent是实体对识别的损失,各部分都遵循交叉熵损失函数来计算;
步骤E:三元组数据导出并清洗,构建领域知识图谱。
2.如权利要求1所述的方法,其特征在于,所述步骤A进一步包括以下步骤:
步骤A1:抓取保险公司相关网站上的保险领域文本信息,对数据进行清洗标注并按7:3的比例划分为训练集和测试集,建立小规模保险标注数据集U;
步骤A2:从半结构化文本中按照规则保留常见关系,构成候选关系集V。
3.如权利要求2所述的方法,其特征在于,步骤A1中,利用爬虫抓取特定保险的网站的半结构化数据,最终统一保留成文本形式,同时进行数据清洗标注,包括有效文本段落的筛选,以及句子三元组数据标注,构建小规模保险标注数据集U;所述半结构化数据包括产品介绍、对比分析对象;所述产品介绍包括产品名、产品条款;所述对比分析对象包括保障年限、赔付比例、免赔额。
4.如权利要求2所述的方法,其特征在于,步骤A2中,所述规则是指基于人工总结的模板结合同义词和re模块进行模板匹配抽取;所述常见关系包括险种、保障类型、投保渠道、缴费年限、保障责任、给付类型、保费预算、年交保费、投保年龄、等待期、犹豫期、缴费期限、身故/意外身故、豁免责任、职业等级、可保职业范围、最高保额、特别权益、健康告知、正常承保、保单年度、终末期疾病、保障年限、赔付比例、免赔额、保险公司;所述候选关系集V,为关系判别提供辅助。
5.如权利要求1所述的方法,其特征在于,步骤B2中,所述二分类器中的关系分类部分用于识别文本中包含的关系类型,所述二分类器的输出表示对应关系是否是可能关系的概率分布:
P=Softmax(MaxPool(Cinv(X))),
其中P是输出的概率分布,Softmax(·)为激活函数,MaxPool(·)为最大池化操作,Conv(·)为卷积操作,X=[x1,…,xn]是句子的编码表示。
6.如权利要求1所述的方法,其特征在于,步骤B3中,给定一个文本,以及由二分类器输出的目标关系类型,提取所有可能的实体对,通过识别文本中单词的开始和结束位置索引来确定一个实体,具体公式如下:
其中为注意力机制获取到的该句子中当前字注意力权重,dt为LSTM解码器的隐藏状态,模型一次性探索所有可能的关系,预测给定关系的所有可能的实体对。
7.如权利要求1所述的方法,其特征在于,步骤B4中,将整个模型构建为端到端分块模式,从文本输入到最后的关系及实体对输出,实现联合训练。
8.如权利要求1所述的方法,其特征在于,步骤C中,将测试过程中产生的新抽取数据经过筛选后扩增训练集,所述筛选包括过滤错误数据,筛选添加具有代表性或首次出现的数据。
9.如权利要求1所述的方法,其特征在于,步骤E中,所述三元组数据表示为<头实体,关系,尾实体>;所述清洗操作是指对数据进行纠错、去重、去噪并辅以人工处理;所述领域知识图谱用于在可视化的情况下直观感受图谱数据的抽取情况,便于进一步分析。
10.一种基于预训练模型的领域图谱实体和关系联合抽取系统,其特征在于,所述系统用于实现如权利要求1-9之任一项所述的方法,所述系统包括:
数据获取模块,用于获取公开保险网站数据信息,筛选标注形成小规模保险标注数据集U,候选关系集V;
关系判别模块,用于判别每个输入的句子中存在的关系;
实体对识别模块,用于根据判别所得的关系识别句中所有的实体对;
数据扩增模块,用于持续添加训练数据,更新模型的训练集;
图谱构建模块,用于完成三元组数据导出和保险图谱构建;
BERT编码模块:用于有效捕获上下文语义信息,将句子作为预训练模型的输入获取句子序列的特征向量表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110924326.3A CN113779260B (zh) | 2021-08-12 | 2021-08-12 | 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110924326.3A CN113779260B (zh) | 2021-08-12 | 2021-08-12 | 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113779260A CN113779260A (zh) | 2021-12-10 |
CN113779260B true CN113779260B (zh) | 2023-07-18 |
Family
ID=78837494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110924326.3A Active CN113779260B (zh) | 2021-08-12 | 2021-08-12 | 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779260B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114169522A (zh) * | 2021-12-13 | 2022-03-11 | 福州数据技术研究院有限公司 | 一种实体关系联合抽取方法和存储设备 |
CN114595459B (zh) * | 2021-12-22 | 2022-08-16 | 中电信数智科技有限公司 | 基于深度学习的问题整改建议生成方法 |
CN114626368B (zh) * | 2022-03-18 | 2023-06-09 | 中国电子科技集团公司第十研究所 | 一种垂直领域规则常识知识获取方法及系统 |
CN115080705B (zh) * | 2022-07-20 | 2022-11-11 | 神州医疗科技股份有限公司 | 基于双模型增强的垂直领域关系抽取方法及系统 |
CN115408534B (zh) * | 2022-08-23 | 2023-12-12 | 连连银通电子支付有限公司 | 一种知识图谱更新方法、装置、设备及存储介质 |
CN118365459B (zh) * | 2024-06-18 | 2024-08-30 | 湖南多层次商保科技有限公司 | 一种商保理赔规则智能匹配系统、方法、设备及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073711A (zh) * | 2017-12-21 | 2018-05-25 | 北京大学深圳研究生院 | 一种基于知识图谱的关系抽取方法和系统 |
CN108959328A (zh) * | 2017-05-27 | 2018-12-07 | 株式会社理光 | 知识图谱的处理方法、装置及电子设备 |
CN109933789A (zh) * | 2019-02-27 | 2019-06-25 | 中国地质大学(武汉) | 一种基于神经网络的司法领域关系抽取方法及系统 |
CN111291185A (zh) * | 2020-01-21 | 2020-06-16 | 京东方科技集团股份有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
CN111368528A (zh) * | 2020-03-09 | 2020-07-03 | 西南交通大学 | 一种面向医学文本的实体关系联合抽取方法 |
CN111444305A (zh) * | 2020-03-19 | 2020-07-24 | 浙江大学 | 一种基于知识图谱嵌入的多三元组联合抽取方法 |
CN112463982A (zh) * | 2020-11-27 | 2021-03-09 | 华东师范大学 | 一种基于显隐式实体约束的关系抽取方法 |
CN112818676A (zh) * | 2021-02-02 | 2021-05-18 | 东北大学 | 一种医学实体关系联合抽取方法 |
CN113204649A (zh) * | 2021-05-11 | 2021-08-03 | 西安交通大学 | 基于实体关系联合抽取的法律知识图谱构建方法及设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107798136B (zh) * | 2017-11-23 | 2020-12-01 | 北京百度网讯科技有限公司 | 基于深度学习的实体关系抽取方法、装置及服务器 |
CN109165385B (zh) * | 2018-08-29 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
US11574179B2 (en) * | 2019-01-07 | 2023-02-07 | International Business Machines Corporation | Deep symbolic validation of information extraction systems |
CN109902145B (zh) * | 2019-01-18 | 2021-04-20 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
CN111914091B (zh) * | 2019-05-07 | 2022-10-14 | 四川大学 | 一种基于强化学习的实体和关系联合抽取方法 |
CN111274391B (zh) * | 2020-01-15 | 2023-09-01 | 北京百度网讯科技有限公司 | 一种spo的抽取方法、装置、电子设备及存储介质 |
CN112214610B (zh) * | 2020-09-25 | 2023-09-08 | 中国人民解放军国防科技大学 | 一种基于跨度和知识增强的实体关系联合抽取方法 |
CN112989833A (zh) * | 2021-04-15 | 2021-06-18 | 广东工业大学 | 一种基于多层lstm的远程监督实体关系联合抽取方法和系统 |
CN113221567A (zh) * | 2021-05-10 | 2021-08-06 | 北京航天情报与信息研究所 | 司法领域命名实体及关系联合抽取方法 |
CN113221571B (zh) * | 2021-05-31 | 2022-07-01 | 重庆交通大学 | 基于实体相关注意力机制的实体关系联合抽取方法 |
-
2021
- 2021-08-12 CN CN202110924326.3A patent/CN113779260B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959328A (zh) * | 2017-05-27 | 2018-12-07 | 株式会社理光 | 知识图谱的处理方法、装置及电子设备 |
CN108073711A (zh) * | 2017-12-21 | 2018-05-25 | 北京大学深圳研究生院 | 一种基于知识图谱的关系抽取方法和系统 |
CN109933789A (zh) * | 2019-02-27 | 2019-06-25 | 中国地质大学(武汉) | 一种基于神经网络的司法领域关系抽取方法及系统 |
CN111291185A (zh) * | 2020-01-21 | 2020-06-16 | 京东方科技集团股份有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
CN111368528A (zh) * | 2020-03-09 | 2020-07-03 | 西南交通大学 | 一种面向医学文本的实体关系联合抽取方法 |
CN111444305A (zh) * | 2020-03-19 | 2020-07-24 | 浙江大学 | 一种基于知识图谱嵌入的多三元组联合抽取方法 |
CN112463982A (zh) * | 2020-11-27 | 2021-03-09 | 华东师范大学 | 一种基于显隐式实体约束的关系抽取方法 |
CN112818676A (zh) * | 2021-02-02 | 2021-05-18 | 东北大学 | 一种医学实体关系联合抽取方法 |
CN113204649A (zh) * | 2021-05-11 | 2021-08-03 | 西安交通大学 | 基于实体关系联合抽取的法律知识图谱构建方法及设备 |
Non-Patent Citations (2)
Title |
---|
Wang Yifan.Annotation Method for Extracting Entity Relationship from Ancient Chinese Works.《Data Analysis and Knowledge Discovery》.2021,(第5期),全文. * |
基于深度学习的实体关系联合抽取;马健红等;《计算机应用软件》;第38卷(第7期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113779260A (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113779260B (zh) | 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统 | |
CN112784092B (zh) | 一种混合融合模型的跨模态图像文本检索方法 | |
CN110532398B (zh) | 基于多任务联合神经网络模型的家族图谱自动构建方法 | |
CN111813950A (zh) | 一种基于神经网络自适应寻优调参的建筑领域知识图谱构建方法 | |
CN109598387A (zh) | 基于双向跨模态注意力网络模型的股价预测方法及系统 | |
CN114816497B (zh) | 基于bert预训练模型的链接生成方法 | |
CN116956929B (zh) | 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置 | |
CN116484024A (zh) | 一种基于知识图谱的多层次知识库构建方法 | |
CN114757432A (zh) | 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN113127716A (zh) | 一种基于显著性图的情感时间序列异常检测方法 | |
CN114331122A (zh) | 重点人员风险等级评估方法及相关设备 | |
CN116257759A (zh) | 一种深度神经网络模型的结构化数据智能分类分级系统 | |
CN117112782A (zh) | 一种招标公告信息提取方法 | |
CN115131700A (zh) | 弱监督音视频内容解析的双路层次化混合模型的训练方法 | |
CN114356990A (zh) | 基于迁移学习的基地命名实体识别系统及方法 | |
CN114595693A (zh) | 一种基于深度学习的文本情感分析方法 | |
CN116992880A (zh) | 建筑物名称的识别方法、装置、电子设备和存储介质 | |
CN116401289A (zh) | 一种基于多源信息结合的可追溯性链接自动恢复方法 | |
CN114610871B (zh) | 基于人工智能算法的情报系统建模分析方法 | |
CN114548325B (zh) | 基于对偶对比学习的零样本关系抽取方法和系统 | |
CN116450848A (zh) | 一种基于事理图谱的计算思维水平评估方法、装置及介质 | |
CN115659239A (zh) | 基于特征提取强化的高鲁棒性异质图节点分类方法及系统 | |
CN114519092A (zh) | 一种面向中文领域大规模复杂关系数据集构建框架 | |
CN114840717A (zh) | 面向图数据的挖掘方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |