CN113987090B - 句中实体关系模型训练方法及句中实体关系识别方法 - Google Patents
句中实体关系模型训练方法及句中实体关系识别方法 Download PDFInfo
- Publication number
- CN113987090B CN113987090B CN202111618295.5A CN202111618295A CN113987090B CN 113987090 B CN113987090 B CN 113987090B CN 202111618295 A CN202111618295 A CN 202111618295A CN 113987090 B CN113987090 B CN 113987090B
- Authority
- CN
- China
- Prior art keywords
- sentence
- entity
- sample
- entity relationship
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 66
- 239000013598 vector Substances 0.000 claims description 74
- 238000013139 quantization Methods 0.000 claims description 23
- 210000002569 neuron Anatomy 0.000 claims description 19
- 230000004913 activation Effects 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 230000009466 transformation Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000003058 natural language processing Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种句中实体关系模型训练方法及句中实体关系识别方法,该句中实体关系模型训练方法包括:通过已标记样本对句中实体关系模型进行训练,根据真实实体关系与训练得到的估计实体关系之间的差异性确定第一损失项;根据所述未标记样本对所述句中实体关系模型进行训练的结果与根据所述变换样本对所述句中实体关系模型进行训练得到结果之间的距离得到第二损失项,根据第一损失项及第二损失项得到第三损失项;重复执行训练过程直至第三损失项满足预设条件停止训练,得到训练好的句中实体关系模型。本发明的技术方案可以利用少量已标记样本及未标记样本对实体关系模型进行训练,得到性能较好的句中实体关系模型。
Description
技术领域
本发明涉及人工智能技术领域,具体而言,涉及一种句中实体关系模型训练方法及句中实体关系识别方法。
背景技术
自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向,其本质即实现人机间自然语言通信,或实现自然语言理解和自然语言生成,造成困难的根本原因在于自然语言文本和对话的各个层次上广泛存在各种各样的歧义性和多义性。但是从计算机处理的角度来看,我们需要消除歧义和多义,把带有多意思表达的自然语言转换成某种无歧义的计算机内部表示。而转换操作需要大量的知识和推理,而自然语言处理中,常常面临的一个重要挑战就是样本较少,这种情况主要体现在两个方面:
第一个方面是可收集得到的数据总量很少,数据收集的时间成本很高,尤其是在项目从0到1的立项初期尤为显著;第二个方面是数据的人工标注成本很高,由于自然语言处理任务大部分属于认知层面的任务,因而数据标注的难度和不确定性显著高于感知层面的任务(例如图像识别、语音识别等)。而通过少量已标记样本对机器学习模型进行训练得到的结果往往不尽如人意,模型评估准确性差。因此,如何通过少量已标记样本及未标记样本来训练满足业务需求的机器学习模型,是自然语言处理领域叩待解决的重要难题。
发明内容
鉴于上述问题,本发明实施例的目的在于提供一种句中实体关系模型训练方法及句中实体关系识别方法,以解决现有技术的不足。
根据本发明的一个实施方式,提供一种句中实体关系模型训练方法,该方法包括:
获取已标记样本、未标记样本及变换样本,其中,所述已标记样本包括数据及标签,所述未标记样本包括所述数据,所述数据为句中实体,所述标签为该句中实体之间的关系,所述变换样本是通过对所述未标记样本中的句中实体进行预设变换得到;
根据所述已标记样本对句中实体关系模型进行训练,根据真实实体关系与训练得到的估计实体关系之间的差异性确定第一损失项;所述句中实体关系模型包括向量量化层、上下文关联层、分类层及非线性激活层,所述分类层设置有神经元选择层;
根据所述未标记样本对所述句中实体关系模型进行训练,得到所述未标记样本对应的第一预测项;
根据所述变换样本对所述句中实体关系模型进行训练,得到所述变换样本对应的第二预测项;
根据所述第一预测项与所述第二预测项之间的距离得到第二损失项;
根据所述第一损失项及所述第二损失项确定第三损失项,根据所述第三损失项调整所述向量量化层、所述上下文关联层、所述分类层及所述非线性激活层之间的参数;
重复执行“根据所述已标记样本对句中实体关系进行训练”及其后续所有步骤,直至所述第三损失项满足预设条件停止执行,得到训练好的句中实体关系模型。
在上述的句中实体关系模型训练方法中,所述预设变换包括:
将所述未标记样本中的句中实体翻译成其他语言,再将其他语言翻译成该句中实体对应语言类型的内容得到变换样本;
和/或
将所述未标记样本中的句中实体进行同义词替换得到变换样本;
和/或
将所述未标记样本中的句中实体中随机插入或删除预设文字得到变换样本。
在上述的句中实体关系模型训练方法中,所述根据真实实体关系与训练得到的估计实体关系之间的差异性确定第一损失项包括:
在上述的句中实体关系模型训练方法中,所述根据所述第一预测项与所述第二预测项之间的距离得到第二损失项包括:
在上述的句中实体关系模型训练方法中,所述根据所述第一损失项及所述第二损失项确定第三损失项包括:
在上述的句中实体关系模型训练方法中,所述句中实体之间的关系包括上下位关系、下上位关系、同位关系及无关系;预先为句子中目标实体之前标记开始符,在所述目标实体之后标记结束符;其中,所述开始符和所述结束符成对出现;所句中实体通过以下方式获取:
识别句子中是否存在所述开始符;
若所述句子中存在开始符,识别句子中是否存在所述结束符;
若所述句子中存在结束符,则提取所述开始符和所述结束符之间的内容作为句中实体。
根据本发明的另一个实施方法,提供一种句中实体关系识别方法,该方法包括:
获取句子;
识别所述句子中是否存在开始符,
若所述句子中存在开始符,识别句子中是否存在结束符;
若所述句子中存在结束符,则提取所述开始符和所述结束符之间的内容作为句中实体;
将每个句子中至少两个句中实体作为输入向量,输入到句中实体关系模型中得到该至少两个句中实体属于句中实体关系中各关系的概率值,其中,所述句中实体关系模型包括向量量化层、上下文关联层、分类层及非线性激活层,所述分类层设置有神经元选择层;所述句中实体之间的关系包括上下位关系、下上位关系、同位关系及无关系;
将最大概率值对应的关系作为所述至少两个句中实体对应的句中实体关系。
在上述的句中实体关系识别方法中,所述向量量化层用于将输入向量量化为多维特征矩阵;
所述将输入向量量化为多维特征矩阵包括:
将所述输入向量转换为第一预设编码;
将所述输入向量中每一句中实体各文字之间的关系转换为第二预设编码;
根据所述第一预设编码及所述第二预设编码构建所述多维特征矩阵。
根据本发明的另一个实施方式,提供一种句中实体关系模型训练装置,该装置包括:
样本获取模块,用于获取已标记样本、未标记样本及变换样本,其中,所述已标记样本包括数据及标签,所述未标记样本包括所述数据,所述数据为句中实体,所述标签为该句中实体之间的关系,所述变换样本是通过对所述未标记样本中的句中实体进行预设变换得到;
第一训练模块,用于根据所述已标记样本对句中实体关系模型进行训练,根据真实实体关系与训练得到的估计实体关系之间的差异性确定第一损失项;所述句中实体关系模型包括向量量化层、上下文关联层、分类层及非线性激活层,所述分类层设置有神经元选择层;
第二训练模块,用于根据所述未标记样本对所述句中实体关系模型进行训练,得到所述未标记样本对应的第一预测项;
第三训练模块,用于根据所述变换样本对所述句中实体关系模型进行训练,得到所述变换样本对应的第二预测项;
第一损失确定模块,用于根据所述第一预测项与所述第二预测项之间的距离得到第二损失项;
第二损失确定模块,用于根据所述第一损失项及所述第二损失项确定第三损失项,根据所述第三损失项调整所述向量量化层、所述上下文关联层、所述分类层及所述非线性激活层之间的参数;
模型确定模块,用于重复执行第一训练模块、第二训练模块、第三训练模块、第一损失确定模块及第二损失确定模块中的所有内容,直至所述第三损失项满足预设条件停止执行,得到训练好的句中实体关系模型。
根据本发明的另一个实施方式,提供一种句中实体关系识别装置,该装置包括:
句子获取模块,用于获取句子;
第一识别模块,用于识别所述句子中是否存在开始符;
第二识别模块,用于若所述句子中存在开始符,识别句子中是否存在结束符;
提取模块,用于若所述句子中存在结束符,则提取所述开始符和所述结束符之间的内容作为句中实体;
识别模块,用于将每个句子中至少两个句中实体作为输入向量,输入到句中实体关系模型中得到该至少两个句中实体属于句中实体关系中各关系的概率值,其中,所述句中实体关系模型包括向量量化层、上下文关联层、分类层及非线性激活层,所述分类层设置有神经元选择层;所述句中实体之间的关系包括上下位关系、下上位关系、同位关系及无关系;
关系确定模块,用于将最大概率值对应的关系作为所述至少两个句中实体对应的句中实体关系。
根据本发明的再一个实施方式,提供一种电子设备,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述的句中实体关系模型训练方法或句中实体关系识别方法。
根据本发明的又一个实施方式,提供一种计算机可读存储介质,其存储有所述电子设备中所用的所述计算机程序。
本公开的实施例提供的技术方案可以包括如下有益效果:
本发明中一种句中实体关系模型训练方法,该方法包括:获取已标记样本、未标记样本及变换样本,其中,所述已标记样本包括数据及标签,所述未标记样本包括所述数据,所述数据为句中实体,所述标签为该句中实体之间的关系,所述变换样本是通过对所述未标记样本中的句中实体进行预设变换得到,通过少量的已标记样本及未标记样本即可对句中实体关系模型进行训练。根据所述已标记样本对句中实体关系模型进行训练,根据真实实体关系与训练得到的估计实体关系之间的差异性确定第一损失项;所述句中实体关系模型包括向量量化层、上下文关联层、分类层及非线性激活层,所述分类层设置有神经元选择层;根据所述未标记样本对所述句中实体关系模型进行训练,得到所述未标记样本对应的第一预测项;根据所述变换样本对所述句中实体关系模型进行训练,得到所述变换样本对应的第二预测项;根据所述第一预测项与所述第二预测项之间的距离得到第二损失项;根据所述第一损失项及所述第二损失项确定第三损失项,分别通过对已标记样本确定的第一损失项、未标记样本确定的第二损失项确定句中实体关系模型训练过程中的第三损失项,根据所述第三损失项调整所述向量量化层、所述上下文关联层、所述分类层及所述非线性激活层之间的参数;重复执行“根据所述已标记样本对句中实体关系进行训练”及其后续所有步骤,直至所述第三损失项满足预设条件停止执行,得到训练好的句中实体关系模型。本发明技术方案可以在少量已标记样本和未标记样本的基础上,对句中实体关系模型进行训练,针对不同的样本类型进行不同的损失项计算,得到满足业务需求的句中实体关系模型,在少量已标记样本的情况训练得到效果较好的句中实体关系模型。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明第一实施例提供的一种句中实体关系模型训练方法的流程示意图;
图2示出了本发明第一实施例提供的一种句中实体关系模型的网络结构示意图;
图3示出了本发明第一实施例提供的一种向量量化层的网络结构示意图;
图4示出了本发明第一实施例提供的一种上下文关联层中计算参数的结构示意图;
图5示出了本发明第一实施例提供的一种分类层的网络结构示意图;
图6示出了本发明第二实施例提供的一种句中实体关系识别方法的流程示意图;
图7示出了本发明第三实施例提供的一种句中实体关系模型训练装置的结构示意图;
图8示出了本发明第四实施例提供的一种句中实体关系识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
图1示出了本发明第一实施例提供的一种句中实体关系模型训练方法的流程示意图。
该句中实体关系模型训练方法包括以下步骤:
在步骤S110中,获取已标记样本、未标记样本及变换样本。
所述已标记样本包括数据及标签,所述未标记样本包括所述数据,所述数据为句中实体,所述标签为该句中实体之间的关系,所述变换样本是通过对所述未标记样本中的句中实体进行预设变换得到。
本实施例中,所述已标记样本、未标记样本及变换样本均用于训练句中实体关系模型,该句中实体关系模型用来识别句中两个实体之间的关系,该关系包括:上下位关系,下上位关系,同位关系或无关系。
对于自然语言处理领域,常常面临的一个重要挑战就是样本较少,已标记样本更是占比较低,其中一个原因在于自然语言处理属于认知层面的问题,其标记难度较大。因此,本实施例通过少量已标记样本、部分未标记样本及部分变换样本对句中实体关系模型进行训练,以少量标记样本来达到很好的训练的效果,得到满足业务需求的句中实体关系模型。
本实施例中,所述已标记样本示例可以为:
而未标记样本则仅仅包含数据,未对数据打标签。
本实施例中,为了增加句中实体关系模型的泛化程度,还对未标记样本进行预设变换,得到变换样本,通过变换样本对句中实体关系模型进行训练,以使训练后的句中实体关系模型具备对变换数据的识别能力。
本实施例中,所述预设变换包括:
将所述未标记样本中的句中实体翻译成其他语言,再将其他语言翻译成该句中实体对应语言类型的内容得到变换样本;和/或
将所述未标记样本中的句中实体进行同义词替换得到变换样本;和/或
将所述未标记样本中的句中实体中随机插入或删除预设文字得到变换样本。
具体地,举例说明将所述未标记样本中的句中实体翻译成其他语言,再将其他语言翻译成该句中实体对应语言类型的内容得到变换样本:如果未标记样本中的句中实体是中文,可以将未标记样本中的句中实体翻译为英文,再将英文翻译成中文, 得到变换样本。该种情况下,可以提高句中实体关系模型的泛化性,以应对不同语言翻译造成实体表示偏差的情况。
举例说明将所述未标记样本中的句中实体进行同义词替换得到变换样本:将未标记样本中的句中实体用同义词替换得到变换样本,该同义词为预设同义词库中获取。通过该种方式可以提高句中实体关系模型的泛化性,以应对不同词语表示相同意思的情况。
举例说明将所述未标记样本中的句中实体中随机插入或删除预设文字得到变换样本:将未标记样本中的句中实体中随机插入或删除预设文字得到变换样本,该预设文字可以为预先设定的,也可以为随机生成的。通过该种方式可以提高句中实体关系模型的泛化性,以应对句中实体内容输入错误或更新错误的情况。
在步骤S120中,根据所述已标记样本对句中实体关系模型进行训练,根据真实实体关系与训练得到的估计实体关系之间的差异性确定第一损失项。
本实施例中,所述句中实体关系模型包括向量量化层、上下文关联层、分类层及非线性激活层,所述分类层设置有神经元选择层。
如图2所示,将所述已标记样本、未标记样本及变换样本作为输入,送入向量量化层,所述向量量化层用于将输入量化为实体向量。将实体向量输入到上下文关联层,所述上下文关联层用于根据实体向量的时序相关性来计算向量量化层到上下文关联层之间的参数,所述上下文关联层还根据不同的实体向量自动调整向量量化层到上下文关联层之间的参数,将所述参数和实体向量的积作为关联向量。将所述关联向量输入到分类层中对句中实体关系进行分类,将分类的结果通过softmax非线性激活函数后得到该两个句中实体之间属于不同类型句中实体关系的概率分布。将概率分布值最大的句中实体关系作为估计实体关系。该估计实体关系即所述句中实体关系模型根据输入的样本估计到的句中实体关系。
如图3所示,所述向量量化层用于将输入中的句中实体中的字向量、文本向量、位置向量机连接关系向量进行结合得到的输出作为实体向量。
所述字向量通过以下方式运算:
针对输入的句中实体的每一字符,根据预设的字符词典,将所述每一字符均转换为第一预设编码,将所述第一预设编码作为所述字向量;所述字符词典中包括各字符和对应第一预设编码之间的对应关系。
所述文本向量通过以下方式运算:
将所述句中实体作为整体,根据预设的文本词典,将所述句中实体转换为第三预设编码,将所述第三预设编码作为所述文本向量;所述文本词典中包含各文本与所述第三预设编码之间的对应关系。
所述文本向量还可以通过以下方式运算:
通过文本转换模型将所述句中实体转为为向量,作为所述文本向量。所述文本转换模型是通过大量的样本预先训练好的,所述大量的样本包括数据和标签,所述数据是句中实体,所述标签是句中实体对应的向量。
所述位置向量通过以下方式运算:
所述位置向量表征所述各句中各文本之间的时序关联程度,例如打开现在热度第一的新闻的第一句话:“重庆主城区一栋30层的居民楼发生大火,造成百余名群众被困,重庆市政府迅速调集消防、公安、卫生等数百名人员赶赴现场施救。”其中,“重庆市”与“主城区”相关度最高,位置最近。当对自然语言处理时,位置更近的文本一般相关性更大,所以将位置向量融入到实体向量中是很有必要的。
可以通过以下方式计算文本的位置信息:
其中,,均表示位置信息,pos为句中字符的位置,i为词向量的维度。第一个公式中sin计算对应着偶数的序号的维度,第二个公式中cos计算对应着奇数的序号的维度,从而通过sin和cos的处理产生不同的周期性变化,随着奇数或偶数的序号的维度越来越大,周期变化会越来越慢,从而产生一种包含位置信息的纹理。
将句中各文本的位置信息组成向量作为位置向量。
所述连接关系向量通过以下方式运算:
将句子中,句中实体所在位置向量值标1,将非句中实体所在位置向量值标0得到连接关系向量。
如图4所示为上下文关联层计算参数的过程:若为句子中的4条输入信息,将4条输入信息加上位置向量及连接关系向量后得到。对每条信息分配3个权重,将该3个权重分别与相乘后形成3个矩阵Q、K、V,也就是图4中的:
其中,j的取值为1~i。
如图5所示,分类层可以为多隐藏层的网络层次结构,具体可参见神经网络结构,这里不做赘述。将上下文关联层的输出向量作为分类层的输入向量a,输入到分类层,通过分类层内的各个隐藏层来进行加权运算,最终得到输出向量b。将输出向量b通过非线性激活函数softmax后,得到句中实体之间关系的概率分布值。
值得注意的是,在分类层还设置有神经元选择层,所述神经元选择层用于为了防止句中实体关系模型的过拟合。如图5所示,由于在分类层中存在多个隐藏层,每一个隐藏层中包含多个神经元,因此,输入、输出及各个隐藏层之间会存在大量的参数,所以,为了防止大量的参数及运算导致过拟合,可根据相应的概率拿掉隐藏层中的一些神经元,然后开始训练,训练过程中只更新没有被拿掉神经元的参数。一次训练结束之后,在第二次训练的过程中,重新根据相应的概率拿掉一部分神经元,然后开始训练,如果第二次训练的神经元已经在第一次当中训练过,那么第二次训练过程中继续更新参数。而第二次训练被剪掉的神经元,同时第一次训练过程中已经更新过参数的,继续保留其参数,不做修改。重复执行上述过程直至第n次训练结束为止。
通过上述的运算之后,句中实体关系模型会得出一个估计实体关系,而输入的已标记样本中标签表征的是真实实体关系。因此,对于已标记样本来说,通过估计实体关系与真实实体关系之间的差异性来确定第一损失项。
进一步地,所述根据真实实体关系与训练得到的估计实体关系之间的差异性确定第一损失项包括:
在步骤S130中,根据所述未标记样本对所述句中实体关系模型进行训练,得到所述未标记样本对应的第一预测项。
具体地,所述第一预测项是根据训练中的句中实体关系模型对无标记样本进行预估得到的估计实体关系。
在步骤S140中,根据所述变换样本对所述句中实体关系模型进行训练,得到所述变换样本对应的第二预测项。
具体地,所述第二预测项是根据训练中的句中实体关系模型对变换样本进行预估得到的估计实体关系。
在步骤S150中,根据所述第一预测项与所述第二预测项之间的距离得到第二损失项。
具体地,所述根据所述第一预测项与所述第二预测项之间的距离得到第二损失项包括:
在步骤S160中,根据所述第一损失项及所述第二损失项确定第三损失项,根据所述第三损失项调整所述向量量化层、所述上下文关联层、所述分类层及所述非线性激活层之间的参数。
具体地,所述根据所述第一损失项及所述第二损失项确定第三损失项包括:
在步骤S170中,判断第三损失项是否满足预设条件。
判断第三损失项是否满足预设条件,所述预设条件可以为所述第三损失项已经控制在误差允许范围内。如果第三损失项满足预设条件,则训练结束,继续执行S180,得到训练好的句中实体关系模型;如果第三损失项未满足预设条件,继续返回步骤S120及其后续所有步骤,继续执行训练操作。
在步骤S180中,得到训练好的句中实体关系模型。
进一步地,所述句中实体之间的关系包括上下位关系、下上位关系、同位关系及无关系;预先为句子中目标实体之前标记开始符,在所述目标实体之后标记结束符;其中,所述开始符和所述结束符成对出现;所句中实体通过以下方式获取:
识别句子中是否存在所述开始符;若所述句子中存在开始符,识别句子中是否存在所述结束符;若所述句子中存在结束符,则提取所述开始符和所述结束符之间的内容作为句中实体。
参考步骤S110中表格中已标记数据:
<E1>鼻涕<E2>5天了,一开始是<E3>清鼻涕<E4>,其中,<E1>、<E2>、<E3>、<E4>是实体标记,<E1>和<E2>是实体1的开始符和结束符, <E3>和<E4>是实体2的开始符和结束符。提取开始符和结束符之间的内容作为句中实体。
通过以上步骤,可以利用少量的已标记样本及未标记样本对实体关系模型进行训练,得到性能较好的句中实体关系模型。
实施例2
图6示出了本发明第二实施例提供的一种句中实体关系识别方法的流程示意图。
该句中实体关系识别方法包括以下步骤:
在步骤S210中,获取句子。
在步骤S220中,识别所述句子中是否存在开始符。
在步骤S230中,若所述句子中存在开始符,识别句子中是否存在结束符。
在步骤S240中,若所述句子中存在结束符,则提取所述开始符和所述结束符之间的内容作为句中实体。
步骤S220~S240中,参考步骤S110中表格中已标记数据:
<E1>鼻涕<E2>5天了,一开始是<E3>清鼻涕<E4>,其中,<E1>、<E2>、<E3>、<E4>是实体标记,<E1>和<E2>是实体1的开始符和结束符, <E3>和<E4>是实体2的开始符和结束符。提取开始符和结束符之间的内容作为句中实体。
在步骤S250中,将每个句子中至少两个句中实体作为输入向量,输入到句中实体关系模型中得到该至少两个句中实体属于句中实体关系中各关系的概率值。
其中,所述句中实体关系模型包括向量量化层、上下文关联层、分类层及非线性激活层,所述分类层设置有神经元选择层;所述句中实体之间的关系包括上下位关系、下上位关系、同位关系及无关系。
所述句中实体关系模型可参照实施例中步骤S120中描述内容,在此不再赘述。
在步骤S260中,将最大概率值对应的关系作为所述至少两个句中实体对应的句中实体关系。
在得到概率分布值后,将最大概率分布值对应的关系作为句中实体关系。
进一步地,所述向量量化层用于将输入向量量化为多维特征矩阵;
所述将输入向量量化为多维特征矩阵包括:将所述输入向量转换为第一预设编码;将所述输入向量中每一句中实体各文字之间的关系转换为第二预设编码;根据所述第一预设编码及所述第二预设编码构建所述多维特征矩阵。
具体地,可以参见实施例1中步骤S120中对图3的解释内容,在此不做赘述。
实施例3
图7示出了本发明第三实施例提供的一种句中实体关系模型训练装置的结构示意图。该句中实体关系模型训练装置30对应于实施例1中的句中实体关系模型训练方法,实施例1中的句中实体关系模型训练方法同样也适用于该句中实体关系模型训练装置30,在此不再赘述。
该句中实体关系模型训练装置30包括样本获取模块301、第一训练模块302、第二训练模块303、第三训练模块304、第一损失确定模块305、第二损失确定模块306及模型确定模块307。
样本获取模块301,用于获取已标记样本、未标记样本及变换样本,其中,所述已标记样本包括数据及标签,所述未标记样本包括所述数据,所述数据为句中实体,所述标签为该句中实体之间的关系,所述变换样本是通过对所述未标记样本中的句中实体进行预设变换得到。
第一训练模块302,用于根据所述已标记样本对句中实体关系模型进行训练,根据真实实体关系与训练得到的估计实体关系之间的差异性确定第一损失项;所述句中实体关系模型包括向量量化层、上下文关联层、分类层及非线性激活层,所述分类层设置有神经元选择层。
第二训练模块303,用于根据所述未标记样本对所述句中实体关系模型进行训练,得到所述未标记样本对应的第一预测项。
第三训练模块304,用于根据所述变换样本对所述句中实体关系模型进行训练,得到所述变换样本对应的第二预测项。
第一损失确定模块305,用于根据所述第一预测项与所述第二预测项之间的距离得到第二损失项。
第二损失确定模块306,用于根据所述第一损失项及所述第二损失项确定第三损失项,根据所述第三损失项调整所述向量量化层、所述上下文关联层、所述分类层及所述非线性激活层之间的参数。
模型确定模块307,用于重复执行第一训练模块302、第二训练模块303、第三训练模块304、第一损失确定模块305及第二损失确定模块306中的所有内容,直至所述第三损失项满足预设条件停止执行,得到训练好的句中实体关系模型。
实施例4
图8示出了本发明第四实施例提供的一种句中实体识别装置的结构示意图。该句中实体关系识别装置40对应于实施例2中的句中实体关系识别方法,实施例2中的句中实体关系识别方法同样也适用于该句中实体关系识别装置40,在此不再赘述。
该句中实体关系识别装置40包括句子获取模块401、第一识别模块402、第二识别模块403、提取模块404、识别模块405级关系确定模块406。
句子获取模块401,用于获取句子。
第一识别模块402,用于识别所述句子中是否存在开始符。
第二识别模块403,用于若所述句子中存在开始符,识别句子中是否存在结束符。
提取模块404,用于若所述句子中存在结束符,则提取所述开始符和所述结束符之间的内容作为句中实体。
识别模块405,用于将每个句子中至少两个句中实体作为输入向量,输入到句中实体关系模型中得到该至少两个句中实体属于句中实体关系中各关系的概率值,其中,所述句中实体关系模型包括向量量化层、上下文关联层、分类层及非线性激活层,所述分类层设置有神经元选择层;所述句中实体之间的关系包括上下位关系、下上位关系、同位关系及无关系。
关系确定模块406,用于将最大概率值对应的关系作为所述至少两个句中实体对应的句中实体关系。
本发明另一实施例还提供了一种电子设备,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述的句中实体关系模型训练方法、句中实体关系识别方法、上述的句中实体关系模型训练装置中各模块的功能或句中实体关系识别装置中各模块的功能。
存储器可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本实施例还提供了一种计算机可读存储介质,用于储存上述的电子设备中所使用的句中实体关系模型训练方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种句中实体关系模型训练方法,其特征在于,该方法包括:
获取已标记样本、未标记样本及变换样本,其中,所述已标记样本包括数据及标签,所述未标记样本包括所述数据,所述数据为句中实体,所述标签为该句中实体之间的关系,所述变换样本是通过对所述未标记样本中的句中实体进行预设变换得到;
根据所述已标记样本对句中实体关系模型进行训练,根据真实实体关系与训练得到的估计实体关系之间的差异性确定第一损失项;所述句中实体关系模型包括向量量化层、上下文关联层、分类层及非线性激活层,所述分类层设置有神经元选择层;
根据所述未标记样本对所述句中实体关系模型进行训练,得到所述未标记样本对应的第一预测项;
根据所述变换样本对所述句中实体关系模型进行训练,得到所述变换样本对应的第二预测项;
根据所述第一预测项与所述第二预测项之间的距离得到第二损失项;
根据所述第一损失项及所述第二损失项确定第三损失项,根据所述第三损失项调整所述向量量化层、所述上下文关联层、所述分类层及所述非线性激活层之间的参数;
重复执行“根据所述已标记样本对句中实体关系进行训练”及其后续所有步骤,直至所述第三损失项满足预设条件停止执行,得到训练好的句中实体关系模型。
2.根据权利要求1所述的句中实体关系模型训练方法,其特征在于,所述预设变换包括:
将所述未标记样本中的句中实体翻译成其他语言,再将其他语言翻译成该句中实体对应语言类型的内容得到变换样本;
和/或
将所述未标记样本中的句中实体进行同义词替换得到变换样本;
和/或
将所述未标记样本中的句中实体中随机插入或删除预设文字得到变换样本。
6.根据权利要求1所述的句中实体关系模型训练方法,其特征在于,所述句中实体之间的关系包括上下位关系、下上位关系、同位关系及无关系;预先为句子中目标实体之前标记开始符,在所述目标实体之后标记结束符;其中,所述开始符和所述结束符成对出现;所句中实体通过以下方式获取:
识别句子中是否存在所述开始符;
若所述句子中存在开始符,识别句子中是否存在所述结束符;
若所述句子中存在结束符,则提取所述开始符和所述结束符之间的内容作为句中实体。
7.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1-6任一项所述的句中实体关系模型训练方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有权利要求7所述的电子设备中所用的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111618295.5A CN113987090B (zh) | 2021-12-28 | 2021-12-28 | 句中实体关系模型训练方法及句中实体关系识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111618295.5A CN113987090B (zh) | 2021-12-28 | 2021-12-28 | 句中实体关系模型训练方法及句中实体关系识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113987090A CN113987090A (zh) | 2022-01-28 |
CN113987090B true CN113987090B (zh) | 2022-03-25 |
Family
ID=79734650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111618295.5A Active CN113987090B (zh) | 2021-12-28 | 2021-12-28 | 句中实体关系模型训练方法及句中实体关系识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113987090B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036181A (zh) * | 2019-05-14 | 2020-12-04 | 上海晶赞融宣科技有限公司 | 实体关系识别方法、装置及计算机可读存储介质 |
CN112270196A (zh) * | 2020-12-14 | 2021-01-26 | 完美世界(北京)软件科技发展有限公司 | 实体关系的识别方法、装置及电子设备 |
CN113468888A (zh) * | 2021-06-25 | 2021-10-01 | 浙江华巽科技有限公司 | 基于神经网络的实体关系联合抽取方法与装置 |
CN113823272A (zh) * | 2021-06-02 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、电子设备以及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165385B (zh) * | 2018-08-29 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
-
2021
- 2021-12-28 CN CN202111618295.5A patent/CN113987090B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036181A (zh) * | 2019-05-14 | 2020-12-04 | 上海晶赞融宣科技有限公司 | 实体关系识别方法、装置及计算机可读存储介质 |
CN112270196A (zh) * | 2020-12-14 | 2021-01-26 | 完美世界(北京)软件科技发展有限公司 | 实体关系的识别方法、装置及电子设备 |
CN113823272A (zh) * | 2021-06-02 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、电子设备以及存储介质 |
CN113468888A (zh) * | 2021-06-25 | 2021-10-01 | 浙江华巽科技有限公司 | 基于神经网络的实体关系联合抽取方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113987090A (zh) | 2022-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984526B (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
CN109635124B (zh) | 一种结合背景知识的远程监督关系抽取方法 | |
CN111581973B (zh) | 一种实体消歧方法及系统 | |
CN110928997A (zh) | 意图识别方法、装置、电子设备及可读存储介质 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN112231447B (zh) | 一种中文文档事件抽取的方法和系统 | |
CN112100346B (zh) | 基于细粒度图像特征和外部知识相融合的视觉问答方法 | |
CN110598206A (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN111401084A (zh) | 一种机器翻译的方法、设备以及计算机可读存储介质 | |
CN113128203A (zh) | 基于注意力机制的关系抽取方法、系统、设备及存储介质 | |
CN113282713B (zh) | 基于差异性神经表示模型的事件触发词检测方法 | |
CN110895559A (zh) | 模型训练、文本处理方法、装置以及设备 | |
CN115617955B (zh) | 分级预测模型训练方法、标点符号恢复方法及装置 | |
CN113282714B (zh) | 一种基于区分性词向量表示的事件检测方法 | |
CN116432655B (zh) | 基于语用知识学习的少样本命名实体识别方法和装置 | |
CN114282527A (zh) | 多语言文本检测与纠错方法、系统、电子设备及存储介质 | |
CN111859979A (zh) | 讽刺文本协同识别方法、装置、设备及计算机可读介质 | |
CN114756675A (zh) | 文本分类方法、相关设备及可读存储介质 | |
CN115130538A (zh) | 文本分类模型的训练方法、文本处理的方法、设备及介质 | |
CN117349423A (zh) | 一种模板匹配式水利领域知识问答模型 | |
CN114298055B (zh) | 基于多级语义匹配的检索方法、装置、计算机设备和存储介质 | |
US11822887B2 (en) | Robust name matching with regularized embeddings | |
US20220245179A1 (en) | Semantic phrasal similarity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |