CN113987090A - 句中实体关系模型训练方法及句中实体关系识别方法 - Google Patents

句中实体关系模型训练方法及句中实体关系识别方法 Download PDF

Info

Publication number
CN113987090A
CN113987090A CN202111618295.5A CN202111618295A CN113987090A CN 113987090 A CN113987090 A CN 113987090A CN 202111618295 A CN202111618295 A CN 202111618295A CN 113987090 A CN113987090 A CN 113987090A
Authority
CN
China
Prior art keywords
sentence
entity
sample
entity relationship
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111618295.5A
Other languages
English (en)
Other versions
CN113987090B (zh
Inventor
于游
李乘风
廖望梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Longhui Information Technology Co ltd
Original Assignee
Beijing Longhui Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Longhui Information Technology Co ltd filed Critical Beijing Longhui Information Technology Co ltd
Priority to CN202111618295.5A priority Critical patent/CN113987090B/zh
Publication of CN113987090A publication Critical patent/CN113987090A/zh
Application granted granted Critical
Publication of CN113987090B publication Critical patent/CN113987090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种句中实体关系模型训练方法及句中实体关系识别方法,该句中实体关系模型训练方法包括:通过已标记样本对句中实体关系模型进行训练,根据真实实体关系与训练得到的估计实体关系之间的差异性确定第一损失项;根据所述未标记样本对所述句中实体关系模型进行训练的结果与根据所述变换样本对所述句中实体关系模型进行训练得到结果之间的距离得到第二损失项,根据第一损失项及第二损失项得到第三损失项;重复执行训练过程直至第三损失项满足预设条件停止训练,得到训练好的句中实体关系模型。本发明的技术方案可以利用少量已标记样本及未标记样本对实体关系模型进行训练,得到性能较好的句中实体关系模型。

Description

句中实体关系模型训练方法及句中实体关系识别方法
技术领域
本发明涉及人工智能技术领域,具体而言,涉及一种句中实体关系模型训练方法及句中实体关系识别方法。
背景技术
自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向,其本质即实现人机间自然语言通信,或实现自然语言理解和自然语言生成,造成困难的根本原因在于自然语言文本和对话的各个层次上广泛存在各种各样的歧义性和多义性。但是从计算机处理的角度来看,我们需要消除歧义和多义,把带有多意思表达的自然语言转换成某种无歧义的计算机内部表示。而转换操作需要大量的知识和推理,而自然语言处理中,常常面临的一个重要挑战就是样本较少,这种情况主要体现在两个方面:
第一个方面是可收集得到的数据总量很少,数据收集的时间成本很高,尤其是在项目从0到1的立项初期尤为显著;第二个方面是数据的人工标注成本很高,由于自然语言处理任务大部分属于认知层面的任务,因而数据标注的难度和不确定性显著高于感知层面的任务(例如图像识别、语音识别等)。而通过少量已标记样本对机器学习模型进行训练得到的结果往往不尽如人意,模型评估准确性差。因此,如何通过少量已标记样本及未标记样本来训练满足业务需求的机器学习模型,是自然语言处理领域叩待解决的重要难题。
发明内容
鉴于上述问题,本发明实施例的目的在于提供一种句中实体关系模型训练方法及句中实体关系识别方法,以解决现有技术的不足。
根据本发明的一个实施方式,提供一种句中实体关系模型训练方法,该方法包括:
获取已标记样本、未标记样本及变换样本,其中,所述已标记样本包括数据及标签,所述未标记样本包括所述数据,所述数据为句中实体,所述标签为该句中实体之间的关系,所述变换样本是通过对所述未标记样本中的句中实体进行预设变换得到;
根据所述已标记样本对句中实体关系模型进行训练,根据真实实体关系与训练得到的估计实体关系之间的差异性确定第一损失项;所述句中实体关系模型包括向量量化层、上下文关联层、分类层及非线性激活层,所述分类层设置有神经元选择层;
根据所述未标记样本对所述句中实体关系模型进行训练,得到所述未标记样本对应的第一预测项;
根据所述变换样本对所述句中实体关系模型进行训练,得到所述变换样本对应的第二预测项;
根据所述第一预测项与所述第二预测项之间的距离得到第二损失项;
根据所述第一损失项及所述第二损失项确定第三损失项,根据所述第三损失项调整所述向量量化层、所述上下文关联层、所述分类层及所述非线性激活层之间的参数;
重复执行“根据所述已标记样本对句中实体关系进行训练”及其后续所有步骤,直至所述第三损失项满足预设条件停止执行,得到训练好的句中实体关系模型。
在上述的句中实体关系模型训练方法中,所述预设变换包括:
将所述未标记样本中的句中实体翻译成其他语言,再将其他语言翻译成该句中实体对应语言类型的内容得到变换样本;
和/或
将所述未标记样本中的句中实体进行同义词替换得到变换样本;
和/或
将所述未标记样本中的句中实体中随机插入或删除预设文字得到变换样本。
在上述的句中实体关系模型训练方法中,所述根据真实实体关系与训练得到的估计实体关系之间的差异性确定第一损失项包括:
Figure DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE002
为第一损失项,
Figure DEST_PATH_IMAGE003
为第i个已标记样本对应的估计实体关系的概率分布值,
Figure DEST_PATH_IMAGE004
为第i个已标记样本对应的真实实体关系的概率分布值,i为第i个已标记样本。
在上述的句中实体关系模型训练方法中,所述根据所述第一预测项与所述第二预测项之间的距离得到第二损失项包括:
Figure DEST_PATH_IMAGE005
其中,
Figure DEST_PATH_IMAGE006
为所述第二损失项,
Figure DEST_PATH_IMAGE007
为第j个未标签样本对应第一预测项的概率分布值;
Figure DEST_PATH_IMAGE008
为第j个未标签样本变换后的变换样本对应第二预测项的概率分布值。
在上述的句中实体关系模型训练方法中,所述根据所述第一损失项及所述第二损失项确定第三损失项包括:
Figure DEST_PATH_IMAGE009
其中,
Figure DEST_PATH_IMAGE010
为所述第三损失项,
Figure DEST_PATH_IMAGE011
为所述第一损失项,
Figure DEST_PATH_IMAGE012
为所述第二损失项,
Figure DEST_PATH_IMAGE013
为超参数。
在上述的句中实体关系模型训练方法中,所述句中实体之间的关系包括上下位关系、下上位关系、同位关系及无关系;预先为句子中目标实体之前标记开始符,在所述目标实体之后标记结束符;其中,所述开始符和所述结束符成对出现;所句中实体通过以下方式获取:
识别句子中是否存在所述开始符;
若所述句子中存在开始符,识别句子中是否存在所述结束符;
若所述句子中存在结束符,则提取所述开始符和所述结束符之间的内容作为句中实体。
根据本发明的另一个实施方法,提供一种句中实体关系识别方法,该方法包括:
获取句子;
识别所述句子中是否存在开始符,
若所述句子中存在开始符,识别句子中是否存在结束符;
若所述句子中存在结束符,则提取所述开始符和所述结束符之间的内容作为句中实体;
将每个句子中至少两个句中实体作为输入向量,输入到句中实体关系模型中得到该至少两个句中实体属于句中实体关系中各关系的概率值,其中,所述句中实体关系模型包括向量量化层、上下文关联层、分类层及非线性激活层,所述分类层设置有神经元选择层;所述句中实体之间的关系包括上下位关系、下上位关系、同位关系及无关系;
将最大概率值对应的关系作为所述至少两个句中实体对应的句中实体关系。
在上述的句中实体关系识别方法中,所述向量量化层用于将输入向量量化为多维特征矩阵;
所述将输入向量量化为多维特征矩阵包括:
将所述输入向量转换为第一预设编码;
将所述输入向量中每一句中实体各文字之间的关系转换为第二预设编码;
根据所述第一预设编码及所述第二预设编码构建所述多维特征矩阵。
根据本发明的另一个实施方式,提供一种句中实体关系模型训练装置,该装置包括:
样本获取模块,用于获取已标记样本、未标记样本及变换样本,其中,所述已标记样本包括数据及标签,所述未标记样本包括所述数据,所述数据为句中实体,所述标签为该句中实体之间的关系,所述变换样本是通过对所述未标记样本中的句中实体进行预设变换得到;
第一训练模块,用于根据所述已标记样本对句中实体关系模型进行训练,根据真实实体关系与训练得到的估计实体关系之间的差异性确定第一损失项;所述句中实体关系模型包括向量量化层、上下文关联层、分类层及非线性激活层,所述分类层设置有神经元选择层;
第二训练模块,用于根据所述未标记样本对所述句中实体关系模型进行训练,得到所述未标记样本对应的第一预测项;
第三训练模块,用于根据所述变换样本对所述句中实体关系模型进行训练,得到所述变换样本对应的第二预测项;
第一损失确定模块,用于根据所述第一预测项与所述第二预测项之间的距离得到第二损失项;
第二损失确定模块,用于根据所述第一损失项及所述第二损失项确定第三损失项,根据所述第三损失项调整所述向量量化层、所述上下文关联层、所述分类层及所述非线性激活层之间的参数;
模型确定模块,用于重复执行第一训练模块、第二训练模块、第三训练模块、第一损失确定模块及第二损失确定模块中的所有内容,直至所述第三损失项满足预设条件停止执行,得到训练好的句中实体关系模型。
根据本发明的另一个实施方式,提供一种句中实体关系识别装置,该装置包括:
句子获取模块,用于获取句子;
第一识别模块,用于识别所述句子中是否存在开始符;
第二识别模块,用于若所述句子中存在开始符,识别句子中是否存在结束符;
提取模块,用于若所述句子中存在结束符,则提取所述开始符和所述结束符之间的内容作为句中实体;
识别模块,用于将每个句子中至少两个句中实体作为输入向量,输入到句中实体关系模型中得到该至少两个句中实体属于句中实体关系中各关系的概率值,其中,所述句中实体关系模型包括向量量化层、上下文关联层、分类层及非线性激活层,所述分类层设置有神经元选择层;所述句中实体之间的关系包括上下位关系、下上位关系、同位关系及无关系;
关系确定模块,用于将最大概率值对应的关系作为所述至少两个句中实体对应的句中实体关系。
根据本发明的再一个实施方式,提供一种电子设备,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述的句中实体关系模型训练方法或句中实体关系识别方法。
根据本发明的又一个实施方式,提供一种计算机可读存储介质,其存储有所述电子设备中所用的所述计算机程序。
本公开的实施例提供的技术方案可以包括如下有益效果:
本发明中一种句中实体关系模型训练方法,该方法包括:获取已标记样本、未标记样本及变换样本,其中,所述已标记样本包括数据及标签,所述未标记样本包括所述数据,所述数据为句中实体,所述标签为该句中实体之间的关系,所述变换样本是通过对所述未标记样本中的句中实体进行预设变换得到,通过少量的已标记样本及未标记样本即可对句中实体关系模型进行训练。根据所述已标记样本对句中实体关系模型进行训练,根据真实实体关系与训练得到的估计实体关系之间的差异性确定第一损失项;所述句中实体关系模型包括向量量化层、上下文关联层、分类层及非线性激活层,所述分类层设置有神经元选择层;根据所述未标记样本对所述句中实体关系模型进行训练,得到所述未标记样本对应的第一预测项;根据所述变换样本对所述句中实体关系模型进行训练,得到所述变换样本对应的第二预测项;根据所述第一预测项与所述第二预测项之间的距离得到第二损失项;根据所述第一损失项及所述第二损失项确定第三损失项,分别通过对已标记样本确定的第一损失项、未标记样本确定的第二损失项确定句中实体关系模型训练过程中的第三损失项,根据所述第三损失项调整所述向量量化层、所述上下文关联层、所述分类层及所述非线性激活层之间的参数;重复执行“根据所述已标记样本对句中实体关系进行训练”及其后续所有步骤,直至所述第三损失项满足预设条件停止执行,得到训练好的句中实体关系模型。本发明技术方案可以在少量已标记样本和未标记样本的基础上,对句中实体关系模型进行训练,针对不同的样本类型进行不同的损失项计算,得到满足业务需求的句中实体关系模型,在少量已标记样本的情况训练得到效果较好的句中实体关系模型。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明第一实施例提供的一种句中实体关系模型训练方法的流程示意图;
图2示出了本发明第一实施例提供的一种句中实体关系模型的网络结构示意图;
图3示出了本发明第一实施例提供的一种向量量化层的网络结构示意图;
图4示出了本发明第一实施例提供的一种上下文关联层中计算参数的结构示意图;
图5示出了本发明第一实施例提供的一种分类层的网络结构示意图;
图6示出了本发明第二实施例提供的一种句中实体关系识别方法的流程示意图;
图7示出了本发明第三实施例提供的一种句中实体关系模型训练装置的结构示意图;
图8示出了本发明第四实施例提供的一种句中实体关系识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
图1示出了本发明第一实施例提供的一种句中实体关系模型训练方法的流程示意图。
该句中实体关系模型训练方法包括以下步骤:
在步骤S110中,获取已标记样本、未标记样本及变换样本。
所述已标记样本包括数据及标签,所述未标记样本包括所述数据,所述数据为句中实体,所述标签为该句中实体之间的关系,所述变换样本是通过对所述未标记样本中的句中实体进行预设变换得到。
本实施例中,所述已标记样本、未标记样本及变换样本均用于训练句中实体关系模型,该句中实体关系模型用来识别句中两个实体之间的关系,该关系包括:上下位关系,下上位关系,同位关系或无关系。
对于自然语言处理领域,常常面临的一个重要挑战就是样本较少,已标记样本更是占比较低,其中一个原因在于自然语言处理属于认知层面的问题,其标记难度较大。因此,本实施例通过少量已标记样本、部分未标记样本及部分变换样本对句中实体关系模型进行训练,以少量标记样本来达到很好的训练的效果,得到满足业务需求的句中实体关系模型。
本实施例中,所述已标记样本示例可以为:
Figure DEST_PATH_IMAGE015
而未标记样本则仅仅包含数据,未对数据打标签。
本实施例中,为了增加句中实体关系模型的泛化程度,还对未标记样本进行预设变换,得到变换样本,通过变换样本对句中实体关系模型进行训练,以使训练后的句中实体关系模型具备对变换数据的识别能力。
本实施例中,所述预设变换包括:
将所述未标记样本中的句中实体翻译成其他语言,再将其他语言翻译成该句中实体对应语言类型的内容得到变换样本;和/或
将所述未标记样本中的句中实体进行同义词替换得到变换样本;和/或
将所述未标记样本中的句中实体中随机插入或删除预设文字得到变换样本。
具体地,举例说明将所述未标记样本中的句中实体翻译成其他语言,再将其他语言翻译成该句中实体对应语言类型的内容得到变换样本:如果未标记样本中的句中实体是中文,可以将未标记样本中的句中实体翻译为英文,再将英文翻译成中文, 得到变换样本。该种情况下,可以提高句中实体关系模型的泛化性,以应对不同语言翻译造成实体表示偏差的情况。
举例说明将所述未标记样本中的句中实体进行同义词替换得到变换样本:将未标记样本中的句中实体用同义词替换得到变换样本,该同义词为预设同义词库中获取。通过该种方式可以提高句中实体关系模型的泛化性,以应对不同词语表示相同意思的情况。
举例说明将所述未标记样本中的句中实体中随机插入或删除预设文字得到变换样本:将未标记样本中的句中实体中随机插入或删除预设文字得到变换样本,该预设文字可以为预先设定的,也可以为随机生成的。通过该种方式可以提高句中实体关系模型的泛化性,以应对句中实体内容输入错误或更新错误的情况。
在步骤S120中,根据所述已标记样本对句中实体关系模型进行训练,根据真实实体关系与训练得到的估计实体关系之间的差异性确定第一损失项。
本实施例中,所述句中实体关系模型包括向量量化层、上下文关联层、分类层及非线性激活层,所述分类层设置有神经元选择层。
如图2所示,将所述已标记样本、未标记样本及变换样本作为输入,送入向量量化层,所述向量量化层用于将输入量化为实体向量。将实体向量输入到上下文关联层,所述上下文关联层用于根据实体向量的时序相关性来计算向量量化层到上下文关联层之间的参数,所述上下文关联层还根据不同的实体向量自动调整向量量化层到上下文关联层之间的参数,将所述参数和实体向量的积作为关联向量。将所述关联向量输入到分类层中对句中实体关系进行分类,将分类的结果通过softmax非线性激活函数后得到该两个句中实体之间属于不同类型句中实体关系的概率分布。将概率分布值最大的句中实体关系作为估计实体关系。该估计实体关系即所述句中实体关系模型根据输入的样本估计到的句中实体关系。
如图3所示,所述向量量化层用于将输入中的句中实体中的字向量、文本向量、位置向量机连接关系向量进行结合得到的输出作为实体向量。
所述字向量通过以下方式运算:
针对输入的句中实体的每一字符,根据预设的字符词典,将所述每一字符均转换为第一预设编码,将所述第一预设编码作为所述字向量;所述字符词典中包括各字符和对应第一预设编码之间的对应关系。
所述文本向量通过以下方式运算:
将所述句中实体作为整体,根据预设的文本词典,将所述句中实体转换为第三预设编码,将所述第三预设编码作为所述文本向量;所述文本词典中包含各文本与所述第三预设编码之间的对应关系。
所述文本向量还可以通过以下方式运算:
通过文本转换模型将所述句中实体转为为向量,作为所述文本向量。所述文本转换模型是通过大量的样本预先训练好的,所述大量的样本包括数据和标签,所述数据是句中实体,所述标签是句中实体对应的向量。
所述位置向量通过以下方式运算:
所述位置向量表征所述各句中各文本之间的时序关联程度,例如打开现在热度第一的新闻的第一句话:“重庆主城区一栋30层的居民楼发生大火,造成百余名群众被困,重庆市政府迅速调集消防、公安、卫生等数百名人员赶赴现场施救。”其中,“重庆市”与“主城区”相关度最高,位置最近。当对自然语言处理时,位置更近的文本一般相关性更大,所以将位置向量融入到实体向量中是很有必要的。
可以通过以下方式计算文本的位置信息:
Figure DEST_PATH_IMAGE016
其中,
Figure 100002_DEST_PATH_IMAGE017
,
Figure DEST_PATH_IMAGE018
均表示位置信息,pos为句中字符的位置,i为词向量的维度。第一个公式中sin计算对应着偶数的序号的维度,第二个公式中cos计算对应着奇数的序号的维度,从而通过sin和cos的处理产生不同的周期性变化,随着奇数或偶数的序号的维度越来越大,周期变化会越来越慢,从而产生一种包含位置信息的纹理。
将句中各文本的位置信息组成向量作为位置向量。
所述连接关系向量通过以下方式运算:
将句子中,句中实体所在位置向量值标1,将非句中实体所在位置向量值标0得到连接关系向量。
如图4所示为上下文关联层计算参数的过程:若
Figure DEST_PATH_IMAGE019
为句子中的4条输入信息,将4条输入信息加上位置向量及连接关系向量后得到
Figure DEST_PATH_IMAGE020
。对每条信息分配3个权重
Figure DEST_PATH_IMAGE021
,将该3个权重分别与
Figure DEST_PATH_IMAGE022
相乘后形成3个矩阵Q、K、V,也就是图4中的
Figure DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
分别与
Figure DEST_PATH_IMAGE026
点乘,得到
Figure DEST_PATH_IMAGE027
,再通过softmax函数后,得到
Figure DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
其中,j的取值为1~i。
按照softmax输出的权重对V加权,计算得到参数
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE031
使用同样的方法可计算得到
Figure DEST_PATH_IMAGE032
如图5所示,分类层可以为多隐藏层的网络层次结构,具体可参见神经网络结构,这里不做赘述。将上下文关联层的输出向量作为分类层的输入向量a,输入到分类层,通过分类层内的各个隐藏层来进行加权运算,最终得到输出向量b。将输出向量b通过非线性激活函数softmax后,得到句中实体之间关系的概率分布值。
值得注意的是,在分类层还设置有神经元选择层,所述神经元选择层用于为了防止句中实体关系模型的过拟合。如图5所示,由于在分类层中存在多个隐藏层,每一个隐藏层中包含多个神经元,因此,输入、输出及各个隐藏层之间会存在大量的参数,所以,为了防止大量的参数及运算导致过拟合,可根据相应的概率拿掉隐藏层中的一些神经元,然后开始训练,训练过程中只更新没有被拿掉神经元的参数。一次训练结束之后,在第二次训练的过程中,重新根据相应的概率拿掉一部分神经元,然后开始训练,如果第二次训练的神经元已经在第一次当中训练过,那么第二次训练过程中继续更新参数。而第二次训练被剪掉的神经元,同时第一次训练过程中已经更新过参数的,继续保留其参数,不做修改。重复执行上述过程直至第n次训练结束为止。
通过上述的运算之后,句中实体关系模型会得出一个估计实体关系,而输入的已标记样本中标签表征的是真实实体关系。因此,对于已标记样本来说,通过估计实体关系与真实实体关系之间的差异性来确定第一损失项。
进一步地,所述根据真实实体关系与训练得到的估计实体关系之间的差异性确定第一损失项包括:
Figure 739132DEST_PATH_IMAGE001
其中,
Figure DEST_PATH_IMAGE033
为第一损失项,
Figure DEST_PATH_IMAGE034
为第i个已标记样本对应的估计实体关系的概率分布值,
Figure DEST_PATH_IMAGE035
为第i个已标记样本对应的真实实体关系的概率分布值,i为第i个已标记样本。
在步骤S130中,根据所述未标记样本对所述句中实体关系模型进行训练,得到所述未标记样本对应的第一预测项。
具体地,所述第一预测项是根据训练中的句中实体关系模型对无标记样本进行预估得到的估计实体关系。
在步骤S140中,根据所述变换样本对所述句中实体关系模型进行训练,得到所述变换样本对应的第二预测项。
具体地,所述第二预测项是根据训练中的句中实体关系模型对变换样本进行预估得到的估计实体关系。
在步骤S150中,根据所述第一预测项与所述第二预测项之间的距离得到第二损失项。
具体地,所述根据所述第一预测项与所述第二预测项之间的距离得到第二损失项包括:
Figure 905540DEST_PATH_IMAGE005
其中,
Figure DEST_PATH_IMAGE036
为所述第二损失项,
Figure DEST_PATH_IMAGE037
为第j个未标签样本对应第一预测项的概率分布值;
Figure DEST_PATH_IMAGE038
为第j个未标签样本变换后的变换样本对应第二预测项的概率分布值。
在步骤S160中,根据所述第一损失项及所述第二损失项确定第三损失项,根据所述第三损失项调整所述向量量化层、所述上下文关联层、所述分类层及所述非线性激活层之间的参数。
具体地,所述根据所述第一损失项及所述第二损失项确定第三损失项包括:
Figure 668966DEST_PATH_IMAGE009
其中,
Figure DEST_PATH_IMAGE039
为所述第三损失项,
Figure DEST_PATH_IMAGE040
为所述第一损失项,
Figure DEST_PATH_IMAGE041
为所述第二损失项,
Figure DEST_PATH_IMAGE042
为超参数。
Figure DEST_PATH_IMAGE043
是为了控制第一损失项和第二损失项的平衡关系,其取值为1~5。
在步骤S170中,判断第三损失项是否满足预设条件。
判断第三损失项是否满足预设条件,所述预设条件可以为所述第三损失项已经控制在误差允许范围内。如果第三损失项满足预设条件,则训练结束,继续执行S180,得到训练好的句中实体关系模型;如果第三损失项未满足预设条件,继续返回步骤S120及其后续所有步骤,继续执行训练操作。
在步骤S180中,得到训练好的句中实体关系模型。
进一步地,所述句中实体之间的关系包括上下位关系、下上位关系、同位关系及无关系;预先为句子中目标实体之前标记开始符,在所述目标实体之后标记结束符;其中,所述开始符和所述结束符成对出现;所句中实体通过以下方式获取:
识别句子中是否存在所述开始符;若所述句子中存在开始符,识别句子中是否存在所述结束符;若所述句子中存在结束符,则提取所述开始符和所述结束符之间的内容作为句中实体。
参考步骤S110中表格中已标记数据:
<E1>鼻涕<E2>5天了,一开始是<E3>清鼻涕<E4>,其中,<E1>、<E2>、<E3>、<E4>是实体标记,<E1>和<E2>是实体1的开始符和结束符, <E3>和<E4>是实体2的开始符和结束符。提取开始符和结束符之间的内容作为句中实体。
通过以上步骤,可以利用少量的已标记样本及未标记样本对实体关系模型进行训练,得到性能较好的句中实体关系模型。
实施例2
图6示出了本发明第二实施例提供的一种句中实体关系识别方法的流程示意图。
该句中实体关系识别方法包括以下步骤:
在步骤S210中,获取句子。
在步骤S220中,识别所述句子中是否存在开始符。
在步骤S230中,若所述句子中存在开始符,识别句子中是否存在结束符。
在步骤S240中,若所述句子中存在结束符,则提取所述开始符和所述结束符之间的内容作为句中实体。
步骤S220~S240中,参考步骤S110中表格中已标记数据:
<E1>鼻涕<E2>5天了,一开始是<E3>清鼻涕<E4>,其中,<E1>、<E2>、<E3>、<E4>是实体标记,<E1>和<E2>是实体1的开始符和结束符, <E3>和<E4>是实体2的开始符和结束符。提取开始符和结束符之间的内容作为句中实体。
在步骤S250中,将每个句子中至少两个句中实体作为输入向量,输入到句中实体关系模型中得到该至少两个句中实体属于句中实体关系中各关系的概率值。
其中,所述句中实体关系模型包括向量量化层、上下文关联层、分类层及非线性激活层,所述分类层设置有神经元选择层;所述句中实体之间的关系包括上下位关系、下上位关系、同位关系及无关系。
所述句中实体关系模型可参照实施例中步骤S120中描述内容,在此不再赘述。
在步骤S260中,将最大概率值对应的关系作为所述至少两个句中实体对应的句中实体关系。
在得到概率分布值后,将最大概率分布值对应的关系作为句中实体关系。
进一步地,所述向量量化层用于将输入向量量化为多维特征矩阵;
所述将输入向量量化为多维特征矩阵包括:将所述输入向量转换为第一预设编码;将所述输入向量中每一句中实体各文字之间的关系转换为第二预设编码;根据所述第一预设编码及所述第二预设编码构建所述多维特征矩阵。
具体地,可以参见实施例1中步骤S120中对图3的解释内容,在此不做赘述。
实施例3
图7示出了本发明第三实施例提供的一种句中实体关系模型训练装置的结构示意图。该句中实体关系模型训练装置30对应于实施例1中的句中实体关系模型训练方法,实施例1中的句中实体关系模型训练方法同样也适用于该句中实体关系模型训练装置30,在此不再赘述。
该句中实体关系模型训练装置30包括样本获取模块301、第一训练模块302、第二训练模块303、第三训练模块304、第一损失确定模块305、第二损失确定模块306及模型确定模块307。
样本获取模块301,用于获取已标记样本、未标记样本及变换样本,其中,所述已标记样本包括数据及标签,所述未标记样本包括所述数据,所述数据为句中实体,所述标签为该句中实体之间的关系,所述变换样本是通过对所述未标记样本中的句中实体进行预设变换得到。
第一训练模块302,用于根据所述已标记样本对句中实体关系模型进行训练,根据真实实体关系与训练得到的估计实体关系之间的差异性确定第一损失项;所述句中实体关系模型包括向量量化层、上下文关联层、分类层及非线性激活层,所述分类层设置有神经元选择层。
第二训练模块303,用于根据所述未标记样本对所述句中实体关系模型进行训练,得到所述未标记样本对应的第一预测项。
第三训练模块304,用于根据所述变换样本对所述句中实体关系模型进行训练,得到所述变换样本对应的第二预测项。
第一损失确定模块305,用于根据所述第一预测项与所述第二预测项之间的距离得到第二损失项。
第二损失确定模块306,用于根据所述第一损失项及所述第二损失项确定第三损失项,根据所述第三损失项调整所述向量量化层、所述上下文关联层、所述分类层及所述非线性激活层之间的参数。
模型确定模块307,用于重复执行第一训练模块302、第二训练模块303、第三训练模块304、第一损失确定模块305及第二损失确定模块306中的所有内容,直至所述第三损失项满足预设条件停止执行,得到训练好的句中实体关系模型。
实施例4
图8示出了本发明第四实施例提供的一种句中实体识别装置的结构示意图。该句中实体关系识别装置40对应于实施例2中的句中实体关系识别方法,实施例2中的句中实体关系识别方法同样也适用于该句中实体关系识别装置40,在此不再赘述。
该句中实体关系识别装置40包括句子获取模块401、第一识别模块402、第二识别模块403、提取模块404、识别模块405级关系确定模块406。
句子获取模块401,用于获取句子。
第一识别模块402,用于识别所述句子中是否存在开始符。
第二识别模块403,用于若所述句子中存在开始符,识别句子中是否存在结束符。
提取模块404,用于若所述句子中存在结束符,则提取所述开始符和所述结束符之间的内容作为句中实体。
识别模块405,用于将每个句子中至少两个句中实体作为输入向量,输入到句中实体关系模型中得到该至少两个句中实体属于句中实体关系中各关系的概率值,其中,所述句中实体关系模型包括向量量化层、上下文关联层、分类层及非线性激活层,所述分类层设置有神经元选择层;所述句中实体之间的关系包括上下位关系、下上位关系、同位关系及无关系。
关系确定模块406,用于将最大概率值对应的关系作为所述至少两个句中实体对应的句中实体关系。
本发明另一实施例还提供了一种电子设备,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述的句中实体关系模型训练方法、句中实体关系识别方法、上述的句中实体关系模型训练装置中各模块的功能或句中实体关系识别装置中各模块的功能。
存储器可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本实施例还提供了一种计算机可读存储介质,用于储存上述的电子设备中所使用的句中实体关系模型训练方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种句中实体关系模型训练方法,其特征在于,该方法包括:
获取已标记样本、未标记样本及变换样本,其中,所述已标记样本包括数据及标签,所述未标记样本包括所述数据,所述数据为句中实体,所述标签为该句中实体之间的关系,所述变换样本是通过对所述未标记样本中的句中实体进行预设变换得到;
根据所述已标记样本对句中实体关系模型进行训练,根据真实实体关系与训练得到的估计实体关系之间的差异性确定第一损失项;所述句中实体关系模型包括向量量化层、上下文关联层、分类层及非线性激活层,所述分类层设置有神经元选择层;
根据所述未标记样本对所述句中实体关系模型进行训练,得到所述未标记样本对应的第一预测项;
根据所述变换样本对所述句中实体关系模型进行训练,得到所述变换样本对应的第二预测项;
根据所述第一预测项与所述第二预测项之间的距离得到第二损失项;
根据所述第一损失项及所述第二损失项确定第三损失项,根据所述第三损失项调整所述向量量化层、所述上下文关联层、所述分类层及所述非线性激活层之间的参数;
重复执行“根据所述已标记样本对句中实体关系进行训练”及其后续所有步骤,直至所述第三损失项满足预设条件停止执行,得到训练好的句中实体关系模型。
2.根据权利要求1所述的句中实体关系模型训练方法,其特征在于,所述预设变换包括:
将所述未标记样本中的句中实体翻译成其他语言,再将其他语言翻译成该句中实体对应语言类型的内容得到变换样本;
和/或
将所述未标记样本中的句中实体进行同义词替换得到变换样本;
和/或
将所述未标记样本中的句中实体中随机插入或删除预设文字得到变换样本。
3.根据权利要求1所述的句中实体关系模型训练方法,其特征在于,所述根据真实实体关系与训练得到的估计实体关系之间的差异性确定第一损失项包括:
Figure 274762DEST_PATH_IMAGE001
其中,
Figure 795873DEST_PATH_IMAGE002
为第一损失项,
Figure 639064DEST_PATH_IMAGE003
为第i个已标记样本对应的估计实体关系的概率分布值,
Figure 345377DEST_PATH_IMAGE004
为第i个已标记样本对应的真实实体关系的概率分布值,i为第i个已标记样本。
4.根据权利要求3所述的句中实体关系模型训练方法,其特征在于,所述根据所述第一预测项与所述第二预测项之间的距离得到第二损失项包括:
Figure 858398DEST_PATH_IMAGE005
其中,
Figure 788176DEST_PATH_IMAGE007
为所述第二损失项,
Figure 294113DEST_PATH_IMAGE008
为第j个未标签样本对应第一预测项的概率分布值;
Figure 399472DEST_PATH_IMAGE009
为第j个未标签样本变换后的变换样本对应第二预测项的概率分布值。
5.根据权利要求4所述的句中实体关系模型训练方法,其特征在于,所述根据所述第一损失项及所述第二损失项确定第三损失项包括:
Figure 323873DEST_PATH_IMAGE010
其中,
Figure 85156DEST_PATH_IMAGE012
为所述第三损失项,
Figure 535728DEST_PATH_IMAGE013
为所述第一损失项,
Figure 682545DEST_PATH_IMAGE015
为所述第二损失项,
Figure DEST_PATH_IMAGE017
为超参数。
6.根据权利要求1所述的句中实体关系模型训练方法,其特征在于,所述句中实体之间的关系包括上下位关系、下上位关系、同位关系及无关系;预先为句子中目标实体之前标记开始符,在所述目标实体之后标记结束符;其中,所述开始符和所述结束符成对出现;所句中实体通过以下方式获取:
识别句子中是否存在所述开始符;
若所述句子中存在开始符,识别句子中是否存在所述结束符;
若所述句子中存在结束符,则提取所述开始符和所述结束符之间的内容作为句中实体。
7.一种句中实体关系识别方法,其特征在于,包括:
获取句子;
识别所述句子中是否存在开始符,
若所述句子中存在开始符,识别句子中是否存在结束符;
若所述句子中存在结束符,则提取所述开始符和所述结束符之间的内容作为句中实体;
将每个句子中至少两个句中实体作为输入向量,输入到句中实体关系模型中得到该至少两个句中实体属于句中实体关系中各关系的概率值,其中,所述句中实体关系模型包括向量量化层、上下文关联层、分类层及非线性激活层,所述分类层设置有神经元选择层;所述句中实体之间的关系包括上下位关系、下上位关系、同位关系及无关系;
将最大概率值对应的关系作为所述至少两个句中实体对应的句中实体关系。
8.根据权利要求7所述的句中实体关系识别方法,其特征在于,所述向量量化层用于将输入向量量化为多维特征矩阵;
所述将输入向量量化为多维特征矩阵包括:
将所述输入向量转换为第一预设编码;
将所述输入向量中每一句中实体各文字之间的关系转换为第二预设编码;
根据所述第一预设编码及所述第二预设编码构建所述多维特征矩阵。
9.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1-6任一项所述的句中实体关系模型训练方法或权利要求7-8任一项所述的句中实体关系识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有权利要求9所述的电子设备中所用的计算机程序。
CN202111618295.5A 2021-12-28 2021-12-28 句中实体关系模型训练方法及句中实体关系识别方法 Active CN113987090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111618295.5A CN113987090B (zh) 2021-12-28 2021-12-28 句中实体关系模型训练方法及句中实体关系识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111618295.5A CN113987090B (zh) 2021-12-28 2021-12-28 句中实体关系模型训练方法及句中实体关系识别方法

Publications (2)

Publication Number Publication Date
CN113987090A true CN113987090A (zh) 2022-01-28
CN113987090B CN113987090B (zh) 2022-03-25

Family

ID=79734650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111618295.5A Active CN113987090B (zh) 2021-12-28 2021-12-28 句中实体关系模型训练方法及句中实体关系识别方法

Country Status (1)

Country Link
CN (1) CN113987090B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200073933A1 (en) * 2018-08-29 2020-03-05 National University Of Defense Technology Multi-triplet extraction method based on entity-relation joint extraction model
CN112036181A (zh) * 2019-05-14 2020-12-04 上海晶赞融宣科技有限公司 实体关系识别方法、装置及计算机可读存储介质
CN112270196A (zh) * 2020-12-14 2021-01-26 完美世界(北京)软件科技发展有限公司 实体关系的识别方法、装置及电子设备
CN113468888A (zh) * 2021-06-25 2021-10-01 浙江华巽科技有限公司 基于神经网络的实体关系联合抽取方法与装置
CN113823272A (zh) * 2021-06-02 2021-12-21 腾讯科技(深圳)有限公司 语音处理方法、装置、电子设备以及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200073933A1 (en) * 2018-08-29 2020-03-05 National University Of Defense Technology Multi-triplet extraction method based on entity-relation joint extraction model
CN112036181A (zh) * 2019-05-14 2020-12-04 上海晶赞融宣科技有限公司 实体关系识别方法、装置及计算机可读存储介质
CN112270196A (zh) * 2020-12-14 2021-01-26 完美世界(北京)软件科技发展有限公司 实体关系的识别方法、装置及电子设备
CN113823272A (zh) * 2021-06-02 2021-12-21 腾讯科技(深圳)有限公司 语音处理方法、装置、电子设备以及存储介质
CN113468888A (zh) * 2021-06-25 2021-10-01 浙江华巽科技有限公司 基于神经网络的实体关系联合抽取方法与装置

Also Published As

Publication number Publication date
CN113987090B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN109635124B (zh) 一种结合背景知识的远程监督关系抽取方法
CN111581973B (zh) 一种实体消歧方法及系统
CN110928997A (zh) 意图识别方法、装置、电子设备及可读存储介质
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN112231447B (zh) 一种中文文档事件抽取的方法和系统
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111401084A (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN113282713B (zh) 基于差异性神经表示模型的事件触发词检测方法
CN110895559A (zh) 模型训练、文本处理方法、装置以及设备
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
CN113282714B (zh) 一种基于区分性词向量表示的事件检测方法
CN116432655B (zh) 基于语用知识学习的少样本命名实体识别方法和装置
CN107977353A (zh) 一种基于lstm-cnn的混合语料命名实体识别方法
CN115617955B (zh) 分级预测模型训练方法、标点符号恢复方法及装置
CN114282527A (zh) 多语言文本检测与纠错方法、系统、电子设备及存储介质
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN115130538A (zh) 文本分类模型的训练方法、文本处理的方法、设备及介质
CN117349423A (zh) 一种模板匹配式水利领域知识问答模型
US11822887B2 (en) Robust name matching with regularized embeddings
CN107992468A (zh) 一种基于lstm的混合语料命名实体识别方法
CN110287487B (zh) 主谓语识别方法、装置、设备及计算机可读存储介质
CN111859979A (zh) 讽刺文本协同识别方法、装置、设备及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant