CN112101041B - 基于语义相似度的实体关系抽取方法、装置、设备及介质 - Google Patents

基于语义相似度的实体关系抽取方法、装置、设备及介质 Download PDF

Info

Publication number
CN112101041B
CN112101041B CN202010937274.9A CN202010937274A CN112101041B CN 112101041 B CN112101041 B CN 112101041B CN 202010937274 A CN202010937274 A CN 202010937274A CN 112101041 B CN112101041 B CN 112101041B
Authority
CN
China
Prior art keywords
corpus
relation
feature
characteristic
labeled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010937274.9A
Other languages
English (en)
Other versions
CN112101041A (zh
Inventor
陈振东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010937274.9A priority Critical patent/CN112101041B/zh
Priority to PCT/CN2020/136349 priority patent/WO2021121198A1/zh
Publication of CN112101041A publication Critical patent/CN112101041A/zh
Application granted granted Critical
Publication of CN112101041B publication Critical patent/CN112101041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明涉及人工智能领域,公开了一种基于语义相似度的实体关系抽取方法、装置、设备及介质,所述方法包括:通过获取标注语料和未标注语料,将每个标注语料存入到种子集合中,再针对种子集合中的每个标注语料,根据预设特征构造的方式,对标注语料构建特征,得到标注语料的关系特征,进而将未标注语料、标注语料和标注语料的关系特征输入到预设的相似度评估模型中,基于预设的相似度评估模型和关系特征,对未标注语料进行评估,得到评估结果,并根据评估结果,确定未标注语料的实体关系,实现通过半监督的方式,对未标注语料进行实体关系快速提取,提高了实体关系提取的准确率和效率。

Description

基于语义相似度的实体关系抽取方法、装置、设备及介质
技术领域
本发明涉及人工智能领域,尤其涉及一种基于语义相似度的实体关系抽取方法、装置、设备及介质。
背景技术
在自然语言处理领域,涉及到语义网络标注、篇章理解、机器翻译方面时,经常需要对语料中的内容,进行实体关系抽取,实体关系抽取作为信息抽取领域的重要研究课题,其主要目的是抽取句子中已标记实体对之间的语义关系,即在实体识别的基础上确定无结构文本中实体对间的关系类别,并形成结构化的数据以便存储和取用。在理论研究和额实际运用中,实体关系抽取技术能为其它自然语言处理技术提供理论支持。
现有的方式,主要是通过对语句进行分词,进而计算相似度,来确定新语句与原有语料之间的相似性,这种基于文本字符相似程度的相似性,其计算的准确性较多依赖于词向量的表征能力,在多次循环之后,会使后续加入的语料产生语义漂移问题,导致整个语料的实体关系抽取准确度越来越低。
发明内容
本发明实施例提供一种基于语义相似度的实体关系抽取方法、装置、计算机设备和存储介质,以提高命名实体的关系抽取的准确率。
为了解决上述技术问题,本申请实施例提供一种基于语义相似度的实体关系抽取方法,包括:
获取标注语料和未标注语料,将每个所述标注语料存入到种子集合中;
针对所述种子集合中的每个所述标注语料,根据预设特征构造的方式,对所述标注语料构建特征,得到所述标注语料的关系特征;
将所述未标注语料、所述标注语料和所述标注语料的关系特征输入到预设的相似度评估模型中;
基于所述预设的相似度评估模型和所述关系特征,对所述未标注语料进行评估,得到评估结果,并根据所述评估结果,确定所述未标注语料的实体关系。
可选地,在所述基于所述预设的相似度评估模型和所述关系特征,对所述未标注语料进行评估,得到评估结果之后,所述基于语义相似度的实体关系抽取方法还包括:
将评估结果与预设条件进行比较,确定符合所述预设条件的未标注语料,作为候选语料;
将所述候选语料加入到所述种子集合中,得到更新后的种子集合。
可选地,所述针对所述种子集合中的每个所述标注语料,根据预设特征构造的方式,对所述标注语料构建特征,得到所述标注语料的关系特征包括:
获取所述标注语料的命名实体;
针对所述命名实体,获取所述命名实体之前N个分词,构成知识元组,作为第一关系特征,获取两个连续的命名实体之间的分词,构成知识元组,作为第二关系特征,获取所述命名实体之后N个分词,构成知识元组,作为第三关系特征,其中,N为正整数;
将所述第一关系特征、第二关系特征和所述第三关系特征,作为所述标注语料的关系特征。
可选地,所述预设的相似度评估模型为BERT模型。
可选地,所述BERT模型包括编码层、Concat层和全连接层,所述基于所述预设的相似度评估模型和所述关系特征,对所述未标注语料进行评估,得到评估结果包括:
采用所述BERT模型的编码层,对每个所述未标注语料进行编码,得到第一编码特征,对每个所述标注语料进行编码,得到第二编码特征;
通过BERT模型的Concat层分别对所述第一编码特征和第二编码特征进行特征提取融合,得到第一融合特征和第二融合特征;
针对任意一个所述第一融合特征,基于全连接层的损失函数,计算所述第一融合特征与每个第二融合特征的损失值,将最小损失值作为目标损失值;
若目标损失值小于预设损失阈值,则确定所述评估结果为所述第一融合特征对应的未标注语料与所述目标损失值对应的标注语料存在语义相似度关系。
可选地,所述损失函数为二分类交叉熵,所述针对任意一个所述第一融合特征,基于全连接层的损失函数,计算所述第一融合特征与每个第二融合特征的损失值,包括:
Figure BDA0002672398730000031
其中,Loss为损失值,y为第二融合特征的样本标签,在第二融合特征属于正例时,取值为1,否则取值为0,
Figure BDA0002672398730000032
为第一融合特征是正例的概率。
为了解决上述技术问题,本申请实施例还提供一种基于语义相似度的实体关系抽取装置,包括:
数据采集模块,用于获取标注语料和未标注语料,将每个所述标注语料存入到种子集合中;
特征构建模块,用于针对所述种子集合中的每个所述标注语料,根据预设特征构造的方式,对所述标注语料构建特征,得到所述标注语料的关系特征;
数据输入模块,用于将所述未标注语料、所述标注语料和所述标注语料的关系特征输入到预设的相似度评估模型中;
关系抽取模块,用于基于所述预设的相似度评估模型和所述关系特征,对所述未标注语料进行评估,得到评估结果,并根据所述评估结果,确定所述未标注语料的实体关系。
可选地,所述基于语义相似度的实体关系抽取装置还包括:
候选语料确定模块,用于将评估结果与预设条件进行比较,确定符合所述预设条件的未标注语料,作为候选语料;
种子集合更新模块,用于将所述候选语料加入到所述种子集合中,得到更新后的种子集合。
可选地,所述特征构建模块包括:
命名实体获取单元,用于获取所述标注语料的命名实体;
特征构建单元,用于针对所述命名实体,获取所述命名实体之前N个分词,构成知识元组,作为第一关系特征,获取两个连续的命名实体之间的分词,构成知识元组,作为第二关系特征,获取所述命名实体之后N个分词,构成知识元组,作为第三关系特征,其中,N为正整数;
关系特征确定单元,用于将所述第一关系特征、第二关系特征和所述第三关系特征,作为所述标注语料的关系特征。
可选地,所述BERT模型包括编码层、Concat层和全连接层,所述关系抽取模块包括:
特征编码单元,用于采用所述BERT模型的编码层,对每个所述未标注语料进行编码,得到第一编码特征,对每个所述标注语料进行编码,得到第二编码特征;
特征融合单元,用于通过BERT模型的Concat层分别对所述第一编码特征和第二编码特征进行特征提取融合,得到第一融合特征和第二融合特征;
损失计算单元,用于针对任意一个所述第一融合特征,基于全连接层的损失函数,计算所述第一融合特征与每个第二融合特征的损失值,将最小损失值作为目标损失值;
结果确定单元,用于若目标损失值小于预设损失阈值,则确定所述评估结果为所述第一融合特征对应的未标注语料与所述目标损失值对应的标注语料存在语义相似度关系。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于语义相似度的实体关系抽取方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于语义相似度的实体关系抽取方法的步骤。
本发明实施例提供的基于语义相似度的实体关系抽取方法、装置、设备及介质,通过获取标注语料和未标注语料,将每个标注语料存入到种子集合中,再针对种子集合中的每个标注语料,根据预设特征构造的方式,对标注语料构建特征,得到标注语料的关系特征,进而将未标注语料、标注语料和标注语料的关系特征输入到预设的相似度评估模型中,基于预设的相似度评估模型和关系特征,对未标注语料进行评估,得到评估结果,并根据评估结果,确定未标注语料的实体关系,实现通过半监督的方式,对未标注语料进行实体关系快速提取,提高了实体关系提取的准确率和效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是本申请的基于语义相似度的实体关系抽取方法的一个实施例的流程图;
图3是根据本申请的基于语义相似度的实体关系抽取装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture E界面显示perts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureE界面显示perts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的基于语义相似度的实体关系抽取方法由服务器执行,相应地,基于语义相似度的实体关系抽取装置设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器,本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。
请参阅图2,图2示出本发明实施例提供的一种基于语义相似度的实体关系抽取方法,以该方法应用在图1中的服务端为例进行说明,详述如下:
S201:获取标注语料和未标注语料,将每个标注语料存入到种子集合中。
具体地,在自然语言处理领域,涉及到语义网络标注、篇章理解、机器翻译和构建知识图谱等方面时,经常需要对语料中的内容,进行实体关系抽取,以便搭建语料库,进行自动化处理,提高处理效率,在进行实体关系抽取之前,需要预先设定一些待提取语料的类型,因而,预先对一些语料进行标注,得到标注语料,并将标注语料存入到种子集合中,并将其他未标注的语料,作为未标注语料。
其中,自然语言处理(Natural Language Processing,NLP),是指由于理解(understanding)自然语言,需要关于外在世界的广泛知识以及运用操作这些知识的能力,自然语言认知,同时也被视为一个人工智能完备(AI-complete)的问题。NLP任务主要是指涉及到自然语言的语义理解或解析的一些任务,常见的NLP任务包括但不限于:语音识别(Speech recognition)、中文自动分词(Chinese word segmentation)、词性标注(Part-of-speech tagging)、文本分类(Text categorization)、句法分析(Parsing)、自动摘要(Automatic summarization)、问答系统(Question answering)和信息抽取(Informationextraction)等。
其中,实体关系抽取是一个NLP领域的经典任务,具体来说,给定一个句子和其中出现的实体,需要根据句子语义信息推测实体间的关系。例如,给定句子:「清华大学坐落于北京近邻」以及实体「清华大学」与「北京」,实体关系抽取模型得到「位于」的关系,并最终抽取出(清华大学,位于,北京)的知识三元组。实体关系在过去的20多年里都有持续研究开展,特征工程、核方法、图模型曾被广泛应用其中,取得了一些阶段性的成果。随着深度学习时代来临,神经网络模型则为实体关系抽取带来了新的突破。
其中,标注语料是指通过人工的方式,根据实际需要选取部分语料,对语料的实体关系进行标注后,得到的语料,在本实施例中,仅需对少量语料进行标注即可满足后续的训练需要,例如,十条,远少于传统深度模型的训练所需语料数量。
需要说的是,本实施例中的语料选取来源,可以根据实际需要来选择,此处不做限定。例如,可以从政府站点,采集政策相关的语料,或者,从体育论坛或者新闻站点,采集体育相关的语料等。
其中,本实施例中的种子集合,可以理解为不断完善扩容的语料库,在初始阶段,通过人工标注的方式,获取一部分任务需要的语料类型的语料,作为标注语料,存入到种子集合中,在后续,通过半监督的标注训练,从未标注语料中,添加更多与任务需要的语料类型相同的语料,使得种子集合中包含的语料越来越多,也使得语料的聚类特征,越来越明显。有利于提高种子集合的稳健性。
进一步地,本实施例获取与标记语料相关的同义词或相似度语料,加入到标记语料中,以便提高后续对模型的训练效果。
S202:针对种子集合中的每个标注语料,根据预设特征构造的方式,对标注语料构建特征,得到标注语料的关系特征。
具体地,标注语料中,标注了每个实体,通过预设特征构造的方式,表征标注语料中实体之间的关系,得到标注语料的关系特征。
其中,关系特征是指用于表征语料知识元组的实体关系。
优选地,本实施例中,预设特征构造方法为分别记录头实体之前、两实体之间和尾实体之后的N个词,三个特征分别记为wBEF,wBET,wAFT,具体可参考后续实施例的描述,为避免重复,此处不再赘述。
进一步地,在对标注语料构建特征之前,还需要通过标注好的实体,对标注语料进行分词,对标注预料进行分词处理,具体可以使用第三方分词工具,也可使用分词算法,常见的第三方分词工具例如结巴分词等,常见的分词算法包括但不限于:条件随机场(conditional random field,CRF)算法、隐马尔可夫模型(Hidden Markov Model,HMM)和N-gram模型等。
S203:将未标注语料、标注语料和标注语料的关系特征输入到预设的相似度评估模型中。
具体地,预先训练好用于评估实体关系的相似度评估模型,得到未标注语料、标注语料和标注语料的关系特征后,将未标注语料、标注语料和标注语料的关系特征作为输入,输入到预设的相似度评估模型中。
其中,预设的相似度评估模型为神经网络模型,具体包括但不限于:深度语义表征(Embedding from Language Model,ELMo)算法、OpenAI GPT和预训练双向编码器语义(Bidirectional Encoder Representations from Transformers,BERT)模型等。
优选地,在本实施例中采用改进的BERT模型作为预训练模型。
其中,BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation,即:文本的语义表示,然后将文本的语义表示在特定NLP任务中作微调,最终应用于该NLP任务。在本实施例中,主要通过BERT模型来进行词汇级别、句法级别的语义表征和语义提取,来实现对不同语料中的实体关系相似程度计算,有利于提高实体关系的精准程度。
S204:基于预设的相似度评估模型和关系特征,对未标注语料进行评估,得到评估结果,并根据评估结果,确定未标注语料的实体关系。
具体地,通过预设的相似度评估模型、标注语料和关系特征,对未标注语料进行评估,得到评估结果,并根据评估结果,确定未标注语料的实体关系。
其中,评估结果包括未标注语料与标注语料存在相似度关系、未标注语料与标注语料不存在相似度关系。
应理解,在未标注语料与该标注语料存在相似度关系时,表明未标注语料与该标注语料的语义接近或相同,此时,可将标注语料对应的实体关系,作为所述未标注语料的实体关系。
基于预设的相似度评估模型和关系特征,对未标注语料进行评估,得到评估结果的具体过程,可参考后续实施例的描述,为避免重复,此处不再赘述。
在本实施例中,通过获取标注语料和未标注语料,将每个标注语料存入到种子集合中,再针对种子集合中的每个标注语料,根据预设特征构造的方式,对标注语料构建特征,得到标注语料的关系特征,进而将未标注语料、标注语料和标注语料的关系特征输入到预设的相似度评估模型中,基于预设的相似度评估模型和关系特征,对未标注语料进行评估,得到评估结果,并根据评估结果,确定未标注语料的实体关系,实现通过半监督的方式,对未标注语料进行实体关系快速提取,提高了实体关系提取的准确率和效率。
在本实施例的一些可选的实现方式中,在步骤S204之后,该基于语义相似度的实体关系抽取方法还包括:
将评估结果与预设条件进行比较,确定符合预设条件的未标注语料,作为候选语料;
将候选语料加入到种子集合中,得到更新后的种子集合。
具体地,将评估结果与预设条件进行比较,确定符合预设条件的未标注语料,作为候选语料,并将候选语料加入到种子集合中,得到更新后的种子集合中。
其中,在本实施例中,预设条件具体可以是评估结果为未标注语料与标注语料存在相似度关系,且相似度关系达到预设数值,预设数值可根据实际需要进行设定,例如0.8,此处不作具体限定。
应理解,本实施例将符合条件的未标注语料加入到种子集合中,扩大种子集合的样本数量,有利于提高后续预设的相似度识别模型识别准确率。
在本实施例中,通过半监督的方式,对种子集合进行更新,提高种子集合的样本数量,有利于提高后续识别的准确率。
在本实施例的一些可选的实现方式中,步骤S202中,针对种子集合中的每个标注语料,根据预设特征构造的方式,对标注语料构建特征,得到标注语料的关系特征包括:
获取标注语料的命名实体;
针对命名实体,获取命名实体之前N个分词,构成知识元组,作为第一关系特征,获取两个连续的命名实体之间的分词,构成知识元组,作为第二关系特征,获取命名实体之后N个分词,构成知识元组,作为第三关系特征,其中,N为正整数;
将第一关系特征、第二关系特征和第三关系特征,作为标注语料的关系特征。
具体地,获取标注语料的命名实体具体可以是通过人工标注的方式,也可以是通过命名实体识别模型。
其中,N的数量可以根据实际需要进行设置,例如,设置N为3。
其中,知识元组是指实体与实体前后的分词组成的元组,该元组用以表征实体与分词的关系。
在本实施例中,通过对对标注语料构建特征,得到标注语料的关系特征,提高了后续根据关系特征进行语义提取的准确率,有利于提高相似度识别的准确率。
在本实施例的一些可选的实现方式中,BERT模型包括编码层、Concat层和全连接层,步骤S204中,基于预设的相似度评估模型和关系特征,对未标注语料进行评估,得到评估结果包括:
采用BERT模型的编码层,对每个未标注语料进行编码,得到第一编码特征,对每个标注语料进行编码,得到第二编码特征;
通过BERT模型的Concat层分别对第一编码特征和第二编码特征进行特征提取融合,得到第一融合特征和第二融合特征;
针对任意一个第一融合特征,基于全连接层的损失函数,计算第一融合特征与每个第二融合特征的损失值,将最小损失值作为目标损失值;
若目标损失值小于预设损失阈值,则确定评估结果为第一融合特征对应的未标注语料与目标损失值对应的标注语料存在语义相似度关系。
具体地,通过BERT模型,对未标注语料与标注语料的语义相似度进行评估,得到评估结果。
其中,BERT(BidirectionalEncoderRepresentations fromTransformers)是一个基于多层Transformer结构的深度学习模型,BERT的本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示,所谓自监督学习是指在没有人工标注的数据上运行的监督学习。在以后特定的NLP任务中,我们可以直接使用BERT的特征表示作为该任务的词嵌入特征。所以BERT提供的是一个供其它任务迁移学习的模型,该模型可以根据任务微调或者固定之后作为特征提取器。
在本实施例中,为防止BERT模型的过拟合,在全连接层后加入Dropout层。需要说明的是,在设计网络时,设定的每层神经元代表一个学习到的中间特征(即几个权值的组合),网络所有神经元共同作用来表征输入数据的特定属性(如图像分类中,表征所属类别)。当相对于网络的复杂程度(即网络的表达能力、拟合能力)而言数据量过小时,出现过拟合,显然这时各神经元表示的特征相互之间存在许多重复和冗余。在本实施例的全连接层之后加入Dropout层的直接作用是减少中间特征的数量,从而减少冗余,即增加每层各个特征之间的正交性,具体是在模型训练时随机让网络某些隐含层节点的权重不工作,不工作的那些节点可以暂时认为不是网络结构的一部分,但是它的权重得保留下来(只是暂时不更新而已),因为下次样本输入时它可能发生作用,有效防止过拟合。
其中,预设损失阈值可以根据实际需要进行设定,例如,设置为0.05,此处不作具体限定。
进一步地,在本实施例的一些可选的实现方式中,损失函数为二分类交叉熵,针对任意一个第一融合特征,基于全连接层的损失函数,计算第一融合特征与每个第二融合特征的损失值,包括:
Figure BDA0002672398730000151
其中,Loss为损失值,y为第二融合特征的样本标签,在第二融合特征属于正例时,取值为1,否则取值为0,
Figure BDA0002672398730000152
为第一融合特征是正例的概率。
应理解,二分类交叉熵针对两个分类进行预测,两分类分为正例和负例,具体正例和负例可以在模型中设定。
在本实施例中,通过BERT模型,基于预设的相似度评估模型和关系特征,对未标注语料进行评估,得到评估结果,有利于提高评估的准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图3示出与上述实施例基于语义相似度的实体关系抽取方法一一对应的基于语义相似度的实体关系抽取装置的原理框图。如图3所示,该基于语义相似度的实体关系抽取装置包括数据采集模块31、特征构建模块32、数据输入模块33和关系抽取模块34。各功能模块详细说明如下:
数据采集模块31,用于获取标注语料和未标注语料,将每个标注语料存入到种子集合中;
特征构建模块32,用于针对种子集合中的每个标注语料,根据预设特征构造的方式,对标注语料构建特征,得到标注语料的关系特征;
数据输入模块33,用于将未标注语料、标注语料和标注语料的关系特征输入到预设的相似度评估模型中;
关系抽取模块34,用于基于预设的相似度评估模型和关系特征,对未标注语料进行评估,得到评估结果,并根据评估结果,确定未标注语料的实体关系。
可选地,基于语义相似度的实体关系抽取装置还包括:
候选语料确定模块,用于将评估结果与预设条件进行比较,确定符合预设条件的未标注语料,作为候选语料;
种子集合更新模块,用于将候选语料加入到种子集合中,得到更新后的种子集合。
可选地,特征构建模块32包括:
命名实体获取单元,用于获取标注语料的命名实体;
特征构建单元,用于针对命名实体,获取命名实体之前N个分词,构成知识元组,作为第一关系特征,获取两个连续的命名实体之间的分词,构成知识元组,作为第二关系特征,获取命名实体之后N个分词,构成知识元组,作为第三关系特征,其中,N为正整数;
关系特征确定单元,用于将第一关系特征、第二关系特征和第三关系特征,作为标注语料的关系特征。
可选地,BERT模型包括编码层、Concat层和全连接层,关系抽取模块34包括:
特征编码单元,用于采用BERT模型的编码层,对每个未标注语料进行编码,得到第一编码特征,对每个标注语料进行编码,得到第二编码特征;
特征融合单元,用于通过BERT模型的Concat层分别对第一编码特征和第二编码特征进行特征提取融合,得到第一融合特征和第二融合特征;
损失计算单元,用于针对任意一个第一融合特征,基于全连接层的损失函数,计算第一融合特征与每个第二融合特征的损失值,将最小损失值作为目标损失值;
结果确定单元,用于若目标损失值小于预设损失阈值,则确定评估结果为第一融合特征对应的未标注语料与目标损失值对应的标注语料存在语义相似度关系。
关于基于语义相似度的实体关系抽取装置的具体限定可以参见上文中对于基于语义相似度的实体关系抽取方法的限定,在此不再赘述。上述基于语义相似度的实体关系抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如电子文件的控制的程序代码等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据,例如运行电子文件的控制的程序代码。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于语义相似度的实体关系抽取方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (8)

1.一种基于语义相似度的实体关系抽取方法,其特征在于,包括:
获取标注语料和未标注语料,将每个所述标注语料存入到种子集合中;
针对所述种子集合中的每个所述标注语料,根据预设特征构造的方式,对所述标注语料构建特征,得到所述标注语料的关系特征;
将所述未标注语料、所述标注语料和所述标注语料的关系特征输入到预设的相似度评估模型中,其中,所述预设的相似度评估模型为BERT模型,所述BERT模型包括编码层、Concat层和全连接层;
采用所述BERT模型的编码层,对每个所述未标注语料进行编码,得到第一编码特征,对每个所述标注语料进行编码,得到第二编码特征;
通过BERT模型的Concat层分别对所述第一编码特征和第二编码特征进行特征提取融合,得到第一融合特征和第二融合特征;
针对任意一个所述第一融合特征,基于全连接层的损失函数,计算所述第一融合特征与每个第二融合特征的损失值,将最小损失值作为目标损失值;
若目标损失值小于预设损失阈值,则确定为所述第一融合特征对应的未标注语料与所述目标损失值对应的标注语料存在语义相似度关系,将所述语义相似度关系作为评估结果;
根据所述评估结果,确定所述未标注语料的实体关系。
2.如权利要求1所述的基于语义相似度的实体关系抽取方法,其特征在于,在所述基于所述预设的相似度评估模型和所述关系特征,对所述未标注语料进行评估,得到评估结果之后,所述基于语义相似度的实体关系抽取方法还包括:
将评估结果与预设条件进行比较,确定符合所述预设条件的未标注语料,作为候选语料;
将所述候选语料加入到所述种子集合中,得到更新后的种子集合。
3.如权利要求1所述的基于语义相似度的实体关系抽取方法,其特征在于,所述针对所述种子集合中的每个所述标注语料,根据预设特征构造的方式,对所述标注语料构建特征,得到所述标注语料的关系特征包括:
获取所述标注语料的命名实体;
针对所述命名实体,获取所述命名实体之前N个分词,构成知识元组,作为第一关系特征,获取两个连续的命名实体之间的分词,构成知识元组,作为第二关系特征,获取所述命名实体之后N个分词,构成知识元组,作为第三关系特征,其中,N为正整数;
将所述第一关系特征、第二关系特征和所述第三关系特征,作为所述标注语料的关系特征。
4.如权利要求1所述的基于语义相似度的实体关系抽取方法,其特征在于,所述损失函数为二分类交叉熵,所述针对任意一个所述第一融合特征,基于全连接层的损失函数,计算所述第一融合特征与每个第二融合特征的损失值,包括:
Figure FDA0003429036640000021
其中,Loss为损失值,y为第二融合特征的样本标签,在第二融合特征属于正例时,取值为1,否则取值为0,
Figure FDA0003429036640000022
为第一融合特征是正例的概率。
5.一种基于语义相似度的实体关系抽取装置,其特征在于,包括:
数据采集模块,用于获取标注语料和未标注语料,将每个标注语料存入到种子集合中;
特征构建模块,用于针对种子集合中的每个标注语料,根据预设特征构造的方式,对标注语料构建特征,得到标注语料的关系特征;
数据输入模块,用于将未标注语料、标注语料和标注语料的关系特征输入到预设的相似度评估模型中,其中,所述预设的相似度评估模型为BERT模型,所述BERT模型包括编码层、Concat层和全连接层;
关系抽取模块,用于采用所述BERT模型的编码层,对每个所述未标注语料进行编码,得到第一编码特征,对每个所述标注语料进行编码,得到第二编码特征,通过BERT模型的Concat层分别对所述第一编码特征和第二编码特征进行特征提取融合,得到第一融合特征和第二融合特征,针对任意一个所述第一融合特征,基于全连接层的损失函数,计算所述第一融合特征与每个第二融合特征的损失值,将最小损失值作为目标损失值,若目标损失值小于预设损失阈值,则确定为所述第一融合特征对应的未标注语料与所述目标损失值对应的标注语料存在语义相似度关系,将所述语义相似度关系作为评估结果,并根据评估结果,确定未标注语料的实体关系。
6.如权利要求5所述的基于语义相似度的实体关系抽取装置,其特征在于,所述特征构建模块包括:
命名实体获取单元,用于获取标注语料的命名实体;
特征构建单元,用于针对命名实体,获取命名实体之前N个分词,构成知识元组,作为第一关系特征,获取两个连续的命名实体之间的分词,构成知识元组,作为第二关系特征,获取命名实体之后N个分词,构成知识元组,作为第三关系特征,其中,N为正整数;
关系特征确定单元,用于将第一关系特征、第二关系特征和第三关系特征,作为标注语料的关系特征。
7.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的基于语义相似度的实体关系抽取方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的基于语义相似度的实体关系抽取方法。
CN202010937274.9A 2020-09-08 2020-09-08 基于语义相似度的实体关系抽取方法、装置、设备及介质 Active CN112101041B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010937274.9A CN112101041B (zh) 2020-09-08 2020-09-08 基于语义相似度的实体关系抽取方法、装置、设备及介质
PCT/CN2020/136349 WO2021121198A1 (zh) 2020-09-08 2020-12-15 基于语义相似度的实体关系抽取方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010937274.9A CN112101041B (zh) 2020-09-08 2020-09-08 基于语义相似度的实体关系抽取方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN112101041A CN112101041A (zh) 2020-12-18
CN112101041B true CN112101041B (zh) 2022-02-15

Family

ID=73752238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010937274.9A Active CN112101041B (zh) 2020-09-08 2020-09-08 基于语义相似度的实体关系抽取方法、装置、设备及介质

Country Status (2)

Country Link
CN (1) CN112101041B (zh)
WO (1) WO2021121198A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886535B (zh) * 2021-09-18 2022-07-08 前海飞算云创数据科技(深圳)有限公司 基于知识图谱的问答方法、装置、存储介质及电子设备
CN114372446B (zh) * 2021-12-13 2023-02-17 北京爱上车科技有限公司 一种车属性标注方法、设备及存储介质
CN114925210B (zh) * 2022-03-21 2023-12-08 中国电信股份有限公司 知识图谱的构建方法、装置、介质及设备
CN116049347B (zh) * 2022-06-24 2023-10-31 荣耀终端有限公司 一种基于词融合的序列标注方法及相关设备
CN115033717B (zh) * 2022-08-12 2022-11-08 杭州恒生聚源信息技术有限公司 三元组抽取模型训练方法、三元组抽取方法、装置及设备
CN115470871B (zh) * 2022-11-02 2023-02-17 江苏鸿程大数据技术与应用研究院有限公司 基于命名实体识别与关系抽取模型的政策匹配方法及系统
CN116486420B (zh) * 2023-04-12 2024-01-12 北京百度网讯科技有限公司 文档图像的实体抽取方法、装置及存储介质
CN117592562B (zh) * 2024-01-18 2024-04-09 卓世未来(天津)科技有限公司 基于自然语言处理的知识库自动构建方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203511B (zh) * 2017-05-27 2020-07-17 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN109446514A (zh) * 2018-09-18 2019-03-08 平安科技(深圳)有限公司 新闻实体识别模型的构建方法、装置和计算机设备
CN110969005B (zh) * 2018-09-29 2023-10-31 航天信息股份有限公司 一种确定实体语料之间的相似性的方法及装置
CN110825827B (zh) * 2019-11-13 2022-10-25 北京明略软件系统有限公司 一种实体关系识别模型训练、实体关系识别方法及装置

Also Published As

Publication number Publication date
WO2021121198A1 (zh) 2021-06-24
CN112101041A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN107679039B (zh) 用于确定语句意图的方法和装置
WO2021203581A1 (zh) 基于精标注文本的关键信息抽取方法、装置及存储介质
CN109858010B (zh) 领域新词识别方法、装置、计算机设备和存储介质
WO2021135469A1 (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN110569366A (zh) 文本的实体关系抽取方法、装置及存储介质
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
WO2021042516A1 (zh) 命名实体识别方法、装置及计算机可读存储介质
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN112215008A (zh) 基于语义理解的实体识别方法、装置、计算机设备和介质
CN113177412A (zh) 基于bert的命名实体识别方法、系统、电子设备及存储介质
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN113987169A (zh) 基于语义块的文本摘要生成方法、装置、设备及存储介质
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
WO2023159767A1 (zh) 目标词语的检测方法、装置、电子设备及存储介质
CN111783471A (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN113934909A (zh) 基于预训练语言结合深度学习模型的金融事件抽取方法
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN112084779A (zh) 用于语义识别的实体获取方法、装置、设备及存储介质
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN113434636A (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN115169370B (zh) 语料数据增强方法、装置、计算机设备及介质
CN114792092B (zh) 一种基于语义增强的文本主题抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant