CN115630171A - 一种实体关系联合抽取方法及装置 - Google Patents

一种实体关系联合抽取方法及装置 Download PDF

Info

Publication number
CN115630171A
CN115630171A CN202211646840.6A CN202211646840A CN115630171A CN 115630171 A CN115630171 A CN 115630171A CN 202211646840 A CN202211646840 A CN 202211646840A CN 115630171 A CN115630171 A CN 115630171A
Authority
CN
China
Prior art keywords
entity
position relation
matrix
sequence table
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211646840.6A
Other languages
English (en)
Other versions
CN115630171B (zh
Inventor
黄安付
彭鹏
曹一丁
杨雷
郭伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baiyang Times Beijing Technology Co ltd
Original Assignee
Baiyang Times Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baiyang Times Beijing Technology Co ltd filed Critical Baiyang Times Beijing Technology Co ltd
Priority to CN202211646840.6A priority Critical patent/CN115630171B/zh
Publication of CN115630171A publication Critical patent/CN115630171A/zh
Application granted granted Critical
Publication of CN115630171B publication Critical patent/CN115630171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种实体关系联合抽取方法及装置,涉及到知识图谱技术领域,首先将待检测文本按照预设实体标注方式进行实体标注,将待检测文本分别不同的按照第一位置关系标注方式和第二位置关系标注方式进行位置关系标注。然后,分别对第一位置关系矩阵和第二位置关系矩阵进行层叠标注,将实体矩阵、层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵输入到编码器中进行编码,最后将实体序列表、第一位置关系序列表和第二位置关系序列表输入到解码器中进行解码,得到待检测文本的实体关系三元组,通过上述标注方式能够解决单个实体被多个三元组共享导致实体重叠的问题,然后对位置关系矩阵做重叠标注,解决了实体关系重叠的问题。

Description

一种实体关系联合抽取方法及装置
技术领域
本申请涉及知识图谱技术领域,尤其涉及一种实体关系联合抽取方法及装置。
背景技术
实体关系联合抽取是知识图谱领域中较为经典的任务,实体关系联合抽取包括命名实体识别和关系抽取。其中,命名实体识别是指在一段文本中,识别出预先定义好的实体类型,比如人名、地名、机构等。关系抽取是指在一段文本中抽取出头实体、关系和尾实体,由头实体、关系和尾实体构成了三元组,可见,实体关系联合抽取能够在自然语言处理中发挥出重要作用。
现有的技术中,通过构建了实体-关系二部图的方法,以执行对实体类型和关系类型的推理,从而实现提取三元组。然而,上述方法只能够识别出单个实体存在于多个三元组中的情况,不能够识别出多个三元组共享相同实体的情况。
发明内容
有鉴于此,本申请实施例提供了一种实体关系联合抽取方法及装置,旨在解决实体关系重叠的问题。
第一方面,本申请实施例提供了一种实体关系联合抽取方法,所述方法包括:
将待检测文本按照预设实体标注方式进行实体标注,得到所述待检测文本的实体矩阵;
将所述待检测文本分别按照不同的第一位置关系标注方式和第二位置关系标注方式进行位置关系标注,得到所述待检测文本的第一位置关系矩阵和第二位置关系矩阵;
分别对所述第一位置关系矩阵和所述第二位置关系矩阵进行层叠标注,得到层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵;
将所述实体矩阵、所述层叠标注后的第一位置关系矩阵和所述层叠标注后的第二位置关系矩阵输入到编码器中进行编码,得到实体序列表、第一位置关系序列表和第二位置关系序列表;
将所述实体序列表、所述第一位置关系序列表和所述第二位置关系序列表输入到解码器中进行解码,得到所述待检测文本的实体关系三元组。
可选地,所述第一位置关系标注方式具体为标注一个实体关系三元组中两个实体的开始字符;所述第二位置关系标注方式具体为标注一个所述实体关系三元组中所述两个实体的结束字符。
可选地,所述分别对所述第一位置关系矩阵和所述第二位置关系矩阵进行层叠标注,得到层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵,包括:
根据不同的实体关系,将所述第一位置关系矩阵中下三角矩阵中的第一标注映射到上三角矩阵中的对应位置,将映射到所述上三角矩阵中的对应位置的第一标注改为第二标注,得到所述层叠标注后第一位置关系矩阵;
根据所述不同的实体关系,将所述第二位置关系矩阵中下三角矩阵中的第三标注映射到上三角矩阵中的对应位置,将映射到所述上三角矩阵中的对应位置的第三标注改为第四标注,得到所述层叠标注后第二位置关系矩阵。
可选地,所述将所述实体序列表、所述第一位置关系序列表和所述第二位置关系序列表输入到解码器中进行解码,得到所述待检测文本的实体关系三元组,包括:
根据所述实体序列表,将所述待检测文本中的实体存入预设字典中;
针对不同的实体关系,将所述第二位置关系序列表中标注的所述两个实体的结束字符存入到预设结束字符集合中;
针对所述不同的实体关系,根据所述第一位置关系序列表中标注的所述两个实体的开始字符,在所述预设字典中查询所述第一位置关系序列表中标注的所述两个实体的开始字符,得到第一实体的开始字符集合和第二实体的开始字符集合;
查询所述第一实体的开始字符集合中每个开始字符对应的结束字符是否在所述预设结束字符集合中,或,查询所述第二实体的开始字符集合中每个开始字符对应的结束字符是否在所述预设结束字符集合中;
若是,得到所述待检测文本中对应的实体关系三元组。
可选地,所述针对不同的实体关系,将所述第二位置关系序列表中标注的所述两个实体的结束字符存入到预设结束字符集合中,包括:
当所述第二位置关系序列表中标注的所述两个实体的结束字符的标注为第三标注时,将所述结束字符正向存入到所述预设结束字符集合中;
当所述第二位置关系序列表中标注的所述两个实体的结束字符的标注为第四标注时,将所述结束字符逆向存入到所述预设结束字符集合中。
可选地,所述针对所述不同的实体关系,根据所述第一位置关系序列表中标注的所述两个实体的开始字符,在所述预设字典中查询所述第一位置关系序列表中标注的所述两个实体的开始字符,得到第一实体的开始字符集合和第二实体的开始字符集合,包括:
当所述第一位置关系序列表中标注的所述两个实体的开始字符的标注为第一标注时,根据正向的所述开始字符在所述预设字典中查询所述第一位置关系序列表中标注的所述两个实体的开始字符,得到所述第一实体的开始字符集合和所述第二实体的开始字符集合;
当所述第一位置关系序列表中标注的所述两个实体的开始字符的标注为第二标注时,根据逆向的所述开始字符在所述预设字典中查询所述第一位置关系序列表中标注的所述两个实体的开始字符,得到所述第一实体的开始字符集合和所述第二实体的开始字符集合。
第二方面,本申请实施例提供了一种实体关系联合抽取装置,所述装置包括:
实体标注模块,用于将待检测文本按照预设实体标注方式进行实体标注,得到所述待检测文本的实体矩阵;
位置关系标注模块,用于将所述待检测文本分别按照不同的第一位置关系标注方式和第二位置关系标注方式进行位置关系标注,得到所述待检测文本的第一位置关系矩阵和第二位置关系矩阵;
层叠标注模块,用于分别对所述第一位置关系矩阵和所述第二位置关系矩阵进行层叠标注,得到层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵;
编码模块,用于将所述实体矩阵、所述层叠标注后的第一位置关系矩阵和所述层叠标注后的第二位置关系矩阵输入到编码器中进行编码,得到实体序列表、第一位置关系序列表和第二位置关系序列表;
解码模块,用于将所述实体序列表、所述第一位置关系序列表和所述第二位置关系序列表输入到解码器中进行解码,得到所述待检测文本的实体关系三元组。
可选地,所述第一位置关系标注方式具体为标注一个实体关系三元组中两个实体的开始字符;所述第二位置关系标注方式具体为标注一个所述实体关系三元组中所述两个实体的结束字符。
可选地,所述层叠标注模块,包括:
第一层叠标注单元,用于根据不同的实体关系,将所述第一位置关系矩阵中下三角矩阵中的第一标注映射到上三角矩阵中的对应位置,将映射到所述上三角矩阵中的对应位置的第一标注改为第二标注,得到所述层叠标注后第一位置关系矩阵;
第二层叠标注单元,用于根据所述不同的实体关系,将所述第二位置关系矩阵中下三角矩阵中的第三标注映射到上三角矩阵中的对应位置,将映射到所述上三角矩阵中的对应位置的第三标注改为第四标注,得到所述层叠标注后第二位置关系矩阵。
可选地,所述解码模块,包括:
第一存储单元,用于根据所述实体序列表,将所述待检测文本中的实体存入预设字典中;
第二存储单元,用于针对不同的实体关系,将所述第二位置关系序列表中标注的所述两个实体的结束字符存入到预设结束字符集合中;
第一查询单元,用于针对所述不同的实体关系,根据所述第一位置关系序列表中标注的所述两个实体的开始字符,在所述预设字典中查询所述第一位置关系序列表中标注的所述两个实体的开始字符,得到第一实体的开始字符集合和第二实体的开始字符集合;
第二查询单元,用于查询所述第一实体的开始字符集合中每个开始字符对应的结束字符是否在所述预设结束字符集合中,或,查询所述第二实体的开始字符集合中每个开始字符对应的结束字符是否在所述预设结束字符集合中;
获得单元,用于若是,得到所述待检测文本中对应的实体关系三元组。
可选地,所述第二存储单元,包括:
当所述第二位置关系序列表中标注的所述两个实体的结束字符的标注为第三标注时,将所述结束字符正向存入到所述预设结束字符集合中;
当所述第二位置关系序列表中标注的所述两个实体的结束字符的标注为第四标注时,将所述结束字符逆向存入到所述预设结束字符集合中。
可选地,所述第一查询单元,包括:
当所述第一位置关系序列表中标注的所述两个实体的开始字符的标注为第一标注时,根据正向的所述开始字符在所述预设字典中查询所述第一位置关系序列表中标注的所述两个实体的开始字符,得到所述第一实体的开始字符集合和所述第二实体的开始字符集合;
当所述第一位置关系序列表中标注的所述两个实体的开始字符的标注为第二标注时,根据逆向的所述开始字符在所述预设字典中查询所述第一位置关系序列表中标注的所述两个实体的开始字符,得到所述第一实体的开始字符集合和所述第二实体的开始字符集合。
第三方面,本申请实施例提供了一种实体关系联合抽取设备,所述设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以使所述设备执行前述第一方面所述的实体关系联合抽取方法。
第四方面,本申请实施例提供了一种计算机存储介质,所述计算机可读存储介质上存储有计算机程序,当所述计算机程序被运行时,运行所述计算机程序的设备实现前述第一方面所述的实体关系联合抽取方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供了一种实体关系联合抽取方法及装置,首先将待检测文本按照预设实体标注方式进行实体标注,得到待检测文本的实体矩阵,将待检测文本分别不同的按照第一位置关系标注方式和第二位置关系标注方式进行位置关系标注,得到待检测文本的第一位置关系矩阵和第二位置关系矩阵。然后,分别对第一位置关系矩阵和第二位置关系矩阵进行层叠标注,得到层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵,将实体矩阵、层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵输入到编码器中进行编码,对应得到实体序列表、第一位置关系序列表和第二位置关系序列表。最后将实体序列表、第一位置关系序列表和第二位置关系序列表输入到解码器中进行解码,得到待检测文本的实体关系三元组。
可见,通过预设实体标注方式进行实体标注,得到待检测文本的实体矩阵,通过预设位置关系标注方式进行位置关系标注,得到待检测文本的位置关系矩阵,通过上述标注方式能够解决单个实体被多个三元组共享导致实体重叠的问题,然后对位置关系矩阵做重叠标注,能够解决实体对之间具有多种关系的问题,通过上述方法解决了实体关系重叠的问题。
附图说明
为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一种应用场景所涉及的系统框架示意图;
图2为本申请实施例提供的一种实体关系联合抽取方法的方法流程图;
图3为本申请实施例提供的一种实体关系联合抽取装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现有的技术中,通过构建了实体-关系二部图的方法,以执行对实体类型和关系类型的推理,从而实现提取三元组。然而,上述方法只能够识别出单个实体存在于多个三元组中的情况,不能够识别出多个三元组共享相同实体的情况。
基于此,为了解决上述问题,在本申请实施例中,首先,将待检测文本按照预设实体标注方式进行实体标注,得到待检测文本的实体矩阵,将待检测文本分别不同的按照第一位置关系标注方式和第二位置关系标注方式进行位置关系标注,得到待检测文本的第一位置关系矩阵和第二位置关系矩阵。然后,分别对第一位置关系矩阵和第二位置关系矩阵进行层叠标注,得到层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵,将实体矩阵、层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵输入到编码器中进行编码,对应得到实体序列表、第一位置关系序列表和第二位置关系序列表。最后将实体序列表、第一位置关系序列表和第二位置关系序列表输入到解码器中进行解码,得到待检测文本的实体关系三元组。
可见,通过预设实体标注方式进行实体标注,得到待检测文本的实体矩阵,通过预设位置关系标注方式进行位置关系标注,得到待检测文本的位置关系矩阵,通过上述标注方式能够解决单个实体被多个三元组共享导致实体重叠的问题,然后对位置关系矩阵做重叠标注,能够解决实体对之间具有多种关系的问题,通过上述方法解决了实体关系重叠的问题。
举例来说,本申请实施例的场景之一,可以是应用到如图1所示的场景中。该场景包括数据库101和服务器102,其中,数据库101包括待检测文本,服务器102采用本申请实施例提供的实体关系联合抽取方法,从数据库101获取待检测文本。
首先,在上述应用场景中,虽然将本申请实施例提供的实施方式的动作描述由服务器102执行;但是,本申请实施例在执行主体方面不受限制,只要执行了本申请实施例提供的实施方式所公开的动作即可。
其次,上述场景仅是本申请实施例提供的一个场景示例,本申请实施例并不限于此场景。
下面结合附图,通过实施例来详细说明本申请实施例中实体关系联合抽取方法及装置的具体实现方式。
参见图2,该图为本申请实施例提供的一种实体关系联合抽取方法的流程图,结合图2所示,具体可以包括:
S201:将待检测文本按照预设实体标注方式进行实体标注,得到待检测文本的实体矩阵。
预设实体标注方式可以是标注出一个实体关系三元组中两个实体的开始字符和结束字符,作为一种示例,实体标注方式可以是标注出主语的开始字符和结束字符,以及宾语的开始字符和结束字符(英文:Entity Head to Entity Tail,EH-to-ET),在这段句子中“北京是中国的首都”通过实体标注方式标注的实体对分别是“北京”和“中国”。通过将待检测文本按照预设实体标注方式进行实体标注,可以得到待检测文本的实体矩阵。
S202:将待检测文本分别按照不同的第一位置关系标注方式和第二位置关系标注方式进行位置关系标注,得到待检测文本的第一位置关系矩阵和第二位置关系矩阵。
第一位置关系标注方式可以是标注出一个实体关系三元组中两个实体的开始字符,第二位置关系标注方式可以是标注出一个实体关系三元组中两个实体的结束字符。作为一种示例,第一位置关系标注方式可以是标注出主语的开始字符和宾语的开始字符(英文:Subject Head to Object Head,SH-to-OH),第二位置关系标注方式可以是标注出主语的结束字符和宾语的结束字符(英文:Subject Tail to Object Tail,ST-to-OT),在这段句子中“北京是中国的首都”通过第一位置关系标注方式标注的实体对是(北,中),通过第二位置关系标注方式标注的实体对是(京,国)。将待检测文本分别按照第一位置关系标注方式和第二位置关系标注方式进行位置关系标注,得到待检测文本的第一位置关系矩阵和第二位置关系矩阵。
S203:分别对第一位置关系矩阵和第二位置关系矩阵进行层叠标注,得到层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵。
根据不同的实体关系,将第一位置关系矩阵中下三角矩阵中的第一标注映射到上三角矩阵中的对应位置,将映射到上三角矩阵中对应位置的第一标注改为第二标注,得到层叠标注后第一位置关系矩阵,其中下三角矩阵中的第一标注可以是1,第二标注可以是2。
作为一种示例,在这段句子中“北京是中国的首都”,如下表1所示,表1为对第一位置关系矩阵进行层叠标注的示意表,将第一位置关系矩阵中下三角矩阵中的第一标注1(中,北)映射到上三角矩阵中的对应位置(北,中)后变为0,将映射到上三角矩阵中对应位置的第一标注1改为第二标注2。
表1
Figure DEST_PATH_IMAGE001
根据不同的实体关系,将第二位置关系矩阵中下三角矩阵中的第三标注映射到上三角矩阵中的对应位置,将映射到上三角矩阵中对应位置的第三标注改为第四标注,得到层叠标注后第二位置关系矩阵,其中下三角矩阵中的第三标注可以是1,第四标注可以是2。
作为一种示例,在这段句子中“北京是中国的首都”,如下表2所示,表2为对第二位置关系矩阵进行层叠标注的示意表,将第二位置关系矩阵中下三角矩阵中的第一标注1(国,京)映射到上三角矩阵中的对应位置(京,国)后变为0,将映射到上三角矩阵中对应位置的第一标注1改为第二标注2。
表2
Figure 355053DEST_PATH_IMAGE002
通过层叠标注的方式能够解决同一实体对之间存在多种关系的问题。
S204:将实体矩阵、层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵输入到编码器中进行编码,得到实体序列表、第一位置关系序列表和第二位置关系序列表。
在编码过程中,通过多头标记的方式进行编码,在一种可能的实施方式中,在一个长度为n的句子[w1,...,wn],通过编码器将每个标记wi映射到一个低维上下文向量hi中,然后可以为实体对(wi,wj)生成一种表示hi,j序列表,如下公式1所示:
Figure DEST_PATH_IMAGE003
(公式1)
其中,Wh是编码器的参数矩阵,bh是编码过程中的偏置向量,[hi;hj]表示实体对,[;]表示拼接操作,tanh表示训练过程中的激活函数,其中j大于等于i,通过词嵌入把他们转换为词向量,然后通过乘以参数矩阵,加上偏置向量,得到最终的序列表。
将实体矩阵、层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵输入到编码器中进行编码,能够得到实体序列表、第一位置关系序列表和第二位置关系序列表,实体矩阵需要一张表,第一位置关系矩阵和第二位置关系矩阵做了层叠标注,所以每个关系分别需要一张表, 共计2R+1张表,但是由于做了下三角舍弃的优化,若句长为n, 每张表中有(n2+n)/2个可能的实体之间对应的关系。
S205:将实体序列表、第一位置关系序列表和第二位置关系序列表输入到解码器中进行解码,得到待检测文本的实体关系三元组。
将实体序列表、第一位置关系序列表和第二位置关系序列表输入到解码器中进行解码具体为,根据实体序列表,将待检测文本中的实体存入预设字典中,针对不同的实体关系,将第二位置关系序列表中标注的两个实体的结束字符存入到预设结束字符集合中。当第二位置关系序列表中标注的两个实体的结束字符的标注为第三标注时,将结束字符正向存入到预设结束字符集合中,当第二位置关系序列表中标注的两个实体的结束字符的标注为第四标注时,将结束字符逆向存入到预设结束字符集合中。
针对不同的实体关系,根据第一位置关系序列表中标注的两个实体的开始字符,在预设字典中查询第一位置关系序列表中标注的两个实体的开始字符,得到第一实体的开始字符集合和第二实体的开始字符集合。当第一位置关系序列表中标注的两个实体的开始字符的标注为第一标注时,根据正向的开始字符在预设字典中查询第一位置关系序列表中标注的两个实体的开始字符,得到第一实体的开始字符集合和第二实体的开始字符集合;
当第一位置关系序列表中标注的两个实体的开始字符的标注为第二标注时,根据逆向的开始字符在预设字典中查询第一位置关系序列表中标注的两个实体的开始字符,得到第一实体的开始字符集合和第二实体的开始字符集合。
查询第一实体的开始字符集合中每个开始字符对应的结束字符是否在预设结束字符集合中,或,查询第二实体的开始字符集合中每个开始字符对应的结束字符是否在预设结束字符集合中,若是第一实体的开始字符集合或第二实体的开始字符集合中的开始字符对应的结束字符在预设的结束字符集合中,得到待检测文本中对应的实体关系三元组。
在解码过程中还包括通过握手标签可以得到预测实体对之间的关系为l的概率标签,针对一种表示hi,j序列表,通过以下公式2和公式3对实体对(wi,wj)之间的链接标签进行预测。
Figure 209877DEST_PATH_IMAGE004
(公式2)
Figure DEST_PATH_IMAGE005
(公式3)
其中,Wo表示解码器的参数矩阵,bo表示解码过程中的偏置向量,softmax和argmax表示训练过程中的函数,argmax中的下标表示比较的范围为l个标签,P(yi,j)表示根据公式2计算得到的序列表中的实体对hi,j位置打标为各类标签l的概率,P(yi,j=l)表示将实体对(wi,wj)之间的关系识别为l的概率,公式3中的右半部分表示获得概率最大的标签l,Link(wi,wj)表示根据公式3计算得到的实体对(wi,wj)之间概率最大的链接标签。
其中,在解码器中的训练过程中的损失函数可以是通过以下公式4来表示:
Figure 927297DEST_PATH_IMAGE006
(公式4)
其中,Llink表示训练过程中的损失函数,N为输入句子的长度,
Figure DEST_PATH_IMAGE007
中 的E,H,T分别表示通过实体标注方式、第一位置关系标注方式和第二位置关系标注方式三 种标注方式得到的预测三元组,公式4中的右半部分表示通过求和函数和对数函数log进行 迭代得到预测标签
Figure 56927DEST_PATH_IMAGE008
为实际标签
Figure DEST_PATH_IMAGE009
的概率,其中,i是从1到N,j是从i到N。
以上,为本申请实施例提供的一种实体关系联合抽取方法,首先,将待检测文本按照预设实体标注方式进行实体标注,得到待检测文本的实体矩阵,将待检测文本分别不同的按照第一位置关系标注方式和第二位置关系标注方式进行位置关系标注,得到待检测文本的第一位置关系矩阵和第二位置关系矩阵。然后,分别对第一位置关系矩阵和第二位置关系矩阵进行层叠标注,得到层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵,将实体矩阵、层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵输入到编码器中进行编码,对应得到实体序列表、第一位置关系序列表和第二位置关系序列表。最后将实体序列表、第一位置关系序列表和第二位置关系序列表输入到解码器中进行解码,得到待检测文本的实体关系三元组。
可见,通过预设实体标注方式进行实体标注,得到待检测文本的实体矩阵,通过预设位置关系标注方式进行位置关系标注,得到待检测文本的位置关系矩阵,通过上述标注方式能够解决单个实体被多个三元组共享导致实体重叠的问题,然后对位置关系矩阵做重叠标注,能够解决实体对之间具有多种关系的问题,通过上述方法解决了实体关系重叠的问题。
以上为本申请实施例提供实体关系联合抽取方法的一些具体实现方式,基于此,本申请还提供了对应的装置。下面将从功能模块化的角度对本申请实施例提供的装置进行介绍。
参见图3,该图为本申请实施例提供的一种实体关系联合抽取装置300的结构示意图,该装置300可以包括:
实体标注模块301,用于将待检测文本按照预设实体标注方式进行实体标注,得到待检测文本的实体矩阵;
位置关系标注模块302,用于将待检测文本分别按照不同的第一位置关系标注方式和第二位置关系标注方式进行位置关系标注,得到待检测文本的第一位置关系矩阵和第二位置关系矩阵;
层叠标注模块303,用于分别对第一位置关系矩阵和第二位置关系矩阵进行层叠标注,得到层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵;
编码模块304,用于将实体矩阵、层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵输入到编码器中进行编码,得到实体序列表、第一位置关系序列表和第二位置关系序列表;
解码模块305,用于将实体序列表、第一位置关系序列表和第二位置关系序列表输入到解码器中进行解码,得到待检测文本的实体关系三元组。
在本申请实施例中,通过实体标注模块301、位置关系标注模块302、层叠标注模块303、编码模块304和解码模块305的配合,通过预设实体标注方式进行实体标注,得到待检测文本的实体矩阵,通过预设位置关系标注方式进行位置关系标注,得到待检测文本的位置关系矩阵,通过上述标注方式能够解决单个实体被多个三元组共享导致实体重叠的问题,然后对位置关系矩阵做重叠标注,能够解决实体对之间具有多种关系的问题,通过上述方法解决了实体关系重叠的问题。
作为一种实施方式,第一位置关系标注方式具体为标注出一个实体关系三元组中两个实体的开始字符;第二位置关系标注方式具体为标注出一个实体关系三元组中两个实体的结束字符。
作为一种实施方式,层叠标注模块303,具体包括:
第一层叠标注单元,用于根据不同的实体关系,将第一位置关系矩阵中下三角矩阵中的第一标注映射到上三角矩阵中的对应位置,将映射到上三角矩阵中的对应位置的第一标注改为第二标注,得到层叠标注后第一位置关系矩阵;
第二层叠标注单元,用于根据不同的实体关系,将第二位置关系矩阵中下三角矩阵中的第三标注映射到上三角矩阵中的对应位置,将映射到上三角矩阵中的对应位置的第三标注改为第四标注,得到层叠标注后第二位置关系矩阵。
作为一种实施方式,解码模块305,具体包括:
第一存储单元,用于根据实体序列表,将待检测文本中的实体存入预设字典中;
第二存储单元,用于针对不同的实体关系,将第二位置关系序列表中标注的两个实体的结束字符存入到预设结束字符集合中;
第一查询单元,用于针对不同的实体关系,根据第一位置关系序列表中标注的两个实体的开始字符,在预设字典中查询第一位置关系序列表中标注的两个实体的开始字符,得到第一实体的开始字符集合和第二实体的开始字符集合;
第二查询单元,用于查询第一实体的开始字符集合中每个开始字符对应的结束字符是否在预设结束字符集合中,或,查询第二实体的开始字符集合中每个开始字符对应的结束字符是否在预设结束字符集合中;
获得单元,用于若是,得到待检测文本中对应的实体关系三元组。
作为一种实施方式,第二存储单元,具体用于:
当第二位置关系序列表中标注的两个实体的结束字符的标注为第三标注时,将结束字符正向存入到预设结束字符集合中;
当第二位置关系序列表中标注的两个实体的结束字符的标注为第四标注时,将结束字符逆向存入到预设结束字符集合中。
作为一种实施方式,第一查询单元,具体用于:
当第一位置关系序列表中标注的两个实体的开始字符的标注为第一标注时,根据正向的开始字符在预设字典中查询第一位置关系序列表中标注的两个实体的开始字符,得到第一实体的开始字符集合和第二实体的开始字符集合;
当第一位置关系序列表中标注的两个实体的开始字符的标注为第二标注时,根据逆向的开始字符在预设字典中查询第一位置关系序列表中标注的两个实体的开始字符,得到第一实体的开始字符集合和第二实体的开始字符集合。
本申请实施例还提供了对应的设备以及计算机存储介质,用于实现本申请实施例提供的方案。
其中,所述设备包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序,以使所述设备执行本申请任一实施例所述的实体关系联合抽取方法。
所述计算机存储介质中存储有计算机程序,当所述代码被运行时,运行所述计算机程序的设备实现本申请任一实施例所述的实体关系联合抽取方法。
本申请实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识,并不代表顺序上的第一、第二。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-onlymemory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种实体关系联合抽取方法,其特征在于,所述方法包括:
将待检测文本按照预设实体标注方式进行实体标注,得到所述待检测文本的实体矩阵;
将所述待检测文本分别按照不同的第一位置关系标注方式和第二位置关系标注方式进行位置关系标注,得到所述待检测文本的第一位置关系矩阵和第二位置关系矩阵;
分别对所述第一位置关系矩阵和所述第二位置关系矩阵进行层叠标注,得到层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵;
将所述实体矩阵、所述层叠标注后的第一位置关系矩阵和所述层叠标注后的第二位置关系矩阵输入到编码器中进行编码,得到实体序列表、第一位置关系序列表和第二位置关系序列表;
将所述实体序列表、所述第一位置关系序列表和所述第二位置关系序列表输入到解码器中进行解码,得到所述待检测文本的实体关系三元组。
2.根据权利要求1所述的方法,其特征在于,所述第一位置关系标注方式具体为标注一个实体关系三元组中两个实体的开始字符;所述第二位置关系标注方式具体为标注一个所述实体关系三元组中所述两个实体的结束字符。
3.根据权利要求1所述的方法,其特征在于,所述分别对所述第一位置关系矩阵和所述第二位置关系矩阵进行层叠标注,得到层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵,包括:
根据不同的实体关系,将所述第一位置关系矩阵中下三角矩阵中的第一标注映射到上三角矩阵中的对应位置,将映射到所述上三角矩阵中的对应位置的第一标注改为第二标注,得到所述层叠标注后第一位置关系矩阵;
根据所述不同的实体关系,将所述第二位置关系矩阵中下三角矩阵中的第三标注映射到上三角矩阵中的对应位置,将映射到所述上三角矩阵中的对应位置的第三标注改为第四标注,得到所述层叠标注后第二位置关系矩阵。
4.根据权利要求1所述的方法,其特征在于,所述将所述实体序列表、所述第一位置关系序列表和所述第二位置关系序列表输入到解码器中进行解码,得到所述待检测文本的实体关系三元组,包括:
根据所述实体序列表,将所述待检测文本中的实体存入预设字典中;
针对不同的实体关系,将所述第二位置关系序列表中标注的所述两个实体的结束字符存入到预设结束字符集合中;
针对所述不同的实体关系,根据所述第一位置关系序列表中标注的所述两个实体的开始字符,在所述预设字典中查询所述第一位置关系序列表中标注的所述两个实体的开始字符,得到第一实体的开始字符集合和第二实体的开始字符集合;
查询所述第一实体的开始字符集合中每个开始字符对应的结束字符是否在所述预设结束字符集合中,或,查询所述第二实体的开始字符集合中每个开始字符对应的结束字符是否在所述预设结束字符集合中;
若是,得到所述待检测文本中对应的实体关系三元组。
5.根据权利要求4所述的方法,其特征在于,所述针对不同的实体关系,将所述第二位置关系序列表中标注的所述两个实体的结束字符存入到预设结束字符集合中,包括:
当所述第二位置关系序列表中标注的所述两个实体的结束字符的标注为第三标注时,将所述结束字符正向存入到所述预设结束字符集合中;
当所述第二位置关系序列表中标注的所述两个实体的结束字符的标注为第四标注时,将所述结束字符逆向存入到所述预设结束字符集合中。
6.根据权利要求4所述的方法,其特征在于,所述针对所述不同的实体关系,根据所述第一位置关系序列表中标注的所述两个实体的开始字符,在所述预设字典中查询所述第一位置关系序列表中标注的所述两个实体的开始字符,得到第一实体的开始字符集合和第二实体的开始字符集合,包括:
当所述第一位置关系序列表中标注的所述两个实体的开始字符的标注为第一标注时,根据正向的所述开始字符在所述预设字典中查询所述第一位置关系序列表中标注的所述两个实体的开始字符,得到所述第一实体的开始字符集合和所述第二实体的开始字符集合;
当所述第一位置关系序列表中标注的所述两个实体的开始字符的标注为第二标注时,根据逆向的所述开始字符在所述预设字典中查询所述第一位置关系序列表中标注的所述两个实体的开始字符,得到所述第一实体的开始字符集合和所述第二实体的开始字符集合。
7.一种实体关系联合抽取装置,其特征在于,所述装置包括:
实体标注模块,用于将待检测文本按照预设实体标注方式进行实体标注,得到所述待检测文本的实体矩阵;
位置关系标注模块,用于将所述待检测文本分别按照不同的第一位置关系标注方式和第二位置关系标注方式进行位置关系标注,得到所述待检测文本的第一位置关系矩阵和第二位置关系矩阵;
层叠标注模块,用于分别对所述第一位置关系矩阵和所述第二位置关系矩阵进行层叠标注,得到层叠标注后的第一位置关系矩阵和层叠标注后的第二位置关系矩阵;
编码模块,用于将所述实体矩阵、所述层叠标注后的第一位置关系矩阵和所述层叠标注后的第二位置关系矩阵输入到编码器中进行编码,得到实体序列表、第一位置关系序列表和第二位置关系序列表;
解码模块,用于将所述实体序列表、所述第一位置关系序列表和所述第二位置关系序列表输入到解码器中进行解码,得到所述待检测文本的实体关系三元组。
8.根据权利要求7所述的装置,其特征在于,所述解码模块包括:
第一存储单元,用于根据所述实体序列表,将所述待检测文本中的实体存入预设字典中;
第二存储单元,用于针对不同的实体关系,将所述第二位置关系序列表中标注的所述两个实体的结束字符存入到预设结束字符集合中;
第一查询单元,用于针对所述不同的实体关系,根据所述第一位置关系序列表中标注的所述两个实体的开始字符,在所述预设字典中查询所述第一位置关系序列表中标注的所述两个实体的开始字符,得到第一实体的开始字符集合和第二实体的开始字符集合;
第二查询单元,用于查询所述第一实体的开始字符集合中每个开始字符对应的结束字符是否在所述预设结束字符集合中,或,查询所述第二实体的开始字符集合中每个开始字符对应的结束字符是否在所述预设结束字符集合中;
获得单元,用于若是,得到所述待检测文本中对应的实体关系三元组。
9.一种实体关系联合抽取设备,其特征在于,所述设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以使所述设备执行如权利要求1至6任一项所述的实体关系联合抽取方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述实体关系联合抽取方法。
CN202211646840.6A 2022-12-21 2022-12-21 一种实体关系联合抽取方法及装置 Active CN115630171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211646840.6A CN115630171B (zh) 2022-12-21 2022-12-21 一种实体关系联合抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211646840.6A CN115630171B (zh) 2022-12-21 2022-12-21 一种实体关系联合抽取方法及装置

Publications (2)

Publication Number Publication Date
CN115630171A true CN115630171A (zh) 2023-01-20
CN115630171B CN115630171B (zh) 2023-04-07

Family

ID=84911054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211646840.6A Active CN115630171B (zh) 2022-12-21 2022-12-21 一种实体关系联合抽取方法及装置

Country Status (1)

Country Link
CN (1) CN115630171B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468888A (zh) * 2021-06-25 2021-10-01 浙江华巽科技有限公司 基于神经网络的实体关系联合抽取方法与装置
CN113886593A (zh) * 2021-06-28 2022-01-04 北京航空航天大学 一种利用指代依赖提升关系抽取性能的方法
US20220121871A1 (en) * 2020-10-16 2022-04-21 Tsinghua University Multi-directional scene text recognition method and system based on multi-element attention mechanism
CN114662495A (zh) * 2022-04-20 2022-06-24 暨南大学 一种基于深度学习的英文文献污染物信息抽取方法
CN114882457A (zh) * 2022-03-31 2022-08-09 华为技术有限公司 一种模型的训练方法、车道线的检测方法及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115310445A (zh) * 2022-07-19 2022-11-08 中国人民解放军战略支援部队信息工程大学 基于增强序列标注策略的单阶段联合实体关系抽取方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220121871A1 (en) * 2020-10-16 2022-04-21 Tsinghua University Multi-directional scene text recognition method and system based on multi-element attention mechanism
CN113468888A (zh) * 2021-06-25 2021-10-01 浙江华巽科技有限公司 基于神经网络的实体关系联合抽取方法与装置
CN113886593A (zh) * 2021-06-28 2022-01-04 北京航空航天大学 一种利用指代依赖提升关系抽取性能的方法
CN114882457A (zh) * 2022-03-31 2022-08-09 华为技术有限公司 一种模型的训练方法、车道线的检测方法及设备
CN114662495A (zh) * 2022-04-20 2022-06-24 暨南大学 一种基于深度学习的英文文献污染物信息抽取方法

Also Published As

Publication number Publication date
CN115630171B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
US20200159755A1 (en) Summary generating apparatus, summary generating method and computer program
CN113590784B (zh) 三元组信息抽取方法、装置、电子设备、及存储介质
CN110348012B (zh) 确定目标字符的方法、装置、存储介质及电子装置
CN110110334B (zh) 一种基于自然语言处理的远程会诊记录文本纠错方法
CN117217207A (zh) 文本纠错方法、装置、设备和介质
CN110825827A (zh) 一种实体关系识别模型训练、实体关系识别方法及装置
CN113283231B (zh) 获取签章位的方法、设置系统、签章系统及存储介质
CN115630171B (zh) 一种实体关系联合抽取方法及装置
CN112395880A (zh) 结构化三元组的纠错方法、装置、计算机设备及存储介质
CN111597302A (zh) 文本事件的获取方法、装置、电子设备及存储介质
CN114398903B (zh) 意图识别方法、装置、电子设备及存储介质
CN110232193B (zh) 一种结构化文本翻译方法及装置
CN111460821B (zh) 一种实体识别与链接方法及装置
CN111695350B (zh) 一种文本的分词方法及分词装置
CN110378457A (zh) 一种码标的生成方法及装置
CN117874088B (zh) 一种数据模糊匹配方法、装置、设备和介质
CN113778893B (zh) 对话机器人测试用例生成方法、装置、设备及存储介质
CN117235345B (zh) 开放版式文档ofd搜索方法、装置及电子设备
CN116484802B (zh) 字符串颜色标记方法、装置、计算机设备及存储介质
CN113255292B (zh) 基于预训练模型的端到端文本生成方法及相关设备
CN116150321A (zh) 稠密检索文档表示学习方法与装置
CN112784780B (zh) 一种审阅方法、装置、计算机设备及存储介质
US11436286B1 (en) System and method for using deconstructed document sections to generate report data structures
US20240095466A1 (en) Method and system for document structure based unsupervised long-form technical question generation
CN116362252A (zh) 实体关系识别方法和装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant