CN115098617A - 三元组关系抽取任务的标注方法、装置、设备及存储介质 - Google Patents
三元组关系抽取任务的标注方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115098617A CN115098617A CN202210655142.6A CN202210655142A CN115098617A CN 115098617 A CN115098617 A CN 115098617A CN 202210655142 A CN202210655142 A CN 202210655142A CN 115098617 A CN115098617 A CN 115098617A
- Authority
- CN
- China
- Prior art keywords
- index
- text
- entity
- highlight
- highlighted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000000605 extraction Methods 0.000 title claims abstract description 39
- 230000011218 segmentation Effects 0.000 claims abstract description 40
- 230000001174 ascending effect Effects 0.000 claims description 56
- 239000011159 matrix material Substances 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 abstract description 6
- 230000000875 corresponding effect Effects 0.000 description 32
- 206010006451 bronchitis Diseases 0.000 description 12
- 206010044314 Tracheobronchitis Diseases 0.000 description 9
- 206010006448 Bronchiolitis Diseases 0.000 description 8
- 230000001154 acute effect Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 206010003497 Asphyxia Diseases 0.000 description 3
- 206010061218 Inflammation Diseases 0.000 description 3
- 239000002249 anxiolytic agent Substances 0.000 description 3
- 208000006673 asthma Diseases 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 239000002253 acid Substances 0.000 description 2
- 210000000621 bronchi Anatomy 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 230000004054 inflammatory process Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 210000003437 trachea Anatomy 0.000 description 2
- 206010006458 Bronchitis chronic Diseases 0.000 description 1
- 208000000059 Dyspnea Diseases 0.000 description 1
- 206010013975 Dyspnoeas Diseases 0.000 description 1
- 208000024716 acute asthma Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000003123 bronchiole Anatomy 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 208000007451 chronic bronchitis Diseases 0.000 description 1
- 230000003205 diastolic effect Effects 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 229940124549 vasodilator Drugs 0.000 description 1
- 239000003071 vasodilator agent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种三元组关系抽取任务的标注方法、装置、设备及存储介质。该标注方法包括:根据原始文本和原始文本三元组列表获取对应的高亮文本、高亮实体索引集合;根据所述高亮文本、所述高亮实体索引集合获取高亮文本三元组列表;对所述高亮文本进行分词并获得偏移集合;根据所述偏移集合和所述高亮文本三元组列表,获取标识符级别标注完成的实体关系表。本申请提供的三元组关系抽取任务的标注方法,实现了嵌套型实体和多个三元组在标识符级别的完整标注,解决了实体漏标的问题,确保了分词前后索引的准确映射。
Description
技术领域
本申请涉及文本处理技术领域,具体涉及一种三元组关系抽取任务的标注方法、装置、设备及存储介质。
背景技术
关系抽取任务是自然语言处理中重要的任务之一,旨在从大规模非结构化或半结构化的自然语言文本中抽取出结构化信息,是构建复杂知识库系统的重要步骤,包括知识图谱、信息检索、智能问答等。该任务是从文本中识别命名实体并抽取实体之间的语义关系,是一种对原始文本中的目标实体之间的关系进行分类的问题。实体关系抽取是指从一个文本中抽取出关系三元组:主体实体-关系-客体实体的三元组。三元组关系抽取任务的标注是实体关系抽取的一个重要部分。现有技术中,在进行三元组关系抽取任务的标注时,因存在多个三元组以及嵌套型实体,导致实体标注的完整性不佳,经常出现实体漏标的情况,同时无法得到关系实体的索引在分词前后的准确映射,导致无法在标识符级别进行实体关系标注。由于关系抽取模型的准确度与标识符级别中实体关系标注的完整性呈正相关,因此解决上述问题至关重要,是模型训练的首要步骤。
发明内容
本申请的目的是提供一种三元组关系抽取任务的标注方法、装置、设备及存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本申请实施例的第一个方面,提供一种三元组关系抽取任务的标注方法,包括:
根据原始文本和原始文本三元组列表获取对应的高亮文本、高亮实体索引集合;
根据所述高亮文本、所述高亮实体索引集合获取高亮文本三元组列表;
对所述高亮文本进行分词并获得偏移集合;
根据所述偏移集合和所述高亮文本三元组列表,获取标识符级别标注完成的实体关系表。
在一些实施例中,所述根据原始文本和原始文本三元组列表获取对应的高亮文本、高亮实体索引集合,包括:
针对所述原始文本,采用正则匹配以及高亮标注的方式生成对应的高亮文本;
获取所述高亮文本的高亮实体索引集合。
在一些实施例中,所述根据所述高亮文本、所述高亮实体索引集合获取高亮文本三元组列表,包括:
基于所述高亮文本和所述高亮实体索引集合更新所述原始文本的三元组列表,得到高亮文本三元组列表。
在一些实施例中,所述针对所述原始文本,采用正则匹配以及高亮标注的方式生成对应的高亮文本,包括:
根据原始文本以及所述原始文本的三元组列表得到实体集合;
分别遍历所述实体集合,将所述实体集合处理成正则匹配的模式;
根据所述正则匹配的模式,将被匹配到的字符串进行高亮标注处理,获得所述高亮文本。
在一些实施例中,所述获取所述高亮文本的高亮实体索引集合,包括:
基于所述高亮文本,将所述实体的高亮标注的索引和高亮标注以键值对的形式储存于字典中,获得相应的高亮标注索引字典;
利用栈和所述高亮标注索引字典获得所述高亮实体索引集合。
在一些实施例中,所述根据所述偏移集合和所述高亮文本三元组列表,获取标识符级别标注完成的实体关系表,包括:
将所述高亮文本的分词结果转换为token标识符;
根据所述偏移集合获得每个token标识符在语义文本中对应的单个或多个字符的开始索引和结束索引;
根据所述开始索引和所述结束索引,获得标注好的实体关系表。
在一些实施例中,所述根据所述开始索引和所述结束索引,获得标注好的实体关系表,包括:
通过遍历所述高亮文本三元组列表标注实体关系矩阵中的所有元素值,得到标注完成的实体关系矩阵,所述标注完成的实体关系矩阵即所述标注好的实体关系表。
在一些实施例中,通过遍历所述高亮文本三元组列表标注实体关系矩阵中的其中一个元素值,包括:
遍历所述高亮文本三元组列表,得到当前遍历的高亮主体的开始索引和高亮客体的开始索引;
确定所述高亮主体的开始索引和所述高亮客体的开始索引中的较小值和较大值;
确定所述较小值的位置索引以及所述较大值的位置索引;
根据所述较小值的位置索引以及所述较大值的位置索引,将当前遍历的三元组的实体关系索引值标注为实体关系矩阵中的对应元素值,完成一个元素值的标注。
在一些实施例中,所述确定所述较小值的位置索引以及所述较大值的位置索引,包括:
根据所述偏移集合获得升序begins集合与升序ends集合,所述升序begins集合与所述升序ends集合分别代表每个token标识符在所述高亮文本中对应的单个或多个字符的开始索引和结束索引;
根据所述升序ends集合获得所述较小值的位置索引;
根据所述升序begins集合获得所述较大值的位置索引;
在一些实施例中,所述根据所述升序ends集合获得所述较小值的位置索引,包括:
查找所述较小值在所述升序ends集合内应插入的位置,以保持所述ends集合升序,应插入位置即为所述较小值的位置索引;若所述begin值在所述升序ends集合内已存在,则应插入位置为所述升序ends集合内已存在值的左边;
所述根据所述升序begins集合获得所述较大值的位置索引,包括:
查找所述较大值在所述升序begins集合内应插入的位置,以保持所述begins集合升序,应插入位置即为所述较大值的位置索引;若所述较大值在所述升序begins集合内已存在,则应插入位置为所述升序begins集合内已存在值的右边。
本申请实施例的第二个方面提供了一种关系抽取任务模型训练方法,所述方法包括:
利用通过上述任一项的标注方法所得到的所述实体关系表对关系抽取任务模型进行训练。
本申请实施例的第三个方面提供了一种三元组关系抽取任务的标注装置,包括:
第一获取模块,用于根据原始文本和原始文本三元组列表获取对应的高亮文本、高亮实体索引集合;
第二获取模块,用于根据所述高亮文本、所述高亮实体索引集合获取高亮文本三元组列表;
分词模块,用于对所述高亮文本进行分词并获得偏移集合;
第三获取模块,用于根据所述偏移集合和所述高亮文本三元组列表,获取标识符级别标注完成的实体关系表。
本申请实施例的第四个方面提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现上述的三元组关系抽取任务的标注方法。
本申请实施例的第五个方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述的三元组关系抽取任务的标注方法。
本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果:
本申请实施例提供的三元组关系抽取任务的标注方法,根据原始文本获取对应的高亮文本、高亮实体索引集合以及高亮文本三元组列表,根据高亮文本、高亮实体索引集合以及高亮文本三元组列表,获取标识符级别标注完成的实体关系表,实现了嵌套型实体和多个三元组在实体关系表内的完整标注,确保了分词前索引到分词后索引的准确映射,解决了现有技术中多个三元组或者嵌套型实体的标注问题,提高了实体标注的完整性,解决了实体漏标的问题。
本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者,部分特征和优点可以从说明书中推知或毫无疑义地确定,或者通过实施本申请实施例了解。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一些实施方式的三元组关系抽取任务的标注方法流程图;
图2示出了图1中步骤S10的流程图;
图3示出了图1中步骤S40的流程图;
图4示出了本申请一些实施方式中获取高亮文本与高亮实体索引集合的流程图;
图5示出了本申请一些实施方式中基于高亮实体索引集合更新spo_lists的流程图;
图6示出了本申请一些实施方式中基于偏移集合获得tokens级别的实体关系表的流程图;
图7示出了本申请一些实施方式的三元组关系抽取任务的标注装置结构框图;
图8示出了本申请一些实施方式的电子设备结构框图;
图9示出了本申请一些实施方式的计算机可读存储介质示意图;
本申请的目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本申请做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
由于关系抽取模型的准确度与tokens中的命名实体标注的完整性呈正相关,因此解决复杂的多个三元组和嵌套型实体在tokens级别的标注至关重要,是模型训练的首要步骤。本申请发明人发现,在训练关系抽取任务模型时,需要利用分词器将语义文本转换为标识符tokens,再基于tokens进行实体关系标注,最终输入模型进行训练。然而,由于分词器并非是直接以单个字符为粒度转换语义文本,因此分词后将无法根据分词前某字符在原有语义文本中的索引得知其在tokens内的位置。在现有的处理方式中,针对问题,可在整个文本的tokens中查找待搜索字符的tokens。该方式的缺陷在于,整个文本内可能会重复出现相同的待搜索字符,从而无法确切定位三元组关系内所指的实体在tokens中的位置。除分词后索引无法对齐对tokens内实体关系标注造成的障碍以外,在实际场景中,一个文本内常会出现多个三元组,且存在大量嵌套型实体。这使得基于tokens的多个三元组和嵌套型实体标注更为复杂。在另一现有的处理方式中,若出现嵌套型实体或某实体存在于多个三元组内的情况,则采用就近标注的策略,直接导致大量实体关系漏标,无法保证数据标注的完整性。
本申请的一个实施例提供了一种基于表填充的复杂三元组关系抽取任务的标注方法,用于解决现有技术中分词后无法得知原始文本字符在tokens级别的索引位置的问题,主要针对文本中存在嵌套型实体、多个三元组的情况,用以提高数据标注的完整性和关系抽取任务模型训练的效率。
本申请实施例为解决上述问题,首先,利用高亮标注在原始文本中标注出实体,得到高亮文本,利用栈得到高亮文本中高亮实体的位置索引,以解决嵌套型实体和多个三元组漏标的问题,并提高标注和训练的效率。其次,对高亮文本进行分词处理得到tokens和偏移集合offsets,最终利用偏移集合offsets得到tokens级别的实体关系表,以解决分词后索引难以对齐的问题。
本申请实施例涉及一种基于表填充的复杂三元组关系抽取任务的标注方法,其解决了嵌套型实体和多个三元组在实体关系表内的完整标注,确保了分词前索引到分词后索引的准确映射,利用该实体关系表进行模型训练,可以大大提高模型训练的效率和准确率。
如图1所示,在一些实施方式中,该三元组关系抽取任务的标注方法,包括步骤S10至步骤S40:
S10、根据原始文本和原始文本三元组列表获取对应的高亮文本、高亮实体索引集合。
示例性地,如图2所示,步骤S10可以包括步骤S101和S102:
S101、针对所述原始文本,采用正则匹配以及高亮标注的方式生成对应的高亮文本;
S102、获取所述高亮文本的高亮实体索引集合。
具体地,针对所述原始文本,采用正则匹配以及高亮标注的方式生成对应的高亮文本,可以包括:根据原始文本以及所述原始文本的三元组列表得到实体集合;分别遍历所述实体集合,将所述实体集合处理成正则匹配的模式;根据所述正则匹配的模式,将被匹配到的字符串进行高亮标注处理,获得所述高亮文本。
具体地,获取所述高亮文本的高亮实体索引集合,可以包括:基于所述高亮文本,将所述实体的高亮标注的索引和高亮标注以键值对的形式储存于字典中,获得相应的高亮标注索引字典;利用栈和所述高亮标注索引字典获得所述高亮实体索引集合。
S20、根据所述高亮文本、所述高亮实体索引集合获取高亮文本三元组列表。
具体地,步骤S20可以包括:基于所述高亮文本和所述高亮实体索引集合更新所述原始文本的三元组列表,得到高亮文本三元组列表。
S30、对所述高亮文本进行分词并获得偏移集合。
具体地,S30可以包括:利用分词器对高亮文本进行分词,获得分词结果以及偏移集合。
S40、根据所述偏移集合和所述高亮文本三元组列表,获取标识符级别标注完成的实体关系表。
示例性地,如图3所示,步骤S40可以包括步骤S401至S403:
S401、将所述高亮文本的分词结果转换为token标识符;
S402、根据所述偏移集合获得每个token标识符在语义文本中对应的单个或多个字符的开始索引和结束索引;
S403、根据所述开始索引和所述结束索引,获得标注好的实体关系表。
标识符为token标识符,在本实施例中可以简称token,多个token标识符的集合可以称为tokens。
具体地,根据所述开始索引和所述结束索引,获得标注好的实体关系表,包括:通过遍历所述高亮文本三元组列表标注实体关系矩阵中的所有元素值,得到标注完成的实体关系矩阵,所述标注完成的实体关系矩阵即所述标注好的实体关系表。
具体地,通过遍历所述高亮文本三元组列表标注实体关系矩阵中的其中一个元素值,可以包括:遍历所述高亮文本三元组列表,得到当前遍历的高亮主体的开始索引和高亮客体的开始索引;确定所述高亮主体的开始索引和所述高亮客体的开始索引中的较小值和较大值;确定所述较小值的位置索引以及所述较大值的位置索引;根据所述较小值的位置索引以及所述较大值的位置索引,将当前遍历的三元组的实体关系索引值标注为实体关系矩阵中的对应元素值,完成一个元素值的标注。
具体地,确定所述较小值的位置索引以及所述较大值的位置索引,包括:根据所述偏移集合获得升序begins集合与升序ends集合,所述升序begins集合与所述升序ends集合分别代表每个token标识符在所述高亮文本中对应的单个或多个字符的开始索引和结束索引;根据所述升序ends集合获得所述较小值的位置索引;根据所述升序begins集合获得所述较大值的位置索引。
具体地,根据所述升序begins集合获得所述较大值的位置索引,包括:查找所述较大值在所述升序begins集合内应插入的位置,以保持所述begins集合升序,应插入位置即为所述较大值的位置索引;若所述较大值在所述升序begins集合内已存在,则应插入位置为所述升序begins集合内已存在值的右边。
具体地,根据所述升序ends集合获得所述较小值的位置索引,包括:查找所述较小值在所述升序ends集合内应插入的位置,以保持所述ends集合升序,应插入位置即为所述较小值的位置索引;若所述begin值在所述升序ends集合内已存在,则应插入位置为所述升序ends集合内已存在值的左边。
在某些具体示例中,根据原始文本和原始文本三元组列表获取对应的高亮文本、高亮实体索引集合,具体可以包括:
(1)根据原始文本及其对应三元组列表得到主体集合和客体集合,分别遍历主体集合和客体集合,将当前遍历的实体处理成正则匹配的模式。采用文本模式匹配的方式,将被匹配到的字符串进行高亮标注处理,得到新待匹配文本,最终获得高亮文本。原始文本也可以简称为原文本。
(2)基于高亮文本,将实体的高亮标注的索引和高亮标注以键值对的形式储存于字典中,获得相应的高亮标注索引字典。利用栈和字典获得高亮主体索引集合和高亮客体索引集合。
(3)基于高亮文本和高亮实体索引集合更新三元组列表spo_lists,得到基于高亮文本的spo_lists。
在某些具体示例中,基于偏移集合获得tokens级别的实体关系矩阵的方式,包括:
(1)结合分词器对高亮文本进行分词,并获得分词偏移集合offsets,根据偏移集合offsets获得begins集合与ends集合。
(2)初始化实体关系表矩阵,遍历三元组列表,并将每对三元组内涉及到的两个实体的开始索引的较小值记为begin值,较大值记为end值。
(3)查找end值在升序begins集合内应插入的位置,记为row,查找begin值在升序ends集合内应插入的位置,记为col。根据row和col,标注实体关系矩阵[row,col]的值为当前遍历三元组的实体关系索引值。最终获得tokens级别标注完整的实体关系矩阵,用于后续模型训练。
采用正则匹配和栈可完整地将多个三元组和嵌套型实体标注到实体关系表内,结合偏移集合能有效解决分词前后索引变动的问题。
在某些实施方式中,三元组关系抽取任务的标注方法所包括的实施步骤如下:
S1.基于正则表达式和栈得到高亮文本与高亮实体索引集合。
该步骤需要在原始文本内加入高亮标注得到高亮文本,并在高亮文本基础上,利用栈获得高亮实体,其流程可参阅附图4。
S1.1.使用高亮标注和正则匹配生成高亮文本。
S1.1.1.获得原始文本及其对应三元组列表spo_lists,spo_lists中包含多个三元组:(主体索引,客体索引,实体关系索引),可根据实体关系字典得到实体关系。在本申请实施例中,spo_lists可表示为spo_lists=[{s_idx:[主体起始索引值,主体结束索引值],o_idx:[客体起始索引值,客体结束索引值],s_ne:第一主体,o_ne:第一客体,p:实体关系,p_idx:实体关系索引值},...]。其中,实体关系字典可表示为{实体关系索引值:实体关系,...}。
S1.1.2.根据spo_lists中的多个三元组的主体和客体,得到主体集合和客体集合。在本申请实施例中,上述两个集合的可表示为主体集合=[第一主体,第二主体,...],客体集合=[第一客体,第二客体,...]。
S1.1.3.预先设定高亮标注符号,高亮标注符号的意义在于,将数据中的主体和客体标注出,使得模型在训练时,可以分辨出文本中的主体和客体。在本申请实施例中,<s>和</s>标注符号用以标注主体,<o>和</o>标注符号用以标注客体。
S1.1.4.遍历主体集合:在当前遍历的主体的每两个字符之间均加上(<s>|</s>|<o>|</o>)*,得到正则匹配的模式,用以匹配文本内是否含有该模式。若有匹配结果,则将待匹配文本中被匹配到的字符串的两端分别加上<s>和</s>标注符号,得到新待匹配文本。
S1.1.5.遍历客体集合:模式匹配方式与前者的相同。若有匹配结果,则将待匹配文本中被匹配到的字符串的两端分别加上<o>和</o>标注符号,得到新待匹配文本。
S1.1.6.结束步骤S1.1.4-S1.1.5后,最终获得带有多个高亮标注的新文本,即高亮文本。
采用正则表达式进行实体匹配而非直接在文本内搜寻实体,可以解决的技术问题是:当两个实体发生嵌套时,其中一个嵌套型实体在加入高亮标注后,会造成待匹配文本的改变,同时导致另一个嵌套型实体无法直接在改变后的待匹配文本内被查找到,会导致实体的漏标,降低数据标注的完整性。
S1.2.利用栈获取带有高亮标注的新实体的索引。
S1.2.1.根据S1.1高亮文本,获得主体的高亮标注的索引,即高亮标注<s>和</s>的索引。将高亮标注的索引和高亮标注以键值对的形式储存于字典中,得到高亮标注索引字典,并根据字典键排成升序。在本申请实施例中,上述字典可表示为{高亮标注索引值:高亮标注,高亮标注索引值:高亮标注,...}。
S1.2.2.遍历上述字典,若当前值为<s>,则将当前键加入栈,若当前值为</s>,则从栈内pop出一个键,并将pop出的键和当前键加入高亮主体索引集合。遍历结束获得高亮主体索引集合。
S1.2.3.采用与步骤S1.2.1-S1.2.2同样的操作方式,获得高亮客体索引集合。
S2.基于高亮实体索引集合更新原始文本的三元组列表spo_lists。
该步骤需要根据S1.1的高亮文本和S1.2的高亮实体索引集合,得到基于S1.1高亮文本的spo_lists。其流程可参阅附图5。
S2.1.获得基于S1.1高亮文本的原始文本spo_lists。
S2.1.1.遍历S1.2高亮主体索引集合,根据S1.1的高亮文本获得当前遍历索引对应的高亮主体字符串,同时嵌套遍历S1.2高亮客体索引集合,根据S1.1高亮文本获得当前嵌套遍历索引对应的高亮客体字符串。分别去掉高亮主体和客体字符串内的高亮标注,若两者在spo_lists内存在三元组关系,则将spo_lists内该三元组的s_idx和o_idx,分别更新为s_idx:[当前遍历高亮主体起始索引值,当前遍历主体高亮结束索引值]和o_idx:[当前遍历高亮客体起始索引值,当前遍历高亮客体结束索引值],同时将s_ne和o_ne更新为对应的高亮实体。
S2.1.2.遍历结束后,获得基于S1.1高亮文本的spo_lists。
S3.基于偏移集合获得tokens级别的实体关系表。
该步骤将S1.1高亮文本进行分词,并根据偏移集合获得tokens级别的实体关系表。其流程可参阅附图6。
S3.1.获得tokens和偏移集合。
S3.1.1.利用分词器将S1.1高亮文本进行分词,并根据映射关系将分词结果转换为标识符tokens。
S3.1.2.在使用分词器时,同时获得分词偏移集合offsets,偏移集合offsets记录了tokens中每一个token在语义文本中对应的单个或多个字符的索引。在本申请实施例中,偏移集合offsets可表示为,offsets=[(语义文本字符起始索引值,语义文本字符结束索引值),...]。
S3.1.3.根据偏移集合offsets获得begins集合与ends集合,分别代表每个token在语义文本中对应的单个或多个字符的开始索引和结束索引。在本申请实施例中,begins集合与ends集合可表示为,begins=[语义文本字符起始索引值,...],ends=[语义文本字符结束索引值-1,...]。
S3.2.基于偏移集合获得tokens级别的实体关系矩阵。
S3.2.1.初始化输入模型进行训练的实体关系矩阵entity_relation,矩阵长宽相等,大小为S3.1所得tokens的长度,并预设初始化值。在本实施方式中,初始化值可以为-100。
S3.2.2.根据S2.1获得的spo_lists,遍历其中的三元组:
S3.2.2.1.得到当前遍历的高亮主体的开始索引和高亮客体的开始索引。将两个索引值的较小值记为begin值,较大值记为end值。
S3.2.2.2.查找end值在升序begins集合内应插入的位置,以保持begins集合升序,记位置索引为row。若end值在begins集合内已存在,则应插入位置为begins集合内已存在值的右边。在此需阐明,这样的方式能确保end值在tokens级别中的应插入索引是下一个或多个字符转成的tokens的开始前,并确保应找的字符串都被涵盖。
S3.2.2.3.查找begin值在升序ends集合内应插入的位置,以保持ends集合升序,记位置索引为col。若begin值在ends集合内已存在,则应插入位置为ends集合内已存在值的左边。在此需阐明,这样的方式能确保begin值在tokens级别中的插入是上一个或多个字符转成的tokens的结束后,并确保应找的字符串都被涵盖。
S3.2.2.4.根据所得row和col,标注entity_relation[row,col]的值为当前遍历三元组的实体关系索引值。
S3.2.3.结束遍历最终获得标注好的实体关系矩阵entity_relation,即实体关系表,输入模型进行训练。
以下为本申请的一个具体范例,仅用于具象化解释本申请实施例所提供的方法的具体实施流程:
A.原始文本:
当气管受累,急性支气管炎(acute bronchiolitis)也称急性气管支气管炎,喘憋可用舒张剂。
B.基于原始文本的spo_lists:
'spo_lists':[
{'s_idx':[6,11],'o_idx':[35,42],'s_ne':'急性支气管炎','o_ne:'急性气管支气管炎','p':'同义词','p_idx':2},
{'s_idx':[6,11],'o_idx':[13,31],'s_ne':'急性支气管炎','o_ne':'acutebronchiolitis','p':'同义词','p_idx':2},
{'s_idx':[8,11],'o_idx':[37,42],'s_ne':'支气管炎','o_ne':'气管支气管炎','p':'同义词','p_idx':2},
{'s_idx':[6,11],'o_idx':[44,45],'s_ne':'急性支气管炎','o_ne':'喘憋','p':'临床表现','p_idx':1},
{'s_idx':[6,11],'o_idx':[48,50],'s_ne':'急性支气管炎','o_ne':'舒张剂','p':'药物治疗','p_idx':3},
{'s_idx':[6,11],'o_idx':[8,10],'s_ne':'急性支气管炎','o_ne':'支气管','p':'发病部位','p_idx':0},
{'s_idx':[35,42],'o_idx':[37,41],'s_ne':'急性气管支气管炎','o_ne':'气管支气管','p':'发病部位','p_idx':0}]
C.实体关系字典:
{0:'发病部位',1:'临床表现',2:'同义词',3:'药物治疗'}
D.基于A、B获得主体集合origin_s_entities、客体集合origin_o_entities:
origin_s_entities=['支气管炎','急性支气管炎','急性气管支气管炎']
origin_o_entities=['喘憋','舒张剂','支气管','气管支气管','气管支气管炎','急性气管支气管炎','acute bronchiolitis']
E.正则匹配的模式:
仅列举出实体'急性气管支气管炎'转换成模式:
急性气管支气管炎→'急(<s>|</s>|<o>|</o>)*性(<s>|</s>|<o>|</o>)*气(<s>|</s>|<o>|</o>)*管(<s>|</s>|<o>|</o>)*支(<s>|</s>|<o>|</o>)*气(<s>|</s>|<o>|</o>)*管(<s>|</s>|<o>|</o>)*炎'
F.高亮文本:
当气管受累,<s>急性<s><o>支气管</o>炎</s></s>(<o>acute bronchiolitis</o>)也称<s><o>急性<o><o>气管支气管</o>炎</o></o></s>,<o>喘憋</o>可用<o>舒张剂</o>。
G.实体的高亮标注的索引字典:
主体的高亮标注的索引字典:{6:'<s>',11:'<s>',25:'</s>',29:'</s>',63:'<s>',95:'</s>'}
客体的高亮标注的索引字典:{14:'<o>',20:'</o>',34:'<o>',56:'</o>',66:'<o>',71:'<o>',74:'<o>',82:'</o>',87:'</o>',91:'</o>',100:'<o>',105:'</o>',111:'<o>',117:'</o>'}
H.高亮实体索引集合:
高亮主体索引集合:[[11,25],[6,29],[63,95]]
高亮客体索引集合:[[14,20],[34,56],[74,82],[71,87],[66,91],[100,105],[111,117]]
I.基于S1.1.新文本的spo_lists:
'spo_lists':[
{'s_idx':[6,29],'o_idx':[66,91],'s_ne':'<s>急性<s><o>支气管</o>炎</s>','o_ne:'<o>急性<o><o>气管支气管</o>炎</o>','p':'同义词','p_idx':2},
{'s_idx':[6,29],'o_idx':[34,56],'s_ne':'<s>急性<s><o>支气管</o>炎</s>','o_ne':'<o>acute bronchiolitis','p':'同义词','p_idx':2},
{'s_idx':[11,25],'o_idx':[71,87],'s_ne':”<s><o>支气管</o>炎','o_ne':'<o><o>气管支气管</o>炎','p':'同义词','p_idx':2},
{'s_idx':[6,29],'o_idx':[100,105],'s_ne':'<s>急性<s><o>支气管</o>炎</s>','o_ne':'<o>喘憋','p':'临床表现','p_idx':1},
{'s_idx':[6,29],'o_idx':[111,117],'s_ne':'<s>急性<s><o>支气管</o>炎</s>','o_ne':'<o>舒张剂','p':'药物治疗','p_idx':3},
{'s_idx':[6,29],'o_idx':[14,20],'s_ne':'<s>急性<s><o>支气管</o>炎</s>','o_ne':'<o>支气管','p':'发病部位','p_idx':0},
{'s_idx':[63,95],'o_idx':[74,82],'s_ne':'<s><o>急性<o><o>气管支气管</o>炎</o></o>','o_ne':'<o>气管支气管','p':'发病部位','p_idx':0}]
J.分词器分词:
['[CLS]','当','气','管','受','累',',','<s>','急','性','<s>','<o>','支','气','管','</o>','炎','</s>','</s>','(','<o>','ac','##ute','br','##on','##chi','##ol','##iti','##s','</o>',')','也','称','<s>','<o>','急','性','<o>','<o>','气','管','支','气','管','</o>','炎','</o>','</o>','</s>',',','<o>','喘','憋','</o>','可','用','<o>','舒','张','剂','</o>','。','[SEP]']
K.tokens:
[101,2496,3698,5052,1358,5168,8024,21128,2593,2595,21128,21130,3118,3698,5052,21131,4142,21129,21129,113,21130,9226,9710,8575,8224,10525,8798,12644,8118,21131,114,738,4917,21128,21130,2593,2595,21130,21130,3698,5052,3118,3698,5052,21131,4142,21131,21131,21129,8024,21130,1596,2728,21131,1377,4500,21130,5653,2476,1177,21131,511,102]
L.偏移集合offsets:
[(0,0),(0,1),(1,2),(2,3),(3,4),(4,5),(5,6),(6,9),(9,10),(10,11),(11,14),(14,17),(17,18),(18,19),(19,20),(20,24),(24,25),(25,29),(29,33),(33,34),(34,37),(37,39),(39,42),(43,45),(45,47),(47,50),(50,52),(52,55),(55,56),(56,60),(60,61),(61,62),(62,63),(63,66),(66,69),(69,70),(70,71),(71,74),(74,77),(77,78),(78,79),(79,80),(80,81),(81,82),(82,86),(86,87),(87,91),(91,95),(95,99),(99,100),(100,103),(103,104),(104,105),(105,109),(109,110),(110,111),(111,114),(114,115),(115,116),(116,117),(117,121),(121,122),(0,0)]
M.begins集合与ends集合:
begins集合:[0,1,2,3,4,5,6,9,10,11,14,17,18,19,20,24,25,29,33,34,37,39,43,45,47,50,52,55,56,60,61,62,63,66,69,70,71,74,77,78,79,80,81,82,86,87,91,95,99,100,103,104,105,109,110,111,114,115,116,117,121]
ends集合:[0,1,2,3,4,5,8,9,10,13,16,17,18,19,23,24,28,32,33,36,38,41,44,46,49,51,54,55,59,60,61,62,65,68,69,70,73,76,77,78,79,80,81,85,86,90,94,98,99,102,103,104,108,109,110,113,114,115,116,120,121]
N.根据offsets、主体的开始索引、客体的开始索引确定实体关系表:
1.三元组可简化为
'spo_lists':[
{'s_start_idx:6','o_start_idx':66,'p_idx':2}
{'s_start_idx:6','o_start_idx':34,'p_idx':2}
{'s_start_idx:11','o_start_idx':71,'p_idx':2}
{'s_start_idx:6','o_start_idx':100,'p_idx':1}
{'s_start_idx:6','o_start_idx':111,'p_idx':3}
{'s_start_idx:6','o_start_idx':14,'p_idx':0}
{'s_start_idx:63','o_start_idx':74,'p_idx':0}]
2.以第一对三元组为例,当高亮主体的开始索引为6,高亮客体的开始索引为66时,将两个索引中较小值6记为begin,较大值66记为end。在ends集合中查找begin应插入的位置以保持ends集合升序,可得应插入位置的索引为7,记为row,在begins集合中查找end应插入的位置以保持begins集合升序,可得应插入位置的索引为34,记为col。即p_idx=2,col=34,row=7,故entity_relation[7][34]=2。以此类推得:
entity_relation[7][34]=2
entity_relation[7][20]=2
entity_relation[10][37]=2
entity_relation[7][50]=1
entity_relation[7][56]=3
entity_relation[7][11]=0
entity_relation[33][38]=0
3.最终得到实体关系表entity_relation,entity_relation的部分结果可见下表。
应当理解的是,上述表格中第二行和第三行的内容以及第二列和第三列的内容只为解释说明本范例,而非真实存在于entity_relation内。同时,上述表格省略了部分索引的显示。
本申请实施例提供一种将tokens内的复杂嵌套型实体和多个三元组进行准确标注的方法,与现有技术相比,其有益效果如下:
本申请实施例的方法能够同时实现嵌套型实体和多个三元组的标注,解决了现有技术中多个三元组或者嵌套型实体的标注问题,提高了实体标注的完整性,解决了实体漏标的问题。
此外,本申请实施例利用偏移集合offsets来得到分词前后索引变动的映射,该方式解决了现有技术中,根据待搜索字符的tokens在整个文本的tokens内进行搜索,因待搜索字符可能重复出现导致搜索结果不单一、不确切的问题。本申请实施例根据偏移集合offsets能准确得到分词前字符在分词后tokens内的位置,提高了实体关系标注的精确度。
综上,本申请实施例的方法能有效解决多个三元组和嵌套型实体在tokens级别的标注,并能做到分词前后的准确映射,提高标注精准度和训练效率。
本申请实施例的方法得到了tokens级别的实体关系标注数据,解决了嵌套型实体和多个三元组的在tokens级别的标注问题,结合正则表达式和栈得到高亮文本与高亮实体,并使用分词器对高亮文本进行分词,获得tokens和偏移集合,最终基于偏移集合获得tokens级别的实体关系表,用于关系抽取模型的训练。
本申请另一个实施例提供了一种关系抽取任务模型训练方法,所述方法包括:利用通过上述任一实施方式的标注方法所得到的实体关系表对关系抽取任务模型进行训练。
本申请另一个实施例提供了一种三元组关系抽取任务的标注装置,如图7所示,在一些实施方式中,该装置包括:
第一获取模块,用于根据原始文本和原始文本三元组列表获取对应的高亮文本、高亮实体索引集合;
第二获取模块,用于根据所述高亮文本、所述高亮实体索引集合获取高亮文本三元组列表;
分词模块,用于对所述高亮文本进行分词并获得偏移集合;
第三获取模块,用于根据所述偏移集合和所述高亮文本三元组列表,获取标识符级别标注完成的实体关系表。
在一些实施方式中,第一获取模块可以包括:
高亮文本生成单元,用于针对所述原始文本,采用正则匹配以及高亮标注的方式生成对应的高亮文本;
高亮实体索引集合获取单元,用于获取所述高亮文本的高亮实体索引集合。
在一些实施方式中,第二获取模块进一步具体用于基于所述高亮文本和所述高亮实体索引集合更新所述原始文本的三元组列表,得到高亮文本三元组列表。
具体地,高亮文本生成单元包括:
第一子单元,用于根据原始文本以及所述原始文本的三元组列表得到实体集合;
第二子单元,用于分别遍历所述实体集合,将所述实体集合处理成正则匹配的模式;
第三子单元,用于根据所述正则匹配的模式,将被匹配到的字符串进行高亮标注处理,获得所述高亮文本。
具体地,获取所述高亮文本的高亮实体索引集合,包括:
基于所述高亮文本,将所述实体的高亮标注的索引和高亮标注以键值对的形式储存于字典中,获得相应的高亮标注索引字典;
利用栈和所述高亮标注索引字典获得所述高亮实体索引集合。
在一些实施方式中,第三获取模块可以包括:
转换单元,用于将所述高亮文本的分词结果转换为token标识符;
索引获取单元,用于根据所述偏移集合获得每个token标识符在语义文本中对应的单个或多个字符的开始索引和结束索引;
实体关系表获取单元,用于根据所述开始索引和所述结束索引,获得标注好的实体关系表。
示例性地,实体关系表获取单元进一步用于:通过遍历所述高亮文本三元组列表标注实体关系矩阵中的所有元素值,得到标注完成的实体关系矩阵,所述标注完成的实体关系矩阵即所述标注好的实体关系表。
具体地,实体关系表获取单元所执行的通过遍历所述高亮文本三元组列表标注实体关系矩阵中的其中一个元素值,包括:
遍历所述高亮文本三元组列表,得到当前遍历的高亮主体的开始索引和高亮客体的开始索引;
确定所述高亮主体的开始索引和所述高亮客体的开始索引中的较小值和较大值;
确定所述较小值的位置索引以及所述较大值的位置索引;
根据所述较小值的位置索引以及所述较大值的位置索引,将当前遍历的三元组的实体关系索引值标注为实体关系矩阵中的对应元素值,完成一个元素值的标注。
本申请另一个实施例提供了一种关系抽取任务模型训练装置,用于利用通过上述任一实施方式的三元组关系抽取任务的标注方法所得到的所述实体关系表对关系抽取任务模型进行训练。
本申请另一个实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序,以实现上述任一实施方式的三元组关系抽取任务的标注方法。
如图8所示,电子设备10可以包括:处理器100,存储器101,总线102和通信接口103,处理器100、通信接口103和存储器101通过总线102连接;存储器101中存储有可在处理器100上运行的计算机程序,处理器100运行该计算机程序时执行本申请前述任一实施方式所提供的方法。
其中,存储器101可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还可以包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线102可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。其中,存储器101用于存储程序,处理器100在接收到执行指令后,执行该程序,前述本申请实施例任一实施方式揭示的方法可以应用于处理器100中,或者由处理器100实现。
处理器100可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器100中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器100可以是通用处理器,可以包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器101,处理器100读取存储器101中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施例的第四个方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述任一实施方式的三元组关系抽取任务的标注方法。
本申请实施方式还提供一种与前述实施方式所提供的方法对应的计算机可读存储介质,参考图9所示,其示出的计算机可读存储介质为光盘20,其上存储有计算机程序(即程序产品),该计算机程序在被处理器运行时,会执行前述任意实施方式所提供的方法。
需要说明的是,计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是:
术语“模块”并非意图受限于特定物理形式。取决于具体应用,模块可以实现为硬件、固件、软件和/或其组合。此外,不同的模块可以共享公共组件或甚至由相同组件实现。不同模块之间可以存在或不存在清楚的界限。
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示例一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上实施例仅表达了本申请的实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (14)
1.一种三元组关系抽取任务的标注方法,其特征在于,包括:
根据原始文本和原始文本三元组列表获取对应的高亮文本、高亮实体索引集合;
根据所述高亮文本、所述高亮实体索引集合获取高亮文本三元组列表;
对所述高亮文本进行分词并获得偏移集合;
根据所述偏移集合和所述高亮文本三元组列表,获取标识符级别标注完成的实体关系表。
2.根据权利要求1所述的方法,其特征在于,所述根据原始文本和原始文本三元组列表获取对应的高亮文本、高亮实体索引集合,包括:
针对所述原始文本,采用正则匹配以及高亮标注的方式生成对应的高亮文本;
获取所述高亮文本的高亮实体索引集合。
3.根据权利要求1所述的方法,其特征在于,所述根据所述高亮文本、所述高亮实体索引集合获取高亮文本三元组列表,包括:
基于所述高亮文本和所述高亮实体索引集合更新所述原始文本的三元组列表,得到高亮文本三元组列表。
4.根据权利要求2所述的方法,其特征在于,所述针对所述原始文本,采用正则匹配以及高亮标注的方式生成对应的高亮文本,包括:
根据原始文本以及所述原始文本的三元组列表得到实体集合;
分别遍历所述实体集合,将所述实体集合处理成正则匹配的模式;
根据所述正则匹配的模式,将被匹配到的字符串进行高亮标注处理,获得所述高亮文本。
5.根据权利要求2所述的方法,其特征在于,所述获取所述高亮文本的高亮实体索引集合,包括:
基于所述高亮文本,将所述实体的高亮标注的索引和高亮标注以键值对的形式储存于字典中,获得相应的高亮标注索引字典;
利用栈和所述高亮标注索引字典获得所述高亮实体索引集合。
6.根据权利要求1所述的方法,其特征在于,所述根据所述偏移集合和所述高亮文本三元组列表,获取标识符级别标注完成的实体关系表,包括:
将所述高亮文本的分词结果转换为token标识符;
根据所述偏移集合获得每个token标识符在语义文本中对应的单个或多个字符的开始索引和结束索引;
根据所述开始索引和所述结束索引,获得标注好的实体关系表。
7.根据权利要求6所述的方法,其特征在于,所述根据所述开始索引和所述结束索引,获得标注好的实体关系表,包括:
通过遍历所述高亮文本三元组列表标注实体关系矩阵中的所有元素值,得到标注完成的实体关系矩阵,所述标注完成的实体关系矩阵即所述标注好的实体关系表。
8.根据权利要求7所述的方法,其特征在于,通过遍历所述高亮文本三元组列表标注实体关系矩阵中的其中一个元素值,包括:
遍历所述高亮文本三元组列表,得到当前遍历的高亮主体的开始索引和高亮客体的开始索引;
确定所述高亮主体的开始索引和所述高亮客体的开始索引中的较小值和较大值;
确定所述较小值的位置索引以及所述较大值的位置索引;
根据所述较小值的位置索引以及所述较大值的位置索引,将当前遍历的三元组的实体关系索引值标注为实体关系矩阵中的对应元素值,完成一个元素值的标注。
9.根据权利要求8所述的方法,其特征在于,所述确定所述较小值的位置索引以及所述较大值的位置索引,包括:
根据所述偏移集合获得升序begins集合与升序ends集合,所述升序begins集合与所述升序ends集合分别代表每个token标识符在所述高亮文本中对应的单个或多个字符的开始索引和结束索引;
根据所述升序ends集合获得所述较小值的位置索引;
根据所述升序begins集合获得所述较大值的位置索引。
10.根据权利要求9所述的方法,其特征在于,所述根据所述升序ends集合获得所述较小值的位置索引,包括:
查找所述较小值在所述升序ends集合内应插入的位置,以保持所述ends集合升序,应插入位置即为所述较小值的位置索引;若所述begin值在所述升序ends集合内已存在,则应插入位置为所述升序ends集合内已存在值的左边;
所述根据所述升序begins集合获得所述较大值的位置索引,包括:
查找所述较大值在所述升序begins集合内应插入的位置,以保持所述begins集合升序,应插入位置即为所述较大值的位置索引;若所述较大值在所述升序begins集合内已存在,则应插入位置为所述升序begins集合内已存在值的右边。
11.一种关系抽取任务模型训练方法,其特征在于,所述方法包括:
利用通过权利要求1-10中任一项所述的标注方法所得到的所述实体关系表对关系抽取任务模型进行训练。
12.一种三元组关系抽取任务的标注装置,其特征在于,包括:
第一获取模块,用于根据原始文本和原始文本三元组列表获取对应的高亮文本、高亮实体索引集合;
第二获取模块,用于根据所述高亮文本、所述高亮实体索引集合获取高亮文本三元组列表;
分词模块,用于对所述高亮文本进行分词并获得偏移集合;
第三获取模块,用于根据所述偏移集合和所述高亮文本三元组列表,获取标识符级别标注完成的实体关系表。
13.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-11中任一所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以实现如权利要求1-11中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210655142.6A CN115098617A (zh) | 2022-06-10 | 2022-06-10 | 三元组关系抽取任务的标注方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210655142.6A CN115098617A (zh) | 2022-06-10 | 2022-06-10 | 三元组关系抽取任务的标注方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115098617A true CN115098617A (zh) | 2022-09-23 |
Family
ID=83291064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210655142.6A Pending CN115098617A (zh) | 2022-06-10 | 2022-06-10 | 三元组关系抽取任务的标注方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115098617A (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070050384A1 (en) * | 2005-08-26 | 2007-03-01 | Korea Advanced Institute Of Science And Technology | Two-level n-gram index structure and methods of index building, query processing and index derivation |
US20070073533A1 (en) * | 2005-09-23 | 2007-03-29 | Fuji Xerox Co., Ltd. | Systems and methods for structural indexing of natural language text |
US20110161070A1 (en) * | 2009-12-31 | 2011-06-30 | International Business Machines Corporation | Pre-highlighting text in a semantic highlighting system |
GB201722306D0 (en) * | 2017-12-30 | 2018-02-14 | Innoplexus Ag | Method and system for extracting entity information from target data |
CN110688467A (zh) * | 2019-08-23 | 2020-01-14 | 北京百度网讯科技有限公司 | 命名实体识别方法、装置、计算机设备及存储介质 |
CN111723575A (zh) * | 2020-06-12 | 2020-09-29 | 杭州未名信科科技有限公司 | 识别文本的方法、装置、电子设备及介质 |
CN112115709A (zh) * | 2020-09-16 | 2020-12-22 | 北京嘀嘀无限科技发展有限公司 | 实体识别方法、装置、存储介质和电子设备 |
CN112257421A (zh) * | 2020-12-21 | 2021-01-22 | 完美世界(北京)软件科技发展有限公司 | 嵌套实体数据的识别方法、装置及电子设备 |
US20210110113A1 (en) * | 2019-10-11 | 2021-04-15 | Open Text Corporation | Dynamic attribute extraction systems and methods for artificial intelligence platform |
WO2021123742A1 (en) * | 2019-12-20 | 2021-06-24 | Benevolentai Technology Limited | System of searching and filtering entities |
CN113553840A (zh) * | 2021-08-12 | 2021-10-26 | 卫宁健康科技集团股份有限公司 | 一种文本信息处理方法、装置、设备及存储介质 |
CN113609838A (zh) * | 2021-07-14 | 2021-11-05 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 文档信息抽取及图谱化方法和系统 |
CN113627147A (zh) * | 2021-08-18 | 2021-11-09 | 上海明略人工智能(集团)有限公司 | 一种基于多轮阅读理解的实体对齐方法及装置 |
WO2022005188A1 (en) * | 2020-07-01 | 2022-01-06 | Samsung Electronics Co., Ltd. | Entity recognition method, apparatus, electronic device and computer readable storage medium |
CN113962224A (zh) * | 2021-10-09 | 2022-01-21 | 广州华多网络科技有限公司 | 命名实体识别方法及其装置、设备、介质、产品 |
CN114003685A (zh) * | 2022-01-04 | 2022-02-01 | 广州奥凯信息咨询有限公司 | 分词位置索引构建方法及其装置、文档检索方法及其装置 |
CN114398489A (zh) * | 2021-12-06 | 2022-04-26 | 重庆邮电大学 | 一种基于Transformer的实体关系联合抽取方法、介质及系统 |
CN114580424A (zh) * | 2022-04-24 | 2022-06-03 | 之江实验室 | 一种用于法律文书的命名实体识别的标注方法和装置 |
-
2022
- 2022-06-10 CN CN202210655142.6A patent/CN115098617A/zh active Pending
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070050384A1 (en) * | 2005-08-26 | 2007-03-01 | Korea Advanced Institute Of Science And Technology | Two-level n-gram index structure and methods of index building, query processing and index derivation |
US20070073533A1 (en) * | 2005-09-23 | 2007-03-29 | Fuji Xerox Co., Ltd. | Systems and methods for structural indexing of natural language text |
US20110161070A1 (en) * | 2009-12-31 | 2011-06-30 | International Business Machines Corporation | Pre-highlighting text in a semantic highlighting system |
GB201722306D0 (en) * | 2017-12-30 | 2018-02-14 | Innoplexus Ag | Method and system for extracting entity information from target data |
CN110688467A (zh) * | 2019-08-23 | 2020-01-14 | 北京百度网讯科技有限公司 | 命名实体识别方法、装置、计算机设备及存储介质 |
US20210110113A1 (en) * | 2019-10-11 | 2021-04-15 | Open Text Corporation | Dynamic attribute extraction systems and methods for artificial intelligence platform |
WO2021123742A1 (en) * | 2019-12-20 | 2021-06-24 | Benevolentai Technology Limited | System of searching and filtering entities |
CN111723575A (zh) * | 2020-06-12 | 2020-09-29 | 杭州未名信科科技有限公司 | 识别文本的方法、装置、电子设备及介质 |
WO2022005188A1 (en) * | 2020-07-01 | 2022-01-06 | Samsung Electronics Co., Ltd. | Entity recognition method, apparatus, electronic device and computer readable storage medium |
CN112115709A (zh) * | 2020-09-16 | 2020-12-22 | 北京嘀嘀无限科技发展有限公司 | 实体识别方法、装置、存储介质和电子设备 |
CN112257421A (zh) * | 2020-12-21 | 2021-01-22 | 完美世界(北京)软件科技发展有限公司 | 嵌套实体数据的识别方法、装置及电子设备 |
CN113609838A (zh) * | 2021-07-14 | 2021-11-05 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 文档信息抽取及图谱化方法和系统 |
CN113553840A (zh) * | 2021-08-12 | 2021-10-26 | 卫宁健康科技集团股份有限公司 | 一种文本信息处理方法、装置、设备及存储介质 |
CN113627147A (zh) * | 2021-08-18 | 2021-11-09 | 上海明略人工智能(集团)有限公司 | 一种基于多轮阅读理解的实体对齐方法及装置 |
CN113962224A (zh) * | 2021-10-09 | 2022-01-21 | 广州华多网络科技有限公司 | 命名实体识别方法及其装置、设备、介质、产品 |
CN114398489A (zh) * | 2021-12-06 | 2022-04-26 | 重庆邮电大学 | 一种基于Transformer的实体关系联合抽取方法、介质及系统 |
CN114003685A (zh) * | 2022-01-04 | 2022-02-01 | 广州奥凯信息咨询有限公司 | 分词位置索引构建方法及其装置、文档检索方法及其装置 |
CN114580424A (zh) * | 2022-04-24 | 2022-06-03 | 之江实验室 | 一种用于法律文书的命名实体识别的标注方法和装置 |
Non-Patent Citations (1)
Title |
---|
陈赟: "旅游领域实体和关系联合抽取方法研究", 计算机工程与应用, vol. 58, 12 April 2022 (2022-04-12) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7620538B2 (en) | Constructing a translation lexicon from comparable, non-parallel corpora | |
JP6850806B2 (ja) | 電子データ構造から属性を抽出するための注釈システム | |
US20200004766A1 (en) | Method, apparatus and electronic device for determining knowledge sample data set | |
CN103365992B (zh) | 一种基于一维线性空间实现Trie树的词典检索方法 | |
JP5930496B2 (ja) | レイアウトファイルにおける構造化情報の取得方法及び装置 | |
CN107748778B (zh) | 一种提取地址的方法及装置 | |
US20090234852A1 (en) | Sub-linear approximate string match | |
WO2015010508A1 (zh) | 一种基于一维线性空间实现Trie树的词典存储管理方法 | |
CN106610931A (zh) | 话题名称的提取方法及装置 | |
CN102867049A (zh) | 一种基于单词查找树实现的汉语拼音快速分词方法 | |
CN109885641A (zh) | 一种数据库中文全文检索的方法及系统 | |
CN113641707B (zh) | 知识图谱消歧方法、装置、设备及存储介质 | |
CN110020005A (zh) | 一种病历中主诉和现病史中症状匹配方法 | |
CN116737879A (zh) | 知识库查询方法、装置、电子设备及存储介质 | |
CN115238026A (zh) | 一种基于深度学习的医疗文本主题分割方法和装置 | |
CN111222324A (zh) | 时间识别方法、装置、计算机可读存储介质及电子设备 | |
US8688688B1 (en) | Automatic derivation of synonym entity names | |
CN111046092B (zh) | 一种基于cpu-gpu异构体系结构的并行相似性连接方法 | |
CN112651226A (zh) | 基于依存句法树的知识解析系统及方法 | |
CN115098617A (zh) | 三元组关系抽取任务的标注方法、装置、设备及存储介质 | |
CN109783139B (zh) | 软件界面特征提取方法、装置及电子设备 | |
CN111061927B (zh) | 数据处理方法、装置及电子设备 | |
US11113314B2 (en) | Similarity calculating device and method, and recording medium | |
Schluter | Restarting automata with auxiliary symbols restricted by lookahead size | |
CN111816273A (zh) | 一种海量电子病历的大规模医学知识图谱构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |