CN114519092A

CN114519092A - 一种面向中文领域大规模复杂关系数据集构建框架

Info

Publication number: CN114519092A
Application number: CN202210176287.8A
Authority: CN
Inventors: 赵津; 程俏; 童翰文; 肖仰华
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-05-20

Abstract

本发明公开了一种面向中文领域大规模复杂关系数据集构建框架，具有这样的特征，包括：数据收集模块，从原始语料库中筛选表达知识三元组的文本，构建基于远程监督的数据集合；复杂样本特征工程和种子样本选择模块，从基于远程监督的数据集合中选出符合八类特征的复杂样本，组成高优种子样本集合；复杂样本发现模块，基于高优种子样本集合，预测输入数据属于复杂样本的置信度分数，按照分数从高到低排序，并选择头部的样本构建数据集；众包标注模块，对数据集进行数据标注，得到数据集的所有样本的高质量三元组标签。

Description

一种面向中文领域大规模复杂关系数据集构建框架

技术领域

本发明涉及关系抽取领域，具体涉及一种面向中文领域大规模复杂关系数据集构建框架。

背景技术

关系抽取是自然语言处理的核心任务之一，是知识图谱的构建的基础环节，决定着下游任务的性能，如问答系统、推荐系统等。关系抽取旨在从非结构化文本中抽取出结构化关系事实，如从“北京是中国的首都”可抽取关系事实(北京，首都，中国)。如果数据集中缺少数据类型，模型就无法习得这种模式。关系抽取数据集是训练关系抽取模型的基础资源，数据集的规模、质量严重制约着抽取模型的性能。因此，关系抽取数据集的构建是关系抽取模型的动力源头,是构建高效、准确系统的重要组成部分。

当前，已经发布了一些关系抽取数据集，根据句子的长度可分为两类，即句子级别、文档级别。句子级别的关系抽取数据集主要有SemEval-2010 Task8、ACE05、TACRED等，其中以SemEval-2010 Task8和ACE05为代表的数据集大多是通过设定标注准则，人工从文本中标注三元组。以TACRED为代表的数据集依靠众包标注完成构建任务，但未考虑众包人员因自身因素引入的噪声问题。文档级别的关系抽取数据集主要有DocRED等，该数据集是为了推进文档级关系抽取的研究进度，通过设定标注原则，发布众包任务，并引入了物质奖励，完成数据集构建任务。无论是文档级还是句子级的关系抽取数据集都有共同的缺陷，即构建周期长，人力成本大。此外，上述数据集主要面向科学研究，提升模型的性能，推动领域发展。但真实场景中数据往往含有很多干扰词，实体间关系隐式表达等，使得在学术标准数据集取得优异表现的模型难以在真实场景中适用。因此，构建一个面向中文领域的复杂关系抽取数据集衡量模型在真实场景中的性能是很有必要的。

当前，一些关系抽取模型在学术标准数据集WebNLG和NYT均取得了优异的性能，如NovelTagging、CopyRE、GraphRel和CasRel等。其中最优异的模型CasRel在WebNLG和NYT上的F1指标分别达到了91.8％和89.6％。但这优异的指标并不能证明抽取模型在实际场景中有着出色的应用效果。CasRel模型在学术标准数据集WebNLG和实际应用数据集DuIE上进行抽取性能对比评估的结果表明，当数据集从WebNLG切换到DuIE时，CasRel模型的F1指标从89.3％骤降至62.8％。最主要的原因是实际应用中的数据往往存在着更多的复杂样本，而现有实体关系抽取模型并不能很好地解决。如CasRel能够非常准确的从WebNLG中样本“Elliot See was born on July 23rd,1927in Dallas,and died in St.Louis onFebruary 28th,1966.”抽取出人物“Elliot See”的出生地和死亡地分别是“Dallas”和“St.Louis”，因为，上下文中出现了关系指示词“born”和“died”。但DuIE中的样本“YangJima(1986-),...,is a student of 2005in the Department of…,CommunicationUniversity of China...In the semifinal of the Chinese Idol Show,Yangexcellently performed the Lhasa Ballad,which was recognizedby thejudges andthe audience.As a result,she got to the final competition.”没有显式指出“graduate”，CasRel无法得到“Yang Jima”的毕业院校是“Communication UniversityofChina”。此外，从百度百科实体对应的文本摘要中，随机采样500条样本统计得到，40.1％的三元组知识是包含在复杂的文本信息中的，并不能通过简单的模式识别抽取得到。因此，一个用来评测深度模型在实际应用场景中性能的复杂关系抽取数据集是十分重要的。

近期，虽已发布了一些关系抽取数据集，但是这些数据集没有重点关注实际应用中存在的大量且多样的复杂样本，且严重依赖人工标注，构建周期长。

发明内容

本发明是为了解决上述问题而进行的，目的在于提供一种面向中文领域大规模复杂关系数据集构建框架。

本发明提供了一种面向中文领域大规模复杂关系数据集构建框架，具有这样的特征，包括：数据收集模块，从原始语料库中筛选表达知识三元组的文本，构建基于远程监督的数据集合；复杂样本特征工程和种子样本选择模块，从基于远程监督的数据集合中选出符合八类特征的复杂样本，组成高优种子样本集合；复杂样本发现模块，基于高优种子样本集合，预测输入数据属于复杂样本的置信度分数，按照分数从高到低排序，并选择头部的样本构建数据集；众包标注模块，对数据集进行数据标注，得到数据集的所有样本的高质量三元组标签。

在本发明提供的面向中文领域大规模复杂关系数据集构建框架中，还可以具有这样的特征：其中，数据收集模块从原始语料库中获取大量的文本和知识三元组，利用自动机匹配算法，筛选出同时满足以下条件的文本：(1)同时包含两个及以上的实体(实体来自于所有的知识三元组)；(2)在提及的多个实体中，至少有两个实体存在于同一三元组中。基于远程监督假设和匹配过滤，获取文本和知识三元组，具体步骤如下：步骤1-1，从原始语料库中获得知识三元组信息和文本；步骤1-2，使用自然语言处理工具包，对获得的文本进行实体识别，得到文本提及的实体；步骤1-3，确认文本提及的实体在知识三元组信息中是否存在关系，并将存在关系的文本和知识三元组信息筛选出来，构建基于远程监督的数据集合。

在本发明提供的面向中文领域大规模复杂关系数据集构建框架中，还可以具有这样的特征：其中，复杂样本特征工程和种子样本选择模块包括复杂样本特征工程部和复杂种子样本选择部，复杂样本特征工程部主要针对复杂样本中的八类特征进行启发式特征工程，得到对应维度上的特征值，以区分常规样本和复杂样本，复杂种子样本选择部基于特征值进行复杂种子样本选择，特征值包括文本长度特征值、实体间距特征值、干扰词特征值、语义相似关系特征值、隐式表达特征值、同类实体数量特征值、三元组数量特征值以及三元组重叠特征值。

在本发明提供的面向中文领域大规模复杂关系数据集构建框架中，还可以具有这样的特征：其中，文本长度特征值的确定方式为：以字为单位度量文本长度，以文本中字的数量作为文本长度特征值，实体间距特征值的确定方式为：在文本中找到实体所有的出现位置后，以最近邻的两处位置之间的文本长度作为实体间距特征值，中文按照字计算，英文按照单词计算。

在本发明提供的面向中文领域大规模复杂关系数据集构建框架中，还可以具有这样的特征：其中，利用预定义的关系辅助信息表进行干扰词特征值、隐式表达特征值以及语义相似关系特征值的构建，预定义的关系辅助信息包括关系、语义相似关系、显式表达以及干扰词。干扰词特征值的确定过程为：遍历三元组中的关系，从辅助信息表中获得对应关系的所有干扰词，如果文本中存在任一干扰词，则样本存在干扰词特征值置为true，否则置为flase。隐式表达特征值的确定过程为：针对文本中提及的所有关系，依次判断是否存在显式表达语法模式，则隐式表达特征值置为flase，否则置为true。语义相似关系特征值的确定过程为：如果远程监督三元组包含的所有关系中，存在预定义的语义相似关系，则语义相似关系特征值置为true，否则置为flase。隐式表达特征值和语义相似关系特征值都是布尔类型，指示样本是否符合对应类型的复杂特征。

在本发明提供的面向中文领域大规模复杂关系数据集构建框架中，还可以具有这样的特征：其中，同类实体数量特征值的确定过程为：根据自然语言处理工具包TexSmart的输出结果和预定义辅助信息合并不同关系三元组中的同类实体，统计各类型实体数量，取其中最大值为同类实体数量特征值。三元组数量特征值的确定过程为：根据识别的实体数量计算，假设文本中提及实体的数量为n，考虑到关系的有向性，三元组数量的特征值置为n·(n-1)。三元组重叠特征值的确定过程为：直接统计远程监督的三元组中，存在EntityPair Overlap和Single Entity Overlap的数量总和。

在本发明提供的面向中文领域大规模复杂关系数据集构建框架中，还可以具有这样的特征：其中，复杂种子样本选择部将基于计算得到的特征值进行复杂种子样本选择，具体过程为：步骤2-1，直接从基于远程监督的数据集合中过滤不满足任一复杂特征的样本，对于布尔类型的特征如果为true，则视为满足对应的复杂特征，对于连续值类型的特征，按照人工设置的最低阈值进行初步过滤，经过复杂样本筛选器后，保留的数据构成了复杂样本候选数据集；步骤2-2，从复杂样本候选数据集中随机采样多个样本，并在给定上下文和特征的情况下，选择复杂样本，构成复杂样本数据集，并标记负样本数据集和未标注数据集，最终筛选组成高优种子样本集合。步骤2-1中，阈值设定为文本长度特征值≥40、实体间距特征值≥10、同类实体数量特征值≥3、三元组数量特征值≥6、三元组重叠特征值≥1、干扰词特征值为true、隐性表达特征值为true、语义相似关系特征值为true。

在本发明提供的面向中文领域大规模复杂关系数据集构建框架中，还可以具有这样的特征：其中，复杂样本发现模块主要目标是基于高优种子样本，利用机器学习和深度模型在复杂样本数据集、负样本数据集以及未标注数据集上学习一个二分类器，预测输入数据属于复杂样本的置信度分数。按照分数从高到低排序，选择头部的样本构建最后的数据集，完成与种子样本类似数据的大规模发现，具体过程为：使用复杂样本数据集和未标注数据集的部分采样数据，学习一个基于PU learning的深度分类器，对于PU Learning中的正样本先验概率，通过采样估计设定π＝p(y＝1)＝0.41，PU Learning的损失函数选用nnPU，优化目标函数J_nnpu的计算公式如下：

其中，g为决策函数，用于输出最终预测为正样本(y＝1)的概率，l为损失函数。基于PULearning和深度模型融合的二分类器输出各个未标注样本属于复杂样本的概率值p_pu，按照样本的置信度分数降序排列，依次取头部的部分数据视为复杂样本，此外，通过总结推理类常见的词法、句法模式，直接基于模式匹配，发现额外的复杂样本，并与分类器预测的复杂样本共同组成了数据集用于众包标注。

在本发明提供的面向中文领域大规模复杂关系数据集构建框架中，还可以具有这样的特征：其中，众包标注模块的主要功能是对大规模样本进行数据标注，本模块设计了三阶段标注策略和众包融合策略。三阶段标注策略主要有三个阶段，包括关系标注、实体标注以及三元组标注。关系标注的目标是标注出给定文本中提及的所有关系，标注任务形式设定为选择题，通过可实时配置的关系模式，标注平台自动化推荐文本中表达的关系集合，众包人员只需对推荐关系进行核对以及遗漏关系的补充，即可完成一次关系标注。实体标注的目标是标注出文本中提及的所有实体，每次标注任务都只需要标注出符合给定类型的实体即可，标注任务形式设定为选择题和框选题结合，标注平台分发任务时，通过关系标注出的所有关系获得文本中提及的全部实体类型，对于标注平台遗漏的实体类型，众包人员需手动框选出实体类型及对应的文本片段进行补充，完成所有类型的实体标注任务后，得到文本中提及的所有实体。三元组标注的目标是标注出文本中提及的所有知识三元组，构建实体关系抽取数据集必需的标签数据，标注平台设计有以下两种标注任务：判断题标注形式：当实体数量较少时，基于关系标注和实体标注完成后通过给定关系来排列组合对应类型的实体对，生成所有可能的三元组候选集合，众包人员的任务是判断生成的三元组在文本语境下是否合理，标注任务形式上是判断对错；选择题标注形式：通过给定三元组的头实体和关系，让标注人员选择所有正确的尾实体，标注任务形式上是选择题。

在本发明提供的面向中文领域大规模复杂关系数据集构建框架中，还可以具有这样的特征：其中，众包融合策略利用众包质量控制算法融合众包数据。众包质量控制算法对众包系统中众包人员、输入数据以及标注答案之间的依存关系进行建模，计算得到一系列众包歧义性的度量指标，包括输入数据的质量分数、众包人员的质量分数以及标注答案的质量分数。输入数据的质量分数衡量输入数据本身的复杂程度，分数区间为0～1，最后得到的分数越接近于1，则说明输入数据本身的复杂程度越大。众包人员的质量分数衡量不同众包人员的质量，对应其整体任务完成情况的优劣，分数区间为0～1，越接近于1说对应众包人员的整体完成质量越高。标注答案的质量分数为衡量输入数据下，每一个标注答案的质量得分，分数区间为0～1，越接近于1说明对应标注答案的质量越高。输入数据的质量分数、众包人员的质量分数以及标注答案的质量分数的计算方式如下：

WQS(i)＝WUA(i)WWA(i)

其中，UQS为输入数据的质量分数，AQS为标注答案的质量分数，WQS为众包人员的质量分数，w₁，w₂是众包质量控制算法迭代的权重，初始化为1，u表示每一个输入数据，a表示输入数据下的每一个标注答案，i,j表示不同的众包人员，UQS，WQS和AQS相互依赖，当动态权重W₁，W₂迭代收敛后，代入以上计算公式得到最终的各个质量分数。在每一阶段的标注任务完成后，都会经过众包质量控制算法的融合，得到每一步任务的标注数据，再传入到后续任务中，最终基于UQS进行专家核对，基于AQS，WQS的过滤和加权融合，得到数据集所有样本的高质量三元组标签。

发明的作用与效果

根据本发明所涉及的面向中文领域大规模复杂关系数据集构建框架，因为包括：数据收集模块，从原始语料库中筛选表达知识三元组的文本，构建基于远程监督的数据集合；复杂样本特征工程和种子样本选择模块，从基于远程监督的数据集合中选出符合八类特征的复杂样本，组成高优种子样本集合；复杂样本发现模块，基于高优种子样本集合，预测输入数据属于复杂样本的置信度分数，按照分数从高到低排序，并选择头部的样本构建数据集；众包标注模块，对数据集进行数据标注，得到数据集的所有样本的高质量三元组标签。

因此，本发明所涉及的面向中文领域大规模复杂关系数据集构建框架的输入是语料库和复杂样本特征，输出是复杂样本特征的数据集。本发明的框架能够按需构建特定数据集，降低标注难度，降低数据集构建周期，提高数据质量。

此外，本发明系统地总结了真实场景中八类复杂样本特点，并设计度量样本复杂的方法，以便从大规模语料中筛选目标数据。与传统数据集构建方式不同，本发明以“以统计为主，人工为辅”的原则，从复杂样本的角度，弱化了远程监督潜在假设带来的噪声，减少人工标注成本，提高了数据质量，这在数据集构建中属于首创。

附图说明

图1是本发明的实施例中的面向中文领域大规模复杂关系数据集构建框架图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下实施例结合附图对本发明面向中文领域大规模复杂关系数据集构建框架作具体阐述。

本实施例提供了一种面向中文领域大规模复杂关系数据集构建框架。

图1是本实施例中的面向中文领域大规模复杂关系数据集构建框架图。

如图1所示，本实施例的面向中文领域大规模复杂关系数据集构建框架包括数据收集模块、复杂样本特征工程和种子样本选择模块、复杂样本发现模块以及众包标注模块。

本实施例中，数据收集模块从知识库CN-DBpedia中筛选表达知识三元组的文本，构建基于远程监督的数据集合D_ds。

数据收集模块从原始语料库中获取大量的文本和知识三元组，利用自动机匹配算法，筛选出同时满足以下条件的文本：

(1)同时包含两个及以上的实体(实体来自于所有的知识三元组)；

(2)在提及的多个实体中，至少有两个实体存在于同一三元组中。

本实施例中，针对数据集可能会偏向高频实体和关系的问题，本实施例从数量层面解决，通过获取大量丰富的文本和三元组以平衡数据集中样本分布。本实施例获取约500万条文本和80万的三元组。基于远程监督假设和匹配过滤，得到的文本可以认为都是表达了知识三元组的文本。基于远程监督假设和匹配过滤，获取文本和知识三元组，具体步骤如下：

步骤S1-1，从知识库CN-DBpedia中获得知识三元组信息和文本。如“(Bill Gates,founder_of,Microsoft)”等。

步骤S1-2，使用自然语言处理工具包，对获得的文本进行实体识别，得到文本提及的实体。如文本“Microsoft was founded in 1975by Bill Gates,......”中提及的实体“Microsoft”和“Bill Gates”。

步骤S1-3，确认文本提及的实体在知识三元组信息中是否存在关系，并将存在关系的文本和知识三元组信息筛选出来，构建基于远程监督的数据集合。如示例文本提及的实体“Microsoft”和“Bill Gates”在获取的三元组中存在“founder_of”关系，因此保留作为基础数据。

完成上述过程，本实施例构建了一个基于远程监督的数据集合D_ds，共包含160万的文本和远程监督标注的三元组信息，用于后续筛选复杂实体关系抽取样本。

复杂样本特征工程和种子样本选择模块从基于远程监督的数据集合D_ds中选出符合八类特征的复杂样本，组成高优种子样本集合。

复杂样本特征工程和种子样本选择模块包括复杂样本特征工程部和复杂种子样本选择部。

复杂样本特征工程部主要针对复杂样本中的八类特征进行启发式特征工程，得到对应维度上的特征值，以区分常规样本和复杂样本。

特征值包括文本长度特征值、实体间距特征值、干扰词特征值、语义相似关系特征值、隐式表达特征值、同类实体数量特征值、三元组数量特征值以及三元组重叠特征值。

文本长度特征值的确定方式为：以字为单位度量文本长度，以文本中字的数量作为文本长度特征值。

实体间距特征值的确定方式为：在文本中找到实体所有的出现位置后，以最近邻的两处位置之间的文本长度作为实体间距特征值，如文本“微软创始人是Bill Gates”的文本长度是8，实体“微软”和“Bill Gates”间距是4，中文按照字计算，英文按照单词计算。

利用预定义的关系辅助信息表进行干扰词特征值、隐式表达特征值以及语义相似关系特征值的构建。预定义的关系辅助信息包括关系、语义相似关系、显式表达以及干扰词。

干扰词特征值的确定过程为：遍历三元组中的关系，从辅助信息表中获得对应关系的所有干扰词，如果文本中存在任一干扰词，则样本存在干扰词特征值置为true，否则置为flase。

隐式表达特征值的确定过程为：针对文本中提及的所有关系，依次判断是否存在显式表达语法模式，则隐式表达特征值置为flase，否则置为true。

语义相似关系特征值的确定过程为：如果远程监督三元组包含的所有关系中，存在预定义的语义相似关系，则语义相似关系特征值置为true，否则置为flase。

隐式表达特征值和语义相似关系特征值都是布尔类型，指示样本是否符合对应类型的复杂特征。

同类实体数量特征值的确定过程为：根据自然语言处理工具包TexSmart的输出结果和预定义辅助信息合并不同关系三元组中的同类实体，统计各类型实体数量，取其中最大值为同类实体数量特征值。

三元组数量特征值的确定过程为：根据识别的实体数量计算，假设文本中提及实体的数量为n，考虑到关系的有向性，三元组数量的特征值置为n·(n-1)。

三元组重叠特征值的确定过程为：直接统计远程监督的三元组中，存在EntityPair Overlap和Single Entity Overlap的数量总和。

复杂种子样本选择部基于特征值进行复杂种子样本选择。

复杂种子样本选择部将基于计算得到的特征值进行复杂种子样本选择，具体过程为：

步骤S2-1，直接从基于远程监督的数据集合D_ds中过滤不满足任一复杂特征的样本，对于布尔类型的特征如果为true，则视为满足对应的复杂特征，对于连续值类型的特征，按照人工设置的最低阈值进行初步过滤，经过复杂样本筛选器后，保留的数据构成了复杂样本候选数据集。

阈值设定为文本长度特征值≥40、实体间距特征值≥10、同类实体数量特征值≥3、三元组数量特征值≥6、三元组重叠特征值≥1、干扰词特征值为true、隐性表达特征值为true、语义相似关系特征值为true。本实施例中，经过复杂样本筛选器后，保留的数据构成了复杂样本候选数据集D，包含约10.8万样本。

步骤S2-2，从复杂样本候选数据集D中随机采样3500个样本，并请三位领域专家在给定上下文和特征的情况下，选择复杂的样本。具体来说，如果一个样本满足多个复杂特征，或者只满足一个复杂特征，但三位专家均判定为复杂样本，则该数据被视为复杂样本。本实施例使用RERE抽取模型来评定复杂样本的质量，假设选择的复杂样本质量越高，那么抽取模型在复杂样本上的抽取效果相比常规样本下降越多。本实施例约定在复杂样本的数据上，如果RERE模型F1值下降至少δ＝10％，则保留该专家判定的复杂样本和常规样本。其中选定的复杂样本数据集用Dp表示，视为正样本。常规样本数据集用Dn表示，视为负样本。剩下未采样到的数据用Du表示，视为未标注数据。最终从3500个样本中筛选得到了1,431条高优复杂实体关系筛选组成高优种子样本集合。

复杂样本发现模块主要目标是基于高优种子样本，利用机器学习和深度模型在复杂样本数据集Dp、负样本数据集Dn以及未标注数据集Du上学习一个二分类器，预测输入数据属于复杂样本的置信度分数。

按照分数从高到低排序，选择头部的样本构建最后的数据集，完成与种子样本类似数据的大规模发现，具体过程为：

使用复杂样本数据集和未标注数据集的部分采样数据，学习一个基于PUlearning的深度分类器，对于PU Learning中的正样本先验概率，通过采样估计设定π＝p(y＝1)＝0.41，PU Learning的损失函数选用nnPU，优化目标函数J_nnpu的计算公式如下：

其中，g为决策函数，用于输出最终预测为正样本(y＝1)的概率，l为损失函数。

基于PU Learning和深度模型融合的二分类器输出各个未标注样本属于复杂样本的概率值p_pu，按照样本的置信度分数降序排列，依次取头部的部分数据视为复杂样本，此外，通过总结推理类常见的词法、句法模式，直接基于模式匹配，发现额外的复杂样本，并与分类器预测的复杂样本共同组成了数据集D_hc用于众包标注。

众包标注模块的主要功能是对大规模样本进行数据标注，该模块可以进行数据的筛选，提升正样本的占比；还可以完善数据中的标签信息。为了尽可能降低标注任务难度，减少众包人员工作的负反馈，本模块设计了三阶段标注策略，同时同时，为了尽可能减小众包人员标注误差的影响，本实施例中提出了众包融合策略。

三阶段标注策略主要有三个阶段，包括关系标注、实体标注以及三元组标注。

关系标注的目标是标注出给定文本中提及的所有关系，标注任务形式设定为选择题，通过可实时配置的关系模式，标注平台自动化推荐文本中表达的关系集合，众包人员只需对推荐关系进行核对以及遗漏关系的补充，即可完成一次关系标注。

实体标注的目标是标注出文本中提及的所有实体，每次标注任务都只需要标注出符合给定类型的实体即可，标注任务形式设定为选择题和框选题结合，标注平台分发任务时，通过关系标注出的所有关系获得文本中提及的全部实体类型，对于标注平台遗漏的实体类型，众包人员需手动框选出实体类型及对应的文本片段进行补充，完成所有类型的实体标注任务后，得到文本中提及的所有实体。

三元组标注的目标是标注出文本中提及的所有知识三元组，构建实体关系抽取数据集必需的标签数据，标注平台设计有以下两种标注任务：

判断题标注形式：当实体数量较少时，基于关系标注和实体标注完成后通过给定关系来排列组合对应类型的实体对，生成所有可能的三元组候选集合，众包人员的任务是判断生成的三元组在文本语境下是否合理，标注任务形式上是判断对错。

选择题标注形式：当文本包含的实体数量较多时，排列组合生成的三元组数量会急剧增多，在大量相似的三元组中，众包人员容易出现标注错误。因此，通过给定三元组的头实体和关系，让标注人员选择所有正确的尾实体，标注任务形式上是选择题。

为了尽可能减小众包人员标注误差的影响，标注平台会将每个标注任务分发给三位不同的众包人员完成。此外，为了高效地进行众包数据融合，本实施例摒弃了基于多数投票的常规方法，本实施例中利用众包质量控制算法融合众包数据。

众包质量控制算法对众包系统中众包人员、输入数据以及标注答案之间的依存关系进行建模，计算得到一系列众包歧义性的度量指标，包括输入数据的质量分数、众包人员的质量分数以及标注答案的质量分数。

输入数据的质量分数(UQS)衡量输入数据本身的复杂程度，分数区间为0～1，最后得到的分数越接近于1，则说明输入数据本身的复杂程度越大。本实施例将UQS较大的样本单独筛选出来，将其交付给专家进行数据后处理验证，进一步提升数据标签的质量。

众包人员的质量分数(WQS)衡量不同众包人员的质量，对应其整体任务完成情况的优劣，分数区间为0～1，越接近于1说对应众包人员的整体完成质量越高。本实施例在进行最后的数据标签融合时，就可以按不同权重融合众包人员的标注答案。

标注答案的质量分数(AQS)为衡量输入数据下，每一个标注答案的质量得分，分数区间为0～1，越接近于1说明对应标注答案的质量越高。基于AQS，本实施例直接过滤掉质量分数小于0.5的标注答案，使用剩下的高质量标注答案进行最后的融合。

UQS，WQS以及AQS的计算方式如下：

WQS(i)＝WUA(i)WWA(i)

其中，UQS为输入数据的质量分数，AQS为标注答案的质量分数，WQS为众包人员的质量分数，w₁，w₂是众包质量控制算法迭代的权重，初始化为1，u表示每一个输入数据，即Media Unit。a表示输入数据下的每一个标注答案，即Annotation。i,j表示不同的众包人员，即Worker。UQS，WQS和AQS相互依赖，当动态权重W₁，W₂迭代收敛后，代入以上计算公式得到最终的各个质量分数。

在每一阶段的标注任务，如关系标注，实体标注和三元组标注完成后，都会经过众包质量控制算法的融合，得到每一步任务的标注数据，再传入到后续任务中，避免了标注错误累计传播。最终基于UQS进行专家核对，基于AQS，WQS的过滤和加权融合，得到数据集D_hc所有样本的高质量三元组标签。

实施例的作用与效果

根据本实施例所涉及的面向中文领域大规模复杂关系数据集构建框架，因为包括：数据收集模块，从原始语料库中筛选表达知识三元组的文本，构建基于远程监督的数据集合；复杂样本特征工程和种子样本选择模块，从基于远程监督的数据集合中选出符合八类特征的复杂样本，组成高优种子样本集合；复杂样本发现模块，基于高优种子样本集合，预测输入数据属于复杂样本的置信度分数，按照分数从高到低排序，并选择头部的样本构建数据集；众包标注模块，对数据集进行数据标注，得到数据集的所有样本的高质量三元组标签。

因此，本实施例所涉及的面向中文领域大规模复杂关系数据集构建框架的输入是语料库和复杂样本特征，输出是复杂样本特征的数据集。本实施例的框架能够按需构建特定数据集，降低标注难度，降低数据集构建周期，提高数据质量。

此外，上述实施例构建了面向中文领域复杂关系评测数据集。该数据集一共包含了9231条样本，预定义26类关系和9种实体类型，67047个关系事实。该数据集的样本复杂多样且质量高。

此外，本实施例系统地总结了真实场景中八类复杂样本特点，并设计度量样本复杂的方法，以便从大规模语料中筛选目标数据。与传统数据集构建方式不同，本实施例以“以统计为主，人工为辅”的原则，从复杂样本的角度，弱化了远程监督潜在假设带来的噪声，减少人工标注成本，提高了数据质量，这在数据集构建中属于首创。

最后，上述实施例设计了一种三阶段众包标注方法，通过关系标注、实体标注和三元组标注这三个阶段进行数据的筛选，提升目标样本的占比，完善数据的标签信息。与传统标注方法(即直接从文本中标注三元组)相比，本案将传统标注方式分成3个阶段，层层控制标注质量，以减少众包人员因疲倦等因素造成标注误差，最终通过融合策略完成每条数据的标注，这属于数据集中的首创。

上述实施方式为本发明的优选案例，并不用来限制本发明的保护范围。

Claims

1.一种面向中文领域大规模复杂关系数据集构建框架，其特征在于，包括：

数据收集模块，从原始语料库中筛选表达知识三元组的文本，构建基于远程监督的数据集合；

复杂样本特征工程和种子样本选择模块，从所述基于远程监督的数据集合中选出符合八类特征的复杂样本，组成高优种子样本集合；

复杂样本发现模块，基于所述高优种子样本集合，预测输入数据属于复杂样本的置信度分数，按照分数从高到低排序，并选择头部的样本构建数据集；

众包标注模块，对所述数据集进行数据标注，得到所述数据集的所有样本的高质量三元组标签。

2.根据权利要求1所述的面向中文领域大规模复杂关系数据集构建框架，其特征在于：

其中，所述数据收集模块从所述原始语料库中获取大量的文本和知识三元组，利用自动机匹配算法，筛选出同时满足以下条件的文本：

(2)在提及的多个实体中，至少有两个实体存在于同一三元组中，

基于远程监督假设和匹配过滤，获取所述文本和所述知识三元组，具体步骤如下：

步骤1-1，从原始语料库中获得知识三元组信息和文本；

步骤1-2，使用自然语言处理工具包，对获得的所述文本进行实体识别，得到文本提及的实体；

步骤1-3，确认所述文本提及的实体在所述知识三元组信息中是否存在关系，并将存在关系的所述文本和所述知识三元组信息筛选出来，构建所述基于远程监督的数据集合。

3.根据权利要求1所述的面向中文领域大规模复杂关系数据集构建框架，其特征在于：

其中，所述复杂样本特征工程和种子样本选择模块包括复杂样本特征工程部和复杂种子样本选择部，

所述复杂样本特征工程部主要针对复杂样本中的八类特征进行启发式特征工程，得到对应维度上的特征值，以区分常规样本和复杂样本，

所述复杂种子样本选择部基于所述特征值进行复杂种子样本选择，

所述特征值包括文本长度特征值、实体间距特征值、干扰词特征值、语义相似关系特征值、隐式表达特征值、同类实体数量特征值、三元组数量特征值以及三元组重叠特征值。

4.根据权利要求3所述的面向中文领域大规模复杂关系数据集构建框架，其特征在于：

其中，所述文本长度特征值的确定方式为：以字为单位度量文本长度，以文本中字的数量作为所述文本长度特征值，

所述实体间距特征值的确定方式为：在文本中找到实体所有的出现位置后，以最近邻的两处位置之间的文本长度作为所述实体间距特征值，中文按照字计算，英文按照单词计算。

5.根据权利要求3所述的面向中文领域大规模复杂关系数据集构建框架，其特征在于：

其中，利用预定义的关系辅助信息表进行所述干扰词特征值、所述隐式表达特征值以及所述语义相似关系特征值的构建，所述预定义的关系辅助信息包括关系、语义相似关系、显式表达以及干扰词，

所述干扰词特征值的确定过程为：遍历三元组中的关系，从辅助信息表中获得对应关系的所有干扰词，如果文本中存在任一干扰词，则样本存在干扰词特征值置为true，否则置为flase，

所述隐式表达特征值的确定过程为：针对文本中提及的所有关系，依次判断是否存在显式表达语法模式，则隐式表达特征值置为flase，否则置为true，

所述语义相似关系特征值的确定过程为：如果远程监督三元组包含的所有关系中，存在预定义的语义相似关系，则语义相似关系特征值置为true，否则置为flase，

所述隐式表达特征值和所述语义相似关系特征值都是布尔类型，指示样本是否符合对应类型的复杂特征。

6.根据权利要求3所述的面向中文领域大规模复杂关系数据集构建框架，其特征在于：

其中，所述同类实体数量特征值的确定过程为：根据自然语言处理工具包TexSmart的输出结果和预定义辅助信息合并不同关系三元组中的同类实体，统计各类型实体数量，取其中最大值为所述同类实体数量特征值，

所述三元组数量特征值的确定过程为：根据识别的实体数量计算，假设文本中提及实体的数量为n，考虑到关系的有向性，三元组数量的特征值置为n·(n-1)，

所述三元组重叠特征值的确定过程为：直接统计远程监督的三元组中，存在EntityPair Overlap和Single Entity Overlap的数量总和。

7.根据权利要求3所述的面向中文领域大规模复杂关系数据集构建框架，其特征在于：

其中，所述复杂种子样本选择部将基于计算得到的所述特征值进行复杂种子样本选择，具体过程为：

步骤2-1，直接从基于远程监督的数据集合中过滤不满足任一复杂特征的样本，对于布尔类型的特征如果为true，则视为满足对应的复杂特征，对于连续值类型的特征，按照人工设置的最低阈值进行初步过滤，经过复杂样本筛选器后，保留的数据构成了复杂样本候选数据集；

步骤2-2，从所述复杂样本候选数据集中随机采样多个样本，并在给定上下文和特征的情况下，选择复杂样本，构成复杂样本数据集，并标记负样本数据集和未标注数据集，最终筛选组成所述高优种子样本集合，

步骤2-1中，阈值设定为所述文本长度特征值≥40、所述实体间距特征值≥10、所述同类实体数量特征值≥3、所述三元组数量特征值≥6、所述三元组重叠特征值≥1、所述干扰词特征值为true、所述隐性表达特征值为true、所述语义相似关系特征值为true。

8.根据权利要求1所述的面向中文领域大规模复杂关系数据集构建框架，其特征在于：

其中，所述复杂样本发现模块主要目标是基于高优种子样本，利用机器学习和深度模型在复杂样本数据集、负样本数据集以及未标注数据集上学习一个二分类器，预测输入数据属于复杂样本的置信度分数。按照分数从高到低排序，选择头部的样本构建最后的所述数据集，完成与种子样本类似数据的大规模发现，具体过程为：

使用所述复杂样本数据集和所述未标注数据集的部分采样数据，学习一个基于PUlearning的深度分类器，对于PU Learning中的正样本先验概率，通过采样估计设定π＝p(y＝1)＝0.41，PU Learning的损失函数选用nnPU，优化目标函数J_nnpu的计算公式如下：

J_mnpu＝π·E_p(x|y＝1)[l(g(x))]+max{0,E_p(x)[l(-g(x))}-π·E_p(x|y＝1)[l(-g(x))]}

其中，g为决策函数，用于输出最终预测为正样本(y＝1)的概率，l为损失函数，

基于PU Learning和深度模型融合的二分类器输出各个未标注样本属于复杂样本的概率值p_pu，按照样本的置信度分数降序排列，依次取头部的部分数据视为复杂样本，此外，通过总结推理类常见的词法、句法模式，直接基于模式匹配，发现额外的复杂样本，并与分类器预测的复杂样本共同组成了所述数据集用于众包标注。

9.根据权利要求1所述的面向中文领域大规模复杂关系数据集构建框架，其特征在于：

其中，所述众包标注模块的主要功能是对大规模样本进行数据标注，本模块设计了三阶段标注策略和众包融合策略，

所述三阶段标注策略主要有三个阶段，包括关系标注、实体标注以及三元组标注，

所述关系标注的目标是标注出给定文本中提及的所有关系，标注任务形式设定为选择题，通过可实时配置的关系模式，标注平台自动化推荐文本中表达的关系集合，众包人员只需对推荐关系进行核对以及遗漏关系的补充，即可完成一次关系标注，

所述实体标注的目标是标注出文本中提及的所有实体，每次标注任务都只需要标注出符合给定类型的实体即可，标注任务形式设定为选择题和框选题结合，标注平台分发任务时，通过关系标注出的所有关系获得文本中提及的全部实体类型，对于标注平台遗漏的实体类型，众包人员需手动框选出实体类型及对应的文本片段进行补充，完成所有类型的实体标注任务后，得到文本中提及的所有实体，

所述三元组标注的目标是标注出文本中提及的所有知识三元组，构建实体关系抽取数据集必需的标签数据，标注平台设计有以下两种标注任务：

判断题标注形式：当实体数量较少时，基于关系标注和实体标注完成后通过给定关系来排列组合对应类型的实体对，生成所有可能的三元组候选集合，众包人员的任务是判断生成的三元组在文本语境下是否合理，标注任务形式上是判断对错，

选择题标注形式：通过给定三元组的头实体和关系，让标注人员选择所有正确的尾实体，标注任务形式上是选择题。

10.根据权利要求9所述的面向中文领域大规模复杂关系数据集构建框架，其特征在于：

其中，所述众包融合策略利用众包质量控制算法融合众包数据，

所述众包质量控制算法对众包系统中众包人员、输入数据以及标注答案之间的依存关系进行建模，计算得到一系列众包歧义性的度量指标，包括输入数据的质量分数、众包人员的质量分数以及标注答案的质量分数，

所述输入数据的质量分数衡量输入数据本身的复杂程度，分数区间为0～1，最后得到的分数越接近于1，则说明输入数据本身的复杂程度越大，

所述众包人员的质量分数衡量不同众包人员的质量，对应其整体任务完成情况的优劣，分数区间为0～1，越接近于1说对应众包人员的整体完成质量越高，

所述标注答案的质量分数为衡量输入数据下，每一个标注答案的质量得分，分数区间为0～1，越接近于1说明对应标注答案的质量越高，

所述输入数据的质量分数、所述众包人员的质量分数以及所述标注答案的质量分数的计算方式如下：

WQS(i)＝WUA(i)WWA(i)

其中，UQS为所述输入数据的质量分数，AQS为所述标注答案的质量分数，WQS为所述众包人员的质量分数，w₁，w₂是众包质量控制算法迭代的权重，初始化为1，u表示每一个输入数据，a表示输入数据下的每一个标注答案，i,j表示不同的众包人员，UQS，WQS和AQS相互依赖，当动态权重W₁，W₂迭代收敛后，代入以上计算公式得到最终的各个质量分数，

在每一阶段的标注任务完成后，都会经过所述众包质量控制算法的融合，得到每一步任务的标注数据，再传入到后续任务中，最终基于UQS进行专家核对，基于AQS，WQS的过滤和加权融合，得到数据集所有样本的高质量三元组标签。