CN113378513A

CN113378513A - 一种面向领域关系抽取的标注语料生成方法

Info

Publication number: CN113378513A
Application number: CN202110652974.8A
Authority: CN
Inventors: 甘涛; 张恒; 何艳敏; 王志阳
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-10
Anticipated expiration: 2041-06-11
Also published as: CN113378513B

Abstract

本发明属于自然语言处理技术领域，涉及领域关系抽取，具体提供一种面向领域关系抽取的标注语料生成方法，用以克服领域关系抽取所面临的语料缺乏和人工代价昂贵的问题。本发明利用回译法生成同义句，将其与原句一起作为序列生成模型的训练语料，克服了领域语料不足的问题；同时，通过依存关系分析和语态判断，将训练语料中实体替换为特定的主动和被动两种掩蔽符号，使得序列生成模型直接生成关系抽取任务所需的带标注的语料；并且，通过对实体进行掩蔽，序列生成模型专注于学习实体间的关系，有效提高关系抽取的准确性。综上，本发明能够在初始语料不够充足的情况下，生成关系抽取任务所需的带标注的语料，极大地降低了人工标注成本。

Description

一种面向领域关系抽取的标注语料生成方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种面向领域关系抽取的标注语料生成方法。

背景技术

知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其之间的关系，将互联网的信息表达成更接近人类认知世界的形式，提供了一种更好地组织、管理和理解互联网海量信息的能力。不同的领域往往需要构建本领域的知识图谱，领域构建知识图谱的首要任务是领域知识抽取；领域知识抽取是指从不同来源、不同数据中进行特定领域知识的提取，形成知识存入到知识图谱的过程。领域知识抽取可分为实体抽取、关系抽取和属性抽取三类；目前，大多数领域关系抽取采用有监督学习方法，该类方法需要大量的带标注的语料数据以训练好的模型，这使得该类方法面临两方面困难问题：(1)领域语料缺乏、其数量难以满足训练需求，(2)人工标注的代价昂贵。

针对领域语料数量不足的问题，通常的做法是采用文本增强方法来对语料进行扩充；文本增强是在已有的文本数据的基础上，通过特殊处理，构造更多的文本数据。目前文本增强方法主要有人工标注、词替换、回译、神经网络等方法；其中，回译法是近年来使用较多的一种方法，它通过将源语言翻译成另一种语言，再将得到另一种语言的句子翻译回源语言的方式，构造出源语言的增强数据；回译法虽然能生成不同句型的语料，但在文本中包含领域专业词汇(如领域实体名称)的情况下，该方法容易导致生成句子的语义发生变化。相比之下，近年出现的神经网络方法表现出更优的性能，如Seq2Seq序列生成方法，但该类方法本身就需要大量的训练语料，在语料不够充足的情况下，难以训练出理想的神经网络模型以生成高质量的文本。另外，针对人工标注的代价昂贵的问题，通常采用半监督或无监督的关系抽取方法，但这些方法的效果较有监督方法有明显的不足。

综上所述，当前技术还没有同时有效解决领域关系抽取所面临的语料缺乏和人工代价昂贵两个问题。

发明内容

本发明的目的在于针对上述现有技术的诸多问题，提供一种面向领域关系抽取的标注语料生成方法，该方法在初始语料不够充足的情况下，生成关系抽取任务所需的带标注的语料，极大地降低了人工标注成本。

为实现上述目的，本发明采用的技术方案为：

一种面向领域关系抽取的标注语料生成方法，包括模型训练和语料生成两个阶段；其特征在于，

A.模型训练，包括以下步骤：

A1.标记实体名；

A1-1.创建一个初始为空的领域实体名集合U；

A1-2.收集领域内的实体名称，并其将添加到领域实体名集合U中；

A1-3.采用中文分词工具对输入的训练句子p进行分词处理，得到分词结果w_i，i＝1,2,...,N_w、N_w为分词得到的词的总个数；

A1-4.从前往后依次考察p中的每一个词w_i，判断w_i是否存在于领域实体名集合U中，若存在，则标记w_i为实体名并对标记的实体名计数，共标记了N_n个实体名；

A2.生成同义句；

A2-1.预设N_n个替换符号、记为m_j，j＝1,2,...,N_n；

A2-2.复制一个与p相同的句子、记为p'；

A2-3.将p'中的每一个实体名n_j(j＝1,2,...,N_n)替换为替换符号m_j，并记录下n_j与m_j的替换关系；

A2-4.使用标准回译法对p'进行回译，得到p'的同义句、记为q'；

A2-5.搜寻q'中的每一个替换符号，并将其按照步骤A2-3记录的替换关系替换回该符号所对应的实体名；

A3.生成掩蔽句子对；

A3-1.对p进行依存句法分析，得到其中每一个实体名的依存关系和相应主动被动语态；

A3-2.对p中的每一个实体名n_j(j＝1,2,...,N_n)作判断，若当前n_j的依存关系属于主谓关系、动宾关系、间宾关系、前置宾语、介宾关系、并列关系和定中关系等七种关系中的一种，则作：

A3-2-1.复制一个与p相同的句子、记为p”，并复制一个与q'相同的句子、记为q”；

A3-2-2.判断n_j在当前依存关系下的主动被动语态，若n_j为主动语态，则将p”和q”中的n_j均替换预设的主动掩蔽符号Z_a，否则将p”和q”中的n_j均替换预设的被动掩蔽符号Z_p；

A3-2-3.将替换后的p”和q”组成掩蔽句子对，并将其作为序列生成模型的训练语料加入到训练语料库L中；

A4.训练模型；

使用训练语料库L，对通用的序列生成预训练模型进行微调(fine-tuning)，得到最终的序列生成模型；

B.语料生成，包括以下步骤：

输入数据为关系抽取模型所用的已标注的训练语料，每条语料为一个四元组，其形式为(e1，e2，r，s)，其中，e1表示第一个实体的实体名，e2表示第二个实体的实体名，r表示第一个实体和第二个实体间的关系，s表示体现关系r的训练句子；

B1.掩蔽实体；

B1-1.在输入四元组的句子s中标记实体名e1和e2；

B1-2.对句子s进行依存句法分析，得到e1和e2的依存关系和相应主动被动语态；

B1-3.若e1为主动语态，则将s中的e1和e2分别替换为Z_a和Z_p，否则将s中的e1和e2分别替换为Z_p和Z_a，替换完毕记录e1、e2与Z_a、Z_p的替换关系；

B2.序列生成：

B2-1将s输入到步骤A4得到的序列生成模型中，从模型预测出的序列中，选择预测概率最大的前k个序列作为候选序列；

B2-2.从候选序列中筛选出同时包含Z_a和Z_p的序列作为输出序列；

B3.恢复掩蔽实体：对每一个输出序列s'，将其中的符号Z_a和Z_p按照步骤B1-3记录的替换关系替换回相应符号所对应的实体名；

B4.生成四元组：对每一个恢复掩蔽实体后的输出序列s'，生成并输出四元组(e1，e2，r，s')。

进一步的，所述步骤A2-1中，替换符号由重复的大写英文字母组成。

进一步的，所述步骤A3-2-2中，预设的主动掩蔽符号Z_a为<>，被动掩蔽符号Z_p为[]；

进一步的，所述步骤B2中，k的取值范围为：1≤k≤3。

本发明的有益效果在于：

本发明提供了一种面向领域关系抽取的标注语料生成方法，该方法利用回译法生成同义句，并将生成的同义句与原句一起作为序列生成模型的训练语料，克服了领域语料不足的问题；同时，通过依存关系分析和语态判断，将训练语料中实体替换为特定的主动和被动两种掩蔽符号，使得序列生成模型直接生成关系抽取任务所需的带标注的语料，另外，通过对实体进行掩蔽，序列生成模型不再关注实体本身的内容，而专注于学习实体间的关系，从而提高了关系抽取的准确性。

附图说明

图1为本发明的标注语料生成方法的流程示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

本实施例提供了一种面向领域关系抽取的标注语料生成方法，其流程如图1所示，包括模型训练和语料生成两个阶段；本实施例针对银行领域，说明应用于该领域关系抽取任务的标注语料生成方法；具体步骤如下：

第一、所述模型训练包括以下步骤：

在本实施例中，以输入训练句子“花旗银行是隶属于花旗集团的零售银行”为例进行说明；

A1.标记实体名

A1-1.创建一个初始为空的领域实体名集合U；

在本实施例中，共收集银行领域的实体名称9100个，其中包含企业名称(如“花旗银行”、“瑞士信贷银行”)和产品名(如“滴水贷”、“微粒贷”)；

A1-3.采用中文分词工具对输入的训练句子p进行分词处理，将其分割成不同的词w_i，i＝1,2,...,N_w、N_w为分词得到的词的总个数；

在本实施例中，对输入句子“花旗银行是隶属于花旗集团的零售银行”进行分词处理得到“花旗银行”、“是”、“隶属于”、“花旗集团”、“的”、“零售”和“银行”7个词，即分词得到的词的总个数N_w＝7；

A1-4.从前往后依次考察p中的每一个词w_i，判断w_i是否存在于领域实体名集合U中，若存在，则标记w_i为实体名并对标记的实体名计数，设处理完p中的所有词后，共标记了N_n个实体名；

在本实施例中，p中的“花旗银行”和“花旗集团”存在于领域实体名集合U中,故将p中的“花旗银行”和“花旗集团”标记为实体名，处理完毕共标记了N_n＝2个实体名；

A2.生成同义句；

A2-1.预设N_n个替换符号、记为m_j，j＝1,2,...,N_n；所述替换符号由重复的大写英文字母组成；

本发明预设的替换符号通用于各语言的符号，在后续的回译法过程中该符号不会被改变，将保留在回译后得到的同义句中；在本实施例中，预设两个替换符号：“AAA”和“BBB”，即m₁＝“AAA”，m₂＝“BBB”；

A2-2.复制一个与p相同的句子、记为p'；

在本实施例中，p'＝p＝“花旗银行是隶属于花旗集团的零售银行”；

A2-3.将p'中的每一个实体名n_j(j＝1,2,...,N_n)替换为替换符号m_j，并记录下n_j与m_j的替换关系，即n_j被替换为m_j；

在本实施例中，将p'中的实体名n₁＝“花旗银行”替换为m₁＝“AAA”,实体名n₂＝“花旗集团”替换为m₂＝“BBB”，记录的替换关系为“花旗银行”被替换为“AAA”，“花旗集团”被替换为“BBB”，替换处理后的p'为“AAA是隶属于BBB的零售银行”；

A2-4.使用标准回译法，对p'进行回译，其过程是先将p'翻译成外文，再将这条外文翻译回中文，回译法输出得到p'的同义句、记为q'；

在本实施例中，使用标准回译法回译生成的p'的同义句q'为“AAA是BBB下属的一家零售银行”；

在本实施例中，将q'中的替换符号“AAA”和“BBB”分别替换回“花旗银行”和“花旗集团”，恢复替换后的q'为“花旗银行是花旗集团下属的一家零售银行”；

A3.生成掩蔽句子对；

在本实施例中，对句子“花旗银行是隶属于花旗集团的零售银行”进行依存句法分析，得到“花旗银行”的依存关系是主谓关系，相应的语态为主动语态，“花旗集团”的依存关系是动宾关系，相应的语态为被动语态；

在本实施例中，得到p”＝p＝“花旗银行是隶属于花旗集团的零售银行”，q”＝q'＝“花旗银行是花旗集团下属的一家零售银行”；

在本实施例中，预设的主动掩蔽符号Z_a为<>，被动掩蔽符号Z_p为[]；

在本实施例中，对n₁＝“花旗银行”，因其依存关系是主谓关系，相应的语态为主动语态，则将p”和q”中的“花旗银行”均替换为<>，即p”变为“<>是隶属于花旗集团的零售银行”，q”变为“<>是花旗集团下属的一家零售银行”，组成的掩蔽句子对为(“<>是隶属于花旗集团的零售银行”，“<>是花旗集团下属的一家零售银行”)，并将该句子对加入到训练语料库L中；

对n₂＝“花旗集团”，因其依存关系是动宾关系，相应的语态为被动语态，则将p”和q”中的“花旗银行”均替换为[]，即p”变为“花旗银行是隶属于[]的零售银行”，q”变为“花旗银行是[]下属的一家零售银行”，组成的掩蔽句子对为(“花旗银行是隶属于[]的零售银行”，“花旗银行是[]下属的一家零售银行”)，并将该句子对加入到训练语料库L中；

A4.训练模型；

第二、所述语料生成包括以下步骤：

在本实施例中，以输入四元组(“瑞士信贷银行”，“瑞士信贷集团”，“隶属”，“瑞士信贷银行是隶属于瑞士信贷集团的投行部”)为例进行说明；

B1.掩蔽实体；

B1-1.在输入四元组的句子s中标记实体名e1和e2；

在本实施例中，在s＝“瑞士信贷银行是隶属于瑞士信贷集团的投行部”中标记实体名e1＝“瑞士信贷银行”和e2＝“瑞士信贷集团”；

在本实施例中，对句子“瑞士信贷银行是隶属于瑞士信贷集团的投行部”进行依存句法分析，得到e1＝“瑞士信贷银行”的依存关系是主谓关系，相应的语态为主动语态，e2＝“瑞士信贷集团”的依存关系是定中关系，相应的语态为被动语态；

因e1＝“瑞士信贷银行”的依存关系是主谓关系，相应的语态为主动语态，则将s＝“瑞士信贷银行是隶属于瑞士信贷集团的投行部”中的e1＝“瑞士信贷银行”和e2＝“瑞士信贷集团”分别替换为<>和[]，替换后的s为“<>是隶属于[]的投行部”；

B2.序列生成：

在本实施例中，k的取值范围为1≤k≤3，这里k的取值为2，得到两个候选序列，分别为“<>是[]下属的投资银行部门”和“<>是[]旗下的一个投资银行部门”；

在本实施例中，得到的输出序列分别为“<>是[]下属的投资银行部门”和“<>是[]旗下的一个投资银行部门”；

在本实施例中，替换后的输出序列分别为“瑞士信贷银行是瑞士信贷集团下属的投资银行部门”和“瑞士信贷银行是瑞士信贷集团旗下的一个投资银行部门”；

在本实施例中，对输入四元组(“瑞士信贷银行”，“瑞士信贷集团”，“隶属”，“瑞士信贷银行是隶属于瑞士信贷集团的投行部”)，经步骤B1至步骤B4处理后，生成并输出了2个新的四元组：(“瑞士信贷银行”，“瑞士信贷集团”，“隶属”，“瑞士信贷银行是瑞士信贷集团下属的投资银行部门”)和(“瑞士信贷银行”，“瑞士信贷集团”，“隶属”，“瑞士信贷银行是瑞士信贷集团旗下的一个投资银行部门”)，新生成的四元组的训练句子与输入四元组不同，可直接用于相关关系抽取任务，从而验证了本发明方法可直接生成领域关系抽取任务所需的带标注的语料。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种面向领域关系抽取的标注语料生成方法，包括模型训练和语料生成两个阶段；其特征在于，

A.模型训练，包括以下步骤：

A1.标记实体名；

A1-1.创建一个初始为空的领域实体名集合U；

A2.生成同义句；

A2-1.预设N_n个替换符号、记为m_j，j＝1,2,...,N_n；

A2-2.复制一个与p相同的句子、记为p'；

A3.生成掩蔽句子对；

A4.训练模型；

B.语料生成，包括以下步骤：

输入数据为关系抽取模型所用的已标注的训练语料，每条语料为一个四元组，其形式为(e1，e2，r，s)，其中，e1表示第一个实体的实体名，e2表示第二个实体的实体名，r表示第一个实体和第二个实体间的关系，s表示训练句子；

B1.掩蔽实体；

B1-1.在输入四元组的句子s中标记实体名e1和e2；

B2.序列生成：

2.按权利要求1一种面向领域关系抽取的标注语料生成方法，其特征在于，所述步骤A2-1中，替换符号由重复的大写英文字母组成。

3.按权利要求1一种面向领域关系抽取的标注语料生成方法，其特征在于，所述步骤A3-2-2中，预设的主动掩蔽符号Z_a为<>，被动掩蔽符号Z_p为[]。

4.按权利要求1一种面向领域关系抽取的标注语料生成方法，其特征在于，所述步骤B2中，k的取值范围为：1≤k≤3。