CN112069799A

CN112069799A - 基于依存句法的数据增强方法、设备和可读存储介质

Info

Publication number: CN112069799A
Application number: CN202010964029.7A
Authority: CN
Inventors: 周楠楠; 于夕畔; 汤耀华; 杨海军; 徐倩
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2020-12-11

Abstract

本申请公开了一种基于依存句法的数据增强方法、设备和可读存储介质，所述基于依存句法的数据增强方法包括：获取待分析语句，并对所述待分析语句进行依存句法分析，获得所述待分析语句对应的词成分信息，进而基于所述词成分信息，对所述待分析语句进行数据增强，获得数据增强结果。本申请解决了数据增强效果差的技术问题。

Description

基于依存句法的数据增强方法、设备和可读存储介质

技术领域

本申请涉及金融科技(Fintech)的人工智能领域，尤其涉及一种基于依存句法的数据增强方法、设备和可读存储介质。

背景技术

随着金融科技，尤其是互联网科技金融的不断发展，越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域，但金融业也对技术提出了更高的要求，如对金融业对应待办事项的分发也有更高的要求。

随着计算机软件和人工智能的不断发展，人工智能的应用领域也越来越广泛，目前，在训练自然语言处理模型时通常需要海量的训练数据，而模型训练者自身可收集的数据量往往是较少的，进而为了提高模型的训练效率，通常需要对收集的数据进行数据增强，以增加可以用于训练自然语言处理模型的训练数据的数据量，目前，通常对收集的原始句子中的词进行随机删除、随机交换和随机替换等操作进行随机数据增强，但是，由于随机数据增强操作是随机进行的，存在极高概率导致数据增强后的句子的语义发生改变，进而导致数据增强的效果较差。

发明内容

本申请的主要目的在于提供一种基于依存句法的数据增强方法、设备和可读存储介质，旨在解决现有技术中数据增强效果差的技术问题。

为实现上述目的，本申请提供一种基于依存句法的数据增强方法，所述基于依存句法的数据增强方法应用于基于依存句法的数据增强设备，所述基于依存句法的数据增强方法包括：

获取待分析语句，并对所述待分析语句进行依存句法分析，获得所述待分析语句对应的词成分信息；

基于所述词成分信息，对所述待分析语句进行数据增强，获得数据增强结果。

本申请还提供一种基于依存句法的数据增强装置，所述基于依存句法的数据增强装置为虚拟装置，且所述基于依存句法的数据增强装置应用于基于依存句法的数据增强设备，所述基于依存句法的数据增强装置包括：

依存句法分析模块，用于获取待分析语句，并对所述待分析语句进行依存句法分析，获得所述待分析语句对应的词成分信息；

数据增强模块，用于基于所述词成分信息，对所述待分析语句进行数据增强，获得数据增强结果。

本申请还提供一种基于依存句法的数据增强设备，所述基于依存句法的数据增强设备为实体设备，所述基于依存句法的数据增强设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述基于依存句法的数据增强方法的程序，所述基于依存句法的数据增强方法的程序被处理器执行时可实现如上述的基于依存句法的数据增强方法的步骤。

本申请还提供一种可读存储介质，所述可读存储介质上存储有实现基于依存句法的数据增强方法的程序，所述基于依存句法的数据增强方法的程序被处理器执行时实现如上述的基于依存句法的数据增强方法的步骤。

本申请提供了一种基于依存句法的数据增强方法、设备和可读存储介质，相比于现有技术采用的对收集的原始句子中的词进行随机删除、随机交换和随机替换等操作进行随机数据增强的技术手段，本申请首先获取待分析语句，并对所述待分析语句进行依存句法分析，获得所述待分析语句对应的词成分信息，进而实现了基于依存句法，分析待分析句子的词成分的目的，进而基于所述词成分信息，对所述待分析语句进行数据增强，即可获得数据增强结果，其中，需要说明的是，由于现有技术的数据增强操作随机进行的，将导致数据增强后的句子的语义发生改变，进而将导致数据增强后的句子的语义与待分析语句的标签不相匹配，进而本申请中根据待分析语句的词成分，对所述待分析语句进行有针对性地数据增强，可保证数据增强后的句子的语义不会发生改变，进而可保证数据增强后的语句的语义与待分析语句的标签相匹配，克服了现有技术中对收集的原始句子中的词进行随机删除、随机交换和随机替换等操作进行随机数据增强，将极高概率导致数据增强后的句子的语义发生改变，进而导致数据增强的效果差的技术缺陷，进而提高了数据增强的效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请基于依存句法的数据增强方法第一实施例的流程示意图；

图2为本申请基于依存句法的数据增强方法第二实施例的流程示意图；

图3为本申请基于依存句法的数据增强方法第三实施例的流程示意图；

图4为本申请基于依存句法的数据增强方法中基于预设依存句法模型，对待分析语句进行数据增强的流程示意图；

图5为本申请实施例方案涉及的硬件运行环境的设备结构示意图。

本申请目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本申请实施例提供一种基于依存句法的数据增强方法，在本申请基于依存句法的数据增强方法的第一实施例中，参照图1，所述基于依存句法的数据增强方法包括：

步骤S10，获取待分析语句，并对所述待分析语句进行依存句法分析，获得所述待分析语句对应的词成分信息；

在本实施例中，需要说明的是，所述基于依存句法的数据增强方法应用于人机对话系统，所述待分析语句为在进行人机对话时用户回复的语句，所述基于依存句法的数据增强设备包括预设依存句法模型，其中，所述预设依存句法模型为预先训练好的机器学习模型，用于对语句进行依存句法分析，其中，依存句法分析的过程即为解析语句的句法信息的过程，其中，所述句法信息包括句式信息和词成分信息，其中，所述词成分信息包括待分析语句中各待分析词对应的词成分，其中，所述词成分包括主语、谓语、宾语和定语等，例如，假设语句为“我是谁”，则经过依存句法分析后，句式信息表明该语句为主谓宾句，词成分信息表明“我”为主语，“是”为谓语，“谁”为宾语。

获取待分析语句，并对所述待分析语句进行依存句法分析，获得所述待分析语句对应的词成分信息，具体地，获取待分析语句，并将所述待分析语句输入所述预设依存句法模型，分别对所述待分析语句进行依存关系判别和依存关系类型预测，以对所述待分析语句进行依存句法分析，其中，需要说明的是，进行依存关系判别的目的为判别词与词之间是否存在依存关系，依存关系类型预测的目的是预测依存关系的类型，例如，假设待分析语句为语句“ABC”，其中A、B和C均为待分析语句中的词，则进行依存关系判别后，可判定B依存于A，C依存于B，进行依存关系类型预测后，可确定A与B之间的依存关系为主谓关系，B与C之间的依存关系为动宾关系，进而获得所述待分析语句的词成分信息，其中，在一种可实施的方式中，所述分别对所述待分析语句进行依存关系判别和依存关系类型预测，以对所述待分析语句进行依存句法分析，获得待分析语句的词成分信息的步骤包括：

对所述待分析语句进行依存关系判别，获得所述待分析语句对应的依存关系判别结果，并对所述待分析语句进行依存关系类型预测，获得所述待分析语句对应的依存关系类型预测结果，进而将所述依存关系判别结果和所述依存关系类型预测结果进行融合，获得所述待分析语句中词与词之间的依存关系类型标签，进而基于所述依存关系类型标签，即可确定所述待分析语句的句式信息和词成分信息，其中，所述依存关系判别结果可用向量进行表示，向量形式的所述依存关系判别结果为依存关系判别向量，所述依存关系类型预测结果可用矩阵进行表示，矩形形式的依存关系类型预测结果为依存关系类型预测概率矩阵，其中，所述依存关系判别向量为进行依存关系判别获得的结果的向量表示，所述依存关系类型预测概率矩阵为表示进行依存关系类型预测获得的结果的矩阵表示，且所述依存关系类型预测概率矩阵中的每一比特位上的值均为所述待分析语句中一词与另外一词之间的依存关系类型概率预测向量，其中，所述依存关系类型概率预测向量中的每一比特位上的值均为所述待分析语句中一词与另外一词的依存关系属于该比特位对应的预设依存关系的概率值，其中，所述预设依存关系包括主谓关系、动宾关系等，例如，假设词A与词B之间的所述依存关系类型概率预测向量为(0.1，0.9)，则0.1表示词A与词B之间为主谓关系的概率为10％，0.9表示词A与词B之间的动宾关系的概率为90％。

步骤S20，基于所述词成分信息，对所述待分析语句进行数据增强，获得数据增强结果。

在本实施例中，需要说明的是，所述词成分信息包括所述待分析语句中各待分析词的词成分，所述数据增强的目的为扩充样本的数量，所述数据增强结果为通过数据增强获得的语句的集合，所述待分析语句至少包括一待分析词。

基于所述词成分信息，对所述待分析语句进行数据增强，获得数据增强结果，具体地，在所述待分析语句选取预设数量的待分析词作为待数据增强词，进而基于各所述待数据增强词对应的词成分，分别为各所述数据增强词匹配对应的数据增强操作集合，进而在所述待分析语句中分别对各所述数据增强词进行对应的数据增强操作集合中的数据增强操作，获得所述待分析语句对应的数据增强语句，进而重新对所述数据增强语句和所述待分析语句进行依存句法分析，以重新获取数据增强语句，直至数据增强语句的数量满足预设阀值，则将待分析语句和各所述数据增强语句组成的语句组合作为所述数据增强结果，其中，所述数据增强操作包括同义词替换、删除和不变等操作，所述数据增强操作集合为数据增强操作的组合，且在所述数据增强操作集合中每一数据增强操作均对应一执行概率，例如，假设所述数据增强操作集合S为向量((A，0.4)，(B，0.4)，(C，0.2))，其中，A对应同义词替换操作，0.4则表示对所述数据增强操作集合S对应的待数据增强词存在40％的概率执行同义词替换操作，B对应删除操作，0.4则表示对所述数据增强操作集合S对应的待数据增强词存在40％的概率执行删除操作，C对应不变，0.2则表示所述数据增强操作集合S对应的待数据增强词存在20％的概率保持不变。

其中，所述待分析语句至少包括一待分析词，

所述基于所述词成分信息，对所述待分析语句进行数据增强，获得数据增强结果的步骤包括：

步骤S21，基于所述词成分信息，确定各所述待分析词对应的词成分类型；

在本实施例中，基于所述词成分信息，确定各所述待分析词对应的词成分类型，具体地，基于各所述待分析词对应的词成分，分别确定各所述待分析对应的词成分类型。

步骤S22，基于各所述词成分类型，对所述待分析语句进行数据增强，获得数据增强结果。

在本实施例中，基于各所述词成分类型，对所述待分析语句进行数据增强，获得数据增强结果，具体地，在所述待分析语句中随机选择待数据增强词，并在各所述词成分类型中确定所述待数据增强词对应的目标词成分类型，进而基于所述目标词成分类型对应的待数据增强集合，在所述待分析语句中对所述待数据增强词执行所述待数据增强集合中任意一数据增强操作，获得所述待分析语句对应的数据增强语句，进而重新对待分析语句和数据增强语句进行依存句法分析，以再次生成新的数据增强语句，直至数据增强语句的数量满足预设数量阀值，将所述待分析语句和各数据增强语句组成的集合作为所述数据增强结果。

其中，所述基于各所述词成分类型，对所述待分析语句进行数据增强，获得数据增强结果的步骤包括：

步骤S221，在各所述待分析词中选取待数据增强词，并在各词成分类型中确定所述待数据增强词对应的目标词成分类型；

在本实施例中，在各所述待分析词中选取待数据增强词，并在各词成分类型中确定所述待数据增强词对应的目标词成分类型，具体地，在各所述待分析词中随机选取一个待分析词作为待数据增强词，并将所述待数据增强词对应的词成分类型作为目标词成分类型。

步骤S222，基于所述目标词成分类型的词成分类型归属，在所述预设目标成分类型对应的数据增强操作集合中选取目标数据增强操作；

在本实施例中，需要说明的是，所述词成分类型归属包括预设第一词成分分类、预设第二词成分分类和预设第三词成分分类，其中，所述预设第一词成分分类包括谓语和谓语的并列成分，所述预设第二词成分分类包括定语、状语、主语、兼语、宾语和间接宾语等，所述预设第三词成分分类包括补语、左右附加关系词等。

基于所述目标词成分类型的词成分类型归属，在所述预设目标成分类型对应的数据增强操作集合中选取目标数据增强操作，具体地，判断所述目标词成分类型的词成分类型归属，若所述目标词成分类型归属于预设第一词成分分类，则在所述预设第一词成分分类对应的第一数据增强操作集合中以第一选取概率选取同义词替换操作，以第二选取概率选取保存不变操作，若所述目标词成分类型归属于预设第二词成分分类，则在所述预设第一词成分分类对应的第二数据增强操作集合中以第三选取概率选取删除操作，以第四选取概率选取同义词替换操作，以第五选取概率选取保持不变操作，若所述目标词成分类型归属于预设第三词成分分类，则在所述预设第一词成分分类对应的第三数据增强操作集合中以第六选取概率选取同义词替换操作，以第七选取概率选取保存不变操作，以第八选取概率选取句内同类型词随机交换操作，以第九选取概率选取删除操作，其中，所述同义词替换操作为在待分析语句中将待数据增强词替换为待数据增强词对应的同义词的数据增强操作，所述保持不变操作表示不对所述待数据增强进行改变的操作，所述删除操作为在所述待分析语句中直接将所述待数据增强词进行删除的数据增强操作，所述句内同类型词随机交换操作为在待分析语句中将待数据增强词与待数据增强词对应的具有相同词成分的待分析语句内的待分析词进行随机交换的数据增强操作。

步骤S223，在所述待分析语句中对所述待数据增强词进行所述目标数据增强操作，获得所述数据增强结果。

在本实施例中，在所述待分析语句中对所述待数据增强词进行所述目标数据增强操作，获得所述数据增强结果，具体地，在所述待分析语句中对所述待数据增强词执行所述目标数据增强操作，获得所述待分析语句对应的数据增强语句，进而重新对所述待分析语句和所述数据增强语句进行依存句法分析，以再次获取数据增强语句，直至各所述数据增强语句的数量满足预设数量阀值，将所述数据增强语句和所述待分析语句组成的集合作为所述数据增强结果。

另外地，需要说明的是，由于现有技术中的数据增强操作为随机进行的，进而存在极大的概率使得原先的句子的语义发生改变，进而使得句子的语义与原先的句子的标签不匹配，例如，假设在进行句子的情感分析时，存在标注好的待分析语句“我讨厌这个产品”，标签为负面情绪，进而若进行数据增强时随机删除的词是“讨厌”，则数据增强后的待分析语句就变成了“我这个产品”，进而句子的语义发生了变化，且句子也变成了一个中性的句子，但它的标签还是负面情绪，进而导致句子的语义与句子的标签不匹配，数据增强的效果较差，而本实施例通过依存句法分析句子的词成分，进而基于词成分的类型，有针对性地选择进行对应的数据增强操作，使得句子的语义不会发生改变，进而句子的语义和句子的标签的匹配程度高，提高了数据增强的效果，且由于已经确定了句子的词成分，可解释进行数据增强操作而不会改变句子的语义的原因，提高了数据增强的可解释性，使得数据增强结果的置信度更高。

本实施例提供了一种基于依存句法的数据增强方法、设备和可读存储介质，相比于现有技术采用的对收集的原始句子中的词进行随机删除、随机交换和随机替换等操作进行随机数据增强的技术手段，本实施例首先获取待分析语句，并对所述待分析语句进行依存句法分析，获得所述待分析语句对应的词成分信息，进而实现了基于依存句法，分析待分析句子的词成分的目的，进而基于所述词成分信息，对所述待分析语句进行数据增强，即可获得数据增强结果，其中，需要说明的是，由于现有技术的数据增强操作随机进行的，将导致数据增强后的句子的语义发生改变，进而将导致数据增强后的句子的语义与待分析语句的标签不相匹配，进而本实施例中根据待分析语句的词成分，对所述待分析语句进行有针对性地数据增强，可保证数据增强后的句子的语义不会发生改变，进而可保证数据增强后的语句的语义与待分析语句的标签相匹配，克服了现有技术中对收集的原始句子中的词进行随机删除、随机交换和随机替换等操作进行随机数据增强，将极高概率导致数据增强后的句子的语义发生改变，进而导致数据增强的效果差的技术缺陷，进而提高了数据增强的效果。

进一步地，参照图2，基于本申请中第一实施例，在本申请的另一实施例中，所述对所述待分析语句进行依存句法分析，获得所述待分析语句对应的词成分信息的步骤包括：

步骤S11，对所述待分析语句进行向量化，获得向量化语句；

在本实施例中，对所述待分析语句进行向量化，获得向量化语句，具体地，生成所述待分析语句中每一待分析词对应的待分析词向量、待分析词性向量和待分析词位置向量，其中，所述待分析词向量为表示待分析词的编码向量，用于唯一表示所述待分析词，所述待分析词性向量为表示所述待分析词的词性的编码向量，所述待分析词位置向量为表示所述待分析词在所述待分析语句中的位置的编码向量，进而基于每一所述待分析词对应的待分析词向量、对应的待分析词性向量和对应的待分析词位置向量，生成每一所述待分析词对应的向量化词，进而将各所述向量化词构成的矩阵作为所述向量化语句。

其中，所述待分析语句至少包括一待分析词，所述向量化语句至少包括一向量化词，

所述对所述待分析语句进行向量化，获得向量化语句的步骤包括：

步骤S111，获取所述待分析词对应的待分析词向量、对应的待分析词性向量和对应的待分析词位置向量；

在本实施例中，获取所述待分析词对应的待分析词向量、对应的待分析词性向量和对应的待分析词位置向量，具体地，基于预设词向量生成模型，将所述待分析词映射至预设向量空间，获得所述待分析词对应的待分析词向量，并为所述待分析词匹配对应的待分析词性向量，进一步地，基于所述待分析词在所述待分析语句中的位置，生成所述待分析词对应的待分析词位置向量。

步骤S112，基于所述待分析词向量、所述待分析词性向量和所述待分析词位置向量，生成所述向量化词。

在本实施例中，基于所述待分析词向量、所述待分析词性向量和所述待分析词位置向量，生成所述向量化词，具体地，将所述待分析词、所述待分析词性向量和所述待分析词位置向量输入预设向量化词计算公式，获得所述向量化词，其中，所述预设向量化词计算公式如下所示：

其中，X_i为所述向量化词，E_w为所述待分析词向量，E_t为所述待分析词性向量，E_p为所述待分析词位置向量，

为向量之间的concate操作。

步骤S12，基于预设依存关系判别模型，对所述向量化语句进行依存关系判别，获得依存关系判别结果；

在本实施例中，需要说明的是，所述预设依存句法模型包括预设依存关系判别模型，其中，所述预设依存关系判别模型为用于判别待解析语句中词与词之间是否存在依存关系的机器学习模型。

基于预设依存关系判别模型，对所述向量化语句进行依存关系判别，获得依存关系判别结果，具体地，将所述向量化语句输入所述预设依存关系判别模型，对所述向量化语句进行依存关系判别，以判别待分析语句中词与词之间是否存在依存关系，获得依存关系判别结果。

其中，所述预设依存关系判别模型包括第一特征提取模型、第一全连接网络、第二全连接网络和第一双仿射变换网络，

所述基于所述第一依存句法子模型，对所述向量化语句进行依存关系分析，获得依存关系判别结果的步骤包括：

步骤S121，基于所述第一特征提取模型，对所述向量化语句进行特征提取，获得第一特征提取结果；

在本实施例中，需要说明的是，所述第一特征提取模型为对所述向量化语句进行特征提取的神经网络，所述第一特征提取模型包括Transformer模型、RNN网络和CNN网络等。

基于所述第一特征提取模型，对所述向量化语句进行特征提取，获得第一特征提取结果，具体地，将所述向量化语句输入所述第一特征提取模型，对所述向量化语句进行特征提取，获得第一特征提取矩阵，并将所述第一特征提取矩阵作为所述第一特征提取结果。

步骤S122，基于所述第一全连接网络和所述第二全连接网络，分别对所述第一特征提取结果进行全连接，获得第一句子向量和第二句子向量；

在本实施例中，基于所述第一全连接网络和所述第二全连接网络，分别对所述第一特征提取结果进行全连接，获得第一句子向量和第二句子向量，具体地，将所述第一特征提取矩阵输入第一全连接网络，对所述第一特征提取矩阵进行全连接，获得第一句子向量，并将所述第一特征提取矩阵输入第二全连接网络，对所述第一特征提取矩阵进行全连接，获得第二句子向量，其中，需要说明的是，所述第一句子向量至少包括一词头向量，用于表示依存关系中作为被依存的词的表示向量，所述第二句子向量至少包括一词尾向量，用于表示依存关系中作为依存的词的表示向量，例如，假设词A依存于词B，则词B对应的词表示向量为词头向量，词A对应的词表示向量为词尾向量。

步骤S123，基于所述第一双仿射变换网络，对所述第一句子向量和所述第二句子向量进行双仿射变换，获得依存关系得分矩阵；

在本实施例中，基于所述第一双仿射变换网络，对所述第一句子向量和所述第二句子向量进行双仿射变换，获得依存关系得分矩阵，具体地，将所述第一句子向量和所述第二句子向量输入所述第一双仿射变换网络，对所述第一句子向量和所述第二句子向量进行双仿射变换，以计算第一句子向量中每一词头向量和第二句子向量中每一词尾向量存在依存关系的概率得分，获得所述依存关系得分矩阵，其中，所述依存关系得分矩阵为由每一词头向量和每一词尾向量之间存在依存关系的概率得分组成的得分矩阵。

步骤S124，基于所述依存关系得分矩阵，确定所述依存关系判别结果。

在本实施例中，基于所述依存关系得分矩阵，确定所述依存关系判别结果，具体地基于预设最大生成树算法，在所述依存关系得分矩阵中选取满足预设得分选取条件的最大概率得分和，并将所述最大概率得分和对应的各目标概率得分对应的依存关系对应的向量化词组成的依存关系向量作为所述依存关系判别结果，其中，所述预设得分选取条件包括各目标概率得分对应的待分析词与所述待分析语句中的待分析词一一对应等，例如，假设各所述目标概率得分为A和B，其中，目标概率得分A表示词b依附于词a的概率得分，目标概率得分B表示词c依附于词b的概率得分，且词a对应向量化词为向量X，词b对应向量化词为向量Y，词c对应向量化词为向量Z，进而所述依存关系向量为向量(X，1，0，0，1，Y，1，0，0，1，Z)，其中(1，0，0，1)表示词与词之间存在依存关系。

步骤S13，基于预设依存关系类型预测模型和所述依存关系判别结果，对所述向量化语句进行依存关系类型预测，获得依存关系类型预测结果。

在本实施例中，需要说明的是，需要说明的是，所述预设依存句法模型包括预设依存关系类型预测模型，其中，所述预设依存关系类型预测模型为用于预测待解析语句中词与词之间的依存关系类型的机器学习模型。

基于预设依存关系类型预测模型和所述依存关系判别结果，对所述向量化语句进行依存关系类型预测，获得依存关系类型预测结果，具体地，基于所述预设依存关系类型预测模型，对所述向量化语句进行依存关系类型预测，获得依存关系类型概率得分矩阵，其中，需要说明的是，所述依存关系类型概率得分矩阵中每一比特位上存在一依存关系类型概率得分向量，其中，所述依存关系类型概率得分向量每一比特位上的数值为预设依存关系类型的概率得分，例如，假设所述依存关系类型概率得分向量为(A，B，C)，且所述依存关系类型概率得分向量的第一位对应主谓关系，第二位对应动宾关系，第三位对应并列关系，则A为所述依存关系类型概率得分向量对应的两词之间的依存关系为主谓关系的概率得分，B为所述依存关系类型概率得分向量对应的两词之间的依存关系为动宾关系的概率得分，A为所述依存关系类型概率得分向量对应的两词之间的依存关系为主谓关系的概率得分，进而基于所述依存关系判别结果，在所述依存关系类型概率得分矩阵中选取各目标依存关系类型概率得分向量，进而将各所述目标依存关系类型概率得分向量中的最大数值对应的依存关系类型作为目标依存关系类型，进而获得待分析语句的词与词之间的依存关系类型，也即，获得所述依存关系类型预测结果。

其中，所述依存关系判别结果包括依存关系向量，

所述基于预设依存关系类型预测模型和所述依存关系判别结果，对所述向量化语句进行依存关系类型预测，获得依存关系类型预测结果的步骤包括：

步骤S131，基于所述预设依存关系类型预测模型，对所述向量化语句进行依存关系类型预测，获得依存关系类型概率得分矩阵；

在本实施例中，需要说明的是，所述预设依存关系类型预测模型包括第二特征提取模型、第三全连接网络、第四全连接网络和第二双仿射变换网络。

基于所述预设依存关系类型预测模型，对所述向量化语句进行依存关系类型预测，获得依存关系类型概率得分矩阵，具体地，将所述向量化语句输入第二特征提取模型，对所述向量化语句进行特征提取，获得第二特征提取矩阵，并将所述第二特征提取矩阵分别输入第三全连接网络和第四全连接网络，获得所述第二特征提取矩阵对应的第三句子向量和对应的第四句子向量，将所述第三句子向量和所述第四句子向量输入第二双仿射变换网络，对所述第三句子向量和所述第四句子向量进行双仿射变换，获得所述依存关系类型概率得分矩阵。

步骤S132，将所述依存关系类型概率得分矩阵和所述依存关系向量进行融合，获得所述依存关系类型预测结果。

在本实施例中，将所述依存关系类型概率得分矩阵和所述依存关系向量进行融合，获得所述依存关系类型预测结果，具体地，基于预设融合规则，将所述依存关系类型概率得分矩阵中的每一依存关系类型概率得分向量与所述依存关系向量进行融合，获得各所述依存关系类型概率得分向量对应的依存关系类型概率向量，其中，所述预设融合规则包括加权平均、拼接、求和等，所述依存关系类型概率向量每一比特位上的数值为预设依存关系类型的概率，所述预设依存关系类型包括主谓关系类型、动宾关系类型和并列关系类型等，进而分别在各所述依存关系类型概率向量中选取最大概率数值作为目标依存关系类型概率，进而在各所述目标依存关系类型概率中确定符合预设概率选取条件的各最大依存关系类型概率对应的依存关系类型，并将各最大依存关系类型概率对应的依存关系类型作为依存关系类型预测结果，其中，预设概率选取条件包括选取的各最大依存关系类型概率对应的待分析词与所述待分析语句中的各待分析词一一对应，例如，假设待分析语句为ABC，则预设概率选取条件为选取的各最大依存关系类型概率的数量为2，且各最大依存关系类型概率对应的各待分析词可组成待分析语句ABC。

步骤S14，基于所述依存关系类型预测结果，确定所述词成分信息。

在本实施例中，基于所述依存关系类型预测结果，确定所述词成分信息，具体地，基于待分析语句词与词之间的依存关系类型，判定待分析语句每一待分析词的词成分，获得所述词成分信息，例如，假设所述待分析语句为ABC，其中，词A与词B之间的依存关系类型为主谓关系类型，词B与词C之间的依存关系类型为动宾关系类型，则可判定所述待分析语句的句式为主谓句式，词A对应的词成分为主语，词B对应的词成分为谓语，词C对应的词成分为宾语。

本实施提供了一种基于机器学习的依存句法分析方法，首先对所述待分析语句进行向量化，获得向量化语句，进而基于预设依存关系判别模型，对所述向量化语句进行依存关系判别，获得依存关系判别结果，进而实现了判定待分析语句的词与词之间是否存在依存关系的目的，进而基于预设依存关系类型预测模型和所述依存关系判别结果，对所述向量化语句进行依存关系类型预测，获得依存关系类型预测结果，进而实现了预测待分析语句中词与词之间的依存关系类型的目的，且由于所述依存关系类型是基于预测关系判别结果进行预测的，避免了词与词之间存在依存关系的概率极低时，预测词与词之间存在各种类型的预设依存关系的概率却较高的情况发生，提高了依存关系类型预测的准确性，进而提高了依存句法分析的准确性，进而基于所述依存关系类型预测结果，即可确定待分析词的词成分信息，进而基于词成分信息，即可对所述待分析语句进行有针对性地数据增强，可保证数据增强后的句子的语义不会发生改变，进而可保证数据增强后的语句的语义与待分析语句的标签相匹配，克服了现有技术中对收集的原始句子中的词进行随机删除、随机交换和随机替换等操作进行随机数据增强，将极高概率导致数据增强后的句子的语义发生改变，进而导致数据增强的效果差的技术缺陷，进而为提高数据增强的效果奠定了基础。

进一步地，参照图3，基于本申请中第一实施例和第二实施例，在本申请的另一实施例中，所述基于依存句法的数据增强方法还包括：

步骤A10，获取训练数据和待训练依存句法模型，其中，所述训练数据包括训练语句和所述训练语句对应的预设依存类型标签；

在本实施例中，需要说明的是，所述预设依存类型标签为预先标注好的训练语句中词与词之间的依存关系类型的标识，所述待训练依存句法模型为未训练好的依存句法模型。

获取训练数据和待训练依存句法模型，其中，所述训练数据包括训练语句和所述训练语句对应的预设依存类型标签，具体地，获取标注依存句法分析数据集和待训练依存句法模型，并收集依存句法分析数据集，并对所述依存句法分析数据集进行人工标注，获得人工标注依存句法分析数据集，进而将所述标注依存句法分析数据集和所述人工标注依存句法分析数据集进行合并，获得训练数据集，以扩充所述待训练依存句法模型对应的训练样本的数量。

步骤A20，将所述训练数据输入所述待训练依存句法模型，以对所述训练语句进行依存句法分析，获得类型训练预测标签；

在本实施例中，需要说明的是，所述训练数据至少包括一训练语句。

将所述训练数据输入所述待训练依存句法模型，以对所述训练语句进行依存句法分析，获得类型训练预测标签，具体地，基于所述待训练依存句法模型中的向量化网络，对所述训练语句进行向量化，获得向量化训练语句，进而基于所述待训练依存句法模型中的预设依存关系判别模型，对所述向量化训练语句进行依存关系判别，获得训练依存关系向量，并基于所述待训练依存句法模型中的预设依存关系类型预测模型，对所述向量化训练语句进行依存关系类型预测，获得训练依存关系类型概率得分矩阵，进而将所述训练依存关系向量和所述训练依存关系类型概率得分矩阵，确定类型训练预测标签，其中，所述类型训练预测标签为训练语句对应的依存关系类型的标识。

步骤A30，基于所述类型训练预测标签和所述预设依存类型标签，计算依存句法模型误差；

在本实施例中，基于所述类型训练预测标签和所述预设依存类型标签，计算依存句法模型误差，具体地，计算所述类型训练预测标签和所述预设依存类型标签之间的距离，获得依存句法模型误差。

步骤A40，基于所述依存句法模型误差，对所述待训练依存句法模型进行更新，直至所述待训练依存句法模型满足预设更新结束条件，获得预设依存句法模型。

在本实施例中，基于所述依存句法模型误差，对所述待训练依存句法模型进行更新，直至所述待训练依存句法模型满足预设更新结束条件，获得预设依存句法模型，具体地，基于所述依存句法模型误差，计算梯度信息，并通过反向传播的方式，根据所述梯度信息，更新所述待训练依存句法模型的模型参数，获得更新后的待训练依存句法模型，进而判断更新后的待训练依存句法模型是否满足预设更新结束条件，若满足，则将更新后的待训练依存句法模型作为所述预设依存句法模型，若不满足，则重新获取训练语句，以对更新后的待训练依存句法模型的模型参数重新进行训练更新，直至更新后的待训练依存句法模型满足预设更新结束条件，其中，所述预设更新结束条件包括达到最大迭代次数和损失函数收敛等。

另外地，在一种可实施的方式中，如图4所示为基于预设依存句法模型，对待分析语句进行数据增强的流程示意图，其中，需要说明的是，谓语和谓语的并列成分属于所述预设第一词成分分类，定语、状语、主语、兼语、宾语属于所述预设第二词成分分类，所述以一定概率进行同义词替换或者保持不变操作对应所述第一数据增强操作集合，所述以一定概率进行同义词替换或者删除或者保持不变操作对应所述第二数据增强操作集合，所述以一定概率进行同义词替换或者删除或者与同成分词替换或者保持不变操作对应所述第三数据增强操作集合，且不属于预设第一词成分分类和预设第二词成分分类的待分析词，则均归属于预设第三词成分分类，并对其执行所述第三数据增强操作集合中的数据增强操作，所述数据量是否足够的判断过程即为数据增强语句的数量满足预设数量阀值的判断过程。

本实施例提供了一种预设依存句法模型的训练方法，也即，获取训练数据和待训练依存句法模型，其中，所述训练数据包括训练语句和所述训练语句对应的预设依存类型标签，进而将所述训练数据输入所述待训练依存句法模型，以对所述训练语句进行依存句法分析，获得类型训练预测标签，进而基于所述类型训练预测标签和所述预设依存类型标签，计算依存句法模型误差，进而基于所述依存句法模型误差，对所述待训练依存句法模型进行更新，直至所述待训练依存句法模型满足预设更新结束条件，获得预设依存句法模型，进而基于训练好的预设依存句法模型，即可对所述待分析语句进行依存句法分析，获得所述待分析语句对应的词成分信息，进而基于词成分信息，即可对所述待分析语句进行有针对性地数据增强，可保证数据增强后的句子的语义不会发生改变，进而可保证数据增强后的语句的语义与待分析语句的标签相匹配，克服了现有技术中对收集的原始句子中的词进行随机删除、随机交换和随机替换等操作进行随机数据增强，将极高概率导致数据增强后的句子的语义发生改变，进而导致数据增强的效果差的技术缺陷，进而为提高数据增强的效果奠定了基础。

参照图5，图5是本申请实施例方案涉及的硬件运行环境的设备结构示意图。

如图5所示，该基于依存句法的数据增强设备可以包括：处理器1001，例如CPU，存储器1005，通信总线1002。其中，通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

可选地，该基于依存句法的数据增强设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard)，可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

本领域技术人员可以理解，图5中示出的基于依存句法的数据增强设备结构并不构成对基于依存句法的数据增强设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图5所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及基于依存句法的数据增强程序。操作系统是管理和控制基于依存句法的数据增强设备硬件和软件资源的程序，支持基于依存句法的数据增强程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信，以及与基于依存句法的数据增强系统中其它硬件和软件之间通信。

在图5所示的基于依存句法的数据增强设备中，处理器1001用于执行存储器1005中存储的基于依存句法的数据增强程序，实现上述任一项所述的基于依存句法的数据增强方法的步骤。

本申请基于依存句法的数据增强设备具体实施方式与上述基于依存句法的数据增强方法各实施例基本相同，在此不再赘述。

本申请实施例还提供一种基于依存句法的数据增强装置，所述基于依存句法的数据增强装置应用于基于依存句法的数据增强设备，所述基于依存句法的数据增强装置包括：

可选地，所述数据增强模块包括：

第一确定单元，用于基于所述词成分信息，确定各所述待分析词对应的词成分类型；

数据增强单元，用于基于各所述词成分类型，对所述待分析语句进行数据增强，获得数据增强结果。

可选地，所述数据增强单元包括：

第一确定子单元，用于在各所述待分析词中选取待数据增强词，并在各词成分类型中确定所述待数据增强词对应的目标词成分类型；

选取子单元，用于基于所述目标词成分类型的词成分类型归属，在所述预设目标成分类型对应的数据增强操作集合中选取目标数据增强操作；

数据增强子单元，用于在所述待分析语句中对所述待数据增强词进行所述目标数据增强操作，获得所述数据增强结果。

可选地，所述依存句法分析模块包括：

向量化单元，用于对所述待分析语句进行向量化，获得向量化语句；

依存关系判别单元，用于基于预设依存关系判别模型，对所述向量化语句进行依存关系判别，获得依存关系判别结果；

依存关系类型预测单元，用于基于预设依存关系类型预测模型和所述依存关系判别结果，对所述向量化语句进行依存关系类型预测，获得依存关系类型预测结果；

第二确定单元，用于基于所述依存关系类型预测结果，确定所述词成分信息。

可选地，所述依存关系判别单元包括：

特征提取子单元，用于基于所述第一特征提取模型，对所述向量化语句进行特征提取，获得第一特征提取结果；

全连接子单元，用于基于所述第一全连接网络和所述第二全连接网络，分别对所述第一特征提取结果进行全连接，获得第一句子向量和第二句子向量；

双仿射变换子单元，用于基于所述第一双仿射变换网络，对所述第一句子向量和所述第二句子向量进行双仿射变换，获得依存关系得分矩阵；

第二确定子单元，用于基于所述依存关系得分矩阵，确定所述依存关系判别结果。

可选地，所述依存关系类型预测单元包括：

依存关系类型预测子单元，用于基于所述预设依存关系类型预测模型，对所述向量化语句进行依存关系类型预测，获得依存关系类型概率得分矩阵；

融合子单元，用于将所述依存关系类型概率得分矩阵和所述依存关系向量进行融合，获得所述依存关系类型预测结果。

可选地，所述向量化单元包括：

获取子单元，用于获取所述待分析词对应的待分析词向量、对应的待分析词性向量和对应的待分析词位置向量；

生成子单元，用于基于所述待分析词向量、所述待分析词性向量和所述待分析词位置向量，生成所述向量化词。

可选地，所述基于依存句法的数据增强装置还包括：

获取模块，用于获取训练数据和待训练依存句法模型，其中，所述训练数据包括训练语句和所述训练语句对应的预设依存类型标签；

训练模块，用于将所述训练语句输入所述待训练依存句法模型，以对所述训练语句进行依存句法分析，获得类型训练预测标签；

误差计算模块，用于基于所述类型训练预测标签和所述预设依存类型标签，计算依存句法模型误差；

更新模块，用于基于所述依存句法模型误差，对所述待训练依存句法模型进行更新，直至所述待训练依存句法模型满足预设更新结束条件，获得预设依存句法模型。

本申请基于依存句法的数据增强装置的具体实施方式与上述基于依存句法的数据增强方法各实施例基本相同，在此不再赘述。

本申请实施例提供了一种可读存储介质，且所述可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的基于依存句法的数据增强方法的步骤。

本申请可读存储介质具体实施方式与上述基于依存句法的数据增强方法各实施例基本相同，在此不再赘述。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利处理范围内。

Claims

1.一种基于依存句法的数据增强方法，其特征在于，所述基于依存句法的数据增强方法包括：

2.如权利要求1所述基于依存句法的数据增强方法，其特征在于，所述待分析语句至少包括一待分析词，

基于所述词成分信息，确定各所述待分析词对应的词成分类型；

基于各所述词成分类型，对所述待分析语句进行数据增强，获得数据增强结果。

3.如权利要求2所述基于依存句法的数据增强方法，其特征在于，所述基于各所述词成分类型，对所述待分析语句进行数据增强，获得数据增强结果的步骤包括：

在各所述待分析词中选取待数据增强词，并在各词成分类型中确定所述待数据增强词对应的目标词成分类型；

基于所述目标词成分类型的词成分类型归属，在所述预设目标成分类型对应的数据增强操作集合中选取目标数据增强操作；

在所述待分析语句中对所述待数据增强词进行所述目标数据增强操作，获得所述数据增强结果。

4.如权利要求1所述基于依存句法的数据增强方法，其特征在于，所述对所述待分析语句进行依存句法分析，获得所述待分析语句对应的词成分信息的步骤包括：

对所述待分析语句进行向量化，获得向量化语句；

基于预设依存关系判别模型，对所述向量化语句进行依存关系判别，获得依存关系判别结果；

基于预设依存关系类型预测模型和所述依存关系判别结果，对所述向量化语句进行依存关系类型预测，获得依存关系类型预测结果；

基于所述依存关系类型预测结果，确定所述词成分信息。

5.如权利要求4所述基于依存句法的数据增强方法，其特征在于，所述预设依存关系判别模型包括第一特征提取模型、第一全连接网络、第二全连接网络和第一双仿射变换网络，

所述基于预设依存关系判别模型，对所述向量化语句进行依存关系判别，获得依存关系判别结果的步骤包括：

基于所述第一特征提取模型，对所述向量化语句进行特征提取，获得第一特征提取结果；

基于所述第一全连接网络和所述第二全连接网络，分别对所述第一特征提取结果进行全连接，获得第一句子向量和第二句子向量；

基于所述第一双仿射变换网络，对所述第一句子向量和所述第二句子向量进行双仿射变换，获得依存关系得分矩阵；

基于所述依存关系得分矩阵，确定所述依存关系判别结果。

6.如权利要求4所述基于依存句法的数据增强方法，其特征在于，所述依存关系判别结果包括依存关系向量，

基于所述预设依存关系类型预测模型，对所述向量化语句进行依存关系类型预测，获得依存关系类型概率得分矩阵；

将所述依存关系类型概率得分矩阵和所述依存关系向量进行融合，获得所述依存关系类型预测结果。

7.如权利要求4所述基于依存句法的数据增强方法，其特征在于，所述待分析语句至少包括一待分析词，所述向量化语句至少包括一向量化词，

获取所述待分析词对应的待分析词向量、对应的待分析词性向量和对应的待分析词位置向量；

基于所述待分析词向量、所述待分析词性向量和所述待分析词位置向量，生成所述向量化词。

8.如权利要求1所述基于依存句法的数据增强方法，其特征在于，所述基于依存句法的数据增强方法还包括：

获取训练数据和待训练依存句法模型，其中，所述训练数据包括训练语句和所述训练语句对应的预设依存类型标签；

将所述训练语句输入所述待训练依存句法模型，以对所述训练语句进行依存句法分析，获得类型训练预测标签；

基于所述类型训练预测标签和所述预设依存类型标签，计算依存句法模型误差；

基于所述依存句法模型误差，对所述待训练依存句法模型进行更新，直至所述待训练依存句法模型满足预设更新结束条件，获得预设依存句法模型。

9.一种基于依存句法的数据增强设备，其特征在于，所述基于依存句法的数据增强设备包括：存储器、处理器以及存储在存储器上的用于实现所述基于依存句法的数据增强方法的程序，

所述存储器用于存储实现基于依存句法的数据增强方法的程序；

所述处理器用于执行实现所述基于依存句法的数据增强方法的程序，以实现如权利要求1至8中任一项所述基于依存句法的数据增强方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有实现基于依存句法的数据增强方法的程序，所述实现基于依存句法的数据增强方法的程序被处理器执行以实现如权利要求1至8中任一项所述基于依存句法的数据增强方法的步骤。