CN111460766B

CN111460766B - 一种矛盾语块边界识别的方法及装置

Info

Publication number: CN111460766B
Application number: CN202010245836.3A
Authority: CN
Inventors: 姜姗
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2023-05-26
Anticipated expiration: 2040-03-31
Also published as: CN111460766A

Abstract

本发明公开了一种矛盾语块边界识别的方法及装置，所述方法包括：获取带矛盾语块标注的数据集；对所述带矛盾语块标注的数据集预处理，以得到标注后数据；通过BERT和CRF对所述标注后的数据进行处理，以得到每个字符最终的标签；根据所述每个字符最终的标签确定矛盾语块的边界。通过本发明的技术方案，确定了矛盾的具体位置，使得文本矛盾检测具有可解释性。

Description

一种矛盾语块边界识别的方法及装置

技术领域

本发明涉及信息处理技术领域，特别涉及一种矛盾语块边界识别的方法及装置。

背景技术

当两个拥有共同实体的句子不能同时为真时，这两个句子相互矛盾。矛盾语块为导致句子矛盾的最小语言单元。矛盾语块边界识别，是给定相互矛盾的两句话，分别找出导致矛盾的语块位置的任务。

正确理解文本矛盾是自然语言理解中的一项重要环节，然后现有的工作大多关注文本矛盾检测，即存在性判断，并未进一步探究矛盾的具体位置，使得文本矛盾检测缺乏可解释性。

发明内容

本发明提供一种矛盾语块边界识别的方法及装置，所述技术方案如下：

根据本发明实施例的第一方面，提供了一种矛盾语块边界识别的方法，包括：

获取带矛盾语块标注的数据集；

对所述带矛盾语块标注的数据集预处理，以得到标注后数据；

通过BERT和CRF对所述标注后的数据进行处理，以得到每个字符最终的标签；

根据所述每个字符最终的标签确定矛盾语块的边界。

在一个实施例中，

所述带矛盾语块标注的数据集中的每一条标准数据分为四列，第一列和第二列分别为第一原始句子和第二原始句子，第三列和第四列分别为所述第一原始句子和第二原始句子中相互矛盾的语块。

在一个实施例中，所述对所述带矛盾语块标注的数据集预处理，以得到标注后数据，包括：

将所述第一原始句子和所述第二原始句子通过预设分隔符拼接在一起，以得到拼接后的数据；

获取预设标签，其中，所述预设标签为O、B-First、I-First、B-Second、I-Second；

通过所述预设标签对所述拼接后的数据进行标注，以得到所述标注后的数据。

在一个实施例中，所述通过BERT和CRF对所述标注后的数据进行处理，以得到每个字符最终的标签，包括：

将所述标注后的数据传输至所述BERT中，以得到所述标注后的数据中每个字符对应的状态特征；

根据所述每个字符对应的状态特征确定所述每个字符对应的状态分数；

将所述每个字符对应的状态分数输入至所述CRF中进行计算，以得到计算结果；

根据所述计算结果确定所述每个字符的最终标签。

在一个实施例中，所述矛盾语块包括第一原始句子中矛盾语块和第二原始句子中矛盾语块，所述根据所述每个字符最终的标签确定矛盾语块的边界，包括：

确定最终标签为B-First和I-First分别对应的字符为所述第一原始句子中矛盾语块的边界；

确定最终标签为B-Second和I-Second分别对应的字符为所述第二原始句子中矛盾语块的边界。

根据本发明实施例的第二方面，提供了一种矛盾语块边界识别的装置，包括：

获取模块，用于获取带矛盾语块标注的数据集；

预处理模块，用于对所述带矛盾语块标注的数据集预处理，以得到标注后数据；

处理模块，用于通过BERT和CRF对所述标注后的数据进行处理，以得到每个字符最终的标签；

确定模块，用于根据所述每个字符最终的标签确定矛盾语块的边界。

在一个实施例中，

在一个实施例中，所述预处理模块，包括：

拼接子模块，用于将所述第一原始句子和所述第二原始句子通过预设分隔符拼接在一起，以得到拼接后的数据；

获取子模块，用于获取预设标签，其中，所述预设标签为O、B-First、I-First、B-Second、I-Second；

标注子模块，用于通过所述预设标签对所述拼接后的数据进行标注，以得到所述标注后的数据。

在一个实施例中，所述处理模块，包括：

传输子模块，用于将所述标注后的数据传输至所述BERT中，以得到所述标注后的数据中每个字符对应的状态特征；

第一确定子模块，用于根据所述每个字符对应的状态特征确定所述每个字符对应的状态分数；

计算子模块，用于将所述每个字符对应的状态分数输入至所述CRF中进行计算，以得到计算结果；

第二确定子模块，用于根据所述计算结果确定所述每个字符的最终标签。

在一个实施例中，所述确定模块，包括：

第三确定子模块，用于确定最终标签为B-First和I-First分别对应的字符为所述第一原始句子中矛盾语块的边界；

第四确定子模块，用于确定最终标签为B-Second和I-Second分别对应的字符为所述第二原始句子中矛盾语块的边界。

本发明的实施例提供的技术方案可以包括以下有益效果：

获取带矛盾语块标注的数据集；进而，对带矛盾语块标注的数据集预处理，能够得到标注后数据；其次，通过BERT和CRF对标注后的数据进行处理，能够得到每个字符最终的标签；最后，根据每个字符最终的标签确定矛盾语块的边界。通过本发明的技术方案，确定了矛盾语块的边界，即确定了矛盾的具体位置，使得文本矛盾检测具有可解释性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明一实施例中一种矛盾语块边界识别的方法的流程图；

图2为本发明一实施例中另一种矛盾语块边界识别的方法的流程图；

图3为本发明一实施例中一种矛盾语块边界识别的装置的框图

图4为本发明一实施例中另一种矛盾语块边界识别的装置的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1为本发明一实施例中一种矛盾语块边界识别的方法的流程图，如图1所示，该方法可被实施为以下步骤S11-S14：

在步骤S11中，获取带矛盾语块标注的数据集；

在步骤S12中，对带矛盾语块标注的数据集预处理，以得到标注后数据；

在步骤S13中，通过BERT和CRF对标注后的数据进行处理，以得到每个字符最终的标签；

在步骤S14中，根据每个字符最终的标签确定矛盾语块的边界。

在一个实施例中，

所述带矛盾语块标注的数据集中的每一条标准数据分为四列，第一列和第二列分别为第一原始句子和第二原始句子，第三列和第四列分别为所述第一原始句子和第二原始句子中相互矛盾的语块。举例而言：标准数据为“小女孩坐着桌子旁边吃香肠###年轻女孩在吃蛋糕###香肠###蛋糕”其中，###为分隔符。

本实施例中具体的写明了带矛盾语块标注的数据集的组成部分。

如图2所示，在一个实施例中上述步骤S12可被实施为以下步骤S121-S123：

在步骤S121中，将第一原始句子和所述第二原始句子通过预设分隔符拼接在一起，以得到拼接后的数据；其中，预设分隔符可以是“[SEP]”

在步骤S122中，获取预设标签，其中，预设标签为O、B-First、I-First、B-Second、I-Second；其中，O表示标注的词在文本中没有被矛盾语块覆盖，其余的标签表示标注的词是矛盾语块的一部分，B表示标注的词是矛盾语块中的第一个元素，矛盾语块中的其他元素用I表示，First和Second分别表示第一原始句子和第二原始句子。

在步骤S123中，通过预设标签对拼接后的数据进行标注，以得到标注后的数据。其中，首先通过预设标签对拼接后的数据进行标注，因为标注结果并不能准确无误的确定矛盾语块的位置，因此还要进行后续的操作。

通过对数据集预处理后得到标注后的数据，为矛盾语块的边界的识别提供数据。

将所述标注后的数据传输至所述BERT中，以得到所述标注后的数据中每个字符对应的状态特征；其中，状态特征指的是每个字符对应的标注。

将所述每个字符对应的状态分数输入至所述CRF中进行计算，以得到计算结果；其中，命名实体识别中，BERT负责学习输入句子中每个字和符号到对应的实体标签的规律，而CRF负责学习相邻实体标签之间的转移规则。计算结果是指标签与实体最符合的情况。

根据所述计算结果确定所述每个字符的最终标签。

通过本发明的实施例，将矛盾语块的边界识别转化为命名识别，效率更加快。

通过本实施例能够准确的识别到矛盾语块的边界。

对本发明实施例提供的上述一种矛盾语块边界识别的方法，本发明实施例还提供了一种矛盾语块边界识别的装置，如图3所示，该装置包括：

获取模块31，用于获取带矛盾语块标注的数据集；

预处理模块32，用于对所述带矛盾语块标注的数据集预处理，以得到标注后数据；

处理模块33，用于通过BERT和CRF对所述标注后的数据进行处理，以得到每个字符最终的标签；

确定模块34，用于根据所述每个字符最终的标签确定矛盾语块的边界。

在一个实施例中，

如图4所示，在一个实施例中，所述预处理模块32，包括：

拼接子模块321，用于将所述第一原始句子和所述第二原始句子通过预设分隔符拼接在一起，以得到拼接后的数据；

获取子模块322，用于获取预设标签，其中，所述预设标签为O、B-First、I-First、B-Second、I-Second；

标注子模块323，用于通过所述预设标签对所述拼接后的数据进行标注，以得到所述标注后的数据。

在一个实施例中，所述处理模块，包括：

在一个实施例中，所述确定模块，包括：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种矛盾语块边界识别的方法，其特征在于，包括：

获取带矛盾语块标注的数据集；

根据所述每个字符最终的标签确定矛盾语块的边界；

其中，所述带矛盾语块标注的数据集中的每一条标准数据分为四列，第一列和第二列分别为第一原始句子和第二原始句子，第三列和第四列分别为所述第一原始句子和第二原始句子中相互矛盾的语块；

其中，所述对所述带矛盾语块标注的数据集预处理，以得到标注后数据，包括：

通过所述预设标签对所述拼接后的数据进行标注，以得到所述标注后的数据；

其中，所述通过BERT和CRF对所述标注后的数据进行处理，以得到每个字符最终的标签，包括：

根据所述计算结果确定所述每个字符的最终标签；

其中，所述矛盾语块包括第一原始句子中矛盾语块和第二原始句子中矛盾语块，所述根据所述每个字符最终的标签确定矛盾语块的边界，包括：

2.一种矛盾语块边界识别的装置，其特征在于，包括：

获取模块，用于获取带矛盾语块标注的数据集；

确定模块，用于根据所述每个字符最终的标签确定矛盾语块的边界；

其中，所述预处理模块，包括：

标注子模块，用于通过所述预设标签对所述拼接后的数据进行标注，以得到所述标注后的数据；

其中，所述处理模块，包括：

第二确定子模块，用于根据所述计算结果确定所述每个字符的最终标签；

所述确定模块，包括：