CN112765991B

CN112765991B - 一种基于知识增强的深度对话语义角色标注方法及系统

Info

Publication number: CN112765991B
Application number: CN202110045655.0A
Authority: CN
Inventors: 李聪端; 贺柏宇; 赖东成; 朱甜甜; 何晶亮
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2023-10-03
Anticipated expiration: 2041-01-14
Also published as: CN112765991A

Abstract

本发明公开了一种基于知识增强的深度对话语义角色标注方法及系统，该方法包括：获取数据集并对数据集进行预处理，得到预处理后的文本；获取三元组并对三元组进行筛选，得到过滤后的三元组；将过滤后的三元组与预处理后的文本结合，得到句子树结构；将句子树结构转换为序列并输入到BERT编码器，输出词向量；对预处理文本进行处理，得到索引向量；将词向量和索引向量输入到预构建的语义角色标注模型，输出预测标注结果。该系统包括：预处理模块、三元组模块、树结构模块、词向量模块、索引向量模块和结果模块。通过使用本发明，提升标注的准确度。本发明作为一种基于知识增强的深度对话语义角色标注方法及系统，可广泛应用于自然语言处理技术领域。

Description

一种基于知识增强的深度对话语义角色标注方法及系统

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于知识增强的深度对话语义角色标注方法及系统。

背景技术

语义角色标注是实现浅层语义分析的一种方法。语义角色标注的目标是以句子中的某个谓词为中心，分析句子中各成分与谓词之间的关系，并且用语义角色来描述他们之间的关系。跟谓词相关联的词被称为论元。语义角色是指论元在动词所指事件中担任的角色。如：施事者、受事者、客体、时间和地点等。

但是传统的深度语义角色标注方法仅适用于每个句子，在对话领域表现不佳。这是因为人类在对话中，经常会使用基于上下文理解的省略和复指(下文的词返指或代替上文的词)，这会导致仅专注于句子的传统深度语义角色标注算法表现不佳。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于知识增强的深度对话语义角色标注方法及系统，在中文日常对话数据集上，对比传统深度语义角色标注算法，准确度有较大的提升，解决了传统算法在对话领域效果不佳的问题。

本发明所采用的第一技术方案是：一种基于知识增强的深度对话语义角色标注方法，包括以下步骤：

获取数据集并对数据集进行预处理，得到预处理后的文本；

根据预处理后的文本获取三元组并按照预设规则对三元组进行筛选，得到过滤后的三元组；

将过滤后的三元组与预处理后的文本结合并转换，得到句子树结构；

将句子树结构转换为序列并输入到BERT编码器，输出词向量；

基于索引编码器对预处理文本进行处理，得到索引向量；

将词向量和索引向量输入到预构建的语义角色标注模型，输出预测标注结果。

进一步，所述根据预处理后的文本获取三元组并按照预设规则对三元组进行筛选，得到过滤后的三元组这一步骤，其具体包括：

对预处理后的文本中的词与向知识图谱库请求常识三元组；

过滤包含英文信息、包含数字信息、长度大于预设值和含有预设关键字的三元组；

得到过滤后的三元组。

进一步，所述BERT编码器包括嵌入层、可视化层和编码层，所述预构建的语义角色标注模型包括自注意力机制层和输出层。

进一步，所述将句子树结构转换为序列并输入到BERT编码器，输出词向量这一步骤，其具体包括：

将句子树结构拉平转换成序列；

基于嵌入层对序列进行处理，得到词的软位置；

基于可视化层对序列进行处理，得到可视矩阵；

编码层根据词的软位置和可视矩阵，输出词向量。

进一步，所述基于索引编码器对预处理文本进行处理，得到索引向量这一步骤，其具体包括：

对预处理文本分别进行对话轮次索引、说话者索引和谓词索引处理并输入到索引编码器，生成对话轮次索引向量、说话者索引向量和谓词索引向量。

进一步，所述将词向量和索引向量输入到预构建的语义角色标注模型，输出预测标注结果这一步骤，其具体包括：

将词向量、对话轮次索引向量、说话者索引向量和谓词索引向量经过自注意力机制层，得到注意力向量；

根据注意力向量和softmax函数生成注意力输出；

将注意力输出经过输出层并通过Softmax归一化，输出预测标注结果。

本发明所采用的第二技术方案是：一种基于知识增强的深度对话语义角色标注系统，包括：

预处理模块，用于获取数据集并对数据集进行预处理，得到预处理后的文本；

三元组模块，用于根据预处理后的文本获取三元组并按照预设规则对三元组进行筛选，得到过滤后的三元组；

树结构模块，用于将过滤后的三元组与预处理后的文本结合并转换，得到句子树结构；

词向量模块，用于将句子树结构转换为序列并输入到BERT编码器，输出词向量；

索引向量模块，基于索引编码器对预处理文本进行处理，得到索引向量；

结果模块，用于将词向量和索引向量输入到预构建的语义角色标注模型，输出预测标注结果。

本发明方法及系统的有益效果是：本发明提出了一个基于注意力的深度语义角色标注模型，同时将基于知识图谱的数据增强方式与注意力模型相结合，使得模型能够将知识图谱的知识与语义角色标注结合，从而在中文日常对话数据集上，对比传统深度语义角色标注算法，准确度有较大的提升，解决了传统算法在对话领域效果不佳的问题。

附图说明

图1是本发明一种基于知识增强的深度对话语义角色标注方法的步骤流程图；

图2是本发明一种基于知识增强的深度对话语义角色标注系统的结构框图；

图3是本发明具体实施例整体模型的结构图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1和图3，本发明提供了一种基于知识增强的深度对话语义角色标注方法，该方法包括以下步骤：

获取数据集并对数据集进行预处理，得到预处理后的文本；

具体地，在每一个Batch(Batch即多段文本数据的集合，在实际训练中，数据是以Batch为单位，对里面的文本进行并行学习训练的)中，得到每段经过数据预处理(主要是分词)的文本。

具体地，请求的常识三元组的格式为<请求实体，关系，关系实体>。例如：请求关键词为“某个建筑”，则返回的三元组可以是<某个建筑，所在地，某地>，也可以是<某个建筑，创办人，某人>等。

另外，由于每一个请求实体会对应到大量的三元组，因此我们设置了一个阈值P，规定一个实体最多只能关联不超过P个三元组用于后续的数据增强。同时，我们设计了一套便于增删改的筛选规则，来从所有请求到的三元组中筛选出这至多P个三元组。

具体地，预处理后的文本同过滤后的三元组进入知识层，知识层将知识图谱中关联到的三元组信息注入到句子中，形成一个富有背景知识的句子树。通过知识层，一个句子序列被转换成了一个树结构，且包含了原本句子中没有的相关常识/知识。

将句子树结构转换为序列并输入到BERT编码器，输出词向量；

具体地，由于BERT编码器只能处理序列输入，无法处理树形结构，因此，需要把句子树拉平(Flatten)成序列，才能进行后续的相关嵌入工作。

另外，通过软位置嵌入和可视矩阵来解决句子被拉平后产生的结构性信息丢失问题，并构建索引向量。经过编码后，输出层会输出对应的词向量，用以进行后续任务。

基于索引编码器对预处理文本进行处理，得到索引向量；

将词向量和索引向量输入到预构建的语义角色标注(SRL)模型，输出预测标注结果。

进一步作为本方法的优选实施例，所述根据预处理后的文本获取三元组并按照预设规则对三元组进行筛选，得到过滤后的三元组这一步骤，其具体包括：

对预处理后的文本中的词与向知识图谱库请求常识三元组；

过滤包含英文信息、包含数字信息、长度大于预设值和含有预设关键字的三元组，得到过滤后的三元组。

具体地，筛选规则如下：1、由于我们采用的是中文数据集，因此过滤所有包含英文的三元组；2、过滤掉所有含有年月日等数字信息的三元组；3、考虑到计算开销和数据有效性，过滤掉关系实体长度大于L的三元组。

建立了一个关系过滤关键字表，过滤掉所有关系在表中的三元组

进一步作为本方法的优选实施例，所述BERT编码器包括嵌入层、可视化层和编码层，所述预构建的语义角色标注模型包括自注意力机制层和输出层。

进一步作为本方法的优选实施例，所述将句子树结构转换为序列并输入到BERT编码器，输出词向量这一步骤，其具体包括：

将句子树结构拉平转换成序列；

基于嵌入层对序列进行处理，得到词的软位置；

具体地，软位置：指词在句子树中的相对次序。

基于可视化层对序列进行处理，得到可视矩阵；

具体地，可视矩阵实现以下功能：一个词的词嵌入应当只关联与于其同一个树干的上下文，而不同枝干的词之间不应当产生联系。

对于一个可视矩阵M，令可视的绿色点取值为0，不可视的黄色点取值为负无穷，然后将M加到BERT模型中计算Attention的Softmax函数里，即可实现利用可视信息。

BERT中的Attention计算公式如下：

其中Q、K、V是不同的Attention向量，d是向量维度。

编码层根据词的软位置和可视矩阵，输出词向量。

加入了M的Attention计算公式如下：

可以看出，当可见时，M＝0，Mask_Attention与传统Attention相同，表明照常计算两个词的Attention。当不可见时，Mask_Attention＝0，表明不计算两个词之间的Attention，即两个词是不关联的。这样子便实现了一个词的词嵌入应当只关联与于其同一个树干的上下文，而不同枝干的词之间不应当产生联系这一目的。

进一步作为本方法的优选实施例，所述基于索引编码器对预处理文本进行处理，得到索引向量这一步骤，其具体包括：

具体地，对话轮次索引(Dialog Turn Indicator)：假如该对话文本有K轮，则从K-1开始进行编码，直至0。有3轮对话，则所有属于第1轮对话的词标2，第2轮的对话标1，第3轮的标0；说话者索引(SpeakerIndicator)：表明当前的说话者是谁，由于数据集只有两名说话者，所以用A、B区分；谓词索引(Predicate Indicator)：标注当前的分析谓词是哪个，谓词标1，其他词标0。如图中，当前的谓词是“喜欢”，则在对应位置标1。

完成以上三个索引后，将其分别送入索引编码器(IndicatorEncoder)中，用以生成对应的索引向量对话轮次索引向量V_Dialog、说话者索引向量V_Speaker和谓词索引向量V_Pred，并且将其拼接在BERT输出的词向量V_BERT后面，预构建的语义角色标注模型输入向量为H＝V_BERT+V_Dialog+V_Speaker+V_Pred。

进一步作为本方法优选实施例，所述将词向量和索引向量输入到预构建的语义角色标注模型，输出预测标注结果这一步骤，其具体包括：

具体地，向量H会通过过M个Self-Attention层，用以捕获不同的语法、语义信息。

输入向量H∈R^N×d,其中N为词的数量，d为向量的维度。在Self-Attention中，首先用向量H与三个不同的参数向量W相乘，生成三个Attention向量：Q(Query，查询向量)、K(Key，键向量)、V(Value，值向量)。即：

Q＝W_qH

K＝W_kH

V＝W_vH

根据注意力向量和softmax函数生成注意力输出；

具体地，得到Q、K、V之后，通过softmax函数计算Attention的输出C(C∈R^N×d)：

通过Self-Attention，输出注意力输出C同时捕获了每轮发言和整个对话级别的上下文语义、语法信息。

具体地，经过了M个Self-Attention层之后，输出C_M最终会通过一个含有一层隐含层的多层感知机(Multi-Layer Perceptron)，并通过Softmax归一化输出最终的预测结果：

MLP(C_m)＝W_mlpC_M+b_mlp

Prediction＝Softmax(MLP(C_M))

上述W和b都是可以进行机器学习的参数，他们的值都是随机初始化的。

如图2所示，一种基于知识增强的深度对话语义角色标注系统，包括：

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于知识增强的深度对话语义角色标注方法，其特征在于，包括以下步骤：

获取数据集并对数据集进行预处理，得到预处理后的文本；

将句子树结构转换为序列并输入到BERT编码器，输出词向量；

基于索引编码器对预处理文本进行处理，得到索引向量；

将词向量和索引向量输入到预构建的语义角色标注模型，输出预测标注结果；

所述根据预处理后的文本获取三元组并按照预设规则对三元组进行筛选，得到过滤后的三元组这一步骤，其具体包括：

对预处理后的文本中的词语向知识图谱库请求常识三元组；

过滤包含英文信息、包含数字信息、长度大于预设值和含有预设关键字的三元组，得到过滤后的三元组；

所述BERT编码器包括嵌入层、可视化层和编码层，所述预构建的语义角色标注模型包括自注意力机制层和输出层；

所述将句子树结构转换为序列并输入到BERT编码器，输出词向量这一步骤，其具体包括：

将句子树结构拉平转换成序列；

基于嵌入层对序列进行处理，得到词的软位置；

基于可视化层对序列进行处理，得到可视矩阵；

编码层根据词的软位置和可视矩阵，输出词向量；

所述基于索引编码器对预处理文本进行处理，得到索引向量这一步骤，其具体包括：

对预处理文本分别进行对话轮次索引、说话者索引和谓词索引处理并输入到索引编码器，生成对话轮次索引向量、说话者索引向量和谓词索引向量；

所述将词向量和索引向量输入到预构建的语义角色标注模型，输出预测标注结果这一步骤，其具体包括：

根据注意力向量和softmax函数生成注意力输出；

2.一种基于知识增强的深度对话语义角色标注系统，其特征在于，包括以下模块：

结果模块，用于将词向量和索引向量输入到预构建的语义角色标注模型，输出预测标注结果；

所述三元组模块，其具体包括：

对预处理后的文本中的词语向知识图谱库请求常识三元组；

所述词向量模块，其具体包括：

将句子树结构拉平转换成序列；

基于嵌入层对序列进行处理，得到词的软位置；

基于可视化层对序列进行处理，得到可视矩阵；

编码层根据词的软位置和可视矩阵，输出词向量；

所述索引向量模块，其具体包括：

所述结果模块，其具体包括：

根据注意力向量和softmax函数生成注意力输出；