CN112749566B

CN112749566B - 一种面向英文写作辅助的语义匹配方法及装置

Info

Publication number: CN112749566B
Application number: CN201911063163.3A
Authority: CN
Inventors: 兰雨晴; 廉照鹏
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2024-05-03
Anticipated expiration: 2039-10-31
Also published as: CN112749566A

Abstract

本发明涉及一种面向英文写作辅助的语义匹配方法及装置，所述匹配方法包括如下步骤：步骤S1：构建例句语料库；步骤S2：构建语义匹配模型训练数据集；步骤S3：构建多视角注意力机制的语义匹配模型；步骤S4：训练语义匹配模型。本发明提供的面向英文写作辅助的语义匹配方法及装置，在几个公开语义匹配数据集上均取得显著效果，能够提取更丰富交互匹配信息，更好的捕捉句子对之间联系与区别，更好地得到全局匹配信息，在文本匹配相关领域有很大的应用前景。

Description

一种面向英文写作辅助的语义匹配方法及装置

技术领域

本发明涉及自然语言处理技术领域，具体地说是一种面向英文写作辅助的语义匹配方法及装置。

背景技术

作为世界使用范围最广的语言，英语在日常的学术交流和商贸往来中扮演着重要的角色。而作为正式沟通的一种重要的渠道，写作成为仅次于口语、横亘于许多非外语工作者和国外世界的一道屏障。写作者的写作水平可以凸显其掌握语言的熟练程度，要想写出高质量的文章，必须拥有大量的阅读经历及知识储备。然而，对大多数以非英语为母语的学生来说，由于英语阅读经历和知识储备的缺乏，写出高质量的英语文章绝非是一件容易的事。在写作的过程中，他们往往先用自己的母语组织文章内容，然后再将其翻译成相对应的英语。这种翻译式的写作方法，很难写出原汁原味的英语文章。

随着互联网的高速发展与电脑的大量普及，很多人在写作的时候都会利用大量的网络资源来帮助自己完成任务。网络资源包括两大块：一块是大量的英文网页，通过搜索引擎，写作者可以很快的定位到和自己写作相关的材料，写作者可以依据这些网络资源，一方面提供写作语句的参考，另一方面亦可以给自己的写作思路提供很好的模型；另一块是网络在线翻译资源，包括网络词典和在线翻译。在写作过程中遇到困难的人虽然可以通过互联网来获得帮助，但是这种方式既费时费力又效率低下，不能有效地提高用户的写作水平，帮助用户写出高质量的英语文章。如何更加有效地帮助用户提高英语写作水平，依然是研究者需要面对的问题。

针对上述问题，国内外学者开发了许多辅助写作系统。这些辅助写作系统不仅提供了文字编辑区，而且提供了词搭配、相似内容推荐等相关功能。这些系统的出现，在一定程度上提高了用户的写作质量。但是通过对现有辅助写作系统的分析与研究，不难发现其大多数使用的仍然是非常传统的方法，效果比较有限。传统统计机器学习阶段需要大量的人工经验和时间进行早期的数据标注和中期的特征抽取，而且对于复杂任务实验效果并不理想，并不能很好地进行文本表示，理解语义信息。而且传统文本表示方法导致的维度灾难、数据稀疏等问题等已经影响自然语言处理领域的发展。近年来由于深度神经网络和文本词向量技术的迅猛发展，将深度神经网络应用到文本匹配领域逐渐成为一个新的研究方向。

综上所述，如何构建有效的深度文本语义匹配方法，以及将方法应用到写作辅助是个很重要，非常值得研究的问题。因此本文提出一种面向写作辅助的文本匹配方法及装置。

发明内容

本发明提供了一种面向英文写作辅助的语义匹配方法，包括如下步骤：

步骤S1：构建例句语料库；

步骤S2：构建语义匹配模型训练数据集；

步骤S3：构建多视角注意力机制的语义匹配模型；

步骤S4：训练语义匹配模型。

其中，所述步骤S1包括：

步骤S11：对英文写作网站数据进行爬取解析，并将内容按文章的形式进行存储，构建语料库；

步骤S12：对语料库内容进行一些基本的预处理，以语句的形式进行保存构建例句语料库。

其中，所述步骤S2包括：

步骤S21：对构建的例句语料库中语料进行部分标注；

步骤S22：利用加权的词向量作为无监督的句向量表示，利用余弦距离得到一些候选的语义相似句子对；

步骤S23：进行人工筛选并标注为正例样本或负例样本。

其中，所述步骤S3包括：

步骤S31：构建字符映射转换表，建立每个单词或标点符号与数字ID的对应关系；

步骤S32：利用映射转换表将输入的字符转化为对应的数字ID；

步骤S33：利用数字ID得到每个单词的词向量，将两个句子以二维张量表示；

步骤S34：使用一个共享权重的双向LSTM对两个句子分别进行编码，利用上下文信息将两个句子映射到相同向量空间，从而得到更准确的词向量表示；

步骤S35：利用精确匹配矩阵、原始词向量以及编码之后的词向量构建句子对的匹配矩阵；

步骤S36：利用双向LSTM对两对匹配特征不同位置的特征结合上下文进行编码，然后利用最大池化和注意力加权池化对特征进行融合；

步骤S37：利用多层感知机MLP对特征进一步编码整合，输出最终的语义匹配结果。

其中，所述步骤S35包括：

步骤S351：使用两个语句各个位置词向量对原始词向量匹配矩阵与编码后的词向量匹配矩阵进行点乘运算，以衡量语义相似；

步骤S352：利用1x1卷积运算将三个匹配矩阵作为三个输入通道对特征进行整合，通过多个视角得到最终的匹配矩阵；

步骤S353：将匹配矩阵的值作为表示词重要性的权重，利用基于注意力机制的软对齐方法，将两个句子分别表示为与另一个句子等长的二维张量；

步骤S354：分别对得到的两对等长二维张量通过向量减法和按元素相乘提取匹配特征。

其中，所述步骤S4包括：

步骤S41：将步骤S2中，在构建语义匹配模型训练数据集所标注的数据集随机打乱，并划分为训练集、验证集及测试集三部分；

步骤S42：使用训练集对匹配模型进行训练；

步骤S43：利用验证集对模型的超参数进行调整；

步骤S44：利用测试集对模型效果进行测试。

其中，所述步骤S43中，超参数包括epoch、batch size、学习率、隐藏层维度及dropout系数。

本发明另外提供了一种面向英文写作辅助的语义匹配装置，包括：

例句语料库构建单元，利用爬虫相关技术，对英文写作网站数据进行爬取，并对爬取内容进行预处理，构建例句语料库；

语义匹配模型构建单元，用于构建多视角的注意力文本语义匹配模型；

语义匹配模型训练单元，用于使用标注的语义匹配数据集对语义匹配模型进行训练及验证。

其中，所述例句语料库构建单元包括：

爬虫单元，用于从互联网英文写作网站上爬取例句，将爬取结果保存到例句语料库中；

语料库数据处理单元，用于对爬取的文本进行预处理，去除包括乱码在内的内容。

其中，所述语义匹配模型构建单元包括：

单词映射转换表构建单元，用于将例句语料库中单词及标点符号映射为唯一的数字ID，以输入到下层文本匹配模型中；

输入层构建单元，用于获取输入数据，分别获取正例样本和负例样本；

词嵌入层构建单元，用于将数字ID映射为词向量的形式，作为后层网络计算的输入；

编码层构建单元，用于对词向量利用上下文进行编码，从而得到上下文相关的词向量表示；

注意力交互层构建单元，用于构建匹配矩阵，并利用注意力机制，将精确匹配矩阵、原始词向量匹配矩阵、上下文编码词向量匹配矩阵结合，共同提取语句对的匹配特征；

特征融合层构建单元，用于将提取的词级别匹配特征进一步编码整合，并选取最有效特征进行拼接；

输出层构建单元，用于利用匹配特征输入文本语义相似度，区分两个文本是否匹配；

所述语义匹配模型训练单元包括，

损失函数构建单元，用于计算模型输出结果与标签的差异，生成损失用于模型训练；

优化器构建单元，用于利用梯度下降算法对模型参数进行调整，减小模型输出与实际标签的差异。

本发明提供的面向英文写作辅助的语义匹配方法及装置，在几个公开语义匹配数据集上均取得显著效果，能够提取更丰富交互匹配信息，更好的捕捉句子对之间的联系与区别，更好地得到全局匹配信息，在文本匹配相关领域有很大的应用前景。

附图说明

图1为本发明提供的面向英文写作辅助的语义匹配方法流程图。

图2为本发明提供的多视角注意力机制的语义匹配模型结构图。

图3为本发明使用的注意力加权池化方法结构图。

具体实施方式

为了对本发明的技术方案及有益效果有更进一步的了解，下面结合附图详细说明本发明的技术方案及其产生的有益效果。

基于已有技术存在的不足，本发明的技术任务是提供一种面向写作辅助的文本匹配方法及装置，来对用户输入与例句语料库中例句进行匹配，推荐相似语句，提高用户写作水平。

图1为本发明提供的面向英文写作辅助的语义匹配方法流程图，如图1所示，本发明涉及的主要步骤有：

一、构建例句语料库

从英文写作网站爬取语料，并对语料进行预处理。

具体步骤如下：

目前，英文写作网站较多，首先利用Beautiful Soup库对英文写作网站数据进行爬取解析，并将内容按文章的形式进行存储，构建语料库。

对语料库内容进行一些基本的预处理，如删除可能存在的乱码和一些与任务无关的特殊符号，每个词之间用空格分开，并对保留标点符号，以语句的形式进行保存构建例句语料库。

二、构建语义匹配模型训练数据集

对构建的例句语料库中语料进行部分标注，用于之后的模型训练及验证。为了提高标注效率，首先利用加权的词向量作为无监督的句向量表示，利用余弦距离得到一些候选的语义相似句子对，然后再进行人工筛选并标注为正例样本或负例样本。其中，正例样本和负例样本均包含三部分，分别为句子一，句子二和相似标签(0或1)。

正例形式化为(sentence1，sentence2，1)。其中，sentence1表示第一个句子，sentence2表示第二个句子，1是标签表示这两个句子语义相似。

负例形式化为(sentence1，sentence2，0)。0是标签表示两个句子语义不相似。

三、构建多视角注意力机制的语义匹配模型

图2为本发明提供的多视角注意力机制的语义匹配模型结构图，如图2所示，端到端的语义匹配模型由词嵌入层、编码层、注意力交互层、特征融合层及输出层五部分构成。模型构建的具体步骤如下：

1、首先构建字符映射转换表，建立每个单词或标点符号与数字ID的对应关系。

2、模型的输入层包含两个输入p和q，分别代表一个句子，单词之间以空格分隔，输入的字符利用映射转换表转化为对应的数字ID。

3、词嵌入层利用数字ID得到每个单词的词向量，两个句子以p∈R^m×V和q∈R^n×V的二维张量表示。其中m为句子一的长度，即包含的单词个数，n为句子二的长度，两者不一定相同，但通常相差不大。V表示词向量的维度。

4、编码层使用一个共享权重的双向LSTM对两个句子分别进行编码，利用上下文信息将两个句子映射到相同向量空间，从而得到更准确的词向量表示，具体的公式如下：

其中，i，j表示词在句子中的相对位置或称为时间步(time-step)，双向LSTM分别从左往右和从右往左对每个位置进行编码，[；]表示编码之后将两个方向的向量拼接到一起，表示前向LSTM对输入p的时间步i编码后的向量，/>表示后向LSTM对输入p的时间步i编码后的向量，/>表示将前向及后向拼接得到的时间步i最终向量表示。/>表示对输入q采取的同样操作。

5、注意力交互层分别利用精确匹配信号、原始词向量以及编码之后的词向量构建句子对的匹配矩阵。其中，精确匹配信号是指两个语句中各个是否存在同样的词，相同则为1，不同则为0；原始词向量匹配矩阵与编码后的词向量匹配矩阵均使用两个语句各个位置词向量进行点乘运算，用来衡量语义相似。之后，利用1x1卷积运算将三个匹配矩阵作为三个输入通道对特征进行整合，相当于对每种类型的词匹配信息进行加权，通过多个视角得到最终的匹配矩阵。将匹配矩阵的值作为表示词重要性的权重，利用基于注意力机制的软对齐方法，将两个句子分别表示为与另一个句子等长的二维张量，即利用q通过注意力加权得到利用p通过注意力加权得到/>然后分别对得到的两对等长二维张量通过向量减法和按元素相乘提取匹配特征。具体公式如下：

其中，公式1表示向量点乘生成注意力权重。

公式2，3表示利用基于注意力机制的软对齐方法，将两个句子分别表示为与另一个句子等长的二维张量。

公式4,5表示对得到的两对等长二维张量通过向量减法和按元素相乘提取匹配特征。

其中，e表示对应位置的注意力权重，利用softmax函数对权重进行归一化，变为概率形式。和/>表示基于注意力机制生成的软对齐向量,m_p,m_q表示提取的匹配特征，⊙表示Element-Wise Multiplication运算。

6、特征融合层首先利用双向LSTM对两对匹配特征不同位置的特征结合上下文进行编码分别得到v_p和v_q，然后利用最大池化和注意力加权池化对特征进行融合(图3为本发明使用的注意力加权池化方法结构图)，将两部分匹配特征按相同维度拼接合并到一起。

如下公式表示利用最大池化提取特征

注意力加权池化的计算过程如下：

其中，W为可学习参数，

对于输入q，采用相同的注意力加权池化得到v_q,attn。

下式表示匹配特征拼接过程。

v＝[v_p,max,；v_p,attn；v_q,max；v_q,attn]

7、最后输出层利用多层感知机MLP对特征进一步编码整合，输出最s终的语义匹配结果。

四、训练语义匹配模型

将步骤二中标注的数据集随机打乱，并按照8:1:1的比例划分为训练集、验证集及测试集三部分。

使用Adam算法作为模型优化器，使用训练集对匹配模型进行训练。

利用验证集对模型的超参数进行调整，使用验证集超参数是指在模型训练开始前需要人工设定的一些参数，这些参数不能通过训练进行优化。主要超参数包括epoch、batchsize、学习率、隐藏层维度、dropout系数等。

最后，挑选在验证集取得最优效果的模型在测试集测试效果，以测试模型效果。

其中，模型在训练集上进行训练学习时采用交叉熵损失函数，公式如下：

其中，p_i,k表示模型对于第i个样本的第k个类别的预测输出，y_i,k表示第i个样本的第k个类别的真实标签。

在Quora和SNLI两个公开文本语义匹配数据集上进行对比实验，验证本文提出的方法的有效性。实验指标均采用准确率。

在Quora数据集的对比实验结果如下表所示，最后一行为本文提出方法的测试结果。

在SNLI数据集的对比实验结果如下表所示，最后一行为本文提出方法的测试结果。

本发明的有益效果如下：

1、为了提高用户英文写作水平，为用户推荐相似例句，本发明采用多视角的注意力语义匹配模型对句子对关系进行建模。通过多视角机制和注意力提取更丰富的交互匹配信息，本发明所提出的模型在几个公开语义匹配数据集上均取得显著效果，在文本匹配相关领域有很大的应用前景。

2、本发明使用多视角机制，能够提取更丰富交互匹配信息。

3、本发明能够对语义特征进行有效提取，使用注意力机制重点关注文本中的重要语义特征,更好的捕捉句子对之间的联系与区别。

4、本发明使用注意力加权池化的方法对匹配特征进行整合，重点关注更重要语义特征，更好地得到全局匹配信息。

虽然本发明已利用上述较佳实施例进行说明，然其并非用以限定本发明的保护范围，任何本领域技术人员在不脱离本发明的精神和范围之内，相对上述实施例进行各种变动与修改仍属本发明所保护的范围，因此本发明的保护范围以权利要求书所界定的为准。

Claims

1.一种面向英文写作辅助的语义匹配方法，其特征在于，包括如下步骤：

步骤S1：构建例句语料库；

步骤S2：构建语义匹配模型训练数据集；

步骤S3：构建多视角注意力机制的语义匹配模型；

步骤S4：训练语义匹配模型；

所述步骤S3包括：

步骤S35：利用精确匹配信号、原始词向量以及编码之后的词向量构建句子对的匹配矩阵；

原始词向量匹配矩阵与编码后的词向量匹配矩阵均使用两个语句各个位置词向量进行点乘运算，用来衡量语义相似；之后，利用1x1卷积运算将三个匹配矩阵作为三个输入通道对特征进行整合，相当于对每种类型的词匹配信息进行加权，通过多个视角得到最终的匹配矩阵；将匹配矩阵的值作为表示词重要性的权重，利用基于注意力机制的软对齐方法，将两个句子分别表示为与另一个句子等长的二维张量，即利用q通过注意力加权得到利用p通过注意力加权得到/>然后分别对得到的两对等长二维张量通过向量减法和按元素相乘提取匹配特征；具体公式如下：

其中，公式(1)表示向量点乘生成注意力权重；

公式(2)，(3)表示利用基于注意力机制的软对齐方法，将两个句子分别表示为与另一个句子等长的二维张量；

公式(4)，(5)表示对得到的两对等长二维张量通过向量减法和按元素相乘提取匹配特征；

其中，e表示对应位置的注意力权重，利用softmax函数对权重进行归一化，变为概率形式；和/>表示基于注意力机制生成的软对齐向量，m_p,m_q表示提取的匹配特征，⊙表示Element-Wise Multiplication运算；/>表示将前向及后向拼接得到的时间步i最终向量表示；/>表示对输入q采取的同样操作；

步骤S36：利用双向LSTM对两对匹配特征不同位置的特征结合上下文进行编码分别得到v_p和v_q，然后利用最大池化和注意力加权池化对特征进行融合；将两部分匹配特征按相同维度拼接合并到一起；

如下公式表示利用最大池化提取特征：

注意力加权池化的计算过程如下：

其中，W为可学习参数，

对于输入q，采用相同的注意力加权池化得到v_q,attn；

下式表示匹配特征拼接过程：

v＝[v_p,max,；v_p,attn；v_q,max；v_q,attn] (9)

2.如权利要求1所述的面向英文写作辅助的语义匹配方法，其特征在于，所述步骤S1包括：

3.如权利要求1所述的面向英文写作辅助的语义匹配方法，其特征在于，所述步骤S2包括：

步骤S21：对构建的例句语料库中语料进行部分标注；

步骤S23：进行人工筛选并标注为正例样本或负例样本。

4.如权利要求1所述的面向英文写作辅助的语义匹配方法，其特征在于，所述步骤S4包括：

步骤S42：使用训练集对匹配模型进行训练；

步骤S43：利用验证集对模型的超参数进行调整；

步骤S44：利用测试集对模型效果进行测试。

5.如权利要求4所述的面向英文写作辅助的语义匹配方法，其特征在于，所述步骤S43中，超参数包括epoch、batch size、学习率、隐藏层维度及dropout系数。

6.一种面向英文写作辅助的语义匹配装置，其特征在于，包括：

语义匹配模型训练单元，用于使用标注的语义匹配数据集对语义匹配模型进行训练及验证；

所述语义匹配模型构建单元包括：

注意力交互层构建单元，用于构建匹配矩阵，并利用注意力机制，将精确匹配信号、原始词向量匹配矩阵、上下文编码词向量匹配矩阵结合，共同提取语句对的匹配特征；

其中，公式(1)表示向量点乘生成注意力权重；

特征融合层首先利用双向LSTM对两对匹配特征不同位置的特征结合上下文进行编码分别得到v_p和v_q，然后利用最大池化和注意力加权池化对特征进行融合，将两部分匹配特征按相同维度拼接合并到一起；

如下公式表示利用最大池化提取特征：

注意力加权池化的计算过程如下：

其中，W为可学习参数，

对于输入q，采用相同的注意力加权池化得到v_q,attn；

下式表示匹配特征拼接过程：

v＝[v_p,max,；v_p,attn；v_q,max；v_q,attn] (9)

所述语义匹配模型训练单元包括，

7.如权利要求6所述的面向英文写作辅助的语义匹配装置，其特征在于，所述例句语料库构建单元包括：