CN113128199B

CN113128199B - 基于预训练语言模型与多重词信息嵌入的字向量生成方法

Info

Publication number: CN113128199B
Application number: CN202110511388.1A
Authority: CN
Inventors: 陈贞翔; 徐翰琛; 杨倩; 黄鹤林; 姜晓庆; 尚铭悦
Original assignee: Shandong Sizheng Information Technology Co ltd; University of Jinan
Current assignee: Shandong Sizheng Information Technology Co ltd; University of Jinan
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2022-06-21
Anticipated expiration: 2041-05-11
Also published as: CN113128199A

Abstract

本发明提供了一种基于预训练语言模型与多重词信息嵌入的字向量生成方法，根据已标注数据主题，爬取相关无标注数据；构建预训练语言模型，对已标注数据与未标注数据进行预训练，基于预训练语言模型对输入句子进行处理，获得字向量；对已标注数据提取多重词信息特征；将得到的字向量与多重词信息特征进行融合，得到最终字向量。本发明通过预训练语言模型来表征字向量，可以更好的引入多义性信息；构建多重词信息特征并将其添加到字向量中，为字向量带来了词信息与单词分割信息，提高自然语言处理效果。

Description

基于预训练语言模型与多重词信息嵌入的字向量生成方法

技术领域

本发明属于深度学习与自然语言处理技术领域，具体涉及一种基于预训练语言模型与多重词信息嵌入的字向量生成方法。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向，自然语言处理主要应用于机器翻译、舆情监控、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。

随着深度学习的不断发展，越来越多的深度神经网络模型被应用于自然语言处理领域。这些神经网络模型在使用时，需要将自然语言处理成数字化形式向量作为模型的输入，其中以Word2Vec、Glove等词嵌入模型最为常见，但上述模型得到的词向量或字向量的表征过于单一，无法处理多义性问题。

在中文自然语言处理中，因为中文中的字、词不是天然分割的，所以构建神经网络模型时往往分为两种：基于词的神经网络模型与基于字的神经网络模型。基于词的神经网络模型需要先对输入的自然语言进行分词，但现有的自动分词系统会不可避免地产生分词错误，这种错误会不断的传播累积，最终影响模型的效果。已有实验证明，在深度学习框架下，“字”的表现总是要优于“词”的表现，因此基于字的神经网络模型更为流行。然而，单词较字符包含着更多的信息，基于字的神经网络模型未能充分利用词的信息，最终得到的结果有限。

发明内容

本发明为了解决上述问题，提出了一种基于预训练语言模型与多重词信息嵌入的字向量生成方法，本发明通过预训练语言模型来表征字向量，可以更好的引入多义性信息；构建多重词信息特征并将其添加到字向量中，为字向量带来了词信息与单词分割信息，提高自然语言处理效果。

根据一些实施例，本发明采用如下技术方案：

一种基于预训练语言模型与多重词信息嵌入的字向量生成方法，包括以下步骤：

根据已标注数据主题，爬取相关无标注数据；

构建预训练语言模型，对已标注数据与未标注数据进行预训练，基于预训练语言模型对输入句子进行处理，获得字向量；

对已标注数据提取多重词信息特征；

将得到的字向量与多重词信息特征进行融合，得到最终字向量。

作为可选择的实施方式，爬取相关无标注数据的具体过程包括：

根据已标注数据主题，制定关键词表；

利用爬虫技术，根据关键词表在互联网上进行语料爬取；

将爬取的语料存入数据库中。

作为可选择的实施方式，构建预训练语言模型的的具体过程包括：

所述预训练语言模型，为多层双向的Transformer编码器，每一层Transformer编码器均采用encoder-decoder架构，并采用多头自注意力机制。

作为可选择的实施方式，基于预训练语言模型对输入句子进行处理的具体过程包括：

对于输入的句子，在句子头加入第一标记，以表示句子的开头；在句子尾加入第二标记，以表示句子的结尾；

将该句子转换为token序列，将token序列输入到语言模型中，随机遮盖该token序列中一部分词，让语言模型预测被遮盖的词语，通过这项任务为引入上下文信息，获得字符级特征；

将输入的token序列输入到语言模型中，学习两个句子间的关系，获得句子级特征。

作为可选择的实施方式，对已标注数据提取多重词信息特征的具体过程包括：

采用“BMES”表示每个字符在单词中的分割信息，并对每个字符生成了四个词集“BMES”；

对照预先构建的词嵌入查找表，将词语转换为对应的词向量；

对转换后的“BMES”词集进行使用向量均值化方法进行压缩，保持词集嵌入向量维度一致。

作为进一步的限定，四个词集“BMES”的构建过程包括：

其中，B、M、E、S代表四种词集，c_i为待构建词集的字符，D代表预先构建好的心理疾病词典，w为心理疾病词典D中含有的词语，当某个词集为空时，对该词集使用特殊词进行填充。

作为可选择的实施方式，将得到的字向量与多重词信息特征进行融合的具体过程包括：

对输入序列进行处理输入到语言模型中，返回由字向量构成的序列；

将该输入序列的每个字符进行多重词信息特征提取处理，得到其“BMES”词集嵌入向量；

将每个字符的字向量与“BMES”词集嵌入向量进行融合。

一种基于预训练语言模型与多重词信息嵌入的字向量生成系统，包括：

爬取模块，被配置为根据已标注数据主题，爬取相关无标注数据；

字向量处理模块，被配置为构建预训练语言模型，对已标注数据与未标注数据进行预训练，基于预训练语言模型对输入句子进行处理，获得字向量；

特征提取模块，被配置为对已标注数据提取多重词信息特征；

融合模块，被配置为将得到的字向量与多重词信息特征进行融合，得到最终字向量。

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述方法中的步骤。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述方法中的步骤。

与现有技术相比，本发明的有益效果为：

本发明提出一种基于预训练语言模型与多重词信息嵌入的字向量生成方法，通过预训练语言模型，为字向量引入了上下文信息；通过构建多重词信息嵌入特征，不仅为每个字符保留了单词分割信息，还将潜在的词语信息加入到字嵌入向量中，可为后续的深度学习模型提供多维的有效信息，从而有效地提升了模型的性能

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本实施例的整体流程图；

图2为预训练语言模型结构示意图；

图3为Transformer结构示意图；

图4为多重词信息嵌入特征的构建流程。

具体实施方式：

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

一种基于预训练语言模型与多重词信息嵌入的字向量生成方法。通过预训练语言模型来表征字向量，可以更好的引入多义性信息；构建多重词信息特征并将其添加到字向量中，为字向量带来了词信息与单词分割信息，可以大大提高深度学习模型的效果。

如图1所示，具体包括以下步骤：

步骤(1)：根据已标注数据主题，爬取相关无标注数据。

步骤(2)：构建预训练语言模型，对步骤(1)中的已标注数据与未标注数据进行预训练。

步骤(3)：对已标注数据构建多重词信息特征。

步骤(4)：将步骤(2)得到的字向量与步骤(3)得到的多重词信息特征进行融合。

在本实施例中，步骤(1)的步骤为：

步骤(1-1)：根据已标注数据主题，制定关键词表。

步骤(1-2)：利用爬虫技术，根据关键词表在互联网上进行语料爬取。

所述爬虫技术使用scrapy框架。

步骤(1-3)：将步骤(1-2)中爬取的语料存入数据库中。

数据库是指本地已经建立好的数据库。

在本实施例中，步骤(2)的步骤为：

步骤(2-1)：在本实施例中，采用的预训练语言模型，如图2所示，其模型架构是一个多层双向的Transformer编码器，网络层数为12层，隐藏层维度为768，注意力头的数量为12。

所述步骤(2-1)的步骤为：

步骤(2-1-1)：每一层Transformer编码器均采用了encoder-decoder架构。如图3所示，encoder共包含两层，一个self-attention层和一个前馈神经网络。Decoder共包含三层，一个self-attention层、一个attention层与一个前馈神经网络。

步骤(2-1-2)：self-attention层是Transformer编码器最重要的模块，可通过以下公式算出输入序列中所有词与序列中其他词之间的关联性与重要程度：

其中Q,K,V分别是encoder的输出与decoder的输入，d_k是输入向量的维度。

步骤(2-1-3)：采用了多头自注意力机制来提高模型专注不同位置的能力：

MultiHead(Q,K,V)＝Concat(head₁,head₂,head₃,…,head_h)W^o

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

步骤(2-2)：对于输入的句子，在句子头加入特殊标记[CLS]，表示句子的开头；在句子尾加入特殊标记[SEP]，表示句子的结尾。使用WordPiece embedding将该句子转换为token序列。

步骤(2-3)：将输入的token序列输入到语言模型中，进行Masked LM任务。随机遮盖该token序列中15％的词，然后让语言模型预测被遮盖的词语，通过这项任务为引入上下文信息，获得字符级特征。

步骤(2-4)：将输入的token序列输入到语言模型中，进行NSP任务。通过该任务学习两个句子间的关系，获得句子级特征。

在本实施例中，步骤(3)的步骤为：

步骤(3-1)：如图4所示，采用“BMES”表示每个字符在单词中的分割信息，并对每个字符生成了四个词集“BMES”，对于输入句子中的每个字符c，四个词集的构建公式如下：

在这里，D代表预先构建好的词典。此外，当某个词集为空时，对该词集使用特殊词进行填充。

步骤(3-2)：得到输入序列中每个字符的“BMES”词集后，对照词嵌入查找表，将词语转换为对应的词向量，词向量维度为50。

其中，词嵌入查找表是对已标注数据使用Word2Vec模型构建的。

步骤(3-3)：由于每个词集中的词向量个数不一致，需要对步骤(3-2)得到的转换后的“BMES”词集进行使用向量均值化方法进行压缩，确保词集嵌入向量维度一致：

其中S代表某预先构建好的词集。

在本实施例中，步骤(4)的步骤为：

步骤(4-1)：依照步骤(2-2)对输入序列进行处理输入到语言模型中，返回由字向量构成的序列。

步骤(4-2)：将该输入序列的每个字符按照步骤(3)所示进行处理，得到其“BMES”词集嵌入向量。

步骤(4-3)：将每个字符的字向量与“BMES”词集嵌入向量进行融合：

E^c＝[e^c；v^f(B)；v^f(M)；v^f(E)；v^f(S)]。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。