CN114970497B

CN114970497B - 基于预训练特征嵌入的文本分类方法及词义消歧方法

Info

Publication number: CN114970497B
Application number: CN202210625333.8A
Authority: CN
Inventors: 石金晶; 赖蔚; 袁逸凡; 王雯萱; 黄端
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2023-05-16
Anticipated expiration: 2042-06-02
Also published as: CN114970497A

Abstract

本发明公开了一种基于预训练特征嵌入的文本分类方法，包括构建训练数据集；构建量子启发式文本分类初始模型；采用训练数据集训练量子启发式文本分类初始模型得到量子启发式文本分类模型；获取预训练模型ERNIE；连接量子启发式文本分类模型和预训练模型ERNIE构建文本分类模型；采用训练数据集训练文本分类模型得到基于预训练特征嵌入的文本分类模型；采用基于预训练特征嵌入的文本分类模型对实际文本进行文本分类。本发明提供的这种基于预训练特征嵌入的文本分类方法及词义消歧方法，通过结合预训练特征嵌入、神经网络模型和量子计算理论，提出了全新的文本分类方法和对应的词义消歧方法；本发明方法不仅可靠性高，而且分类精度较好。

Description

基于预训练特征嵌入的文本分类方法及词义消歧方法

技术领域

本发明属于自然语言处理领域，具体涉及一种基于预训练特征嵌入的文本分类方法及词义消歧方法。

背景技术

近年来，随着深度学习技术的发展，自然语言处理(NLP，Natural LanguageProcessing)也已经得到了巨大的突破和发展。在文本分类、情感分析、对话系统、机器翻译等一系列任务上有突破性进展。

在NLP中，如果想要使用深度学习技术来完成各种任务，首先需要将词语、句子或文档转换为计算机能够识别的形式。目前，常用的做法是采用分布式表示方法，通过构建词语和向量的映射表，将词语映射为特定维度的向量，该过程称为词嵌入。

在实际的NLP任务中，以文本分类任务为例，首先通过文本预处理得到所有词语的对应向量表示，然后将这些向量作为深度学习模型的输入，中间通过感知机、循环神经网络、卷积神经网络等结构学习文本的内部特征，最后利用这些特征进行分类，从而达到文本分类的目的。

但是，目前的文本分类方法常用的词嵌入方法，一般将词语映射为特定的向量，并没有考虑到一词多义的情况。当相同词语在不同句子中的含义不一致时，分类模型将难以正确识别词语的语义，预测的分类结果也容易出错，最终导致分类的精度不高。

发明内容

本发明的目的之一在于提供一种可靠性高且分类精度较好的基于预训练特征嵌入的文本分类方法。

本发明的目的之二在于提供一种包括了所述基于预训练特征嵌入的文本分类方法的词义消歧方法。

本发明提供的这种基于预训练特征嵌入的文本分类方法，包括如下步骤：

S1.获取语料库和带有分类标记的训练文本，构建训练数据集；

S2.基于量子计算和深度学习理论，构建量子启发式文本分类初始模型；

S3.采用步骤S1构建的训练数据集，对步骤S2构建的量子启发式文本分类初始模型进行训练，从而得到量子启发式文本分类模型；

S4.获取预训练模型ERNIE；

S5.连接量子启发式文本分类模型和预训练模型ERNIE，构建文本分类模型；

S6.采用步骤S1构建的训练数据集，对步骤S5构建的文本分类模型进行训练，得到最终的基于预训练特征嵌入的文本分类模型；

S7.采用步骤S6得到的基于预训练特征嵌入的文本分类模型，对实际文本进行文本分类。

步骤S2所述的基于量子计算和深度学习理论，构建量子启发式文本分类初始模型，具体包括如下步骤：

A.对获取的文本数据进行分词，从而构建单词和单词索引映射表；

B.采用复数词嵌入，将步骤A得到的所有单词映射到对应量子态的希尔伯特空间，从而得到单词的复数向量；

C.构建GRU循环神经网络；

D.将步骤B得到的单词的复数向量输入到步骤C构建的GRU循环神经网络中进行特征提取，得到中间隐含特征；

E.对步骤D得到的中间隐含特征进行测量，从而得到概率特征；

F.采用线性分类器，对步骤E得到的概率特征进行分类结果预测。

步骤B所述的采用复数词嵌入，将步骤A得到的所有单词映射到对应量子态的希尔伯特空间，从而得到单词的复数向量，具体为将步骤A得到的所有单词，采用振幅嵌入层和相位嵌入层进行映射，得到振幅向量和相位向量，并采用欧拉公式计算得到词单词的复数向量。

所述的振幅嵌入层，对应词语振幅向量映射表W_a，并随机化初始词语振幅向量映射表W_a中的参数；所述的相位嵌入层，对应词语相位向量映射表W_β，并随机初始化词语相位向量映射表W_β中的参数为[0,1]中的数，然后再乘以2π，将参数区间扩大至[0,2π]；单词通过单词索引对应的独热向量为x，对应的振幅向量α_i为α_i＝W_αx，对应的相位向量β_i为β_i＝W_βx；然后根据欧拉公式αe^βi＝αcosβ+iαsinβ，最后得到单词对应的实部向量real为real＝α_icosβ_i，对应的虚部向量image为image＝α_isinβ_i。

步骤C所述的构建GRU循环神经网络，具体包括如下步骤：

GRU循环神经网络采用如下算式进行计算：

式中z为更新门，用于更新隐藏状态；σ()为sigmoid激活函数；

为更新门的第一参数；x_t为当前时刻的输入；

为更新门的第二参数；h_t-1为上一个时刻的输出；b^(z)为更新门的偏置；r为重置门，用于控制过去的隐藏信息，且当r＝0时过去的信息被完全忽略；

为重置门的第一参数；

为重置门的第二参数；b^(r)为重置门的偏置；

为记忆门神经元输出；tanh()为tanh激活函数；W_x为记忆门的第一参数；W_h为记忆门的第二参数；⊙为哈达玛乘积；b为记忆门的偏置；h_t为当前时刻的输出。

步骤E所述的对步骤D得到的中间隐含特征进行测量，从而得到概率特征，具体包括如下步骤：

采用如下算式计算概率特征p_i：

式中t_i为任意单词，|t_i>为单词t_i的量子态表示；<t_i|为|t_i>的厄米共轭，且

为测量算子；M为测量算子|λ_m>对应的密度矩阵，且M＝|λ_m><λ_m|；<t_i|λ_m>表示向量的内积运算，且(|t_i>,|λ_m>)＝<t_i||λ_m>＝<t_i|λ_m>，满足<t_i|λ_m>＝<λ_m|t_i>，因此<t_i|λ_m><λ_m|t_i>＝<t_i|λ_m>²。

步骤S3所述的采用步骤S1构建的训练数据集，对步骤S2构建的量子启发式文本分类初始模型进行训练，从而得到量子启发式文本分类模型，具体包括如下步骤：

通过监督学习和半监督学习对量子启发式文本分类初始模型进行训练；对于有标签的文本数据，采用文本分类任务对模型进行训练，对于无标签数据，采用下一个句子预测任务自定义标签对模型进行训练；模型训练完成后，得到量子启发式文本分类模型。

步骤S5所述的连接量子启发式文本分类模型和预训练模型ERNIE，构建最终的文本分类模型，具体包括如下步骤：

拼接量子启发式文本分类模型的最后一层特征和预训练模型ERNIE的最后一层特征；然后，将拼接后的特征连接到线性分类器，得到最终的文本分类模型；连接完成后，将量子启发式文本分类模型中的参数进行保留，保留的参数包括复数词嵌入层中的振幅嵌入层和相位嵌入层的参数；线性分类器的输出为最终的文本分类模型的输出；线性分类器用于将拼接后的特征映射到分类结果维度，从而输出最终的分类结果。

本发明还公开了一种包括了所述基于预训练特征嵌入的文本分类方法的词义消歧方法，具体包括如下步骤：

a.将含有歧义词的语句作为目标文本，将目标文本的分类结果定义为歧义词的所有可能含义；

b.采用所述的基于预训练特征嵌入的文本分类方法，对目标文本进行分类；

c.根据步骤b的分类结果，得到歧义词在语句中对应的含义。

本发明提供的这种基于预训练特征嵌入的文本分类方法及词义消歧方法，通过结合预训练特征嵌入、神经网络模型和量子计算理论，提出了全新的文本分类方法和对应的词义消歧方法；本发明方法不仅可靠性高，而且分类精度较好。

附图说明

图1为本发明的文本分类方法的方法流程示意图。

图2为本发明的文本分类方法所对应的文本分类模型的模型结构示意图。

图3为本发明的词义消歧方法的方法流程示意图。

具体实施方式

如图1所示为本发明的文本分类方法的方法流程示意图：本发明提供的这种基于预训练特征嵌入的文本分类方法，包括如下步骤：

S2.基于量子计算和深度学习理论，构建量子启发式文本分类初始模型(如图2中的上半部分模型)；具体包括如下步骤：

B.采用复数词嵌入，将步骤A得到的所有单词映射到对应量子态的希尔伯特空间，从而得到单词的复数向量；具体为将步骤A得到的所有单词，采用振幅嵌入层和相位嵌入层进行映射，得到振幅向量和相位向量，并采用欧拉公式计算得到词单词的复数向量；

具体实施时，振幅嵌入层对应词语振幅向量映射表W_a，并随机化初始词语振幅向量映射表W_a中的参数；相位嵌入层对应词语相位向量映射表W_β，并随机初始化词语相位向量映射表W_β中的参数为[0,1]中的数，然后再乘以2π，将参数区间扩大至[0,2π]；单词通过单词索引对应的独热向量为x，对应的振幅向量α_i为α_i＝W_αx，对应的相位向量β_i为β_i＝W_βx；然后根据欧拉公式αe^βi＝αcosβ+iαsinβ，最后得到单词对应的实部向量real为real＝α_icosβ_i，对应的虚部向量image为image＝α_isinβ_i；

C.构建GRU循环神经网络；具体包括如下步骤：

GRU循环神经网络采用如下算式进行计算：

式中z为更新门，用于更新隐藏状态；σ()为sigmoid激活函数；

为更新门的第一参数；x_t为当前时刻的输入；

为重置门的第一参数；

为重置门的第二参数；b^(r)为重置门的偏置；

E.对步骤D得到的中间隐含特征进行测量，从而得到概率特征；具体包括如下步骤：

采用如下算式计算概率特征p_i：

为测量算子；M为测量算子|λ_m>对应的密度矩阵，且M＝|λ_m><λ_m|；<t_i|λ_m>表示向量的内积运算，且(|t_i>,|λ_m>)＝<t_i||λ_m>＝<t_i|λ_m>，满足<t_i|λ_m>＝<λ_m|t_i>，因此<t_i|λ_m><λ_m|t_i>＝<t_i|λ_m>²；

F.采用线性分类器，对步骤E得到的概率特征进行分类结果预测；

S3.采用步骤S1构建的训练数据集，对步骤S2构建的量子启发式文本分类初始模型进行训练，从而得到量子启发式文本分类模型；具体包括如下步骤：

通过监督学习和半监督学习对量子启发式文本分类初始模型进行训练；对于有标签的文本数据，采用文本分类任务对模型进行训练，对于无标签数据，采用下一个句子预测任务自定义标签对模型进行训练；模型训练完成后，得到量子启发式文本分类模型；

S4.获取预训练模型ERNIE；预训练模型ERNIE为百度自研的基于TransformerEncoder结构的预训练模型，结构如图2中的下半部分模型所示；

S5.连接量子启发式文本分类模型和预训练模型ERNIE，构建文本分类模型(整体模型如图2所示)；具体包括如下步骤：

拼接量子启发式文本分类模型的最后一层特征和预训练模型ERNIE的最后一层特征；然后，将拼接后的特征连接到线性分类器，得到最终的文本分类模型；连接完成后，将量子启发式文本分类模型中的参数进行保留，保留的参数包括复数词嵌入层中的振幅嵌入层和相位嵌入层的参数；线性分类器的输出为最终的文本分类模型的输出；线性分类器用于将拼接后的特征映射到分类结果维度，从而输出最终的分类结果；

如图3所示为本发明的词义消歧方法的方法流程示意图：本发明公开的这种包括了所述基于预训练特征嵌入的文本分类方法的词义消歧方法，具体包括如下步骤：

c.根据步骤b的分类结果，得到歧义词在语句中对应的含义。

以下针对上述的词义消歧方法，以一个实例进行说明：

以英语词义消歧为例，给定一个句子“When necessary,it‘sought’and receivedassistance from organized crime.”(译文：必要时，它“寻求”和接受有组织犯罪的援助。)其中，“sought”是需要确定词义的歧义词，在这个句子中，它对应的词义是“sought:try to get or reach”(寻求:试图得到或达到)。英文歧义词的词义来源是wordnet。wordnet(https://wordnet.princeton.edu/)是一个英语词汇数据库，能发现词之间的概念关系，如同义词，下同义词，同义词，反义词等。以上面例子中的“sought”为例，它的词根是“seek”，对应所有含义如下表1所示：

表1 seek的词义示意表

对上述句子进行词义消歧的过程如下：

确定歧义词为“sought”后，首先转换歧义词“sought”为其词根“seek”，并从wordnet中找到“seek”的所有词义标签(“seek％1:11:00::”，“seek％2:40:00::”，“seek％2:35:00::”，“seek％2:41:00::”，“seek％2:38:00::”，“seek％2:32:00::”),将标签离散化为0-5之间的数值形式。该例子中正确的标签为“seek％2:40:00::”，对应数值标签1。再将上述含有歧义词的句子输入到模型，模型将输出0-5之间的数值标签。之后，将预测的数值标签转化为词义标签，查询wordnet得到歧义词的释义。如模型预测结果为1，则对应的词义标签为“seek％2:40:00::”，根据wordnet输出预测词义“try to get or reach”，由此确定原句子中“sought”的具体词义。

Claims

1.一种基于预训练特征嵌入的文本分类方法，包括如下步骤：

S2.基于量子计算和深度学习理论，构建量子启发式文本分类初始模型；具体包括如下步骤：

所述的振幅嵌入层，对应词语振幅向量映射表W_a，并随机化初始词语振幅向量映射表W_a中的参数；所述的相位嵌入层，对应词语相位向量映射表W_β，并随机初始化词语相位向量映射表W_β中的参数为[0,1]中的数，然后再乘以2π，将参数区间扩大至[0,2π]；单词通过单词索引对应的独热向量为x，对应的振幅向量α_i为α_i＝W_αx，对应的相位向量β_i为β_i＝W_βx；然后根据欧拉公式αe^βi＝αcosβ+iαsinβ，最后得到单词对应的实部向量real为real＝α_icosβ_i，对应的虚部向量image为image＝α_isinβ_i；

C.构建GRU循环神经网络；

采用如下算式计算概率特征p_i：