CN115964480A

CN115964480A - 文本分类方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN115964480A
Application number: CN202111185201.XA
Authority: CN
Inventors: 窦猛汉; 孔小飞; 李蕾
Original assignee: Origin Quantum Computing Technology Co Ltd
Current assignee: Origin Quantum Computing Technology Co Ltd
Priority date: 2021-10-12
Filing date: 2021-10-12
Publication date: 2023-04-14

Abstract

本发明实施例提出一种文本分类方法、装置、电子设备和计算机可读存储介质，涉及自然语言处理领域。由于输入矩阵由待分类文本对应的文本嵌入矩阵和待分类文本对应的量子位置编码矩阵相加得到，且用于提取特征的第一特征提取网络和第二特征提取网络中均包括变分量子线路，则输入分类器的第三特征矩阵中实际上包含了待分类文本对应的量子位置编码信息、词本身的嵌入编码信息以及不同词相互之间通过变分量子线路纠缠得到的更深度的语义信息等多维度语义信息，故能有效缓解现有技术中限定词嵌入编码固定维度所带来的语义信息损失和冗余的问题，从而实现更好的文本分类效果。

Description

文本分类方法、装置、电子设备和计算机可读存储介质

技术领域

本发明涉及自然语言处理领域，具体而言，涉及一种文本分类方法、装置、电子设备和计算机可读存储介质。

背景技术

文本分类是对文本按照不同的类别(例如体育、娱乐等)进行分类，现有文本分类的常用方法，一般是将文本序列信息通过词嵌入(Word Embedding)方式转化为词嵌入矩阵，再将词嵌入矩阵输入到Transformer进行句子语义特征的学习，提取句子的深度语义特征，最后通过一层全连接进行分类标签的输出。

传统的基于Transformer的文本分类用到的是它的Encoder模块，其限定词嵌入编码固定维度会带来语义信息损失和冗余，使得最终的分类效果不佳。

发明内容

有鉴于此，本发明的目的在于提供一种文本分类方法、装置、电子设备和计算机可读存储介质，以解决现有技术中限定词嵌入编码固定维度会带来语义信息损失和冗余，使得最终的分类效果不佳的问题。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明提供一种文本分类方法，所述方法包括：

将待分类文本输入预先训练的文本分类网络，利用所述文本分类网络中的词向量层对所述待分类文本进行处理，得到所述待分类文本对应的输入矩阵；所述输入矩阵由所述待分类文本对应的文本嵌入矩阵和所述待分类文本对应的量子位置编码矩阵相加得到；

利用所述文本分类网络中的第一特征提取网络对所述输入矩阵进行特征提取，得到多个第一特征矩阵；

利用所述文本分类网络中的多头注意力层对所述多个第一特征矩阵进行注意力计算，得到第二特征矩阵；

将所述输入矩阵和所述第二特征矩阵输入所述文本分类网络中的第二特征提取网络进行特征提取，得到第三特征矩阵；所述第一特征提取网络和所述第二特征提取网络中均包括变分量子线路；

将所述第三特征矩阵输入所述文本分类网络中的分类器，得到所述待分类文本对应的类别。

在可选的实施方式中，所述词向量层包括词嵌入层和量子位置编码层；所述利用所述文本分类网络中的词向量层对所述待分类文本进行处理，得到所述待分类文本对应的输入矩阵，包括：

利用所述词嵌入层对所述待分类文本进行词嵌入编码，得到文本嵌入矩阵；

利用所述量子位置编码层对所述待分类文本进行量子位置编码，得到量子位置编码矩阵；

将所述文本嵌入矩阵和所述量子位置编码矩阵相加，得到所述待分类文本对应的输入矩阵。

在可选的实施方式中，所述第一特征提取网络包括多个变分量子线路，所述多个变分量子线路各自对应的参数不同；所述利用所述文本分类网络中的第一特征提取网络对所述输入矩阵进行特征提取，得到多个第一特征矩阵，包括：

将所述输入矩阵输入所述第一特征提取网络中的每个变分量子线路进行特征提取，得到每个所述变分量子线路输出的第一特征矩阵。

在可选的实施方式中，所述第二特征提取网络包括第一数据处理层、变分量子线路和第二数据处理层；所述将所述输入矩阵和所述第二特征矩阵输入所述文本分类网络中的第二特征提取网络进行特征提取，得到第三特征矩阵，包括：

利用所述第一数据处理层对所述输入矩阵和所述第二特征矩阵进行相加和标准化处理，得到第一中间矩阵；

利用所述变分量子线路对所述第一中间矩阵进行特征提取，得到第二中间特征矩阵；

利用所述第二数据处理层对所述第一中间矩阵和所述第二中间特征矩阵进行相加和标准化处理，得到第三特征矩阵。

在可选的实施方式中，所述变分量子线路包括数据编码层、变分层和量子测量层，所述变分量子线路的参数优化步骤包括：

将训练样本输入预先构建的变分量子线路，通过所述数据编码层将所述训练样本编码成量子态特征数据；

将所述量子态特征数据输入所述变分层，通过所述变分层对所述量子态特征数据进行幺正操作，得到多量子位纠缠数据；

将所述多量子位纠缠数据输入所述量子测量层，通过所述量子测量层测量每个量子位上的期望值，得到预测信息；

根据所述预测信息更新所述变分量子线路的参数。

第二方面，本发明提供一种文本分类装置，所述装置包括：

词向量处理模块，用于将待分类文本输入预先训练的文本分类网络，利用所述文本分类网络中的词向量层对所述待分类文本进行处理，得到所述待分类文本对应的输入矩阵；所述输入矩阵由所述待分类文本对应的文本嵌入矩阵和所述待分类文本对应的量子位置编码矩阵相加得到；

第一特征提取模块，用于利用所述文本分类网络中的第一特征提取网络对所述输入矩阵进行特征提取，得到多个第一特征矩阵；

注意力计算模块，用于利用所述文本分类网络中的多头注意力层对所述多个第一特征矩阵进行注意力计算，得到第二特征矩阵；

第二特征提取模块，用于将所述输入矩阵和所述第二特征矩阵输入所述文本分类网络中的第二特征提取网络进行特征提取，得到第三特征矩阵；所述第一特征提取网络和所述第二特征提取网络中均包括变分量子线路；

分类模块，用于将所述第三特征矩阵输入所述文本分类网络中的分类器，得到所述待分类文本对应的类别。

在可选的实施方式中，所述词向量层包括词嵌入层和量子位置编码层；所述词向量处理模块用于利用所述词嵌入层对所述待分类文本进行词嵌入编码，得到文本嵌入矩阵；利用所述量子位置编码层对所述待分类文本进行量子位置编码，得到量子位置编码矩阵；将所述文本嵌入矩阵和所述量子位置编码矩阵相加，得到所述待分类文本对应的输入矩阵。

在可选的实施方式中，所述第二特征提取网络包括第一数据处理层、变分量子线路和第二数据处理层；所述第二特征提取模块用于利用所述第一数据处理层对所述输入矩阵和所述第二特征矩阵进行相加和标准化处理，得到第一中间矩阵；利用所述变分量子线路对所述第一中间矩阵进行特征提取，得到第二中间特征矩阵；利用所述第二数据处理层对所述第一中间矩阵和所述第二中间特征矩阵进行相加和标准化处理，得到第三特征矩阵。

第三方面，本发明提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如前述实施方式中任一项所述的文本分类方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如前述实施方式中任一项所述的文本分类方法的步骤。

本发明实施例提供的文本分类方法、装置、电子设备和计算机可读存储介质，由于输入矩阵由待分类文本对应的文本嵌入矩阵和待分类文本对应的量子位置编码矩阵相加得到，且用于提取特征的第一特征提取网络和第二特征提取网络中均包括变分量子线路，则输入分类器的第三特征矩阵中实际上包含了待分类文本对应的量子位置编码信息、词本身的嵌入编码信息以及不同词相互之间通过变分量子线路纠缠得到的更深度的语义信息等多维度语义信息，故能有效缓解现有技术中限定词嵌入编码固定维度所带来的语义信息损失和冗余的问题，从而实现更好的文本分类效果；此外，在多头注意力层输出第二特征矩阵之后，通过将最初的输入矩阵与第二特征矩阵输入第二特征提取网络再次进行特征提取，能够进一步减少语义信息的损失，从而提升文本分类网络的鲁棒性。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了传统的Transformer的结构示意图；

图2示出了本发明实施例提供的电子设备的一种方框示意图；

图3示出了本发明实施例提供的文本分类方法的一种流程示意图；

图4示出了文本分类网络的一种结构示意图；

图5示出了文本分类网络的另一种结构示意图；

图6示出了变分量子线路的一种结构示意图；

图7示出了变分量子线路的另一种结构示意图；

图8示出了本发明实施例提供的一种文本分类装置的功能模块图。

图标：100-电子设备；110-存储器；120-处理器；130-通信模块；800-文本分类装置；810-词向量处理模块；820-第一特征提取模块；830-注意力计算模块；840-第二特征提取模块；850-分类模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

传统的Transformer的结构可以参考图1，Transformer遵循了Encoder-Decoder的架构，Encoder(编码器)由N_x＝6个相同的层(即图1中左侧的单元)组成，每个层由两个子层组成，分别是multi-head self-attention(自注意力机制层)和fully connected feed-forward network(全连接层)，其中每个子层都加了residual connection(残差连接)和normalisation(归一化)。Decoder(解码器)也是由N_x＝6个相同的层(即图1中右侧的单元)组成，除了自注意力层和全连接层之外，还有Masked自注意力层，在多头注意力机制上使用mask主要是为了确保当前位置的预测结果只取决于之前的输出；Decoder一般用于seq2seq的模型，比如机器翻译等模块。

Transformer中的多头注意力机制可表示为：MultiHead(Q,K,V)＝Concat(head₁,head₂,...,head_h)W^o，head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)，

计算自注意力首先是从输入向量上创建三个向量，即查询向量query(Q)、键向量key(K)和值向量value(V)，这些向量可以通过词嵌入乘以训练过程中创建的训练矩阵而产生；head_i表示每个头的注意力计算方式，W是三个不同的权值参数矩阵，由于有h个头，所以有h个维度，每个维度又是一个向量，W_i ^Q指的是W矩阵的第i个维度，是一个向量。通过将h次的注意力计算结果进行拼接(Concat)便可以得到多头注意力计算的结果。

在Encoder的multi-head self-attention中，Q、K、V都来自同一个地方(相等)，它们是上一层Encoder的输出；对于第一层Encoder，它们就是Word Embedding(词嵌入)和Positional Encoding(位置编码)相加得到的输入。

在Decoder的multi-head self-attention中，Q、K、V都来自于同一个地方(相等)，它们是上一层Decoder的输出。对于第一层Decoder，它们就是Word embedding(词嵌入)和Positional Encoding(位置编码)相加得到的输入。但是对于Decoder，由于不希望它能获得下一个time step(即将来的信息)，因此需要多头注意力机制上使用mask。

在Encoder-Decoder attention中，Q来自于Decoder的上一层的输出，K和V来自于Encoder的输出，K和V是一样的。Q、K、V三者的维度一样，即dq＝dk＝dv。

Transformer中的位置编码主要通过如下计算方式实现：

其中，PE为二维矩阵，大小跟输入embedding的维度一样，行表示词语，列表示词向量；pos表示词语在句子中的位置；d_model表示词向量的维度；i表示词向量的位置。因此，上述公式表示在每个词语的词向量的偶数位置添加sin变量，奇数位置添加cos变量，以此来填满整个PE矩阵。

因此，传统的基于Transformer的文本分类用到的是它的Encoder模块，当前Transformer文本分类网络存在收敛速度慢的问题，其限定词嵌入编码固定维度会带来语义信息损失和冗余，对于长度较长的文本(大于512)的分类效果会变差。

基于此，本发明实施例提出了一种文本分类方法，其输入矩阵由待分类文本对应的文本嵌入矩阵和待分类文本对应的量子位置编码矩阵相加得到，且用于提取特征的第一特征提取网络和第二特征提取网络中均包括变分量子线路，使得输入分类器的第三特征矩阵中实际上包含了待分类文本对应的量子位置编码信息、词本身的嵌入编码信息以及不同词相互之间通过变分量子线路纠缠得到的更深度的语义信息等多维度语义信息，故能有效缓解现有技术中限定词嵌入编码固定维度所带来的语义信息损失和冗余的问题，从而实现更好的文本分类效果。此外，在多头注意力层输出第二特征矩阵之后，通过将最初的输入矩阵与第二特征矩阵输入第二特征提取网络再次进行特征提取，能够进一步减少语义信息的损失，从而提升文本分类网络的鲁棒性。可以理解的是，量子位置编码矩阵是在传统位置编码的基础上，利用量子线路进行编码得到的量子位置编码矩阵，是以量子态信息表示的位置信息。

请参照图2，是本发明实施例提供的电子设备100的一种方框示意图。该电子设备100包括存储器110、处理器120及通信模块130。存储器110、处理器120以及通信模块130各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，存储器110用于存储程序或者数据。存储器110可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(ErasableProgrammable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory，EEPROM)等。

处理器120用于读/写存储器110中存储的数据或程序，并执行相应地功能。例如，处理器120执行存储器110中存储的计算机程序时，可以实现本发明实施例揭示的文本分类方法。

通信模块130用于通过网络建立电子设备100与其它通信终端之间的通信连接，并用于通过网络收发数据。

在本实施例中，该电子设备100可以是，但不限于服务器、PC(Personal Computer，个人电脑)、智能手机、平板电脑、导航设备、游戏设备等。

应当理解的是，图2所示的结构仅为电子设备100的结构示意图，电子设备100还可包括比图2中所示更多或者更少的组件，或者具有与图1所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器120执行时可以实现本发明实施例揭示的文本分类方法。

请参照图3，为本发明实施例提供的文本分类方法的一种流程示意图。需要说明的是，本发明实施例提供的文本分类方法并不以图3以及以下的具体顺序为限制，应当理解，在其他实施例中，本发明实施例提供的文本分类方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。该文本分类方法可以应用在图2所示的电子设备100，下面将对图3所示的具体流程进行详细阐述。

步骤S301，将待分类文本输入预先训练的文本分类网络，利用文本分类网络中的词向量层对待分类文本进行处理，得到待分类文本对应的输入矩阵；输入矩阵由待分类文本对应的文本嵌入矩阵和待分类文本对应的量子位置编码矩阵相加得到。

在一个实施例中，如图4所示，该文本分类网络可以包括词向量层、第一特征提取网络、多头注意力层、第二特征提取网络和分类器。其中，第一特征提取网络和第二特征提取网络中均包括变分量子线路(Variational Quantum Circuits，VQC)。

其中，待分类文本对应的文本嵌入矩阵为一个词级的句子向量表示，其包含了文本中各个词本身的嵌入编码信息；待分类文本对应的量子位置编码矩阵为一个包含文本量子位置编码信息的矩阵。将包含词嵌入编码信息的文本嵌入矩阵和包含文本量子位置编码信息的量子位置编码矩阵相加，所得到的输入矩阵将作为下一层的输入。

步骤S302，利用文本分类网络中的第一特征提取网络对输入矩阵进行特征提取，得到多个第一特征矩阵。

在本实施例中，由于第一特征提取网络中包括变分量子线路，故在对输入矩阵进行特征提取时，通过变分量子线路可以进行量子增强深度语义提取，从而获得不同词相互之间通过变分量子线路纠缠得到的更深度的语义信息。

步骤S303，利用文本分类网络中的多头注意力层对多个第一特征矩阵进行注意力计算，得到第二特征矩阵。

在本实施例中，该多头注意力层可以采用Transformer中的多头注意力机制，将多个第一特征矩阵作为多头注意力层的输入，多头的意思是注意力层会计算多组注意力，每组注意力关注输入信息的不同部分，实现从不同角度提取信息，得到第二特征矩阵。

步骤S304，将输入矩阵和第二特征矩阵输入文本分类网络中的第二特征提取网络进行特征提取，得到第三特征矩阵；第一特征提取网络和第二特征提取网络中均包括变分量子线路。

在本实施例中，考虑到获取第二特征矩阵过程中，可能存在部分语义信息丢失的情况，在获得第二特征矩阵后，将该第二特征矩阵和原本的输入矩阵输入到第二特征提取网络再一次进行特征提取，得到第三特征矩阵。由于第二特征提取网络中也包括变分量子线路，故第二特征提取网络在进行特征提取时，也可以通过变分量子线路进行量子增强深度语义提取，从而获得不同词相互之间通过变分量子线路纠缠得到的更深度的语义信息。

步骤S305，将第三特征矩阵输入文本分类网络中的分类器，得到待分类文本对应的类别。

在本实施例中，可以采用softmax分类器进行文本的分类，在获得第三特征矩阵后，将第三特征矩阵输入softmax分类器中，softmax分类器输出每个类别对应的概率，根据每个类别对应的概率可确定出待分类文本对应的类别。

本发明实施例提供的文本分类方法，由于输入矩阵由待分类文本对应的文本嵌入矩阵和待分类文本对应的量子位置编码矩阵相加得到，且用于提取特征的第一特征提取网络和第二特征提取网络中均包括变分量子线路，则输入分类器的第三特征矩阵中实际上包含了待分类文本对应的量子位置编码信息、词本身的嵌入编码信息以及不同词相互之间通过变分量子线路纠缠得到的更深度的语义信息等多维度语义信息，故能有效缓解现有技术中限定词嵌入编码固定维度所带来的语义信息损失和冗余的问题，从而实现更好的文本分类效果；此外，在多头注意力层输出第二特征矩阵之后，通过将最初的输入矩阵与第二特征矩阵输入第二特征提取网络再次进行特征提取，能够进一步减少语义信息的损失，从而提升文本分类网络的鲁棒性。

在一种实施方式中，请参照图5，上述的词向量层可以包括词嵌入层和量子位置编码层，上述步骤S301具体可以包括：利用词嵌入层对待分类文本进行词嵌入编码，得到文本嵌入矩阵；利用量子位置编码层对待分类文本进行量子位置编码，得到量子位置编码矩阵；将文本嵌入矩阵和量子位置编码矩阵相加，得到待分类文本对应的输入矩阵。

其中，词嵌入层可以使用Word2Vec、GlovVe等方法将待分类文本中每个词表示为词向量，然后拼接得到词级的句子向量表示，即文本嵌入矩阵。

例如，“女单痛失铜牌”对应的字典为{“女”：[0.1，0.3]，“单”：[0.01，0.1]，“痛”：[0.01，0.7]，“失”：[0.01，0.2]，“铜”：[0.01，0.8]，“牌”：[0.01，0.3]}，如此可将上述文本转换为6*2的文本嵌入矩阵。需要说明的是，在实际应用中，需设置每个文字的嵌入维度跟实际使用的量子位数保持一致，并且初始化文本嵌入在整个网络中是保持不变的。

量子位置编码层可以采用上述的变分量子线路实现，通过将待分类文本采用Transformer中的位置编码方式获得PE矩阵，将该PE矩阵作为量子位置编码层的输入，由量子位置编码层进行量子位置编码，最终得到量子位置编码矩阵。在获得待分类文本对应的文本嵌入矩阵和量子位置编码矩阵后，将文本嵌入矩阵和量子位置编码矩阵相加，即可得到待分类文本对应的输入矩阵。

需要说明的是，本实施例中的量子位置编码层、第一特征提取网络和第二特征提取网络虽然都使用了变分量子线路，但是各变分量子线路优化(训练)后的参数是不同的。可以理解，本实施例文本分类网络中用到的各变分量子线路具备相同的结构，但是迭代优化的参数是不同的。

在一种实施方式中，仍参照图5，上述的第一特征提取网络包括多个变分量子线路，多个变分量子线路各自对应的参数不同；上述步骤S302具体可以包括：将输入矩阵输入第一特征提取网络中的每个变分量子线路进行特征提取，得到每个变分量子线路输出的第一特征矩阵。

在本实施例中，以三个变分量子线路为例，该三个变分量子线路迭代优化的参数是不同的，该三个变分量子线路各自对输入矩阵进行特征提取，输出对应的第一特征矩阵，则第一特征提取网络会输出三个第一特征矩阵，并将该三个第一特征矩阵输入多头注意力层进行注意力计算；在此情形下，第一特征提取网络输出的三个第一特征矩阵实际上对应于Transformer中输入多头注意力模块的三个向量，即Q、K、V。

在一种实施方式中，仍参照图5，上述的第二特征提取网络包括第一数据处理层、变分量子线路和第二数据处理层；上述步骤S304具体可以包括：利用第一数据处理层对输入矩阵和第二特征矩阵进行相加和标准化处理，得到第一中间矩阵；利用变分量子线路对第一中间矩阵进行特征提取，得到第二中间特征矩阵；利用第二数据处理层对第一中间矩阵和第二中间特征矩阵进行相加和标准化处理，得到第三特征矩阵。可以理解的是，在本实施例中，变分量子线路是对第一中间矩阵进行深度的语义编码，让网络的记忆深度更广。

在本实施例中，第一数据处理层是对多头注意力层输出的第二特征矩阵与输入矩阵相加，将相加后得到的矩阵进行标准化处理，得到第一中间矩阵。其中，标准化处理是将相加得到的矩阵中的数据减去数据的均值，实现数据的中心化，然后将中心化的数据除以标准差，得到标准化后的数据，即第一中间矩阵。

第二特征提取网络中的变分量子线路对第一数据处理层输出的第一中间矩阵进行量子增强深度语义提取，从而获得不同词相互之间通过变分量子线路纠缠得到的更深度的语义信息，即第二中间特征矩阵。

第二数据处理层是对变分量子线路输出的第二中间特征矩阵与第一数据处理层输出的第一中间矩阵相加，将相加后得到的矩阵进行标准化处理，得到第三特征矩阵。同第一数据处理层类似，第二数据处理层对矩阵进行标准化处理，也是将相加得到的矩阵中的数据减去数据的均值，实现数据的中心化，然后将中心化的数据除以标准差，得到标准化后的数据，即第三特征矩阵。

本发明实施例提供的文本分类方法，通过矩阵的相加和标准化处理，不仅可以有效减少语义信息的损失，提升文本分类网络的鲁棒性；还能够减小向量之间的差异，加快网络的收敛速度，实现更好的收敛效果。

在一种实施方式中，请参照图6，变分量子线路可以包括数据编码层、变分层和量子测量层，上述文本分类网络中使用到的每个变分量子线路都可以采用图6的结构，并且均需要预先进行参数优化后才能使用。

在本实施例中，变分量子线路的参数优化步骤包括：将训练样本输入预先构建的变分量子线路，通过数据编码层将训练样本编码成量子态特征数据；将量子态特征数据输入变分层，通过变分层对量子态特征数据进行幺正操作，得到多量子位纠缠数据；将多量子位纠缠数据输入量子测量层，通过量子测量层测量每个量子位上的期望值，得到预测信息；根据预测信息更新变分量子线路的参数。

其中，量子比特是量子计算和量子信息的基本概念，单量子比特的量子态可以表示为：

其中α和β是复数，且|α|²+|β|²＝1。

一般的，n个量子比特的量子比特可以表示为：

其中

是基态的复振幅，x_i∈{0,1}，并且

数据编码层就是将文本语义编码后的数据再编码到量子态中，也就是将经典的输入向量转换为旋转角度，以指导单量子位元的旋转。如图7所示，假设某个汉字的嵌入式表示为[x₁、x₂、x₃、x₄]，则经过数据编码层编码后，R_x(x₁)为第一维的x₁角度转换的量子门，R_x(x₂)为第一维的x₂角度转换的量子门，R_x(x₃)为第一维的x₃角度转换的量子门，R_x(x₄)为第一维的x₄角度转换的量子门，这些量子态特征数据将会输入到下一层，并且在整个网络的训练中不会被优化。

在将训练样本编码成量子态特征数据后，还需要输入变分层进行一系列的幺正操作，以图7为例，变分层一般是包括多个循环的单量子位旋转门Rz和CNOT门，以增加变分层的深度。CNOT门应用于每对具有固定邻接1和2的单量子位旋转门，以产生多量子位纠缠。单量子位旋转门的旋转角度是随机初始化的，并且将在基于梯度下降方法的迭代优化过程中进行更新。

变分量子线路的最后一层是量子测量层，这里测量的是每个量子位上的期望值，使用QPanda实现描述的VQC层，因此返回的结果的维度为设置的量子位数，也就是返回的结果是一个需要在经典计算机上进一步处理的固定长向量。

在本实施例中，对于变分量子线路，是通过参数位移的方法进行优化：

其中x表示输入的训练样本，

表示观测值的期望(即上述的预测信息)，I(x)表示将x编码成量子状态的量子态特征数据，I^H(x)表示I(x)的共轭矩阵；i表示变分层的索引，θ_i表示变分量子线路中可以优化的参数(即单量子位旋转门的旋转角度)；G_i(θ_i)是单量子位旋转门，因此f(x；θ_i)相对于θ_i的梯度为：

具体来说，变分量子线路的参数优化过程可以是：输入训练样本，将变分量子线路中的可优化参数位移向前位移

得到一个预测信息，然后将变分量子线路中的可优化参数向后位移

得到另一个预测信息；基于两次得到的预测信息和各自对应的可优化参数计算

和

得到f(x；θ_i)相对于θ_i的梯度

然后利用梯度下降的算法优化参数，这样就能让网络的预测信息贴近真实的结果，具体的，在计算出梯度以后，采用下列公式更新参数θ为θ′：

其中，lr为学习率，

为求出来的梯度。

可以理解，对于文本分类网络中的各个变分量子线路，会分别按照上述方式进行参数优化，且在参数优化过程中，可选取不同的训练样本，最终得到不同参数的变分量子线路，应用在文本分类网络中。

为了执行上述实施例及各个可能的方式中的相应步骤，下面给出一种文本分类装置的实现方式。请参照图8，为本发明实施例提供的一种文本分类装置800的功能模块图。需要说明的是，本实施例所提供的文本分类装置800，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该文本分类装置800包括词向量处理模块810、第一特征提取模块820、注意力计算模块830、第二特征提取模块840和分类模块850。

可选地，上述模块可以软件或固件(Firmware)的形式存储于图2所示的存储器110中或固化于该电子设备100的操作系统(Operating System，OS)中，并可由图2中的处理器120执行。同时，执行上述模块所需的数据、程序的代码等可以存储在存储器110中。

该词向量处理模块810，用于将待分类文本输入预先训练的文本分类网络，利用文本分类网络中的词向量层对待分类文本进行处理，得到待分类文本对应的输入矩阵；输入矩阵由待分类文本对应的文本嵌入矩阵和待分类文本对应的量子位置编码矩阵相加得到。

可以理解，该词向量处理模块810可以执行上述步骤S301。

该第一特征提取模块820，用于利用文本分类网络中的第一特征提取网络对输入矩阵进行特征提取，得到多个第一特征矩阵。

可以理解，该词向量处理模块810可以执行上述步骤S302。

该注意力计算模块830，用于利用文本分类网络中的多头注意力层对多个第一特征矩阵进行注意力计算，得到第二特征矩阵。

可以理解，该注意力计算模块830可以执行上述步骤S303。

该第二特征提取模块840，用于将输入矩阵和第二特征矩阵输入文本分类网络中的第二特征提取网络进行特征提取，得到第三特征矩阵；第一特征提取网络和第二特征提取网络中均包括变分量子线路。

可以理解，该第二特征提取模块840可以执行上述步骤S304。

该分类模块850，用于将第三特征矩阵输入文本分类网络中的分类器，得到待分类文本对应的类别。

可以理解，该分类模块850可以执行上述步骤S305。

可选地，该词向量层包括词嵌入层和量子位置编码层，该词向量处理模块810具体用于：利用词嵌入层对待分类文本进行词嵌入编码，得到文本嵌入矩阵；利用量子位置编码层对待分类文本进行量子位置编码，得到量子位置编码矩阵；将文本嵌入矩阵和量子位置编码矩阵相加，得到待分类文本对应的输入矩阵。

可选地，该第一特征提取网络包括多个变分量子线路，多个变分量子线路各自对应的参数不同；该第一特征提取模块820具体用于：将输入矩阵输入第一特征提取网络中的每个变分量子线路进行特征提取，得到每个变分量子线路输出的第一特征矩阵。

可选地，该第二特征提取网络包括第一数据处理层、变分量子线路和第二数据处理层；该第二特征提取模块840具体用于：利用第一数据处理层对输入矩阵和第二特征矩阵进行相加和标准化处理，得到第一中间矩阵；利用变分量子线路对第一中间矩阵进行特征提取，得到第二中间特征矩阵；利用第二数据处理层对第一中间矩阵和第二中间特征矩阵进行相加和标准化处理，得到第三特征矩阵。

可选地，该变分量子线路包括数据编码层、变分层和量子测量层，变分量子线路可以通过如下方式进行参数优化：将训练样本输入预先构建的变分量子线路，通过数据编码层将训练样本编码成量子态特征数据；将量子态特征数据输入变分层，通过变分层对量子态特征数据进行幺正操作，得到多量子位纠缠数据；将多量子位纠缠数据输入量子测量层，通过量子测量层测量每个量子位上的期望值，得到预测信息；根据预测信息更新变分量子线路的参数。

本发明实施例提供的文本分类装置，通过词向量处理模块将待分类文本输入预先训练的文本分类网络，利用文本分类网络中的词向量层对待分类文本进行处理，得到待分类文本对应的输入矩阵；输入矩阵由待分类文本对应的文本嵌入矩阵和待分类文本对应的量子位置编码矩阵相加得到。第一特征提取模块利用文本分类网络中的第一特征提取网络对输入矩阵进行特征提取，得到多个第一特征矩阵。注意力计算模块利用文本分类网络中的多头注意力层对多个第一特征矩阵进行注意力计算，得到第二特征矩阵。通过第二特征提取模块将输入矩阵和第二特征矩阵输入文本分类网络中的第二特征提取网络进行特征提取，得到第三特征矩阵；第一特征提取网络和第二特征提取网络中均包括变分量子线路。通过分类模块将第三特征矩阵输入文本分类网络中的分类器，得到待分类文本对应的类别。

由于输入矩阵由待分类文本对应的文本嵌入矩阵和待分类文本对应的量子位置编码矩阵相加得到，且用于提取特征的第一特征提取网络和第二特征提取网络中均包括变分量子线路，则输入分类器的第三特征矩阵中实际上包含了待分类文本对应的量子位置编码信息、词本身的嵌入编码信息以及不同词相互之间通过变分量子线路纠缠得到的更深度的语义信息等多维度语义信息，故能有效缓解现有技术中限定词嵌入编码固定维度所带来的语义信息损失和冗余的问题，从而实现更好的文本分类效果；此外，在多头注意力层输出第二特征矩阵之后，通过将最初的输入矩阵与第二特征矩阵输入第二特征提取网络再次进行特征提取，能够进一步减少语义信息的损失，从而提升文本分类网络的鲁棒性。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述词向量层包括词嵌入层和量子位置编码层；所述利用所述文本分类网络中的词向量层对所述待分类文本进行处理，得到所述待分类文本对应的输入矩阵，包括：

3.根据权利要求1所述的方法，其特征在于，所述第一特征提取网络包括多个变分量子线路，所述多个变分量子线路各自对应的参数不同；所述利用所述文本分类网络中的第一特征提取网络对所述输入矩阵进行特征提取，得到多个第一特征矩阵，包括：

4.根据权利要求1所述的方法，其特征在于，所述第二特征提取网络包括第一数据处理层、变分量子线路和第二数据处理层；所述将所述输入矩阵和所述第二特征矩阵输入所述文本分类网络中的第二特征提取网络进行特征提取，得到第三特征矩阵，包括：

5.根据权利要求1所述的方法，其特征在于，所述变分量子线路包括数据编码层、变分层和量子测量层，所述变分量子线路的参数优化步骤包括：

根据所述预测信息更新所述变分量子线路的参数。

6.一种文本分类装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述词向量层包括词嵌入层和量子位置编码层；所述词向量处理模块用于利用所述词嵌入层对所述待分类文本进行词嵌入编码，得到文本嵌入矩阵；利用所述量子位置编码层对所述待分类文本进行量子位置编码，得到量子位置编码矩阵；将所述文本嵌入矩阵和所述量子位置编码矩阵相加，得到所述待分类文本对应的输入矩阵。

8.根据权利要求6所述的装置，其特征在于，所述第二特征提取网络包括第一数据处理层、变分量子线路和第二数据处理层；所述第二特征提取模块用于利用所述第一数据处理层对所述输入矩阵和所述第二特征矩阵进行相加和标准化处理，得到第一中间矩阵；利用所述变分量子线路对所述第一中间矩阵进行特征提取，得到第二中间特征矩阵；利用所述第二数据处理层对所述第一中间矩阵和所述第二中间特征矩阵进行相加和标准化处理，得到第三特征矩阵。

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-5中任一项所述的文本分类方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的文本分类方法的步骤。