CN111461301A

CN111461301A - 序列化数据处理方法和装置、文本处理方法和装置

Info

Publication number: CN111461301A
Application number: CN202010237454.6A
Authority: CN
Inventors: 屠明; 黄静; 何晓冬; 周伯文
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-28
Anticipated expiration: 2040-03-30
Also published as: CN111461301B; EP4131076A1; US20230244704A1; WO2021196954A1; EP4131076A4

Abstract

本发明公开了一种序列化数据处理方法和装置、文本处理方法和装置，涉及数据处理领域。序列化数据处理方法包括：针对序列集合，构建包括多个节点的图；确定每个节点的初始的特征矩阵；将图中每个节点的初始的特征矩阵输入到图序列网络中，以便图序列网络利用每个节点的相邻节点的特征矩阵，对每个节点的特征矩阵进行更新；获得图序列网络输出的每个节点的特征矩阵，以便利用输出的特征矩阵进行基于序列的分类预测，其中，输出的每个节点的特征矩阵中包括节点对应的序列中每个元素对应的、更新的向量。从而，减少了基于图构建的神经网络在处理序列数据时流失的信息量，提高了基于处理后的数据进行分类预测时的准确性。

Description

序列化数据处理方法和装置、文本处理方法和装置

技术领域

本发明涉及数据处理领域，特别涉及一种序列化数据处理方法和装置、文本处理方法和装置。

背景技术

图神经网络(Graph Neural Networks，简称：GNN)是一种直接作用于图结构上的神经网络。图中的每个节点使用向量表示。GNN在自然语言处理、知识图谱系统、推荐系统、生命科学等多个领域都得到了广泛的应用。GNN对基于图的节点之间的相互关系进行建模。

发明内容

发明人对GNN进行分析后发现，GNN仅支持以向量形式表示的节点。在相关技术中，面对输入对象为序列的情况，GNN在对每个节点进行初始化时，会将序列中包括的所有向量总结为一个预设维度的向量，例如通过池化等计算方式获得向量，以将该向量作为节点的初始向量、并进行后续的计算。从而，通过GNN处理后的对象丧失了序列的特性，无法准确地反映输入对象的固有特征，导致后续基于GNN的输出结果做出的预测的准确性降低。

本发明实施例所要解决的一个技术问题是：如何减少基于图构建的神经网络在处理序列数据时流失的信息量，以提高基于处理后的数据进行分类预测时的准确性。

根据本发明一些实施例的第一个方面，提供一种序列化数据处理方法，包括：针对序列集合，构建包括多个节点的图，其中，每个节点对应序列集合中的一个序列；确定每个节点的初始的特征矩阵，其中，节点的初始的特征矩阵中包括节点对应的序列中每个元素的初始的向量；将图中每个节点的初始的特征矩阵输入到图序列网络中，以便图序列网络利用每个节点的相邻节点的特征矩阵，对每个节点的特征矩阵进行更新；获得图序列网络输出的每个节点的特征矩阵，以便利用输出的特征矩阵进行基于序列的分类预测，其中，输出的每个节点的特征矩阵中包括节点对应的序列中每个元素对应的、更新的向量。

在一些实施例中，对于图中的每个节点，图序列网络的每一层输出的节点的特征矩阵是根据上一层输出的节点的特征矩阵以及上一层输出的节点的相邻节点的特征矩阵确定的。

在一些实施例中，通过图序列网络对每个节点的特征矩阵进行更新包括：对于图中的每个节点：对于图序列网络的第k层输出的、节点的每个相邻节点，确定节点的特征矩阵与相邻节点的特征矩阵之间的协同注意力编码结果，其中，k为正整数；以及对节点的所有相邻节点对应的协同注意力编码结果进行池化，获得图序列网络的第k+1层输出的、节点的特征矩阵。

在一些实施例中，对于图序列网络的第k层输出的、节点的每个相邻节点，确定节点的特征矩阵与相邻节点的特征矩阵之间的协同注意力编码结果包括：对于图序列网络的第k层输出的、节点的每个相邻节点，根据第k层输出的、节点的特征矩阵和相邻节点的特征矩阵，计算节点对应的序列中的元素与相邻节点对应的序列中的元素之间的关联关系，获得关联矩阵；利用关联矩阵，分别对第k层输出的、节点的特征矩阵和相邻节点的特征矩阵进行变换，获得第一矩阵和第二矩阵；计算第k层输出的节点的特征矩阵与第一矩阵和第二矩阵之间的关联关系，获得节点的特征矩阵与相邻节点的特征矩阵之间的协同注意力编码结果。

在一些实施例中，序列化数据处理方法还包括：根据图序列网络输出的特征矩阵，确定用于预测的特征，其中，用于预测的特征是根据图中一个或多个节点的特征矩阵确定的；将用于预测的输入特征输入到机器学习模型中，获得分类预测结果。

在一些实施例中，将用于预测的输入特征输入到机器学习模型中，获得分类预测结果包括：将用于预测的输入特征输入到机器学习模型中，获得一个或多个节点所涉及的序列中的元素的分类结果，以便根据每个元素的分类结果进行序列标注。

在一些实施例中，将用于预测的输入特征输入到机器学习模型中，获得分类预测结果包括：将用于预测的输入特征输入到机器学习模型中，获得对一个或多个节点所涉及的序列进行分类预测的结果；或者，对一个或多个节点所涉及的序列构成的对象进行分类预测的结果。

在一些实施例中，序列化数据处理方法还包括：将序列输入到编码器中，获得编码器输出的、序列中每个元素的初始的向量。

在一些实施例中，序列为文本。

在一些实施例中，序列中的元素为文本中的令牌，令牌包括字、词根、词缀中的至少一种。

在一些实施例中，序列包括句子、短语、命名实体、名词短语中的一种或多种；符合以下条件中的至少一个的多个节点为相邻的节点：来自同一个文档的多个句子对应的节点，具有相同的命名实体或名词短语的多个句子对应的多个节点，具有在预先获取的问题文本中出现的命名实体或名词短语的多个句子对应的节点。

根据本发明一些实施例的第二个方面，提供一种文本处理方法，包括：针对文本集合构建包括多个节点的图，其中，每个节点对应文本集合中的一个文本；将每个文本进行转换后而生成的矩阵作为相应节点的、初始的特征矩阵，其中，特征矩阵中包括节点对应的文本中每个元素的初始的向量；将图中每个节点的初始的特征矩阵输入到图序列网络中，以便通过图序列网络对每个节点的特征矩阵进行更新；获得图序列网络输出的每个节点的特征矩阵，作为节点对应的文本的、更新的特征矩阵，以便利用输出的特征矩阵进行文本分类预测，其中，输出的每个节点的特征矩阵中包括节点对应的文本中每个元素对应的、更新的向量。

在一些实施例中，文本处理方法还包括：根据图序列网络输出的特征矩阵，确定用于预测的特征，其中，用于预测的特征是根据图中一个或多个节点的特征矩阵确定的；将用于预测的输入特征输入到机器学习模型中，获得文本分类预测结果。

在一些实施例中，将用于预测的输入特征输入到机器学习模型中，获得文本分类预测结果包括：将用于预测的输入特征输入到机器学习模型中，获得一个或多个节点所涉及的文本中的元素的分类结果，以便根据每个元素的分类结果进行对文本的序列标注。

在一些实施例中，将用于预测的输入特征输入到机器学习模型中，获得文本分类预测结果包括：将用于预测的输入特征输入到机器学习模型中，获得对一个或多个节点所涉及的文本进行分类预测的结果；或者，对一个或多个节点所涉及的文本构成的对象进行分类预测的结果。

在一些实施例中，文本数据处理方法还包括：将文本输入到编码器中，获得编码器输出的、文本中每个元素的初始的向量。

在一些实施例中，文本中的元素为文本中的令牌，令牌包括字、词根、词缀中的至少一种。

在一些实施例中，文本包括句子、短语、命名实体、名词短语中的一种或多种；符合以下条件中的至少一个的多个节点为相邻的节点：来自同一个文档的多个句子对应的节点，具有相同的命名实体或名词短语的多个句子对应的多个节点，具有在预先获取的问题文本中出现的命名实体或名词短语的多个句子对应的节点。

根据本发明一些实施例的第三个方面，提供一种序列化数据处理装置，包括：图构建模块，被配置为针对序列集合，构建包括多个节点的图，其中，每个节点对应序列集合中的一个序列；确定模块，被配置为确定每个节点的初始的特征矩阵，其中，节点的初始的特征矩阵中包括节点对应的序列中每个元素的初始的向量；更新模块，被配置为将图中每个节点的初始的特征矩阵输入到图序列网络中，以便图序列网络利用每个节点的相邻节点的特征矩阵，对每个节点的特征矩阵进行更新；获取模块，被配置为获得图序列网络输出的每个节点的特征矩阵，以便利用输出的特征矩阵进行基于序列的分类预测，其中，输出的每个节点的特征矩阵中包括节点对应的序列中每个元素对应的、更新的向量。

根据本发明一些实施例的第四个方面，提供一种文本处理装置，包括：图构建模块，被配置为针对文本集合构建包括多个节点的图，其中，每个节点对应文本集合中的一个文本；确定模块，被配置为将每个文本进行转换后而生成的矩阵作为相应节点的、初始的特征矩阵，其中，特征矩阵中包括节点对应的文本中每个元素的初始的向量，其中，元素为文本中的令牌，令牌包括字、词根、词缀中的至少一种；更新模块，被配置为将图中每个节点的初始的特征矩阵输入到图序列网络中，以便通过图序列网络对每个节点的特征矩阵进行更新；获取模块，被配置为获得图序列网络输出的每个节点的特征矩阵，作为节点对应的文本的、更新的特征矩阵，以便利用输出的特征矩阵进行文本分类预测，其中，输出的每个节点的特征矩阵中包括节点对应的文本中每个元素对应的、更新的向量。

根据本发明一些实施例的第五个方面，提供一种序列化数据处理装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行前述任意一种序列化数据处理方法。

根据本发明一些实施例的第六个方面，提供一种文本处理装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行前述任意一种文本处理方法。

根据本发明一些实施例的第七个方面，提供一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现前述任意一种序列化数据处理方法或者文本处理方法。

上述发明中的一些实施例具有如下优点或有益效果：通过本发明的实施例，可以在对序列数据进行基于图的处理时，既能够挖掘不同序列之间的关联关系、又能够保留数据的序列特性。从而，减少了基于图构建的神经网络在处理序列数据时流失的信息量，提高了基于处理后的数据进行分类预测时的准确性。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明一些实施例的序列化数据处理方法的流程示意图。

图2示出了根据本发明一些实施例的图序列网络的计算方法的流程示意图。

图3示出了根据本发明一些实施例的预测方法的流程示意图。

图4示出了根据本发明一些实施例的序列标注方法的流程示意图。

图5示出了根据本发明一些实施例的文本处理方法的流程示意图。

图6示出了根据本发明一些实施例的文本分类预测的流程示意图。

图7示出了根据本发明一些实施例的序列化数据处理装置的结构示意图。

图8示出了根据本发明一些实施例的文本处理装置的结构示意图。

图9示出了根据本发明一些实施例的数据处理装置的结构示意图。

图10示出了根据本发明另一些实施例的数据处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1示出了根据本发明一些实施例的序列化数据处理方法的流程示意图。如图1所示，该实施例的序列化数据处理方法包括步骤S102～S108。

在步骤S102中，针对序列集合，构建包括多个节点的图，其中，每个节点对应序列集合中的一个序列。

节点对应的序列例如可以为文本序列。在一些实施例中，序列为文本，序列中的元素为文本中的令牌(token)，令牌包括字、词根、词缀中的至少一种。例如，可以为一篇或多篇文章构建相应的图，图中的每个节点对应文章中的一个句子、一个短语、一个命名实体等等。对于中文，句子中的每个字可以作为序列中的一个元素；对于英文，则可以将一个单词、或者将单词拆分后获得的词根和词缀作为序列中的一个元素。

除了文本以外，还可以基于其他类型的序列构建图，例如，序列还可以包括同一个对象在多个时间点的数据，包括用户在不同时间点的网络访问数据、用户的在不同时间点的医疗数据、互联网中的对象在不同时间点的用户访问数据等等。

在步骤S104中，确定每个节点的初始的特征矩阵，其中，节点的初始的特征矩阵中包括节点对应的序列中每个元素的初始的向量。

在一些实施例中，可以将序列中每个元素的初始的向量作为特征矩阵的一行，特征矩阵中行的排列顺序与每行对应的元素在序列中的排列顺序一致。

在一些实施例中，将序列输入到编码器中，获得编码器输出的、序列中每个元素的初始的向量。编码器例如可以为Word2vec等词嵌入模型、序列到序列(Seq2Seq)模型编码器、RNN(Recurrent Neural Network，循环神经网络)、LSTM(Long Short-Term Memory，长短期记忆网络)、BERT(Bidirectional Encoder Representations From Transformers，基于变换器的双向编码器)等等。编码器生成序列中的每个元素的向量表示，有些编码器还可以在生成的过程中考虑序列内部各元素之间的上下文关系，以便获得更准确的描述。

在步骤S106中，将图中每个节点的初始的特征矩阵输入到图序列网络中，以便图序列网络利用每个节点的相邻节点的特征矩阵，对每个节点的特征矩阵进行更新。

普通的GNN不支持对序列的处理。本发明使用特征矩阵来表示节点，并将具有支持矩阵计算的、同样基于图进行计算的神经网络称为“图序列网络”(Graph SequenceNetworks)。从而在基于图的处理过程中能够始终保持被处理对象的序列特性。

与GNN类似地，图序列网络的主要处理过程可以包括累积(aggregation)和组合(combination)步骤。累积步骤表示从当前节点的邻近节点收集信息，组合步骤表示将收集的信息和当前节点的表示进行融合。图序列网络的每一层的输出可以是对图中各个节点的特征的更新结果，并且，每一层的输出是对上一层的输出进行累积和组合计算的结果。从而，图序列网络在保留本节点的序列特性的同时，能够在计算过程中挖掘相关节点之间的相互作用关系。

在步骤S108中，获得图序列网络输出的每个节点的特征矩阵，以便利用输出的特征矩阵进行基于序列的分类预测，其中，输出的每个节点的特征矩阵中包括节点对应的序列中每个元素对应的、更新的向量。从而，输出的每个节点的特征矩阵保留了序列特性。

通过上述实施例的方法，可以在对序列数据进行基于图的处理时，既能够挖掘不同序列之间的关联关系、又能够保留数据的序列特性。从而，减少了基于图构建的神经网络在处理序列数据时流失的信息量，提高了基于处理后的数据进行分类预测时的准确性。

下面参考图2示例性地描述图序列网络的计算方法的实施例。

图2示出了根据本发明一些实施例的图序列网络的计算方法的流程示意图。如图2所示，对于图中的每个节点，该实施例的图序列网络的计算方法包括步骤S202～S204。在该实施例中，将正在处理的节点称为“当前节点”。

在步骤S202中，对于图序列网络的第k层输出的、当前节点的每个相邻节点，确定当前节点的特征矩阵与相邻节点的特征矩阵之间的协同注意力编码结果，其中，k为正整数。

在一些实施例中，对于图序列网络的第k层输出的、节点的每个相邻节点，根据第k层输出的、节点的特征矩阵和相邻节点的特征矩阵，计算节点对应的序列中的元素与相邻节点对应的序列中的元素之间的关联关系，获得关联矩阵；利用关联矩阵，分别对第k层输出的、节点的特征矩阵和相邻节点的特征矩阵进行变换，获得第一矩阵和第二矩阵；计算第k层输出的节点的特征矩阵与第一矩阵和第二矩阵之间的关联关系，获得节点的特征矩阵与相邻节点的特征矩阵之间的协同注意力编码结果。

下面参考公式(1)～(5)示例性地描述一种协同注意力编码的具体计算方式。在公式(1)～(5)中，设

表示某层输出的当前节点的T×D的特征矩阵，

表示同一层输出的当前节点的R×D的特征矩阵。

表示当前节点在下一层的输出结果。字母与后置的冒号的组合表示字母对应的行，例如i:表示矩阵中的第i行；字母与前置的冒号的组合表示字母对应的列，例如j:表示矩阵中的第j列。“[；]”表示向量的拼接运算。max_row表示在矩阵的每一行中取最大值。Proj_i和Proj_o分别表示两个多层感知机。“⊙”表示令两个向量中相应位置的元素依次相乘(element-wise multiplication)，生成新的向量。

公式(1)对两个节点的序列中的每两个元素都进行了逐元素相乘的运算，获得了当前节点对应的序列中的元素与相邻节点对应的序列中的元素之间的关联关系。

其中

公式(2)基于公式(1)生成的矩阵确定对相邻节点对应的特征矩阵的变换系数，并对相邻节点的特征矩阵进行变换。

其中

公式(3)基于公式(1)生成的矩阵确定对当前节点对应的特征矩阵的变换系数，并对当前节点的特征矩阵进行变换。

其中

公式(4)继续计算当前节点的特征矩阵与前述各个通过变换生成的矩阵之间的关联关系。然后，将公式(4)生成的矩阵输入到多层感知机中，以对公式(4)生成的矩阵的维度进行压缩，得到与当前节点的序列对应的、更新后的特征矩阵。

其中

在步骤S204中，对当前节点的所有相邻节点对应的协同注意力编码结果进行池化，获得图序列网络的第k+1层输出的、当前节点的特征矩阵。

在一些实施例中，图序列网络的第k+1层输出的、当前节点n的特征矩阵

可以使用公式(6)表示。

在公式(6)中，

和

分别是第k+1层输出的当前节点n、和n的一个相邻节点m的特征矩阵。f_coattn表示对当前节点n的特征矩阵与相邻节点m的特征矩阵进行协同注意力编码，具体编码方式可以参考步骤S202。f_com表示当前节点n的所有相邻节点对应的协同注意力编码结果进行池化，例如进行最大池化或者平均池化。

通过上述实施例的方法，在使用特征矩阵表示图中各个节点的情况下，也可以通过协同注意力编码机制实现图中节点之间的信息交换，并且每层处理后的结果仍然保留了序列的特性。从而，减少了基于图构建的神经网络在处理序列数据时流失的信息量，提高了基于处理后的数据进行预测时的准确性。

在获得了图序列网络的输出后，可以利用这些输出的具备序列特性、并能够反映不同序列之间的关系的特征矩阵来进行预测。下面参考图3描述本发明预测方法的实施例。

图3示出了根据本发明一些实施例的预测方法的流程示意图。如图3所示，该实施例的预测方法包括步骤S302～S304。

在步骤S302中，根据图序列网络输出的特征矩阵，确定用于预测的特征，其中，用于预测的特征是根据图中一个或多个节点的特征矩阵确定的。

在步骤S304中，将用于预测的输入特征输入到机器学习模型中，获得分类预测结果。

在一些实施例中，将用于预测的输入特征输入到机器学习模型中，获得对一个或多个节点所涉及的序列进行分类预测的结果；或者，对一个或多个节点所涉及的序列构成的对象进行分类预测的结果。

由于上述分类场景中，输入特征是根据具有序列特征的特征矩阵确定的，因此能够更真实地反映待测对象的特点，提高了分类预测的准确性。

本发明的实施例还可以提供一种基于分类的序列标注方法。序列标注例如包括分词、词性标注、命名实体识别、关键词标注等等。下面参考图4描述本发明序列标注方法的实施例。

图4示出了根据本发明一些实施例的序列标注方法的流程示意图。如图4所示，该实施例的序列标注方法包括步骤S402～S406。

在步骤S402中，根据图序列网络输出的特征矩阵，确定用于预测的特征，其中，用于预测的特征是根据图中一个或多个节点的特征矩阵确定的。

在序列标注任务中，用于预测的特征需要保留序列特性。即，用于预测的特征中包括多个单元，例如包括多个向量或者多个值，每个单元分别根据序列的每个元素在图序列网络输出的相应特征矩阵中的向量确定。

在步骤S404中，将用于预测的输入特征输入到机器学习模型中，获得一个或多个节点所涉及的序列中的元素的分类结果。用于序列标注的机器学习模型例如可以为LSTM、HMM(Hidden Markov Model，隐马尔可夫模型)等等。

在步骤S406中，根据每个元素的分类结果进行序列标注。

普通的GNN的输出特征不包括序列特性，因此无法实现序列标注任务。而本发明的图序列网络的输出仍然保留了序列特性，因此可以进行序列标注，扩展了基于图的神经网络的应用场景。

在一些实施例中，可以将图序列网络和用于分类预测的模型共同进行训练。例如，获取预先标注了类别的训练数据，训练数据包括多个序列；针对训练数据，构建包括多个节点的图，其中，每个节点对应训练数据中的一个序列；确定每个节点的初始的特征矩阵，其中，节点的初始的特征矩阵中包括节点对应的序列中每个元素的初始的向量；将图中每个节点的初始的特征矩阵输入到图序列网络中，以便图序列网络利用每个节点的相邻节点的特征矩阵，对每个节点的特征矩阵进行更新；获得图序列网络输出的每个节点的特征矩阵，以便利用输出的特征矩阵进行基于序列的分类预测；根据分类预测结果和训练数据标注的类别，对图序列网络和机器学习模型的参数进行调整。例如，可以对图序列网络的多层感知机的参数进行调整。

在一些实施例中，用于确定各个序列的特征矩阵的装置(例如执行图1和图2实施例的设备)、执行预测方法的装置(例如图3～图5的设备)、用于执行模型训练方法的装置可以是相互独立的，也可以是设置在同一个设备上的。

利用本发明的前述实施例，可以实现文本处理。下面参考图5描述本发明文本处理方法的实施例。

图5示出了根据本发明一些实施例的文本处理方法的流程示意图。如图5所示，该实施例的文本处理方法包括步骤S502～S508。

在步骤S502中，针对文本集合构建包括多个节点的图，其中，每个节点对应文本集合中的一个文本。

在步骤S504中，将每个文本进行转换后而生成的矩阵作为相应节点的、初始的特征矩阵，其中，特征矩阵中包括节点对应的文本中每个元素的初始的向量。

在一些实施例中，元素为文本中的令牌，令牌包括字、词根、词缀中的至少一种。

在步骤S506中，将图中每个节点的初始的特征矩阵输入到图序列网络中，以便通过图序列网络对每个节点的特征矩阵进行更新。利用图序列网络更新特征矩阵的具体方法可以参考图1～图2实施例的方法，这里不再赘述。

在步骤S508中，获得图序列网络输出的每个节点的特征矩阵，作为节点对应的文本的、更新的特征矩阵，以便利用输出的特征矩阵进行文本分类预测，其中，输出的每个节点的特征矩阵中包括节点对应的文本中每个元素对应的、更新的向量。

通过上述实施例，可以在根据文本之间的关联确定文本的特征矩阵时，保留文本中元素的序列特性，从而输出的特征矩阵能够更准确地反映文本的特点，提高了后续利用特征矩阵进行预测的准确性。

下面参考图6描述本发明文本分类预测方法的实施例。

图6示出了根据本发明一些实施例的文本分类预测的流程示意图。如图6所示，该实施例的文本分类预测方法包括步骤S602～S604。

在步骤S602中，根据图序列网络输出的特征矩阵，确定用于预测的特征，其中，用于预测的特征是根据图中一个或多个节点的特征矩阵确定的。

在步骤S604中，将用于预测的输入特征输入到机器学习模型中，获得文本分类预测结果。

在一些实施例中，将用于预测的输入特征输入到机器学习模型中，获得一个或多个节点所涉及的文本中的元素的分类结果，以便根据每个元素的分类结果进行对文本的序列标注。

在一些实施例中，可以借助序列标注功能实现自动问答系统。例如，可以将问题文本、问题的支持文档中的文本作为图中的节点。在通过图序列网络更新各个文本的特征矩阵后，可以根据问题文本、问题的支持文档中的文本生成用于预测的输入特征，并将其输入到用于序列标注的机器学习模型中。机器学习模型确定文本中每个元素为答案的起点和终点的概率，并根据该概率输出判定结果。从而，根据起点元素和终点元素，可以确定问题的支持文档中的答案。

在一些实施例中，将用于预测的输入特征输入到机器学习模型中，获得对一个或多个节点所涉及的文本进行分类预测的结果；或者，对一个或多个节点所涉及的文本构成的对象进行分类预测的结果。

例如，可以基于图序列网络的输出进行“图分类”，即，将图中的所有节点涉及的序列作为一个整体进行分类。当图是由一篇文章中的句子作为节点构成时，可以将图中所有节点对应的输出融合为用于预测的特征，并将融合后的特征输入到分类器中，获得对文章的分类结果。当然，如果图中包括多篇文章，也可以将某一篇文章涉及的节点对应的输出融合为用于预测的特征，以预测这一篇文章的分类结果。

又例如，可以获取图中的一个节点对应的特征矩阵，并将该特征矩阵进行变换以获得用于预测的输出特征，以便实现对该节点对应的序列的分类，例如，对一个句子的分类。在自动问答的场景中，可以将问题文本、问题的支持文档中的文本、备选答案文本都作为图中的节点。在通过图序列网络更新各个文本的特征矩阵后，可以将备选答案文本的特征矩阵结合问题文本的特征矩阵进行融合和变换，从而获得机器学习模型输出的分类结果，该分类结果标识了该备选答案是否为该问题的正确答案。

下面参考图7描述本发明序列化数据处理装置的实施例。

图7示出了根据本发明一些实施例的序列化数据处理装置的结构示意图。如图7所示，该所述的序列化数据处理装置70包括：图构建模块710，被配置为针对序列集合，构建包括多个节点的图，其中，每个节点对应所述序列集合中的一个序列；确定模块720，被配置为确定每个节点的初始的特征矩阵，其中，所述节点的初始的特征矩阵中包括所述节点对应的序列中每个元素的初始的向量；更新模块730，被配置为将所述图中每个节点的初始的特征矩阵输入到图序列网络中，以便所述图序列网络利用每个节点的相邻节点的特征矩阵，对每个节点的特征矩阵进行更新；获取模块740，被配置为获得所述图序列网络输出的每个节点的特征矩阵，以便利用输出的特征矩阵进行基于序列的分类预测，其中，输出的每个节点的特征矩阵中包括所述节点对应的序列中每个元素对应的、更新的向量。

在一些实施例中，更新模块730进一步被配置为对于图中的每个节点：对于图序列网络的第k层输出的、节点的每个相邻节点，确定节点的特征矩阵与相邻节点的特征矩阵之间的协同注意力编码结果，其中，k为正整数；以及对节点的所有相邻节点对应的协同注意力编码结果进行池化，获得图序列网络的第k+1层输出的、节点的特征矩阵。

在一些实施例中，更新模块730进一步被配置为：对于图序列网络的第k层输出的、节点的每个相邻节点，根据第k层输出的、节点的特征矩阵和相邻节点的特征矩阵，计算节点对应的序列中的元素与相邻节点对应的序列中的元素之间的关联关系，获得关联矩阵；利用关联矩阵，分别对第k层输出的、节点的特征矩阵和相邻节点的特征矩阵进行变换，获得第一矩阵和第二矩阵；计算第k层输出的节点的特征矩阵与第一矩阵和第二矩阵之间的关联关系，获得节点的特征矩阵与相邻节点的特征矩阵之间的协同注意力编码结果。

在一些实施例中，序列化数据处理装置70还包括：预测模块750，被配置为根据图序列网络输出的特征矩阵，确定用于预测的特征，其中，用于预测的特征是根据图中一个或多个节点的特征矩阵确定的；将用于预测的输入特征输入到机器学习模型中，获得分类预测结果。

在一些实施例中，预测模块750进一步被配置为将用于预测的输入特征输入到机器学习模型中，获得一个或多个节点所涉及的序列中的元素的分类结果，以便根据每个元素的分类结果进行序列标注。

在一些实施例中，预测模块750进一步被配置为将用于预测的输入特征输入到机器学习模型中，获得对一个或多个节点所涉及的序列进行分类预测的结果；或者，对一个或多个节点所涉及的序列构成的对象进行分类预测的结果。

在一些实施例中，预测模块750可以与装置中的其他模块分属于不同的设备。

在一些实施例中，序列化数据处理装置70还包括：编码模块760，被配置为将序列输入到编码器中，获得编码器输出的、序列中每个元素的初始的向量。

在一些实施例中，编码模块760可以与装置中的其他模块分属于不同的设备。

在一些实施例中，序列为文本。

下面参考图8描述本发明文本处理装置的实施例。

图8示出了根据本发明一些实施例的文本处理装置的结构示意图。如图8所示，该所述的文本处理装置80包括：图构建模块810，被配置为针对文本集合构建包括多个节点的图，其中，每个节点对应文本集合中的一个文本；确定模块820，被配置为将每个文本进行转换后而生成的矩阵作为相应节点的、初始的特征矩阵，其中，特征矩阵中包括节点对应的文本中每个元素的初始的向量，其中，元素为文本中的令牌，令牌包括字、词根、词缀中的至少一种；更新模块830，被配置为将图中每个节点的初始的特征矩阵输入到图序列网络中，以便通过图序列网络对每个节点的特征矩阵进行更新；获取模块840，被配置为获得图序列网络输出的每个节点的特征矩阵，作为节点对应的文本的、更新的特征矩阵，以便利用输出的特征矩阵进行文本分类预测，其中，输出的每个节点的特征矩阵中包括节点对应的文本中每个元素对应的、更新的向量。

在一些实施例中，更新模块830进一步被配置为对于图中的每个节点：对于图序列网络的第k层输出的、节点的每个相邻节点，确定节点的特征矩阵与相邻节点的特征矩阵之间的协同注意力编码结果，其中，k为正整数；以及对节点的所有相邻节点对应的协同注意力编码结果进行池化，获得图序列网络的第k+1层输出的、节点的特征矩阵。

在一些实施例中，更新模块830进一步被配置为对于图序列网络的第k层输出的、节点的每个相邻节点，采用以下方式确定节点的特征矩阵与相邻节点的特征矩阵之间的协同注意力编码结果：对于图序列网络的第k层输出的、节点的每个相邻节点，根据第k层输出的、节点的特征矩阵和相邻节点的特征矩阵，计算节点对应的序列中的元素与相邻节点对应的序列中的元素之间的关联关系，获得关联矩阵；利用关联矩阵，分别对第k层输出的、节点的特征矩阵和相邻节点的特征矩阵进行变换，获得第一矩阵和第二矩阵；计算第k层输出的节点的特征矩阵与第一矩阵和第二矩阵之间的关联关系，获得节点的特征矩阵与相邻节点的特征矩阵之间的协同注意力编码结果。

在一些实施例中，文本处理装置80还包括：预测模块850，被配置为根据图序列网络输出的特征矩阵，确定用于预测的特征，其中，用于预测的特征是根据图中一个或多个节点的特征矩阵确定的；将用于预测的输入特征输入到机器学习模型中，获得文本分类预测结果。

在一些实施例中，预测模块850进一步被配置为将用于预测的输入特征输入到机器学习模型中，获得一个或多个节点所涉及的文本中的元素的分类结果，以便根据每个元素的分类结果进行对文本的序列标注。

在一些实施例中，预测模块850进一步被配置为将用于预测的输入特征输入到机器学习模型中，获得对一个或多个节点所涉及的文本进行分类预测的结果；或者，对一个或多个节点所涉及的文本构成的对象进行分类预测的结果。

在一些实施例中，文本处理装置80还包括：编码模块860，被配置为将文本输入到编码器中，获得编码器输出的、文本中每个元素的初始的向量。

图9示出了根据本发明一些实施例的数据处理装置的结构示意图，该数据处理装置可以是序列化数据处理装置或者文本处理。如图9所示，该实施例的数据处理装置90包括：存储器910以及耦接至该存储器910的处理器920，处理器920被配置为基于存储在存储器910中的指令，执行前述任意一个实施例中的数据处理方法。

其中，存储器910例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

图10示出了根据本发明另一些实施例的数据处理装置的结构示意图，该数据处理装置可以是序列化数据处理装置或者文本处理。如图10所示，该实施例的数据处理装置100包括：存储器1010以及处理器1020，还可以包括输入输出接口1030、网络接口1040、存储接口1050等。这些接口1030，1040，1050以及存储器1010和处理器1020之间例如可以通过总线1060连接。其中，输入输出接口1030为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口1040为各种联网设备提供连接接口。存储接口1050为SD卡、U盘等外置存储设备提供连接接口。

本发明的实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现前述任意一种数据处理方法。

本领域内的技术人员应当明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种序列化数据处理方法，包括：

针对序列集合，构建包括多个节点的图，其中，每个节点对应所述序列集合中的一个序列；

确定每个节点的初始的特征矩阵，其中，所述节点的初始的特征矩阵中包括所述节点对应的序列中每个元素的初始的向量；

将所述图中每个节点的初始的特征矩阵输入到图序列网络中，以便所述图序列网络利用每个节点的相邻节点的特征矩阵，对每个节点的特征矩阵进行更新；

获得所述图序列网络输出的每个节点的特征矩阵，以便利用输出的特征矩阵进行基于序列的分类预测，其中，输出的每个节点的特征矩阵中包括所述节点对应的序列中每个元素对应的、更新的向量。

2.根据权利要求1所述的序列化数据处理方法，其中，对于所述图中的每个节点，所述图序列网络的每一层输出的所述节点的特征矩阵是根据上一层输出的所述节点的特征矩阵以及上一层输出的所述节点的相邻节点的特征矩阵确定的。

3.根据权利要求2所述的序列化数据处理方法，其中，所述通过所述图序列网络对每个节点的特征矩阵进行更新包括：

对于所述图中的每个节点：

对于所述图序列网络的第k层输出的、所述节点的每个相邻节点，确定所述节点的特征矩阵与所述相邻节点的特征矩阵之间的协同注意力编码结果，其中，k为正整数；以及

对所述节点的所有相邻节点对应的协同注意力编码结果进行池化，获得所述图序列网络的第k+1层输出的、所述节点的特征矩阵。

4.根据权利要求3所述的序列化数据处理方法，其中，所述对于所述图序列网络的第k层输出的、所述节点的每个相邻节点，确定所述节点的特征矩阵与所述相邻节点的特征矩阵之间的协同注意力编码结果包括：

对于所述图序列网络的第k层输出的、所述节点的每个相邻节点，根据第k层输出的、所述节点的特征矩阵和所述相邻节点的特征矩阵，计算所述节点对应的序列中的元素与所述相邻节点对应的序列中的元素之间的关联关系，获得关联矩阵；

利用所述关联矩阵，分别对所述第k层输出的、所述节点的特征矩阵和所述相邻节点的特征矩阵进行变换，获得第一矩阵和第二矩阵；

计算所述第k层输出的所述节点的特征矩阵与所述第一矩阵和第二矩阵之间的关联关系，获得所述节点的特征矩阵与所述相邻节点的特征矩阵之间的协同注意力编码结果。

5.根据权利要求1所述的序列化数据处理方法，还包括：

根据所述图序列网络输出的特征矩阵，确定用于预测的特征，其中，所述用于预测的特征是根据所述图中一个或多个节点的特征矩阵确定的；

将所述用于预测的输入特征输入到机器学习模型中，获得分类预测结果。

6.根据权利要求5所述的序列化数据处理方法，其中，所述将所述用于预测的输入特征输入到机器学习模型中，获得分类预测结果包括：

将所述用于预测的输入特征输入到机器学习模型中，获得所述一个或多个节点所涉及的序列中的元素的分类结果，以便根据每个元素的分类结果进行序列标注。

7.根据权利要求5所述的序列化数据处理方法，其中，所述将所述用于预测的输入特征输入到机器学习模型中，获得分类预测结果包括：

将所述用于预测的输入特征输入到机器学习模型中，获得对所述一个或多个节点所涉及的序列进行分类预测的结果；或者，对所述一个或多个节点所涉及的序列构成的对象进行分类预测的结果。

8.根据权利要求1所述的序列化数据处理方法，还包括：

将所述序列输入到编码器中，获得所述编码器输出的、序列中每个元素的初始的向量。

9.根据权利要求1～8中任一项所述的序列化数据处理方法，其中，所述序列为文本。

10.根据权利要求9所述的序列化数据处理方法，其中，所述序列中的元素为文本中的令牌，所述令牌包括字、词根、词缀中的至少一种。

11.根据权利要求9所述的序列化数据处理方法，其中，所述序列包括句子、短语、命名实体、名词短语中的一种或多种；

符合以下条件中的至少一个的多个节点为相邻的节点：来自同一个文档的多个句子对应的节点，具有相同的命名实体或名词短语的多个句子对应的多个节点，具有在预先获取的问题文本中出现的命名实体或名词短语的多个句子对应的节点。

12.一种文本处理方法，包括：

针对文本集合构建包括多个节点的图，其中，每个节点对应所述文本集合中的一个文本；

将每个文本进行转换后而生成的矩阵作为相应节点的、初始的特征矩阵，其中，所述特征矩阵中包括所述节点对应的文本中每个元素的初始的向量；

将所述图中每个节点的初始的特征矩阵输入到图序列网络中，以便通过所述图序列网络对每个节点的特征矩阵进行更新；

获得所述图序列网络输出的每个节点的特征矩阵，作为所述节点对应的文本的、更新的特征矩阵，以便利用输出的特征矩阵进行文本分类预测，其中，输出的每个节点的特征矩阵中包括所述节点对应的文本中每个元素对应的、更新的向量。

13.一种序列化数据处理装置，包括：

图构建模块，被配置为针对序列集合，构建包括多个节点的图，其中，每个节点对应所述序列集合中的一个序列；

确定模块，被配置为确定每个节点的初始的特征矩阵，其中，所述节点的初始的特征矩阵中包括所述节点对应的序列中每个元素的初始的向量；

更新模块，被配置为将所述图中每个节点的初始的特征矩阵输入到图序列网络中，以便所述图序列网络利用每个节点的相邻节点的特征矩阵，对每个节点的特征矩阵进行更新；

获取模块，被配置为获得所述图序列网络输出的每个节点的特征矩阵，以便利用输出的特征矩阵进行基于序列的分类预测，其中，输出的每个节点的特征矩阵中包括所述节点对应的序列中每个元素对应的、更新的向量。

14.一种文本处理装置，包括：

图构建模块，被配置为针对文本集合构建包括多个节点的图，其中，每个节点对应所述文本集合中的一个文本；

确定模块，被配置为将每个文本进行转换后而生成的矩阵作为相应节点的、初始的特征矩阵，其中，所述特征矩阵中包括所述节点对应的文本中每个元素的初始的向量，其中，所述元素为文本中的令牌，所述令牌包括字、词根、词缀中的至少一种；

更新模块，被配置为将所述图中每个节点的初始的特征矩阵输入到图序列网络中，以便通过所述图序列网络对每个节点的特征矩阵进行更新；

获取模块，被配置为获得所述图序列网络输出的每个节点的特征矩阵，作为所述节点对应的文本的、更新的特征矩阵，以便利用输出的特征矩阵进行文本分类预测，其中，输出的每个节点的特征矩阵中包括所述节点对应的文本中每个元素对应的、更新的向量。

15.一种序列化数据处理装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1～11中任一项所述的序列化数据处理方法。

16.一种文本处理装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求12所述的文本处理方法。

17.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1～11中任一项所述的序列化数据处理方法、或者权利要求12所述的文本处理方法。