CN116029294A

CN116029294A - 词项配对方法、装置及设备

Info

Publication number: CN116029294A
Application number: CN202310322512.9A
Authority: CN
Inventors: 蔡倩华; 杨锦杰; 薛云
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-04-28
Anticipated expiration: 2043-03-30
Also published as: CN116029294B

Abstract

本发明涉及信息处理领域，特别涉及一种词项配对方法、装置、设备以及存储介质，方法包括：通过结合待测语句的依赖类型信息以及词性标注信息，充分利用待测语句的句法信息，以及有效地提取词项的边界信息，准确地对待测语句中的词项进行识别，并基于依赖关系信息，提高了待测语句的各个词项的关联性，从而更加精确地对待测语句的各个词项进行词项配对。

Description

词项配对方法、装置及设备

技术领域

本发明涉及信息处理领域，特别涉及是一种词项配对方法、装置、设备以及存储介质。

背景技术

细粒度情感分析是自然语言处理的一项重要任务，是现在的研究热点。随着网络时代的发展，人们会通过各种社交媒体或APP对一些产品、商铺、人物等发表自己的观点，通常在一个评论语句当中会出现一个或多个用户评论的特定方面，即属性词，并且用户会运用带有一定感情色彩的用词进行表达，即情感词。属性词和情感词成对抽取（PAOTE）是细粒度情感分析的一项子任务，旨在成对抽取用户评论中所以配对的属性词和情感词，可以给产品和服务提供一个全面的概要，帮助后续的基于属性词的情感分析任务。

目前的PAOTE任务可以被分为分离抽取方法和端对端抽取方法。然而，采用分离抽取方法进行词对抽取容易造成错误传播，同时对现实场景应用价值低。采用端对端的方法进行词对抽取存在一定的缺陷，比如没有利用好句法信息和有效地提取词项的边界信息，同时没有很好地避免词项配对错误的问题，如上句子中有多个属性词和情感词，则要处理多个属性词与情感词之间的关系，容易出现配对错误的情况。

发明内容

基于此，本发明的目的在于，提供一种词项配对方法、装置、设备以及存储介质，通过结合待测语句的依赖类型信息以及词性标注信息，充分利用待测语句的句法信息，以及有效地提取词项的边界信息，准确地对待测语句中的词项进行识别，并基于依赖关系信息，提高了待测语句的各个词项的关联性，从而更加精确地对待测语句的各个词项进行词项配对。

第一方面，本申请实施例提供了一种词项配对方法，包括以下步骤：

获得待测语句、所述待测语句对应的依赖信息、词性标注信息以及预设的词项词对处理模型，其中，所述待测语句包括若干个单词，所述依赖信息包括依赖类型信息以及依赖关系信息，所述词项词对处理模型包括词嵌入模块、特征提取模块、特征融合模块、词项类型预测模块以及词对配对模块；

将所述待测语句输入至所述词嵌入模块中进行编码处理，获取所述待测语句的若干个单词的词嵌入向量；

将所述依赖类型信息以及词性标注信息输入至所述特征提取模块中进行特征提取，获得所述待测语句的若干个单词的词性标注向量以及依赖类型向量；

将所述待测语句的若干个单词的词嵌入向量、词性标注向量以及依赖类型向量输入至所述特征融合模块中进行特征融合处理，获得所述待测语句的若干个单词的特征融合向量；

根据预设的词项长度，对所述待测语句的若干个单词进行组合，获得所述待测语句的若干个词项，将所述待测语句的若干个词项的各个单词的特征融合向量输入至所述词项类型预测模块中进行词项识别，获得所述待测语句的若干个词项的词项类型；

根据所述依赖关系信息，构建所述待测语句的邻接矩阵，根据所述待测语句的若干个词项的词项类型，对所述待测语句的邻接矩阵进行修正处理，获得修正处理后的所述待测语句的邻接矩阵；

将所述修正处理后的所述待测语句的邻接矩阵、若干个词项的各个单词的特征融合向量以及若干个词项的词项类型输入至所述词对配对模块中，对所述若干个词项进行两两配对，获得所述待测语句的若干个目标词组。

第二方面，本申请实施例提供了一种词项配对装置，包括：

数据获取模块，用于获得待测语句、所述待测语句对应的依赖信息、词性标注信息以及预设的词项词对处理模型，其中，所述待测语句包括若干个单词，所述依赖信息包括依赖类型信息以及依赖关系信息，所述词项词对处理模型包括词嵌入模块、特征提取模块、特征融合模块、词项类型预测模块以及词对配对模块；

编码模块，用于将所述待测语句输入至所述词嵌入模块中进行编码处理，获取所述待测语句的若干个单词的词嵌入向量；

特征提取模块，用于将所述依赖类型信息以及词性标注信息输入至所述特征提取模块中进行特征提取，获得所述待测语句的若干个单词的词性标注向量以及依赖类型向量；

特征融合模块，用于将所述待测语句的若干个单词的词嵌入向量、词性标注向量以及依赖类型向量输入至所述特征融合模块中进行特征融合处理，获得所述待测语句的若干个单词的特征融合向量；

词项类型预测模块，用于根据预设的词项长度，对所述待测语句的若干个单词进行组合，获得所述待测语句的若干个词项，将所述待测语句的若干个词项的各个单词的特征融合向量输入至所述词项类型预测模块中进行词项识别，获得所述待测语句的若干个词项的词项类型；

邻接矩阵构建模块，用于根据所述依赖关系信息，构建所述待测语句的邻接矩阵，根据所述待测语句的若干个词项的词项类型，对所述待测语句的邻接矩阵进行修正处理，获得修正处理后的所述待测语句的邻接矩阵；

词项配对模块，用于将所述修正处理后的所述待测语句的邻接矩阵、若干个词项的各个单词的特征融合向量以及若干个词项的词项类型输入至所述词对配对模块中，对所述若干个词项进行两两配对，获得所述待测语句的若干个目标词组。

第三方面，本申请实施例提供了一种计算机设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述计算机程序被所述处理器执行时实现如第一方面所述词项配对方法的步骤。

第四方面，本申请实施例提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的词项配对方法的步骤。

在本申请实施例中，提供一种词项配对方法、装置、设备以及存储介质，通过结合待测语句的依赖类型信息以及词性标注信息，充分利用待测语句的句法信息，以及有效地提取词项的边界信息，准确地对待测语句中的词项进行识别，并基于依赖关系信息，提高了待测语句的各个词项的关联性，从而更加精确地对待测语句的各个词项进行词项配对。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本申请一个实施例提供的词项配对方法的流程示意图；

图2为本申请一个实施例提供的词项配对方法中S3的流程示意图；

图3为本申请一个实施例提供的词项配对方法中S4的流程示意图；

图4为本申请一个实施例提供的词项配对方法中S5的流程示意图；

图5为本申请一个实施例提供的词项配对方法中S6的流程示意图；

图6为本申请一个实施例提供的词项配对方法中S7的流程示意图；

图7为本申请另一个实施例提供的词项配对方法的流程示意图；

图8为本申请一个实施例提供的词项配对装置的结构示意图；

图9为本申请一个实施例提供的计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

请参阅图1，图1为本申请一个实施例提供的词项配对方法的流程示意图，方法包括如下步骤：

S1：获得待测语句、所述待测语句对应的依赖信息、词性标注信息以及预设的词项词对处理模型。

词项配对方法的执行主体为词项配对方法的分析设备（以下简称分析设备）。分析设备可以通过软件和/或硬件的方式实现，可以通过软件和/或硬件的方式实现词项配对方法，该分析设备可以是两个或多个物理实体构成，也可以是一个物理实体构成。分析设备所指向的硬件，本质上均是指计算机设备，例如，分析设备可以是电脑、手机、平板或交互平板等设备。在一个可选的实施例中，分析设备具体可以是服务器，或是多台计算机设备联合而成的服务器机群。

待测语句包括若干个单词，所述单词包括属性词以及情感词。

依赖信息包括依赖类型信息以及依赖关系信息，其中，依赖类型信息为单词与单词之间的依赖类型向量表示，具体地，依赖类型有42种，每种依赖类型都有对应的向量表示。依赖关系信息为单词与单词之间的具有依赖关系。

词性标注信息为若干个单词对应的词性标注向量表示，词性有47种，每种词性标注都有对应的向量表示。

所述词项词对处理模型包括词嵌入模块、特征提取模块、特征融合模块、词项类型预测模块以及词对配对模块；

在本实施例中，分析设备可以获取用户输入的获取待测语句的句子表示，可以通过使用StanfordCoreNLP工具对待测语句进行分析，获取与待测语句相关联的依赖信息以及词性标注信息，也可以在预设的数据库中，获取待测语句的句子表示、依赖信息以及词性标注信息。

S2：将所述待测语句输入至所述词嵌入模块中进行编码处理，获取所述待测语句的若干个单词的词嵌入向量。

词嵌入模型可以采用BERT（Bidirectional Encoder Representation fromTransformers）模型，也可以采用GloVe模型。

在本实施例中，分析设备将待测语句的句子表示输入至预设的词嵌入模型，使用BERT模型对待测语句进行编码，获取所述待测语句的词嵌入表示，包括若干个单词对应的词嵌入向量，其中，词嵌入表示为：

式中，X为待测语句的词嵌入，

为第n个单词的单词向量，

为第n个单词的词嵌入向量。

S3：将所述依赖类型信息以及词性标注信息输入至所述特征提取模块中进行特征提取，获得所述待测语句的若干个单词的词性标注向量以及依赖类型向量。

在本实施例中，分析设备将所述依赖类型信息以及词性标注信息输入至所述特征提取模块中进行特征提取，获得所述待测语句的若干个单词的词性标注向量以及依赖类型向量。

请参阅图2，图2为本申请一个实施例提供的词项配对方法中S3的流程示意图，包括步骤S31~S32，具体如下：

S31：根据所述依赖类型信息，构建所述待测语句的若干个单词的依赖类型矩阵，所述依赖类型矩阵包括若干个依赖类型向量，根据所述待测语句的若干个单词的依赖类型矩阵以及预设的依赖类型向量平均算法，获得所述待测语句的若干个单词的依赖类型向量。

所述依赖类型向量表示单词与待测语句中其他若干个单词之间的依赖类型。

在本实施例中，分析设备根据所述依赖类型信息，构建所述待测语句的若干个单词的依赖类型矩阵，所述依赖类型矩阵包括若干个依赖类型向量，根据所述待测语句的若干个单词的依赖类型矩阵以及预设的依赖类型向量平均算法，获得所述待测语句的若干个单词的依赖类型向量，其中，所述依赖类型向量平均算法为：

式中，

为第i个单词的依赖类型向量，v为依赖类型向量的数目，

为第i个单词的依赖类型矩阵中第v个依赖类型向量。

S32：根据所述词性标注信息，构建所述待测语句的词性标注表示。

在本实施例中，分析设备，其中，所述词性标注表示包括若干个单词的词性标注向量，所述词性标注表示为：

式中，p为词性标注表示，

为第i个单词的词性标注向量。

S4：将所述待测语句的若干个单词的词嵌入向量、词性标注向量以及依赖类型向量输入至所述特征融合模块中进行特征融合处理，获得所述待测语句的若干个单词的特征融合向量。

在本实施例中，分析设备将所述待测语句的若干个单词的词嵌入向量、词性标注向量以及依赖类型向量输入至所述特征融合模块中进行特征融合处理，获得所述待测语句的若干个单词的特征融合向量。

请参阅图3，图3为本申请一个实施例提供的词项配对方法中S4的流程示意图，包括步骤S41~S43，具体如下：

S41：将同一个单词的词嵌入向量、词性标注向量以及依赖类型向量进行拼接处理，获得所述待测语句的若干个单词的特征拼接向量。

在本实施例中，分析设备将同一个单词的词嵌入向量、词性标注向量以及依赖类型向量进行拼接处理，获得所述待测语句的若干个单词的特征拼接向量，具体如下：

式中，

为第i个单词的特征拼接向量，

为特征拼接符号。

S42：根据所述待测语句的若干个单词的特征拼接向量以及预设的第一卷积算法，获得所述待测语句的若干个单词的若干个第一卷积向量。

所述第一卷积算法为：

式中，

为第i个单词的第k个第一卷积向量，

为激活函数，

为第一权重参数，

为若干个单词的句法特征向量，

为第一偏置参数。

在本实施例中，分析设备根据所述待测语句的若干个单词的特征拼接向量以及预设的第一卷积算法，获得所述待测语句的若干个单词的若干个第一卷积向量。

S43：根据预设的特征拼接算法，将同一个单词的第一卷积向量进行拼接处理，获得所述待测语句的若干个单词的特征融合向量。

所述特征拼接算法为：

式中，

为第i个单词的特征融合向量，

为特征维度，

为特征拼接符号。

在本实施例中，分析设备根据预设的特征拼接算法，将同一个单词的第一卷积向量进行拼接处理，获得所述待测语句的若干个单词的特征融合向量。

S5：根据预设的词项长度，对所述待测语句的若干个单词进行组合，获得所述待测语句的若干个词项，将所述待测语句的若干个词项的各个单词的特征融合向量输入至所述词项类型预测模块中进行词项识别，获得所述待测语句的若干个词项的词项类型。

在本实施例中，分析设备根据预设的词项长度，对所述待测语句的若干个单词进行组合，获得所述待测语句的若干个词项，将所述待测语句的若干个词项的各个单词的特征融合向量输入至所述词项类型预测模块中进行词项识别，获得所述待测语句的若干个词项的词项类型。

请参阅图4，图4为本申请一个实施例提供的词项配对方法中S5的流程示意图，包括步骤S51~S52，具体如下：

S51：根据所述待测语句的若干个词项的各个单词的特征融合向量以及预设的词项特征计算算法，获得所述待测语句的若干个词项的词项特征向量。

所述词项特征计算算法为：

式中，

为第q个词项的第一池化特征向量，

为池化函数，

为第q个词项的开端单词的特征融合向量，

为第q个词项的结尾单词的特征融合向量，

为第q个词项的词项特征向量，

为特征拼接符号。

在本实施例中，分析设备根据所述待测语句的若干个词项的各个单词的特征融合向量以及预设的词项特征计算算法，获得所述待测语句的若干个词项的词项特征向量。

S52：根据所述待测语句的若干个词项的词项特征向量以及预设的词项识别算法，获取所述待测语句的若干个词项的词项极性概率分布向量，根据所述词项极性概率分布向量，获取概率最大的维度对应的词项极性，作为所述词项类型。

所述词项识别算法为：

式中，

为第q个单词的词项极性概率分布向量，

为第二权重参数，

为归一化函数，

为正则化函数，

为第二偏置参数。

在本实施例中，分析设备根据所述待测语句的若干个词项的词项特征向量以及预设的词项识别算法，获取所述待测语句的若干个词项的词项极性概率分布向量，根据所述词项极性概率分布向量，获取概率最大的维度对应的词项极性，作为所述词项类型。

S6：根据所述依赖关系信息，构建所述待测语句的邻接矩阵，根据所述待测语句的若干个词项的词项类型，对所述待测语句的邻接矩阵进行修正处理，获得修正处理后的所述待测语句的邻接矩阵。

所述邻接矩阵包括若干个邻接向量，所述邻接向量表示所述待测语句的若干个单词之间的依赖关系；所述词项类型包括属性词词项、情感词词项以及其他词项。在本实施例中，分析设备根据所述依赖关系信息，构建所述待测语句的邻接矩阵，根据所述待测语句的若干个词项的词项类型，对所述待测语句的邻接矩阵进行修正处理，获得修正处理后的所述待测语句的邻接矩阵。

请参阅图5，图5为本申请一个实施例提供的词项配对方法中S6的流程示意图，包括步骤S61~S62，具体如下：

S61：根据所述待测语句的若干个词项的词项极性，对所述待测语句的邻接矩阵中，词项类型为其他词项类型对应的若干个邻接向量进行标记，作为目标邻接向量。

在本实施例中，分析设备根据所述待测语句的若干个词项的词项极性，对所述待测语句的邻接矩阵中，词项类型为其他词项类型对应的若干个邻接向量进行标记，作为目标邻接向量。

S62：根据预设的修正值，对所述待测语句的邻接矩阵中，若干个目标邻接向量进行修正处理，获得修正处理后的所述待测语句的邻接矩阵。

在本实施例中，分析设备根据预设的修正值，对所述待测语句的邻接矩阵中，若干个目标邻接向量进行修正处理，获得修正处理后的所述待测语句的邻接矩阵。

S7：将所述修正处理后的所述待测语句的邻接矩阵、若干个词项的各个单词的特征融合向量以及若干个词项的词项类型输入至所述词对配对模块中，对所述若干个词项进行两两配对，获得所述待测语句的若干个目标词组。

在本实施例中，分析设备将所述修正处理后的所述待测语句的邻接矩阵、若干个词项的各个单词的特征融合向量以及若干个词项的词项类型输入至所述词对配对模块中，对所述若干个词项进行两两配对，获得所述待测语句的若干个目标词组。

所述词对配对模块包括多层图卷积模块，多层图卷积模块可以采用DPGCN（Dependency-Pos Graph Convolution Network）图卷积神经网络。请参阅图6，图6为本申请一个实施例提供的词项配对方法中S7的流程示意图，包括步骤S71~S74，具体如下：

S71：将所述修正处理后的所述待测语句的邻接矩阵以及若干个词项的各个单词的特征融合向量输入至所述多层图特征融合模块，根据预设的第二卷积算法，获得所述待测语句的若干个词项的各个单词的第二卷积向量。

所述第二卷积算法为：

式中，

为所述多层图特征融合模块的第l层输出的第i个单词的第二卷积向量，

为激活函数；

为修正处理后的所述待测语句的邻接矩阵中第i个单词与第j个单词之间的邻接向量，

为第三权重参数，

为第三偏置参数。

在本实施例中，分析设备将所述修正处理后的所述待测语句的邻接矩阵以及若干个词项的各个单词的特征融合向量输入至所述多层图特征融合模块，根据预设的第二卷积算法，获得所述待测语句的若干个词项的各个单词的第二卷积向量。

S72：根据所述待测语句的若干个词项的词项类型，构建所述待测语句的属性词词项集以及情感词词项集。

所述属性词词项集包括若干个属性词词项，所述情感词词项集包括若干个情感词词项。

在本实施例中，分析设备根据所述待测语句的若干个词项的词项类型，构建所述待测语句的属性词词项集以及情感词词项集。

S73：根据所述待测语句的属性词词项集以及情感词词项集对应的若干个词项的各个单词的第二卷积向量以及预设的词项配对向量计算算法，获得各个属性词词项与各个情感词词项的词项配对向量。

所述词项配对向量计算算法为：

式中，

表示属性词词项集，

为属性词词项集中第q个词项的第二池化特征向量，

为池化函数，

为属性词词项集中第q个词项的开端单词的第二卷积向量，

为属性词词项集中第q个词项的结尾单词的第二卷积向量，

为第j个情感词词项的第二池化特征向量，

为第j个情感词词项的开端单词的第二卷积向量，

为第j个情感词词项的结尾单词的第二卷积向量，

为第三卷积向量，

为第q个属性词词项与第j个情感词词项的词项配对向量。

在本实施例中，分析设备根据所述待测语句的属性词词项集以及情感词词项集对应的若干个词项的各个单词的第二卷积向量以及预设的词项配对向量计算算法，获得各个属性词词项与各个情感词词项的词项配对向量。

S74：根据所述各个属性词词项与各个情感词词项的词项配对向量以及预设的词项配对算法，获取所述各个属性词词项与各个情感词词项的词项配对预测概率分布向量，根据所述词项配对预测概率分布向量，获取概率最大的维度对应的数据，作为所述各个属性词词项与各个情感词词项的的词项配对预测值，根据所述词项配对预测值以及预设的词项配对判断阈值，获得所述待测语句的若干个目标词组。

所述词项配对算法为：

式中，

为属性词词项集中第q个词项与情感词词项集中第j个词项的词项配对预测概率分布向量，

为归一化函数，

为第三权重参数，

为正则化函数，

为第三偏置参数。

在本实施例中，分析设备根据所述各个属性词词项与各个情感词词项的词项配对向量以及预设的词项配对算法，获取所述各个属性词词项与各个情感词词项的词项配对预测概率分布向量，根据所述词项配对预测概率分布向量，获取概率最大的维度对应的数据，作为所述各个属性词词项与各个情感词词项的的词项配对预测值，根据所述词项配对预测值以及预设的词项配对判断阈值，获得所述待测语句的若干个目标词组。

请参阅图7，图7为本申请另一个实施例提供的词项配对方法的流程示意图，还包括步骤：训练所述词项词对处理模型，所述训练所述词项词对处理模型，包括步骤S81~S86，具体如下：

S81：获得训练语句集、依赖信息集以及词性标注信息集。

在本实施例中，分析设备从预设的数据库中，获得训练语句集、依赖信息集以及词性标注信息集，其中，所述训练语句集中包括若干个训练语句，所述训练语句包括若干个单词；所述依赖信息集包括所述若干个训练语句对应的依赖信息，所述词性标注信息集包括所述若干个训练语句的若干个单词的词性标注信息。

具体地，所述训练语句集可以采用Lap14和Res14数据集，Lap14和Res14数据集来自SemEval-2014 Task4，主要用于细粒度情感分析，每个领域的数据集都分为训练数据、验证数据（从训练数据分离出来）和测试数据，其中Lap14包含2966条评论，Res14包含4728条评论，每条评论都有标记出其中的属性词、情感词以及属性词-情感词对。

Res15和Res16数据集分别来自semEval-2015 Task12和semEval-2016 Task5，也使用细粒度情感分析的基准数据集，其中Res15包含1746条评论，Res16包含2364条评论。每条评论都有标记出其中的属性词、情感词以及属性词-情感词对。

S82：将所述训练语句集、依赖信息集以及词性标注信息集输入至待训练的词项词对处理模型，构建第一特征向量训练集、第二特征向量训练集以及第三特征向量训练集。

所述第一特征向量训练集包括若干个属性词项的词项特征向量，所述第二特征向量训练集包括若干个情感词项的词项特征向量，所述第三特征向量训练集包括若干个其他词项的词项特征向量；所述正例特征向量训练集包括若干个训练语句对应的非属性词项-情感词项配对结果对应的若干个词项的词项特征向量。

在本实施例中，分析设备将所述训练语句集、依赖信息集以及词性标注信息集输入至待训练的词项词对处理模型，构建第一特征向量训练集、第二特征向量训练集以及第三特征向量训练集。

S83：根据所述第一特征向量训练集、第二词项特征向量训练集、第三词项特征向量训练集以及预设的第一损失函数，获得第一损失值。

所述第一损失函数为：

式中，

为第一子损失值，

为第二子损失值，m为属性词项的词项特征向量数目，n为情感词项的词项特征向量数目，u为其他词项的词项特征向量数目，

为第q个属性词项的词项特征向量，

为第j个属性词项的词项特征向量，

为第j个情感词项的词项特征向量，

为第q个情感词项的词项特征向量，

为第q个其他词项的词项特征向量，sim（）为余弦相似度函数，τ为温度系数。

在本实施例中，分析设备根据所述第一特征向量训练集、第二词项特征向量训练集、第三词项特征向量训练集以及预设的第一损失函数，获得第一损失值。

S84：获得若干个训练语句对应的若干个目标词组，根据所述若干个训练语句对应的若干个目标词组，构建正例特征向量训练集以及负例特征向量训练集。

在本实施例中，分析设备获得若干个训练语句对应的若干个目标词组，根据所述若干个训练语句对应的若干个目标词组，构建正例特征向量训练集以及负例特征向量训练集，其中，所述正例特征向量训练集包括若干个目标词组的属性词项与情感词项的词项配对向量，所述负例特征向量训练集包括若干个非目标词组的属性词项与情感词项的词项配对向量。

S85：根据所述正例特征向量训练集、负例特征向量训练集以及预设的第二损失函数，获得第二损失值。

所述第二损失函数为：

式中，

为第二损失值，S为所述正例特征向量训练集中目标词组的属性词项与情感词项的词项配对向量的数目，D为所述负例特征向量训练集中非目标词组的属性词项与情感词项的词项配对向量的数目，

为正例特征向量训练集中第s个目标词组的属性词项与情感词项的词项配对向量，

为正例特征向量训练集中第d个目标词组的属性词项与情感词项的词项配对向量，

为负例特征向量训练集中第d个目标词组的属性词项与情感词项的词项配对向量。

在本实施例中，分析设备根据所述正例特征向量训练集、负例特征向量训练集以及预设的第二损失函数，获得第二损失值。

S86：根据所述第一损失值以及第二损失值，对所述待训练的词项词对处理模型进行训练，获得目标词项词对处理模型。

在本实施例中，分析设备根据所述第一损失值以及第二损失值，对所述待训练的词项词对处理模型进行训练，获得目标词项词对处理模型。在模型训练过程中采用对比学习方法，提高词项配对效果。

请参考图8，图8为本申请一个实施例提供的词项配对装置的结构示意图，该装置可以通过软件、硬件或两者的结合实现词项配对装置的全部或一部分，该装置8包括：

数据获取模块81，用于获得待测语句、所述待测语句对应的依赖信息、词性标注信息以及预设的词项词对处理模型，其中，所述待测语句包括若干个单词，所述依赖信息包括依赖类型信息以及依赖关系信息，所述词项词对处理模型包括词嵌入模块、特征提取模块、特征融合模块、词项类型预测模块以及词对配对模块；

编码模块82，用于将所述待测语句输入至所述词嵌入模块中进行编码处理，获取所述待测语句的若干个单词的词嵌入向量；

特征提取模块83，用于将所述依赖类型信息以及词性标注信息输入至所述特征提取模块中进行特征提取，获得所述待测语句的若干个单词的词性标注向量以及依赖类型向量；

特征融合模块84，用于将所述待测语句的若干个单词的词嵌入向量、词性标注向量以及依赖类型向量输入至所述特征融合模块中进行特征融合处理，获得所述待测语句的若干个单词的特征融合向量；

词项类型预测模块85，用于根据预设的词项长度，对所述待测语句的若干个单词进行组合，获得所述待测语句的若干个词项，将所述待测语句的若干个词项的各个单词的特征融合向量输入至所述词项类型预测模块中进行词项识别，获得所述待测语句的若干个词项的词项类型；

邻接矩阵构建模块86，用于根据所述依赖关系信息，构建所述待测语句的邻接矩阵，根据所述待测语句的若干个词项的词项类型，对所述待测语句的邻接矩阵进行修正处理，获得修正处理后的所述待测语句的邻接矩阵；

词项配对模块87，用于将所述修正处理后的所述待测语句的邻接矩阵、若干个词项的各个单词的特征融合向量以及若干个词项的词项类型输入至所述词对配对模块中，对所述若干个词项进行两两配对，获得所述待测语句的若干个目标词组。

在本实施例中，通过数据获取模块，获得待测语句、所述待测语句对应的依赖信息、词性标注信息以及预设的词项词对处理模型，其中，所述待测语句包括若干个单词，所述依赖信息包括依赖类型信息以及依赖关系信息，所述词项词对处理模型包括词嵌入模块、特征提取模块、特征融合模块、词项类型预测模块以及词对配对模块；通过编码模块，将所述待测语句输入至所述词嵌入模块中进行编码处理，获取所述待测语句的若干个单词的词嵌入向量；通过特征提取模块，将所述依赖类型信息以及词性标注信息输入至所述特征提取模块中进行特征提取，获得所述待测语句的若干个单词的词性标注向量以及依赖类型向量；通过特征融合模块，将所述待测语句的若干个单词的词嵌入向量、词性标注向量以及依赖类型向量输入至所述特征融合模块中进行特征融合处理，获得所述待测语句的若干个单词的特征融合向量；通过词项类型预测模块，根据预设的词项长度，对所述待测语句的若干个单词进行组合，获得所述待测语句的若干个词项，将所述待测语句的若干个词项的各个单词的特征融合向量输入至所述词项类型预测模块中进行词项识别，获得所述待测语句的若干个词项的词项类型；通过邻接矩阵构建模块，根据所述依赖关系信息，构建所述待测语句的邻接矩阵，根据所述待测语句的若干个词项的词项类型，对所述待测语句的邻接矩阵进行修正处理，获得修正处理后的所述待测语句的邻接矩阵；通过词项配对模块，将所述修正处理后的所述待测语句的邻接矩阵、若干个词项的各个单词的特征融合向量以及若干个词项的词项类型输入至所述词对配对模块中，对所述若干个词项进行两两配对，获得所述待测语句的若干个目标词组。通过结合待测语句的依赖类型信息以及词性标注信息，充分利用待测语句的句法信息，以及有效地提取词项的边界信息，准确地对待测语句中的词项进行识别，并基于依赖关系信息，提高了待测语句的各个词项的关联性，从而更加精确地对待测语句的各个词项进行词项配对。

请参考图9，图9为本申请一个实施例提供的计算机设备的结构示意图，计算机设备9包括：处理器91、存储器92以及存储在存储器92上并可在处理器91上运行的计算机程序93；计算机设备可以存储有多条指令，指令适用于由处理器91加载并执行上述图1至图7的方法步骤，具体执行过程可以参见图1至图7的具体说明，在此不进行赘述。

其中，处理器91可以包括一个或多个处理核心。处理器91利用各种接口和线路连接服务器内的各个部分，通过运行或执行存储在存储器92内的指令、程序、代码集或指令集，以及调用存储器92内的数据，执行词项配对装置8的各种功能和处理数据，可选的，处理器91可以采用数字信号处理（Digital Signal Processing，DSP）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）、可编程逻辑阵列（Programble Logic Array，PLA）中的至少一个硬件形式来实现。处理器91可集成中央处理器91（Central ProcessingUnit，CPU）、图像处理器91（Graphics Processing Unit，GPU）和调制解调器等中的一个或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器91中，单独通过一块芯片进行实现。

其中，存储器92可以包括随机存储器92（Random Access Memory，RAM），也可以包括只读存储器92（Read-Only Memory）。可选的，该存储器92包括非瞬时性计算机可读介质（non-transitory computer-readable storage medium）。存储器92可用于存储指令、程序、代码、代码集或指令集。存储器92可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令（比如触控指令等）、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器92可选的还可以是至少一个位于远离前述处理器91的存储装置。

本申请实施例还提供了一种存储介质，所述存储介质可以存储有多条指令，所述指令适用于由处理器加载并执行上述图1至图7的方法步骤，具体执行过程可以参见图1至图7的具体说明，在此不进行赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束算法。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种词项配对方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的词项配对方法，其特征在于，所述将所述依赖类型信息以及词性标注信息输入至所述特征提取模块中进行特征提取，获得所述待测语句的若干个单词的词性标注向量以及依赖类型向量，包括步骤：

根据所述依赖类型信息，构建所述待测语句的若干个单词的依赖类型矩阵，所述依赖类型矩阵包括若干个依赖类型向量，根据所述待测语句的若干个单词的依赖类型矩阵以及预设的依赖类型向量平均算法，获得所述待测语句的若干个单词的依赖类型向量，其中，所述依赖类型向量平均算法为：

式中，

为第i个单词的依赖类型向量，v为依赖类型向量的数目，

为第i个单词的依赖类型矩阵中第v个依赖类型向量；

根据所述词性标注信息，构建所述待测语句的词性标注表示，其中，所述词性标注表示包括若干个单词的词性标注向量，所述词性标注表示为：

式中，p为词性标注表示，

为第i个单词的词性标注向量。

3.根据权利要求1所述的词项配对方法，其特征在于，所述将所述待测语句的若干个单词的词嵌入向量、词性标注向量以及依赖类型向量输入至所述特征融合模块中进行特征融合处理，获得所述待测语句的若干个单词的特征融合向量，包括步骤：

将同一个单词的词嵌入向量、词性标注向量以及依赖类型向量进行拼接处理，获得所述待测语句的若干个单词的特征拼接向量；

根据所述待测语句的若干个单词的特征拼接向量以及预设的第一卷积算法，获得所述待测语句的若干个单词的若干个第一卷积向量，其中，所述第一卷积算法为：

式中，

为第i个单词的第k个第一卷积向量，

为激活函数，

为第一权重参数，

为若干个单词的句法特征向量，

为第一偏置参数；

根据预设的特征拼接算法，将同一个单词的第一卷积向量进行拼接处理，获得所述待测语句的若干个单词的特征融合向量，其中，所述特征拼接算法为：

式中，

为第i个单词的特征融合向量，

为特征维度，

为特征拼接符号。

4.根据权利要求3所述的词项配对方法，其特征在于，所述将所述待测语句的若干个词项的各个单词的特征融合向量输入至所述词项类型预测模块中进行词项识别，获得所述待测语句的若干个词项的词项类型，包括步骤：

根据所述待测语句的若干个词项的各个单词的特征融合向量以及预设的词项特征计算算法，获得所述待测语句的若干个词项的词项特征向量，其中，所述词项特征计算算法为：

式中，

为第q个词项的第一池化特征向量，

为池化函数，

为第q个词项的开端单词的特征融合向量，

为第q个词项的结尾单词的特征融合向量，

为第q个词项的词项特征向量，

为特征拼接符号；

根据所述待测语句的若干个词项的词项特征向量以及预设的词项识别算法，获取所述待测语句的若干个词项的词项极性概率分布向量，根据所述词项极性概率分布向量，获取概率最大的维度对应的词项极性，作为所述词项类型，其中，所述词项识别算法为：

式中，

为第q个单词的词项极性概率分布向量，

为第二权重参数，

为归一化函数，

为正则化函数，

为第二偏置参数。

5.根据权利要求4所述的词项配对方法，其特征在于：所述邻接矩阵包括若干个邻接向量，所述邻接向量表示所述待测语句的若干个单词之间的依赖关系；所述词项类型包括属性词词项、情感词词项以及其他词项；

所述根据所述待测语句的若干个词项的词项类型，对所述待测语句的邻接矩阵进行修正处理，获得修正处理后的所述待测语句的邻接矩阵，包括步骤：

根据所述待测语句的若干个词项的词项极性，对所述待测语句的邻接矩阵中，词项类型为其他词项类型对应的若干个邻接向量进行标记，作为目标邻接向量；

根据预设的修正值，对所述待测语句的邻接矩阵中，若干个目标邻接向量进行修正处理，获得修正处理后的所述待测语句的邻接矩阵。

6.根据权利要求5所述的词项配对方法，其特征在于：所述词对配对模块包括多层图卷积模块；

所述将所述修正处理后的所述待测语句的邻接矩阵、若干个词项的各个单词的特征融合向量以及若干个词项的词项类型输入至所述词对配对模块中，对所述若干个词项进行两两配对，获得所述待测语句的若干个目标词组，包括步骤：

将所述修正处理后的所述待测语句的邻接矩阵以及若干个词项的各个单词的特征融合向量输入至所述多层图卷积模块，根据预设的第二卷积算法，获得所述待测语句的若干个词项的各个单词的第二卷积向量，其中，所述第二卷积算法为：

式中，

为所述多层图卷积模块的第l层输出的第i个单词的第二卷积向量，

为激活函数；

为第三权重参数，

为第三偏置参数；

根据所述待测语句的若干个词项的词项类型，构建所述待测语句的属性词词项集以及情感词词项集，其中，所述属性词词项集包括若干个属性词词项，所述情感词词项集包括若干个情感词词项；

根据所述待测语句的属性词词项集以及情感词词项集对应的若干个词项的各个单词的第二卷积向量以及预设的词项配对向量计算算法，获得各个属性词词项与各个情感词词项的词项配对向量，其中，所述词项配对向量计算算法为：

式中，

表示属性词词项集，

为属性词词项集中第q个词项的第二池化特征向量，

为池化函数，

为属性词词项集中第q个词项的开端单词的第二卷积向量，

为属性词词项集中第q个词项的结尾单词的第二卷积向量，

为第j个情感词词项的第二池化特征向量，

为第j个情感词词项的开端单词的第二卷积向量，

为第j个情感词词项的结尾单词的第二卷积向量，

为第三卷积向量，

为第q个属性词词项与第j个情感词词项的词项配对向量；

根据所述各个属性词词项与各个情感词词项的词项配对向量以及预设的词项配对算法，获取所述各个属性词词项与各个情感词词项的词项配对预测概率分布向量，根据所述词项配对预测概率分布向量，获取概率最大的维度对应的数据，作为所述各个属性词词项与各个情感词词项的的词项配对预测值，根据所述词项配对预测值以及预设的词项配对判断阈值，获得所述待测语句的若干个目标词组，其中，所述词项配对算法为：

式中，

为归一化函数，

为第三权重参数，

为正则化函数，

为第三偏置参数。

7.根据权利要求6所述的词项配对方法，其特征在于，还包括步骤：训练所述词项词对处理模型，所述训练所述词项词对处理模型，包括步骤：

获得训练语句集、依赖信息集以及词性标注信息集，其中，所述训练语句集中包括若干个训练语句，所述训练语句包括若干个单词；所述依赖信息集包括所述若干个训练语句对应的依赖信息，所述词性标注信息集包括所述若干个训练语句的若干个单词的词性标注信息；

将所述训练语句集、依赖信息集以及词性标注信息集输入至待训练的词项词对处理模型，构建第一特征向量训练集、第二特征向量训练集以及第三特征向量训练集，其中，所述第一特征向量训练集包括若干个属性词项的词项特征向量，所述第二特征向量训练集包括若干个情感词项的词项特征向量，所述第三特征向量训练集包括若干个其他词项的词项特征向量；所述正例特征向量训练集包括若干个训练语句对应的非属性词项-情感词项配对结果对应的若干个词项的词项特征向量；

根据所述第一特征向量训练集、第二词项特征向量训练集、第三词项特征向量训练集以及预设的第一损失函数，获得第一损失值，其中，所述第一损失函数为：