CN112528006B

CN112528006B - 一种文本处理方法以及装置

Info

Publication number: CN112528006B
Application number: CN201910882666.7A
Authority: CN
Inventors: 于谦; 邴立东; 张琼
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2024-03-01
Anticipated expiration: 2039-09-18
Also published as: CN112528006A

Abstract

本申请公开了一种文本处理方法以及装置，该方法包括：获得针对目标对象的目标评论数据；获得目标评论数据对应的针对目标对象的第一通用特征数据以及第一通用特征数据的概率分布信息；将目标评论数据、第一通用特征数据以及第一通用特征数据的概率分布信息作为生成器的输入数据，生成与目标评论数据相对应的目标提问数据。通过使用该方法，可在商品评论信息的基础上增加与该评论信息对应的提问数据，以使用户能够从大量评论信息中快速甄选出其感兴趣的信息，以此辅助用户进行针对商品评论信息进行阅读，可有效解决现有的电子商务平台因未辅助用户阅读商品评论信息而导致商品评论信息无法作为优质信息源的问题。

Description

一种文本处理方法以及装置

技术领域

本申请涉及计算机技术领域，具体涉及一种文本处理方法。本申请同时涉及一种文本处理装置以及一种电子设备。本申请还涉及一种数据生成系统。

背景技术

随着网络购物的发展，各电子商务平台积累了海量优质的商品评论信息。这些商品评论信息大多为来自不同用户、且没有特定格式的文本信息，其反映了商品的诸多特性和使用体验，可作为针对商品的优质信息源，对于潜在用户和电子商务平台均具有可利用价值。

然而，由于商品评论信息的长度过长、主题跳跃性强等因素的影响，导致其无法吸引潜在用户进行全文阅读，而现有的电子商务平台缺少辅助用户针对商品评论信息进行高效全文阅读的机制，导致商品评论信息无法作为商品的优质信息源。

发明内容

本申请提供一种文本处理方法，以解决现有的商品评论信息无法作为商品的优质信息源的问题。本申请另外提供一种文本处理装置以及一种电子设备。本申请还提供一种数据生成模型。

本申请提供一种文本处理方法，包括：

获得针对目标对象的目标评论数据；

获得目标评论数据对应的针对目标对象的目标通用特征数据以及目标通用特征数据的概率分布信息；

将目标评论数据、目标通用特征数据以及目标通用特征数据的概率分布信息作为生成器的输入数据，生成与目标评论数据相对应的目标提问数据；

其中，生成器用于根据评论数据、评论数据对应的通用特征数据以及该通用特征数据的概率分布信息生成与输入的评论数据相对应的提问数据。

可选的，获得目标评论数据对应的针对目标对象的目标通用特征数据，包括：

获得目标评论数据的基于通用特征数据的隐式表示；

将隐式表示中用于表示通用特征词汇的特征向量确定为目标通用特征数据。

可选的，获得目标通用特征数据的概率分布信息，包括：

将基于通用特征数据的隐式表示输入重构网络，获得重构网络输出的初始概率分布信息；

将初始概率分布信息与预定的参数矩阵相乘，获得重构数据；

获得基于通用特征数据的隐式表示与重构数据之间的差异数据，并将该差异数据提供给重构网络进行学习，以使差异数据达到最小化；

将差异数据达到最小化时、重构网络输出的概率分布信息作为目标通用特征数据的概率分布信息。

可选的，获得目标评论数据的基于通用特征数据的隐式表示，包括：

通过多头部自注意力机制和基于通用特征数据的注意力机制对目标评论数据进行处理，获得目标评论数据的基于通用特征数据的隐式表示。

可选的，目标对象为目标商品，针对目标对象的目标评论数据为针对目标商品进行评论的评论信息，与目标评论数据相对应的目标提问数据为以上述评论信息作为回答信息的提问信息，目标评论数据对应的针对目标对象的目标通用特征数据为上述评论信息中所包含的用于描述目标商品的通用特性类别的信息。

本申请还提供一种数据生成系统，包括：排序器和生成器；

排序器用于，获得针对特定对象的样本提问数据以及与样本提问数据具有相关性的样本评论数据；获得样本评论数据对应的通用特征数据以及通用特征数据的概率分布信息；将针对特定对象的样本提问数据、与样本提问数据具有相关性的样本评论数据、样本评论数据对应的通用特征数据以及通用特征数据的概率分布信息提供给生成器；

生成器用于，获得针对特定对象的初始提问数据和初始回答数据；以初始提问数据和初始回答数据作为初始训练样本，进行模型初始化训练；以排序器提供的针对特定对象的样本提问数据、与样本提问数据具有相关性的样本评论数据、样本评论数据对应的通用特征数据以及通用特征数据的概率分布信息作为更新训练样本，进行模型更新训练；输入针对特定对象的目标评论数据、目标评论数据对应的目标通用特征数据以及目标通用特征数据的概率分布信息；输出与目标评论数据相对应的提问数据。

可选的，生成器还用于：

根据排序器提供的针对特定对象的样本提问数据以及与样本提问数据具有相关性的样本评论数据，获得样本评论数据针对样本提问数据的生成困惑度；

根据样本评论数据针对样本提问数据的生成困惑度，对更新训练样本进行更新；

其中，生成困惑度反相关于生成概率，生成概率指的是生成器根据样本评论数据生成样本提问数据时所对应的概率数据。

可选的，生成器还用于：

将样本评论数据针对样本提问数据的生成困惑度反馈给排序器；

对应的，排序器还用于：根据样本评论数据针对样本提问数据的生成困惑度进行学习，以获得相关性达到生成器要求的样本评论数据和样本提问数据。

可选的，生成器包括：双向LSTM编码器、单向LSTM解码器以及指针网络；

双向LSTM编码器以评论数据和该评论数据对应的通用特征数据为输入数据；

单向LSTM解码器以双向LSTM编码器的输出数据作为输入数据，输出基于词汇列表的词汇概率分布信息；

指针网络用于对词汇概率分布信息和通用特征数据的概率分布信息进行线性加和，获得与上述评论数据相对应的提问数据。

可选的，排序器获得针对特定对象的样本提问数据以及与样本提问数据具有相关性的样本评论数据，包括：

获得针对特定对象的提问-回答文本数据以及来自不同主体的针对特定对象的评论文本数据集合；其中，提问-回答文本数据由针对特定对象的提问文本数据和与之相对应的回答文本数据组成；评论文本数据集合由针对特定对象的多个评论文本数据组成；

获得评论文本数据集合中的评论文本数据与提问-回答文本数据之间的相关性数值；

按照与提问-回答文本数据的相关性数值从高到低的顺序，从评论文本数据集合中获得预定数量的评论文本数据，以该预定数量的评论文本数据作为样本评论数据；以提问-回答文本数据中的提问文本数据作为样本提问数据。

可选的，获得提问-回答文本数据与评论文本数据集合中的评论文本数据之间的相关性数值，包括：

获得提问-回答文本数据的基于通用特征数据的第一隐式表示；

获得评论文本数据集合中的评论文本数据的基于通用特征数据的第二隐式表示；

将第一隐式表示和第二隐式表示进行合并，并将合并后的数据输入排序器的相关性评分网络进行相关性评分预测，获得提问-回答文本数据与评论文本数据集合中的评论文本数据之间的相关性数值。

可选的，排序器获得样本评论数据对应的通用特征数据，包括：

将第二隐式表示中用于表示通用特征词汇的特征向量确定为样本评论数据对应的通用特征数据。

可选的，排序器获得样本评论数据对应的通用特征数据的概率分布信息，包括：

将第二隐式表示输入重构网络，获得重构网络输出的初始概率分布信息；

将初始概率分布信息与预设的参数矩阵相乘，获得重构数据；

获得第二隐式表示与重构数据之间的差异数据，并将差异数据提供给重构网络进行学习，以使差异数据达到最小化；

将差异数据达到最小化时、重构网络输出的概率分布信息作为样本评论数据对应的通用特征数据的概率分布信息。

可选的，获得提问-回答文本数据的基于通用特征数据的第一隐式表示，包括：

通过多头部自注意力机制和基于通用特征数据的注意力机制对提问-回答文本数据进行处理，获得提问-回答文本数据的基于通用特征数据的第一隐式表示。

可选的，获得评论文本数据的基于通用特征数据的第二隐式表示，包括：

通过多头部自注意力机制和基于通用特征数据的注意力机制对评论文本数据集合中的评论文本数据进行处理，获得评论文本数据的基于通用特征数据的第二隐式表示。

可选的，获得针对特定对象的评论数据、针对特定对象的评论数据所对应的通用特征数据以及该通用特征数据的概率分布信息，包括：

获得来自排序器的针对特定对象的评论数据、针对特定对象的评论数据所对应的通用特征数据以及该通用特征数据的概率分布信息。

可选的，特定对象包括：相同类别的商品；

针对特定对象的样本评论数据包括：针对相同类别的商品进行评论的评论信息；

与样本评论数据相对应的样本提问数据包括：以针对相同类别的商品进行评论的评论信息作为回答信息的提问信息；

样本评论数据对应的通用特征数据包括：针对相同类别的商品进行评论的评论信息中所包含的用于描述该商品的通用特性类别的信息。

本申请还提供一种文本处理装置，包括：

目标评论数据获得单元，用于获得针对目标对象的目标评论数据；

特征信息获得单元，用于获得目标评论数据对应的针对目标对象的第一通用特征数据以及第一通用特征数据的概率分布信息；

目标提问数据获得单元，用于将目标评论数据、第一通用特征数据以及第一通用特征数据的概率分布信息作为生成器的输入数据，生成与目标评论数据相对应的目标提问数据；

本申请还提供一种电子设备，包括：

处理器；

存储器，用于存储文本处理程序，程序在被处理器读取执行时，执行如下操作：

获得针对目标对象的目标评论数据；

获得目标评论数据对应的针对目标对象的第一通用特征数据以及第一通用特征数据的概率分布信息；

将目标评论数据、第一通用特征数据以及第一通用特征数据的概率分布信息作为生成器的输入数据，生成与目标评论数据相对应的目标提问数据；

与现有技术相比，本申请具有以下优点：

本申请提供的文本处理方法，以针对目标对象的目标评论数据、目标评论数据对应的针对目标对象的目标通用特征数据以及目标通用特征数据的概率分布信息作为生成器的输入数据，可生成与上述目标评论数据相对应的目标提问数据。通过使用该方法，可在商品评论信息的基础上增加与该评论信息对应的提问数据，以此作为商品评论信息的导读信息，使得用户可快速获取商品评论信息的主题内容，以使用户能够从大量评论信息中快速甄选出其感兴趣的信息，以此辅助用户针对商品评论信息进行阅读，从而提高商品评论信息的价值，进而提高商品的成交概率，可有效解决现有的电子商务平台因未辅助用户阅读商品评论信息而导致商品评论信息无法作为优质信息源的问题。

附图说明

图1是本申请第一实施例提供的文本处理方法流程图；

图2是本申请第一实施例提供的目标评论数据以及所生成的目标提问数据的示意图；

图3是本申请第二实施例提供的数据生成系统的示意图；

图4是本申请第三实施例提供的文本处理装置的单元框图；

图5是本申请第四实施例提供的电子设备的逻辑结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

针对商品评论信息的辅助阅读场景，为了辅助用户针对商品评论信息进行高效全文阅读，提高商品评论信息的可利用价值，本申请提供了一种文本处理方法、与该方法相对应的文本处理装置以及电子设备，本申请还提供一种数据生成系统。以下提供实施例对方法、装置、电子设备以及系统进行详细说明。

本申请第一实施例提供一种文本处理方法，该方法的应用主体可以为用于根据评论数据生成对应的提问数据的计算设备应用，图1为本申请第一实施例提供的文本处理方法流程图，以下结合图1对本实施例提供的方法进行详细描述。以下描述所涉及的实施例是用来解释说明方法原理，不是实际使用的限定。

如图1所示，本实施例提供的文本处理方法包括如下步骤：

S101，获得针对目标对象的目标评论数据。

本步骤用于获得针对目标对象的目标评论数据，该目标对象可以是指具有用户评论信息的商品或服务，例如网络购物平台或者服务输出平台所展示的可供用户选择以及书写评论信息的商品或服务，相应的，目标评论数据可以为用户书写的用于对上述商品或服务进行评论的评论信息，例如，目标对象为手表，已购买该手表的在先用户针对该款手表书写了大量评论信息，为了使后续浏览该款手表的用户能够快速从评论信息中获知评论信息中的有用信息，就需要获取与上述评论信息的主题对应的导读信息，用以辅助用户浏览。

在本实施例中，目标对象为具有提问数据生成需求的目标商品，例如，对于包含大量评论信息的商品，为了使用户能够快速获得该商品的大量评论信息所对应的主题信息，并且使用户能够从大量评论信息中快速甄选出其感兴趣的信息，需要基于该大量评论信息生成与之对应的提问信息。针对目标对象的目标评论数据为目标商品对应的评论信息。

S102，获得目标评论数据对应的针对目标对象的目标通用特征数据以及目标通用特征数据的概率分布信息。

在上述步骤获得针对目标对象的目标评论数据之后，本步骤用于获得上述目标评论数据对应的针对目标对象的目标通用特征数据，并且获得该目标通用特征数据的概率分布信息。

通用特征数据指的是用于表示商品或服务的通用特性类别信息的数据，商品的通用特性类别信息又称为商品方面(aspect)，例如，对于智能手机，其通用特性类别信息可以为智能手机的尺寸方面以及软件方面，尺寸方面对应智能手机的长度、宽度、厚度等信息，软件方面对应智能手机的操作系统、适用的应用程序(APP)等信息。用于表示商品的通用特性类别信息的数据可以是指上述通用特性类别信息的归一化表示形式，例如，针对某商品的通用特征数据可以为该商品的通用特性类别信息所对应的特征向量。

在本实施例中，目标评论数据对应的针对目标对象的目标通用特征数据，可以是指上述目标评论数据中所包含的针对目标商品的所有通用特性类别信息所对应的特征向量，获得该目标通用特征数据可通过如下方式实现：

获得目标评论数据的基于通用特征数据的隐式表示，具体可依次通过多头部自注意力机制(Multi-head Self Attention)和基于通用特征数据的注意力机制(aspectAttention)对目标评论数据进行处理；将该隐式表示中用于表示通用特征词汇的特征向量确定为目标通用特征数据。通用特征词汇可以是指长度、宽度、厚度、性能、质量、功能、手感等用于描述目标对象的通用特性类别的词汇信息。多头部自注意力机制通过建模目标评论数据中每一个位置与其他位置的关联程度，识别出适短距或长距的词汇依赖，可用于更好的理解目标评论数据的文本语义。基于通用特征数据的注意力机制可使获得的隐式表示中体现出主要的通用特性类别信息，其原理是通过对与通用特性类别信息关联程度高的词汇重点建模，以使相同通用特性类别信息的隐式表示关联起来。

上述获得目标通用特征数据的概率分布信息可以为如下过程：

将基于通用特征数据的隐式表示作为重构网络的输入数据输入到重构网络中，在该重构网络中，隐式表示通过一个以softmax为激发函数的全连接网络，获得初始概率分布信息；将初始概率分布信息与预先设定的参数矩阵相乘，获得重构数据；获得基于通用特征数据的隐式表示与重构数据的差异数据，该差异数据可利用最小二乘法计算获得，并将差异数据提供给重构网络进行学习，以使差异数据达到最小化；将差异数据达到最小化时、重构网络输出的概率分布信息作为目标通用特征数据的概率分布信息。

S103，将目标评论数据、目标通用特征数据以及目标通用特征数据的概率分布信息作为生成器的输入数据，生成与目标评论数据相对应的目标提问数据。

上述生成器为预先训练的数据生成模型，用于根据评论数据、评论数据对应的通用特征数据以及该通用特征数据的概率分布信息生成与输入的评论数据相对应的提问数据。

在本实施例中，与目标评论数据相对应的目标提问数据，可以为以目标商品对应的评论信息作为答复内容的提问信息，例如，手机所对应的评论信息为“手机壳很结实，摔了一次没有损坏”，该评论信息可作为“手机壳结实吗？”的答复内容，即，用户看到该评论信息，即可得知手机壳是否结实的答案，因此，“手机壳结实吗？”即可以为与“手机壳很结实，摔了一次没有损坏”相对应的目标提问数据。

如图2所示，目标对象为A充电电池，针对A充电电池的目标评论数据以及生成与目标评论数据相对应的目标提问数据分别为：

目标评论数据：与大多数可充电电池不同，A充电电池的续航时间长达2天；目标提问数据：不充电能使用几天？

目标评论数据：它不像其他手机一样会变热，我完全被它超轻和光滑的外壳设计迷住了；目标提问数据：它能让手机在充电时变暖或变热吗？

目标评论数据：在我使用B手包之前，我不能经常携带，因为它就像口袋里有一块热砖，所以我不得不一直把它放在家里，相反，使用A充电电池之后，我从不把它脱下来，因为我甚至分不清它们之间的区别；目标提问数据：你们有谁用过B手包携带它吗？

目标评论数据：此外，它的构造非常强大，即使我掉了几次手机，它的防震技术也不会让任何事情发生在机箱或手机上；目标提问数据：它对手机有保护作用吗？

目标评论数据：A充电电池成了我手机的一个扩展，我再也不用把它拿下来了，因为当我晚上给它充电的时候，它会同时给我的手机和手机壳充电；目标提问数据：它能同时给手机和电池充电吗？

目标评论数据：我的电池续航时间超过两天，听到这么多赞美，我也非常震惊；目标提问数据：不充电的情况下能使用几天？

本实施例提供的文本处理方法，以针对目标对象的目标评论数据、目标评论数据对应的针对目标对象的目标通用特征数据以及目标通用特征数据的概率分布信息作为生成器的输入数据，可生成与上述目标评论数据相对应的目标提问数据。通过使用该方法，在电子商务平台的信息输出环节，可在商品评论信息的基础上增加与该评论信息对应的提问数据，以此作为商品评论信息的导读信息，使得用户可快速获取商品评论信息的主题内容，也可使用户能够从大量评论信息中快速甄选出其感兴趣的信息，以此辅助用户针对商品评论信息进行阅读，从而提高商品评论信息的价值，进而提高商品的成交概率。该方法可有效解决现有的电子商务平台因未辅助用户阅读商品评论信息而导致商品评论信息无法作为优质信息源的问题。

除了上述电子商务平台，本实施例提供的文本处理方法还可应用于旅行服务、本地生活(餐饮、娱乐)点评、教育培训以及网络论坛等其他生活服务类的网络应用平台中，以使上述网络应用平台中的用户评论数据均可作为优质信息源。例如针对提供旅行服务的网络应用平台，在输出旅行经验信息或旅行线路信息等用户评论信息时，输出与该旅行经验信息或旅行线路信息对应的提问数据，以此作为旅行经验信息或旅行线路信息的导读信息，使得用户可快速获取旅行经验信息或旅行线路信息的主题内容，也可使用户能够从大量评论信息中快速甄选出其感兴趣的信息，使得上述旅行经验信息或旅行线路信息可作为优质信息源，提高旅行产品的成交概率。

本申请第二实施例提供一种数据生成系统，该数据生成系统用于根据评论数据生成与评论数据相对应的提问数据，如图3所示，本实施例提供的数据生成系统包括：排序器(Ranker)301和生成器(Generater)302。

排序器301用于，获得针对特定对象的样本提问数据以及与该样本提问数据具有相关性的样本评论数据；获得样本评论数据对应的通用特征数据以及通用特征数据的概率分布信息；将针对特定对象的样本提问数据、与该提问数据具有相关性的样本评论数据、该样本评论数据对应的通用特征数据以及该通用特征数据的概率分布信息提供给生成器；

生成器302用于，获得针对特定对象的初始提问数据和初始回答数据；以初始提问数据和初始回答数据作为初始训练样本，进行模型初始化训练；获得排序器提供的针对特定对象的样本提问数据、与该样本提问数据具有相关性的样本评论数据、该样本评论数据对应的通用特征数据以及该通用特征数据的概率分布信息；以排序器提供的针对特定对象的样本提问数据、与该样本提问数据具有相关性的样本评论数据、该样本评论数据对应的通用特征数据以及该通用特征数据的概率分布信息作为更新训练样本，进行模型更新训练；输入针对特定对象的目标评论数据、针对特定对象的目标评论数据所对应的目标通用特征数据以及该目标通用特征数据的概率分布信息；输出与针对特定对象的目标评论数据相对应的目标提问数据。

在本实施例中，上述特定对象可以是指相同类别的商品，例如某品牌的手机，针对特定对象的样本评论数据可以是指相同类别的商品进行评论的评论信息，与样本评论数据相对应的样本提问数据可以是指以上述相同类别的商品所对应的评论信息作为答复内容的提问信息，样本评论数据对应的通用特征数据为特定商品所对应的评论信息中所包含的用于描述上述相同类别的商品的通用特性类别的信息。

在本实施例中，生成器包括：双向LSTM编码器、单向LSTM解码器以及指针网络；双向LSTM编码器以目标评论数据(Review)和扩展嵌入(extended embedding)的该目标评论数据对应的通用特征数据为输入数据；单向LSTM解码器以双向LSTM编码器的输出数据作为输入数据，输出基于词汇列表的词汇概率分布信息；指针网络(aspect pointer network)用于对词汇概率分布信息和通用特征数据的概率分布信息进行线性加和，获得与上述目标评论数据相对应的提问数据(generated question)。

在本实施例中，排序器获得针对特定对象的样本提问数据以及与样本提问数据具有相关性的样本评论数据，具体包括如下内容：

首先，获得针对特定对象的提问-回答文本数据以及来自不同主体的针对特定对象的评论文本数据集合，其中，提问-回答文本数据由针对特定对象的提问文本数据和与之相对应的回答文本数据组成，评论文本数据集合由针对特定对象的多个评论文本数据组成。大多网络购物平台的后台服务器均采集有商品问答集合和商品评论集合，通常来自不同的用户书写，并且问答集合与评论集合之间没有直接关系，例如，特定对象为某品牌的某个型号的智能手机，针对该智能手机的提问-回答文本数据可以为[提问文本数据：手机结实吗？回答文本数据：手机结实]；针对上述智能手机的评论文本数据可以为来自多个用户的如下评论信息[“手机很结实，摔了一次都没摔坏”“手机很结实，能用来砸核桃”“手机随便扔，根本摔不坏”]。再例如，特定对象为某种鞋子，针对该鞋子的提问-回答文本数据可以为[提问文本数据：鞋子防水吗？回答文本数据：不防水]，针对该鞋子的来自其他用户的评论文本数据为[“鞋子不防水，下雨天没法穿”“鞋子不防水，沾点水就湿透了”]。

其次，获得提问-回答文本数据与评论文本数据集合中的评论文本数据的相关性数值。该相关性数值用于表示提问-回答文本数据与评论文本数据之间的关联性，例如，提问-回答文本数据与评论文本数据是否针对同类别商品的相同商品方面进行描述。该过程具体可以为：

A、获得提问-回答文本数据的基于问答通用特征数据的第一隐式表示，例如，依次通过多头部自注意力机制(Multi-head Self Attention)和基于通用特征数据的注意力机制(aspect Attention)对提问-回答文本数据进行特征提取，获得提问-回答文本数据的基于通用特征数据A(qa)的第一隐式表示h(qa)，多头部自注意力机制通过建模提问-回答文本数据中每一个词汇的位置与其他词汇位置的关联程度，识别出适短距或长距的词汇依赖，可用于更好的理解目标评论数据的文本语义。基于通用特征数据的注意力机制可使获得的隐式表示中体现出主要的通用特性类别信息，其原理是通过对与通用特性类别信息关联程度高的词汇重点建模，以使相同通用特性类别信息的隐式表示关联起来。

B、获得评论文本数据的基于评论通用特征数据的第二隐式表示，例如，依次通过多头部自注意力机制(Multi-head Self Attention)和基于通用特征数据的注意力机制(aspect Attention)对评论文本数据集合中的评论文本数据进行特征提取，获得评论文本数据集合中的评论文本数据的基于通用特征数据A(r)的第二隐式表示h(r)。

C、将第一隐式表示和第二隐式表示进行合并，合并的过程即为从第一隐式表示和第二隐式表示中获取特征向量的过程，例如，由h(qa)、h(r)以及|h(qa)-h(r)|拼接成的特征向量。

D、将合并后的数据输入排序器的相关性评分网络进行相关性评分预测，获得提问-回答文本数据与评论文本数据集合中的评论文本数据的相关性数值。例如，将上述拼接的特征向量输入到全连接网络Ws，通过sigmoid函数输出一个0-1的数值s(qa,r)，该数值可表示提问-回答文本数据与评论文本数据的相关程度，如果输出的数值接近1，表示二者的语义非常接近。

最后，按照与提问-回答文本数据的相关性数值从高到低的顺序，从评论文本数据集合中获得排序最高的预定数量的评论文本数据作为样本评论数据，以提问-回答文本数据中的提问文本数据作为样本提问数据。

在本实施例中，排序器获得样本评论数据对应的通用特征数据，可以是指：将样本评论数据的基于通用特征数据的第二隐式表示中用于表示通用特征词汇的特征向量确定为样本评论数据对应的通用特征数。通用特征词汇可以是指长度、宽度、厚度、性能、质量、功能、手感等用于描述目标对象的通用特性类别的词汇信息。

排序器获得样本评论数据对应的通用特征数据的概率分布信息Pa，可以是指：在将合并后的数据输入排序器的相关性评分网络进行相关性评分预测的同时，将样本评论数据的基于评论通用特征数据的第二隐式表示h(r)作为基于通用特征数据的重构网络的输入数据输入到重构网络中，在该重构网络中，第二隐式表示通过一个以softmax为激发函数的全连接网络W，获得初始概率分布信息；将初始概率分布信息与预先设定的参数矩阵A相乘，获得重构数据h’(r)；获得第二隐式表示与重构数据的差异数据，该差异数据可利用最小二乘法计算获得，并将差异数据提供给重构网络进行学习，以使差异数据达到最小化；将差异数据达到最小化时、重构网络输出的概率分布信息作为样本评论数据对应的通用特征数据的概率分布信息Pa。

在本实施例中，生成器还用于根据排序器提供的针对特定对象的样本提问数据以及与该样本提问数据具有相关性的样本评论数据，获得样本评论数据针对样本提问数据的生成困惑度PPL(q/r)，该生成困惑度PPL(q/r)需经过归一化处理，可用于表示根据上述样本评论数据生成样本提问数据的能力，其反相关于生成概率，生成概率指的是生成器根据样本评论数据生成样本提问数据时所对应的概率数据，生成概率越大(根据样本评论数据生成样本提问数据的能力越大)，则生成困惑度越小；生成概率越大(根据样本评论数据生成样本提问数据的能力越大)。并且，生成器还可根据上述生成困惑度对训练样本集合进行更新，例如，将排序器提供的新的样本提问数据和样本评论数据加入到训练样本集合中，对该训练样本集合中的样本评论数据针对样本提问数据的生成困惑度进行排序，将训练样本集合中的生成困惑度最大的预定比例的样本评论数据和样本提问数据删除。

生成器还需将上述经归一化处理后的样本评论数据针对样本提问数据的生成困惑度PPL(q/r)反馈给排序器，排序器根据样本评论数据针对样本提问数据的生成困惑度进行学习，用于获得相关性达到预定要求的样本评论数据和样本提问数据，具体的，将上述评论数据针对样本提问数据的生成困惑度反馈给排序器的相关性评分网络，该相关性评分网络根据生成困惑度进行调整，以使其相关性评分性能与生成器针对样本评论数据和样本提问数据的需求相一致。

需要说明的是，在本实施例中，生成器获得针对特定对象的目标评论数据、针对特定对象的目标评论数据所对应的目标通用特征数据以及该目标通用特征数据的概率分布信息，指的是：获得来自排序器的针对特定对象的目标评论数据、针对特定对象的目标评论数据所对应的目标通用特征数据以及该目标通用特征数据的概率分布信息。

本实施例提供的数据生成系统，排序器采用本实施例提供的方式为生成器提供训练数据，在生成器的训练过程中，无需预先指定特定的文本信息作为训练数据，无需针对训练数据进行人工标注，可避免因缺少足量的样本提问数据以及样本评论数据的关联标注数据集而导致训练数据缺失，也可避免因用户书写的文本结构复杂、书写风格差异而无法高效获取训练数据。通过使用该系统，可在输出商品评论信息的基础上增加输出与该评论信息对应的提问数据，以此作为商品评论信息的导读信息，使得用户可快速获取商品评论信息的主题内容，以使用户能够从大量评论信息中快速甄选出其感兴趣的信息，以此辅助用户针对商品评论信息进行阅读，从而提高商品评论信息的价值，进而提高商品的成交概率。可有效解决现有的电子商务平台因未辅助用户阅读商品评论信息而导致商品评论信息无法作为优质信息源的问题。并且，该系统还可应用于旅行服务、本地生活(餐饮、娱乐)点评、教育培训以及网络论坛等其他生活服务类的网络应用平台中，以使上述生活服务类的网络应用平台中的用户评论数据均可作为优质信息源。

上述第一实施例提供了一种文本处理方法，与之相对应的，本申请第三实施例还提供了一种文本处理装置，由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可，下述对装置实施例的描述仅仅是示意性的。

请参考图4理解该实施例，图4为本实施例提供的文本处理装置的单元框图，如图4所示，本实施例提供的文本处理装置包括：

目标评论数据获得单元401，用于获得针对目标对象的目标评论数据；

特征信息获得单元402，用于获得目标评论数据对应的针对目标对象的第一通用特征数据以及第一通用特征数据的概率分布信息；

目标提问数据获得单元403，用于将目标评论数据、第一通用特征数据以及第一通用特征数据的概率分布信息作为生成器的输入数据，生成与目标评论数据相对应的目标提问数据；

可选的，获得目标评论数据对应的针对目标对象的目标通用特征数据，包括：获得目标评论数据的基于通用特征数据的隐式表示；将隐式表示中用于表示通用特征词汇的特征向量确定为目标通用特征数据。

可选的，获得目标通用特征数据的概率分布信息，包括：

在上述的实施例中，提供了一种文本处理方法以及一种文本处理装置，此外，本申请第四实施例还提供一种电子设备，由于电子设备实施例基本相似于方法实施例，所以描述得比较简单，相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可，下述对电子设备实施例的描述仅仅是示意性的。

该电子设备实施例如下：

请参考图5理解本实施例，图5为本实施例提供的电子设备的示意图。

如图5所示，电子设备包括：处理器501；存储器502；

存储器502，用于存储文本处理程序，该程序在被处理器读取执行时，执行如下操作：

获得针对目标对象的目标评论数据；

可选的，获得目标通用特征数据的概率分布信息，包括：

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims

1.一种文本处理方法，其特征在于，包括：

获得针对目标对象的目标评论数据；

获得目标评论数据对应的针对目标对象的目标通用特征数据以及目标通用特征数据的概率分布信息，其中，获得目标评论数据对应的针对目标对象的目标通用特征数据，包括：获得目标评论数据的基于通用特征数据的隐式表示；将隐式表示中用于表示通用特征词汇的特征向量确定为目标通用特征数据；获得目标通用特征数据的概率分布信息，包括：将基于通用特征数据的隐式表示输入重构网络，获得初始概率分布信息；将初始概率分布信息与预定的参数矩阵相乘，获得重构数据；获得基于通用特征数据的隐式表示与重构数据之间的差异数据，并将该差异数据提供给重构网络进行学习，以使差异数据达到最小化；将差异数据达到最小化时、重构网络输出的概率分布信息作为目标通用特征数据的概率分布信息；

2.根据权利要求1的方法，其特征在于，获得目标评论数据的基于通用特征数据的隐式表示，包括：

3.根据权利要求1的方法，其特征在于，目标对象为目标商品，针对目标对象的目标评论数据为针对目标商品进行评论的评论信息，与目标评论数据相对应的目标提问数据为以上述评论信息作为答复内容的提问信息，目标评论数据对应的针对目标对象的目标通用特征数据为上述评论信息中所包含的用于描述目标商品的通用特性类别的信息。

4.一种数据生成系统，其特征在于，包括：排序器和生成器；

生成器用于，获得针对特定对象的初始提问数据和初始回答数据；以初始提问数据和初始回答数据作为初始训练样本，进行模型初始化训练；以排序器提供的针对特定对象的样本提问数据、与样本提问数据具有相关性的样本评论数据、样本评论数据对应的通用特征数据以及通用特征数据的概率分布信息作为更新训练样本，进行模型更新训练；输入针对特定对象的目标评论数据、目标评论数据对应的目标通用特征数据以及目标通用特征数据的概率分布信息；输出与目标评论数据相对应的目标提问数据；

其中，排序器获得样本评论数据对应的通用特征数据，包括：将第二隐式表示中用于表示通用特征词汇的特征向量确定为样本评论数据对应的通用特征数据；排序器获得样本评论数据对应的通用特征数据的概率分布信息，包括：将第二隐式表示输入重构网络，获得初始概率分布信息；将初始概率分布信息与预设的参数矩阵相乘，获得重构数据；获得第二隐式表示与重构数据之间的差异数据，并将差异数据提供给重构网络进行学习，以使差异数据达到最小化；将差异数据达到最小化时、重构网络输出的概率分布信息作为样本评论数据对应的通用特征数据的概率分布信息。

5.根据权利要求4的数据生成系统，其特征在于，生成器还用于：

6.根据权利要求5的数据生成系统，其特征在于，生成器还用于：

7.根据权利要求4的数据生成系统，其特征在于，生成器包括：双向LSTM编码器、单向LSTM解码器以及指针网络；

8.根据权利要求4的数据生成系统，其特征在于，排序器获得针对特定对象的样本提问数据以及与样本提问数据具有相关性的样本评论数据，包括：

9.根据权利要求8的数据生成系统，其特征在于，获得提问-回答文本数据与评论文本数据集合中的评论文本数据之间的相关性数值，包括：

10.根据权利要求9的数据生成系统，其特征在于，获得提问-回答文本数据的基于通用特征数据的第一隐式表示，包括：

11.根据权利要求9的数据生成系统，其特征在于，获得评论文本数据的基于通用特征数据的第二隐式表示，包括：

12.根据权利要求4的数据生成系统，其特征在于，获得针对特定对象的评论数据、针对特定对象的评论数据所对应的通用特征数据以及该通用特征数据的概率分布信息，包括：

13.根据权利要求4的数据生成系统，其特征在于，特定对象包括：相同类别的商品；

针对特定对象的样本评论数据包括：针对相同类别的商品所对应的评论信息；

与样本评论数据相对应的样本提问数据包括：以相同类别的商品所对应的评论信息作为答复内容的提问信息；

样本评论数据对应的通用特征数据包括：相同类别的商品所对应的评论信息中所包含的用于描述该相同类别的商品的通用特性类别的信息。

14.一种文本处理装置，其特征在于，包括：

特征信息获得单元，用于获得目标评论数据对应的针对目标对象的第一通用特征数据以及第一通用特征数据的概率分布信息，其中，获得目标评论数据对应的针对目标对象的目标通用特征数据，包括：获得目标评论数据的基于通用特征数据的隐式表示；将隐式表示中用于表示通用特征词汇的特征向量确定为目标通用特征数据；获得目标通用特征数据的概率分布信息，包括：将基于通用特征数据的隐式表示输入重构网络，获得初始概率分布信息；将初始概率分布信息与预定的参数矩阵相乘，获得重构数据；获得基于通用特征数据的隐式表示与重构数据之间的差异数据，并将该差异数据提供给重构网络进行学习，以使差异数据达到最小化；将差异数据达到最小化时、重构网络输出的概率分布信息作为目标通用特征数据的概率分布信息；

15.一种电子设备，其特征在于，包括：

处理器；

获得针对目标对象的目标评论数据；

获得目标评论数据对应的针对目标对象的第一通用特征数据以及第一通用特征数据的概率分布信息，其中，获得目标评论数据对应的针对目标对象的目标通用特征数据，包括：获得目标评论数据的基于通用特征数据的隐式表示；将隐式表示中用于表示通用特征词汇的特征向量确定为目标通用特征数据；获得目标通用特征数据的概率分布信息，包括：将基于通用特征数据的隐式表示输入重构网络，获得初始概率分布信息；将初始概率分布信息与预定的参数矩阵相乘，获得重构数据；获得基于通用特征数据的隐式表示与重构数据之间的差异数据，并将该差异数据提供给重构网络进行学习，以使差异数据达到最小化；将差异数据达到最小化时、重构网络输出的概率分布信息作为目标通用特征数据的概率分布信息；