CN111507789A

CN111507789A - 商品属性词的确定方法、装置及计算设备

Info

Publication number: CN111507789A
Application number: CN201910100736.9A
Authority: CN
Inventors: 李志宇; 熊飞宇; 唐波; 包莹; 李晟
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2020-08-07

Abstract

本发明实施例公开了一种商品属性词的确定方法，包括：获取商品的至少一条评论文本；对至少一条评论文本进行切分，得到多个子句和多个子句所包括的多个词语；将多个子句中的至少部分子句划分为多个类别；从每一类别下的子句所包括的词语中，基于词语的出现频率来确定商品的一级属性词；从多个子句所包括的多个词语中，至少基于词语与一级属性词的相似度来确定与一级属性词相关的候选二级属性词；以及计算候选二级属性词的相关重要性，并基于相关重要性从候选二级属性词中确定与一级属性词相关的二级属性词。本发明实施例还公开了相应的商品属性词的确定装置、系统、计算设备和存储介质。

Description

商品属性词的确定方法、装置及计算设备

技术领域

本发明涉及网络信息处理领域，特别涉及商品属性词的确定方法、装置及计算设备。

背景技术

随着互联网技术和电子商务的快速发展，用户越来越倾向于网络购物。各类电商平台每天都会产生大量用户对商品的评论。通过对这些评论文本进行情感分析不仅能够辅助商家进行决策制定和网络营销、辅助平台进行商品推荐，还有助于舆情分析和帮助用户制定购买决策。由于评论文本通常可以体现商品属性特征，因此可以从商品的属性特征角度来对评论文本进行研究，从而确定情感倾向。显然地，商品属性词的获取与处理是对商品评论数据进行挖掘和利用的重要技术基础。商品属性词的准确性和个性化将严格地影响基于商品属性特征的评论文本的情感分析结果。

在现有的方法中，商品属性词多是基于手工确定。这样得到的属性词库量级有限，同时耗费较多人力资源。

因此，需要提供一种更先进的商品属性词方案。

发明内容

为此，本发明实施例提供了一种商品属性词的确定方法、装置及计算设备，以力图解决或者至少缓解上面存在的至少一个问题。

根据本发明实施例的一个方面，提供了一种商品属性词的确定方法，包括：获取商品的至少一条评论文本；对至少一条评论文本进行切分，得到多个子句和多个子句所包括的多个词语；将多个子句中的至少部分子句划分为多个类别；从每一类别下的子句所包括的词语中，基于词语的出现频率来确定商品的一级属性词；从多个子句所包括的多个词语中，至少基于词语与一级属性词的相似度来确定与一级属性词相关的候选二级属性词；以及计算候选二级属性词的相关重要性，并基于相关重要性从候选二级属性词中确定与一级属性词相关的二级属性词。

根据本发明实施例的另一方面，提供了一种预定类目下商品属性词的确定方法，包括：获取预定类目下所有商品的至少一条评论文本；对至少一条评论文本进行切分，得到多个子句和多个子句所包括的多个词语；将多个子句中出现频率最高的至少一个子句划分为多个类别；从每一类别下的子句所包括的词语中，基于词语的出现频率来确定预定类目下商品的一级属性词；从多个子句所包括的多个词语中，至少基于词语与一级属性词的相似度来确定与一级属性词相关的候选二级属性词；计算候选二级属性词的相关重要性，并基于相关重要性从候选二级属性词中确定与一级属性词相关的二级属性词；判断与一级属性词相关的二级属性词中是否存在其他一级属性词，且其他一级属性词对应节点的相对重要性小于一级属性词对应节点；如果存在，则将其他一级属性词和与其他一级属性词相关的二级属性词作为与一级属性词相关的二级属性词。

根据本发明实施例的另一方面，提供了一种商品属性词的确定装置，包括：评论获取模块，适于获取商品的至少一条评论文本；文本切分模块，适于对至少一条评论文本进行切分，得到多个子句和多个子句所包括的多个词语；子句分类模块，适于将多个子句中的至少部分子句划分为多个类别；一级属性词确定模块，适于从每一类别下的子句所包括的词语中，基于词语的出现频率来确定商品的一级属性词；以及二级属性词确定模块，适于从多个子句所包括的多个词语中，至少基于词语与一级属性词的相似度来确定与一级属性词相关的候选二级属性词；还适于计算候选二级属性词的相关重要性，并基于相关重要性从候选二级属性词中确定与一级属性词相关的二级属性词。

根据本发明实施例的另一方面，提供了一种预定类目下商品属性词的确定装置，包括：评论获取模块，适于获取预定类目下商品的至少一条评论文本；文本切分模块，适于对至少一条评论文本进行切分，得到多个子句和多个子句所包括的多个词语；子句分类模块，适于将多个子句中出现频率最高的至少一个子句划分为多个类别；一级属性词确定模块，适于从每一类别下的子句所包括的词语中，基于词语的出现频率来确定预定类目下商品的一级属性词；以及二级属性词确定模块，适于从多个子句所包括的多个词语中，至少基于词语与一级属性词的相似度来确定与一级属性词相关的候选二级属性词；计算候选二级属性词的相关重要性，并基于相关重要性从候选二级属性词中确定与一级属性词相关的二级属性词；判断与一级属性词相关的二级属性词中是否存在其他一级属性词，且其他一级属性词对应节点的相对重要性小于一级属性词对应节点；如果存在，则将其他一级属性词和与其他一级属性词相关的二级属性词作为与一级属性词相关的二级属性词。

根据本发明实施例的另一方面，提供了一种评论情感分析系统，包括：根据本发明实施例的商品属性词的确定装置，适于根据商品的至少一个条评论文本来确定商品的属性词；以及处理前端，适于针对商品的每个属性词，获取每条评论文本对于该属性的情感倾向。

根据本发明实施例的另一方面，提供了一种计算设备，包括：一个或多个处理器；和存储器；一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行根据本发明实施例的方法中任一方法的指令。

根据本发明实施例的还有一个方面，提供了一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当计算设备执行时，使得计算设备执行根据本发明实施例的方法中的任一方法。

根据本发明实施例的商品属性词确定方案所得到的商品属性词集合内部关联性更高，与其他(类)商品的差异性也更加明显。同时，对大规模的数据具有良好的实用性，能够极大节省人力。首先，通过对词语进行聚类，减少了一级属性词中通用词汇的占比，大大提高了所得到的一级属性词的个性化程度(某(类)商品的属性词与其他(类)商品的属性词有较少重复，即该(类)商品的属性词个性化程度高)。其次，通过确定第一候选二级属性词和第二候选二级属性词，并且将词语的相似性匹配问题转化为网络中重要节点排序问题，使得可以得到更多更丰富更合理的二级属性词，同时也对大规模的数据具有更好的实用性。进一步地，通过对相同或者相似的一级属性词以及二级属性词进行归并，大大提高了所得到的属性词的精确度。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的商品属性词确定系统100的架构图；

图2示出了根据本发明一个实施例的商品属性词的层级结构图；

图3示出了根据本发明一个实施例的计算设备300的示意图；

图4示出了根据本发明一个实施例的商品属性词的确定方法400的流程图；

图5示出了根据本发明一个实施例的确定候选二级属性词的示意图；

图6示出了根据本发明一个实施例的词语网络的示意图；

图7示出了根据本发明一个实施例的商品属性词的确定装置700的结构框图；

图8示出了根据本发明一个实施例的预定类目下商品属性词的确定方法800的流程图；以及

图9示出了根据本发明一个实施例的预定类目下商品属性词的确定装置900的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的商品属性词确定系统100的示意图。如图1所示，商品属性词确定系统100包括处理前端110和商品属性词的确定装置700。处理前端110和商品属性词的确定装置700可以通过诸如局域网(LAN)或者如因特网的广域网(WAN)的一个或多个网络进行通信。

应当指出，本发明对商品的具体形式不做限制，商品既可以是产品，也可以是服务，或者是产品和服务的组合等等。优选地，商品可以是某一类商品，即预定类目下的所有商品，例如面膜这一类目下的所有商品。商品属性词确定系统100确定该类商品的属性词。当然，商品也可以是某一个商品，商品属性词确定系统100确定该个商品的属性词。

商品的属性词则用于描述商品性质和特点。在本发明的实施方式中，商品的属性词可以包括一级属性词和与该一级属性词相关的二级属性词。例如，面膜类商品所具有的一个一级属性词为功效，与功效这个一级属性词相关的二级属性词为美白、保湿、祛痘和抗皱等等。

图2示出了根据本发明一个实施例的商品属性词的层级结构图。如图2所示，商品的属性词集合可以表示为：

其中F_j表示第j个一级属性词，j的取值范围为[1,K]。每个一级属性词下可以包括若干个相关的二级属性词，因此一级属性词可以表示为F_j＝{F_j1,F_j2,...,F_jm}。

处理前端110是任何需要获取商品属性词的请求方。例如，在一种实施方式中，处理前端110可以是一个评论情感分析系统的一部分。评论情感分析系统需要对商品的评论文本进行分析从而确定其情感倾向。因此，处理前端110可以将需要获取属性词的商品信息发送到商品属性词的确定装置700，以便商品属性词的确定装置700获取商品的评论文本，并从中确定商品的属性词。可选地，处理前端110也可以将商品的评论文本发送到商品属性词的确定装置700进行处理，以获得商品的属性词。换而言之，评论情感分析系统可以包括商品属性词的确定装置700和处理前端110，商品属性词的确定装置700从商品的评论文本中确定商品的属性词之后，处理前端110可以针对该商品的每个属性词，至少利用预先构建好的情感词库(可能还有程度副词词库、否定词词库、连词词库等等)，获取每条评论文本所反映出的对于该属性词对应的商品属性的情感倾向(褒义、贬义或是中性)。此处可以采用本领域的任何情感倾向分析方法来获取评论文本对于商品属性的情感倾向，本发明对此不做限制。

处理前端110也可以是一个用户舆情分析系统的一部分。用户舆情分析系统需要对商品的评论文本进行分析从而确定商品的市场反馈、用户的购物意愿和需求。因此，处理前端110可以将需要获取属性词的商品信息或者商品的评论文本发送到商品属性词的确定装置700进行处理，以获得商品的属性词。

处理前端110还可以是一个商品趋势预测系统的一部分。商品趋势预测系统需要对商品的评论文本进行分析从而确定商品属性的流行趋势。因此，处理前端110可以将需要获取属性词的商品信息或者商品的评论文本发送到商品属性词的确定装置700进行处理，以获得商品的属性词。而后，处理前端110可以通过比对在不同时间所获取的不同版本的商品属性词，得到商品属性的流行趋势，从而能够向商家提供针对商品进行新品研发的有效建议。本发明不受限于处理前端110的具体形式。商品属性词的确定装置700可以各种方式接收处理前端110的请求。例如商品属性词的确定装置700可以提供具有预定格式定义的应用程序接口(API)，以方便处理前端110根据定义来组织获取商品属性词的请求，并发送到商品属性词的确定装置700。

商品属性词的确定装置700可以接收该请求，对商品的评论文本进行分析，从商品的评论文本中确定商品的一级属性词和与该一级属性词相关的二级属性词。

在下文中将结合附图描述在上文中提及的各个装置和单元等的具体结构以及对应的处理方法。

根据本发明的实施方式，上述商品属性词确定系统100中的各个装置和单元等均可以通过如下所述的计算设备300来实现。

图3示出了根据本发明一个实施例的计算设备300的示意图。如图3所示，在基本的配置302中，计算设备300典型地包括系统存储器306和一个或者多个处理器304。存储器总线308可以用于在处理器304和系统存储器306之间的通信。

取决于期望的配置，处理器304可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器304可以包括诸如一级高速缓存310和二级高速缓存312之类的一个或者多个级别的高速缓存、处理器核心314和寄存器316。示例的处理器核心314可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器318可以与处理器304一起使用，或者在一些实现中，存储器控制器318可以是处理器304的一个内部部分。

取决于期望的配置，系统存储器306可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器306可以包括操作系统320、一个或者多个应用322以及程序数据324。在一些实施方式中，应用322可以布置为在操作系统上由一个或多个处理器304利用程序数据324执行指令。

计算设备300还可以包括有助于从各种接口设备(例如，输出设备342、外设接口344和通信设备346)到基本配置302经由总线/接口控制器330的通信的接口总线340。示例的输出设备342包括图形处理单元348和音频处理单元350。它们可以被配置为有助于经由一个或者多个A/V端口352与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口344可以包括串行接口控制器354和并行接口控制器356，它们可以被配置为有助于经由一个或者多个I/O端口358和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备346可以包括网络控制器360，其可以被布置为便于经由一个或者多个通信端口364与一个或者多个其他计算设备362通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备300可以实现为服务器，例如数据库服务器、应用程序服务器和WEB服务器等，也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。当然，计算设备300也可以实现为小尺寸便携(或者移动)电子设备的一部分。

在根据本发明的实施例中，计算设备300被实现为商品属性词的确定装置700，并被配置为执行根据本发明实施例的商品属性词的确定方法。其中，计算设备300的应用322中包含执行根据本发明实施例的商品属性词的确定方法的多条程序指令，而程序数据324还可以存储商品属性词的确定装置700的配置信息等。

图4示出了根据本发明一个实施例的商品属性词的确定方法400的流程图。方法400在上述商品属性词的确定装置700中执行。如图4所示，商品属性词的确定方法400始于步骤S410。

在步骤S410中，获取商品的至少一条评论文本。如前文所描述地，如果需要确定某一预定类目商品的属性词，则获取该预定类目下所有商品的评论文本。如果需要确定某一具体商品的属性词，则仅获取针对该商品的评论文本。在各种实施方式中，可以采用各种数据获取方法，例如网络爬虫等，来获取评论文本，本发明对此不做限制。

由于用户在网络上的表达通常比较随意多样，可能会出现例如汉字中夹杂数字、字母和符号，语句段落间断不完整，或者大量重复的短语短句等情况。因此，根据本发明的一种实施方式，需要对所获取的至少一条评论文本进行数据清洗。可以采用本领域的任何数据清洗方法来对评论文本进行数据清洗，本发明对具体的数据清洗方法不做限制。

随后，在步骤S420中，对所获取的至少一条评论文本进行切分，得到多个子句和这多个子句所包括的多个词语。

首先可以对各条评论文本进行子句的切分，即分句，得到多个子句。在一种实施例中，可以按照诸如标点符号和空白字符之类的分隔符号来进行分句。例如，评论文本“商品质量好，价格也便宜”可以切分为“商品质量好”和“价格也便宜”这两个子句。

接着对各个子句进行词语的切分，即分词，得到多个词语。可以利用本领域的任何分词方法来进行分词，例如，基于词表的分词方法、基于统计模型(N-gram语言模型)的分词方法和基于序列标注的分词方法等等。本发明对具体的分词方法不做限制。以下是一个示例：“今天天气很好”可以切分得到“今天”、“天气”、“很”和“好”这四个词语。

根据本发明的实施方式，为了便于后续快速获知从子句切分得到的词语，此处还可以存储各子句和从该子句切分得到的词语的对应关系。

在切分得到多个子句之后，可以在步骤S430中，将这多个子句中的至少部分子句划分为多个类别。

在一种实施例中，可以直接对这多个子句进行类别的划分。优选地，在另一种实施例中，可以选择这多个子句的部分子句来进行类别的划分。例如，可以统计这多个子句中各子句的出现频率，选择出现频率最高的至少一个子句来进行划分。也就是说，将这些子句按照出现频率从大到小进行排序，可以选择次序在前的部分子句(通常是次序为前50％的子句)，丢弃其余子句。此处，出现频率通常指的是出现次数。

根据本发明的一种实施方式，可以生成这至少部分子句的特征向量，从而基于子句的特征向量，利用聚类算法将至少部分子句划分为多个类别。可以采用本领域的任何聚类方法来对子句进行聚类，例如K-means聚类算法、DBSCAN聚类算法(Density-BasedSpatial Clustering of Applications with Noise，具有噪声的基于密度的聚类算法)等等。本发明对具体的聚类算法不做限制。

其中，可以先为切分得到的多个子句所包括的多个词语生成词向量，也就是，为从评论文本切分得到的所有词语生成词向量。在各种实施方式中，可以采用词嵌入(wordembedding)模型来为词语生成词向量。谷歌等公司提供的工具包word2vec中提供了多种词嵌入模型。本发明不受限于具体的词嵌入模型，所有可以为词语生成词向量的词嵌入方式都在本发明的保护范围之内。

在得到词语的词向量之后，再基于这些词语的词向量，为上述至少部分子句生成特征向量。具体地，对所选择的各子句，可以从先前生成的所有词语的词向量中查找到从该子句切分得到的词语的词向量。在一种实施例中，可以对所有词语进行哈希编码，以便可以迅速查找。而后，根据从该子句切分得到的词语的词向量来生成子句的特征向量。在一种实施例中，通过对从该子句切分得到的词语的词向量取平均值来生成该子句的特征向量，也就是可以通过以下公式来计算得到子句的特征向量：

其中，v_SR表示子句的特征向量，w_i表示从该子句切分得到的第i个词语，v_wi表示从该子句切分得到的第i个词语的词向量，SR表示从该子句切分得到的所有词语的词向量集合，|SR|表示该词向量集合SR的基数。例如，从某子句切分得到N个词语，则i的取值范围为[1,N]，|SR|＝N。

在将选择出来的至少部分子句划分为多个类别之后，在步骤S440中，从每一类别下的子句所包括的词语中，基于词语的出现频率来确定商品的一级属性词。具体地，对每一类别，可以确定该类别下的子句所包括的所有词语，再统计该类别下的子句所包括的各词语的出现频率，并选择出现频率最高的至少一个词语作为商品的一级属性词。也就是说，将这些词语按照出现频率从大到小进行排序，选择次序在前的第一预定数量个词语，丢弃其余子句。第一预定数量的取值范围通常是[60,100]。这样，从每个类别下的子句中所确定的这些一级属性词共同形成了商品的一级属性词。

根据本发明的一种实施方式，还需要对所确定的一级属性词进行数据清洗，以便去除一些错误词语、停用词语和重复词语等等。可以采用本领域的任何数据清洗方法来进行数据清洗，本发明对具体的数据清洗方法不做限制。

随后，在步骤S450中，从前述多个子句所包括的多个词语(也就是在步骤S420中从评论文本切分得到的所有词语)中，至少基于词语与一级属性词的相似度来确定与一级属性词相关的候选二级属性词。在一种实施例中，对于各个一级属性词，可以计算该一级属性词与前述多个子句所包括的各词语的相似度，并选择相似度最高的至少一个词语作为与该一级属性词相关的候选二级属性词。也就是说，将这些词语按照相似度从大到小进行排序，选择次序在前的第二预定数量个词语，丢弃其余词语。第二预定数量的取值通常是30。相似度通常可以采用本领域的任何相似度算法计算得到，例如欧式距离、余弦相似度等等。本发明对具体的相似度算法不做限制。

优选地，如图5所示，在另一种实施例中，候选二级属性词可以包括第一候选二级属性词和第二候选二级属性词。对于各个一级属性词，可以基于前述多个子句所包括的各词语与该一级属性词的相似度，从前述多个子句所包括的多个词语中确定与该一级属性词相似的第一候选二级属性词。接着对于各个第一候选二级属性词，基于前述多个子句所包括的各词语与第一候选二级属性词的相似度，确定与该第一候选二级属性词相似的第二候选二级属性词。具体的相似度计算和第一/第二候选二级属性词确定方法已在上文详细说明，此处不再赘述。

随后，在步骤S460中，计算候选二级属性词的相关重要性，并基于相关重要性从上述候选二级属性词中确定与一级属性词相关的二级属性词。

可以为每个一级属性词构建以该一级属性词和与该一级属性词相关的候选二级属性词为节点的词语网络，并基于所构建的词语网络来从这些候选二级属性词中确定与该一级属性词相关的二级属性词。

具体地，在词语网络中，在一级属性词对应节点与与该一级属性词相似的第一候选二级属性词对应节点之间构建具有方向和权重的边，该边以该一级属性词与该第一候选二级属性词的相似度为权重、且方向为从该一级属性词指向该第一候选二级属性词。同时，在第一候选二级属性词对应节点与与该第一候选二级属性词相似的第二候选二级属性词对应节点之间构建具有方向和权重的边，该边以该第一候选二级属性词与该第二候选二级属性词的相似度为权重、且方向为从该第一候选二级属性词指向该第二候选二级属性词。

图6示出了根据本发明一个实施例的词语网络的示意图。其中，数字1所标识的节点表示一级属性词，数字2所标识的节点表示第一候选二级属性词，数字3所标识的节点表示第二候选二级属性词。应当指出，节点所表示的角色不唯一，一级属性词也可能是与某个第一候选二级属性词相似的第二候选二级属性词，第一候选二级属性词也可能是与其他第一候选二级属性词相似的第二候选二级属性词等等，依此类推。

在为一级属性词构建词语网络之后，对于各一级属性词的词语网络，可以利用重要节点排序算法计算该词语网络中各节点的相对重要性，最后选择对应节点的相对重要性大于预定数值的第一候选二级属性词和/或第二候选二级属性词作为与该一级属性词相关的二级属性词。其中，可以采用本领域的任何重要节点排序算法来计算节点的相对重要性，例如佩奇排名(PageRank)算法、出入度重要性算法、介数中心性算法、或者SimRank算法等等。

此外，考虑到得到的属性词中可能存在冗余(例如某个一级属性词是其他一级属性词的二级属性词)，根据本发明的一种实施方式，还可以在基于相关重要性从候选二级属性词中确定与一级属性词相关的二级属性词之后，对相同或者相似的属性词进行归并。

具体地，对于各个一级属性词，判断所确定的与该一级属性词相关的二级属性词中是否存在其他一级属性词。如果不存在其他一级属性词，则不做任何处理。如果存在其他一级属性词，则继续判断在该一级属性词对应词语网络中，该其他一级属性词对应节点的相对重要性是否小于该一级属性词对应节点。如果小于，则不再将该其他一级属性词作为一级属性词，而是作为与该一级属性词相关的二级属性词。同时，与该其他一级属性词相关的二级属性词也一并作为与该一级属性词相关的二级属性词。

如果该其他一级属性词在该一级属性词对应词语网络中的相对重要性不小于该一级属性词对应节点，则不再将该一级属性词作为一级属性词，而是作为与该其他一级属性词相关的二级属性词。同时，与该一级属性词相关的二级属性词也一并作为与该其他一级属性词相关的二级属性词。

这样即得到了最终的商品的一级属性词和与一级属性词相关的二级属性词。

综上所述，根据本发明实施例的商品属性词确定方案所得到的商品属性词集合内部关联性更高，与其他(类)商品的差异性也更加明显。同时，对大规模的数据具有良好的实用性，能够极大节省人力。在根据本发明实施例的商品属性词确定方案中，首先，通过对词语进行聚类，减少了一级属性词中通用词汇的占比，大大提高了所得到的一级属性词的个性化程度(某(类)商品的属性词与其他(类)商品的属性词有较少重复，即该(类)商品的属性词个性化程度高)。其次，通过确定第一候选二级属性词和第二候选二级属性词，并且将词语的相似性匹配问题转化为网络中重要节点排序问题，使得可以得到更多更丰富更合理的二级属性词，同时也对大规模的数据具有更好的实用性。最后，通过对相同或者相似的一级属性词以及二级属性词进行归并，大大提高了所得到的属性词的精确度。

图7示出了根据本发明一个实施例的商品属性词的确定装置700的结构框图。应当注意，图7是以功能模块划分的方式对商品属性词的确定装置700进行了描述。

如图7所示，商品属性词的确定装置700可以包括评论获取模块710、文本切分模块720、子句分类模块730、一级属性词确定模块740和二级属性词确定模块750。

评论获取模块710适于获取商品的至少一条评论文本。文本切分模块720与评论获取模块710相连接，并适于对这至少一条评论文本进行切分，得到多个子句和多个子句所包括的多个词语。

子句分类模块730与文本切分模块720相连接，并适于将文本切分模块720所得到的多个子句中的至少部分子句划分为多个类别。一级属性词确定模块740与文本切分模块720和子句分类模块730相连接，并适于从每一类别下的子句所包括的词语中，基于词语的出现频率来确定商品的一级属性词。二级属性词确定模块750与文本切分模块720和一级属性词确定模块740相连接，并适于从文本切分模块720所得到的多个子句所包括的多个词语中，至少基于词语与一级属性词确定模块740所确定的一级属性词的相似度来确定与该一级属性词相关的候选二级属性词。二级属性词确定模块750还适于计算这些候选二级属性词的相关重要性，并基于相关重要性从这些候选二级属性词中确定与该一级属性词相关的二级属性词。

关于商品属性词的确定装置700中各模块的详细处理逻辑和功能可以参见前文结合图1-图6对商品属性词的确定方法400的相关描述，此处不再赘述。

图8示出了根据本发明一个实施例的一种预定类目下商品属性词的确定方法800的流程图。方法800适于在下文要描述的预定类目下商品属性词的确定装置900中执行。应当指出，预定类目下商品属性词的确定方法800可以替代商品属性词的确定方法400，并能够达到与商品属性词的确定方法400相类似的技术效果。

如图8所示，预定类目下商品属性词的确定方法800始于步骤S810。在步骤S810中，获取预定类目下所有商品的至少一条评论文本。随后在步骤S820中，对所获取的至少一条评论文本进行切分，得到多个子句和多个子句所包括的多个词语。

随后，在步骤S830中，将这多个子句中出现频率最高的至少一个子句划分为多个类别。并在步骤S840中，从每一类别下的子句所包括的词语中，基于词语的出现频率来确定预定类目下商品的一级属性词。

确定一级属性词之后，接着在步骤S850中，从前述多个子句所包括的多个词语中，至少基于词语与一级属性词的相似度来确定与该一级属性词相关的候选二级属性词。并在步骤S860中，计算候选二级属性词的相关重要性，并基于相关重要性从候选二级属性词中确定与该一级属性词相关的二级属性词。

最后，在步骤S870中，判断与该一级属性词相关的二级属性词中是否存在其他一级属性词，且该其他一级属性词对应节点的相对重要性小于该一级属性词对应节点。如果存在，则在步骤S880中，将该其他一级属性词和与该其他一级属性词相关的二级属性词作为与该一级属性词相关的二级属性词。

关于预定类目下商品属性词的确定方法800中各步骤的详细处理逻辑和实施过程可以参见前文结合图1-图6对商品属性词的确定方法400的相关描述，此处不再赘述。

图9示出了根据本发明一个实施例的预定类目下商品属性词的确定装置900的结构框图。应当注意，图9是以功能模块划分的方式对预定类目下商品属性词的确定装置900进行了描述。并且，预定类目下商品属性词的确定装置900可以替代商品属性词的确定装置700，并能够达到与商品属性词的确定装置700相类似的技术效果。

如图9所示，预定类目下商品属性词的确定装置900可以包括评论获取模块910、文本切分模块920、子句分类模块930、一级属性词确定模块940和二级属性词确定模块950。

评论获取模块910适于获取预定类目下所有商品的至少一条评论文本。文本切分模块920与评论获取模块910相连接，并适于对这至少一条评论文本进行切分，得到多个子句和多个子句所包括的多个词语。

子句分类模块930与文本切分模块920相连接，并适于将文本切分模块920所得到的多个子句中出现频率最高的至少一个子句划分为多个类别。

一级属性词确定模块940与文本切分模块920和子句分类模块930相连接，并适于从每一类别下的子句所包括的词语中，基于词语的出现频率来确定预定类目下商品的一级属性词。

二级属性词确定模块950与文本切分模块920和一级属性词确定模块940相连接，并适于从文本切分模块920所得到的多个子句所包括的多个词语中，至少基于词语与一级属性词确定模块940所确定的一级属性词的相似度来确定与该一级属性词相关的候选二级属性词。二级属性词确定模块950还适于计算这些候选二级属性词的相关重要性，并基于相关重要性从这些候选二级属性词中确定与该一级属性词相关的二级属性词。

二级属性词确定模块950还适于判断与一级属性词相关的二级属性词中是否存在其他一级属性词，且该其他一级属性词对应节点的相对重要性小于该一级属性词对应节点。如果存在，则将该其他一级属性词和与该其他一级属性词相关的二级属性词作为与该一级属性词相关的二级属性词。

关于预定类目下商品属性词的确定装置900中各模块的详细处理逻辑和功能可以参见前文结合图1-图6对商品属性词的确定方法400的相关描述，此处不再赘述。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种商品属性词的确定方法，所述方法包括步骤：

获取所述商品的至少一条评论文本；

对所述至少一条评论文本进行切分，得到多个子句和所述多个子句所包括的多个词语；

将所述多个子句中的至少部分子句划分为多个类别；

从每一类别下的子句所包括的词语中，基于所述词语的出现频率来确定所述商品的一级属性词；

从所述多个子句所包括的多个词语中，至少基于所述词语与所述一级属性词的相似度来确定与所述一级属性词相关的候选二级属性词；以及

计算所述候选二级属性词的相关重要性，并基于所述相关重要性从所述候选二级属性词中确定与所述一级属性词相关的二级属性词。

2.如权利要求1所述的方法，其中，在得到多个子句和所述多个子句所包括的多个词语的步骤之后，所述方法还包括步骤：

为所述多个子句所包括的多个词语生成词向量；

基于所述词向量，为所述至少部分子句生成特征向量。

3.如权利要求2所述的方法，其中，将所述多个子句中的至少部分子句划分为多个类别的步骤包括：

基于所述特征向量，利用聚类算法将所述至少部分子句划分为多个类别。

4.如权利要求2所述的方法，其中，从每一类别下的子句所包括的词语中，基于词语的出现频率来确定所述商品的一级属性词的步骤包括：

对于每一类别，统计该类别下的子句所包括的词语的出现频率，并选择出现频率最高的至少一个词语作为所述商品的一级属性词。

5.如权利要求1所述的方法，其中，从所述多个子句所包括的多个词语中，基于词语与所述一级属性词的相似度来确定与所述一级属性词相关的候选二级属性词的步骤包括：

基于所述词语与所述一级属性词的相似度，确定与所述一级属性词相似的第一候选二级属性词；

基于所述词语与所述第一候选二级属性词的相似度，确定与所述第一候选二级属性词相似的第二候选二级属性词。

6.如权利要求1所述的方法，其中，计算所述候选二级属性词的相关重要性，并基于所述相关重要性从所述候选二级属性词中确定与所述一级属性词相关的二级属性词的步骤包括：

以所述一级属性词和所述候选二级属性词为节点来构建词语网络，所述一级属性词与所述第一候选二级属性词对应节点之间具有以所述一级属性词与所述第一候选二级属性词的相似度为权重的边，所述第一候选二级属性词与与所述第一候选二级属性词相似的第二候选二级属性词对应节点之间具有以所述第一候选二级属性词与所述第二候选二级属性词的相似度为权重的边；

利用重要节点排序算法计算所述词语网络中各节点的相对重要性；

选择对应节点的相对重要性大于预定数值的第一候选二级属性词和/或第二候选二级属性词作为所述二级属性词。

7.如权利要求6所述的方法，其中，所述重要节点排序算法包括佩奇排名算法、出入度重要性算法、介数中心性算法、或者SimRank算法。

8.如权利要求1所述的方法，其中，在基于所述相关重要性从所述候选二级属性词中确定与所述一级属性词相关的二级属性词的步骤之后，所述方法还包括步骤：

判断与所述一级属性词相关的二级属性词中是否存在其他一级属性词，且所述其他一级属性词对应节点的相对重要性小于所述一级属性词对应节点；

如果存在，则将所述其他一级属性词和与所述其他一级属性词相关的二级属性词作为与所述一级属性词相关的二级属性词。

9.如权利要求8所述的方法，其中，所述方法还包括步骤：

如果与所述一级属性词相关的二级属性词中存在其他一级属性词，且所述其他一级属性词对应节点的相对重要性大于所述一级属性词对应节点，则将所述一级属性词和与所述一级属性词相关的二级属性词作为与所述其他一级属性词相关的二级属性词。

10.如权利要求1所述的方法，其中，将所述多个子句中的至少部分子句划分为多个类别的步骤包括：

统计所述多个子句中各子句的出现频率；

选择出现频率最高的至少一个子句来进行划分。

11.如权利要求1所述的方法，其中，在对所述至少一条评论文本进行切分的步骤之前，所述方法还包括步骤：

对所述至少一条评论文本进行数据清洗；以及

从每一类别下的子句所包括的词语中，基于所述词语的出现频率来确定所述商品的一级属性词的步骤之后，所述方法还包括步骤：

对所确定的一级属性词进行数据清洗。

12.如权利要求2所述的方法，其中，为所述多个子句所包括的多个词语生成词向量的步骤包括：

利用词嵌入模型为所述多个子句所包括的多个词语生成词向量。

13.如权利要求1-12中任一项所述的方法，其中，所述商品包括预定类目下的所有商品。

14.一种预定类目下商品属性词的确定方法，所述方法包括步骤：

获取所述预定类目下所有商品的至少一条评论文本；

将所述多个子句中出现频率最高的至少一个子句划分为多个类别；

从每一类别下的子句所包括的词语中，基于所述词语的出现频率来确定所述预定类目下商品的一级属性词；

从所述多个子句所包括的多个词语中，至少基于所述词语与所述一级属性词的相似度来确定与所述一级属性词相关的候选二级属性词；

计算所述候选二级属性词的相关重要性，并基于所述相关重要性从所述候选二级属性词中确定与所述一级属性词相关的二级属性词；

15.一种商品属性词的确定装置，包括：

评论获取模块，适于获取商品的至少一条评论文本；

文本切分模块，适于对所述至少一条评论文本进行切分，得到多个子句和所述多个子句所包括的多个词语；

子句分类模块，适于将所述多个子句中的至少部分子句划分为多个类别；

一级属性词确定模块，适于从每一类别下的子句所包括的词语中，基于所述词语的出现频率来确定所述商品的一级属性词；以及

二级属性词确定模块，适于从所述多个子句所包括的多个词语中，至少基于所述词语与所述一级属性词的相似度来确定与所述一级属性词相关的候选二级属性词；还适于计算所述候选二级属性词的相关重要性，并基于所述相关重要性从所述候选二级属性词中确定与所述一级属性词相关的二级属性词。

16.一种预定类目下商品属性词的确定装置，包括：

评论获取模块，适于获取所述预定类目下所有商品的至少一条评论文本；

子句分类模块，适于将所述多个子句中出现频率最高的至少一个子句划分为多个类别；

一级属性词确定模块，适于从每一类别下的子句所包括的词语中，基于所述词语的出现频率来确定所述预定类目下商品的一级属性词；以及

二级属性词确定模块，适于

17.一种评论情感分析系统，包括：

如权利要求15所述的商品属性词的确定装置，适于根据商品的至少一个条评论文本来确定所述商品的属性词；以及

处理前端，适于针对所述商品的每个属性词，获取每条评论文本对于所述属性的情感倾向。

18.一种计算设备，包括：

一个或多个处理器；和

存储器；

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-14所述方法中的任一方法的指令。

19.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行根据权利要求1-14所述方法中的任一方法。