CN104106087A

CN104106087A - 用于网上购物的关联提取的系统和方法

Info

Publication number: CN104106087A
Application number: CN201380008497.5A
Authority: CN
Inventors: 佐菲亚·斯坦基维兹; 关根聪
Original assignee: Rakuten Inc
Current assignee: Lotte Group Co ltd
Priority date: 2012-02-09
Filing date: 2013-02-08
Publication date: 2014-10-15
Anticipated expiration: 2033-02-08
Also published as: US8843497B2; JP2014517364A; KR20140057347A; US20130212110A1; CN104106087B; KR101634020B1; JP5824532B2; WO2013118923A1; EP2812869A1

Abstract

本公开涉及用于向网页提供数据使得以模拟真实世界购物体验的方式向用户呈现项目的计算机系统和由选择性编程的数据处理器执行的方法。所公开的技术的各个方案还涉及用于使用关联关系提取来计算产品或类别关联的系统和方法。所公开的技术的附加方案涉及自动话题发现以及事件和类别匹配。

Description

用于网上购物的关联提取的系统和方法

要求优先权

本申请要求于2012年2月9日提交的美国临时专利申请No.61/597,032以及于2012年9月10日提交的美国非临时专利申请No.13/607,967的优先权，其全部内容通过引用的方式并入本文。

技术领域

本发明大体上涉及电子商务，更具体地，涉及基于网络的计算机系统和方法，用于实现性能和呈现增强协议以及用于促进基于web的商务的系统架构。

背景技术

网上购物在很多方面与在实际商场购物极大地不同。一个明显的区别是网上购物模型是面向搜索的，即，基于用户键入查询并且在最佳结果中找到相应的产品。因此，网上购物非常适合于心里有希望购买的特定类型的产品的用户的目标。此类用户希望能够快速地找到其选择产品或者比较相同产品的接近的备选物和变体。

另一方面，很多用户非常享受购物活动并且喜欢在他们决定购买之前浏览各种不同的项目。这种购物体验传统上仅非常适合于线下或实际商场，例如通过走进百货公司或者购物中心并且浏览。面向搜索的网上购物网站未提供全面或令人满意的“浏览”功能。

本发明试图解决这些问题和其他问题，以提供增强的网上购物体验，从而部分地允许用户体验在实际商场浏览的网上等同效果并且向用户提供相关的产品。

发明内容

因此，本发明的一个目的是提供具有向用户呈现相关联产品的访问门户网站的基于网络的计算机系统。

本发明的另一目的是提供用于优化向用户呈现的相关联产品的协议。

本发明的另一目的是提供关联关系提取。

本发明的另一目的是提供用于产品/电子商务域的话题发现。

本发明的另一目的是提供事件和类别匹配。

本发明的上述目的和其他目的在其特定示意性实施例中被实现，其中，特定示意性实施例包括连接到web的选择性编程的计算机平台和系统。

当结合附图和详细描述考虑时，本发明的其他特征和优点将变得更加显而易见。

附图说明

在附图中：

图1是示出了根据所公开的技术的一个实施例的示例性互联网商场环境的框图。

图2是根据所公开的技术的一个实施例的图1的网上购物服务器110中的示例性组件的框图。

图3至图4是所公开的技术的示意性实施例的屏幕截图。

图5是示出了LDA模型及其参数的示图。

具体实施方式

本发明涉及用于向网页提供数据使得以模拟真实世界购物体验的方式向用户呈现项目的计算机系统和由选择性编程的数据处理器所执行的方法。所公开的技术的各个方案还涉及用于使用关联关系提取来计算产品或类别关联的系统和方法。所公开的技术的附加方案涉及自动话题发现以及事件和类别匹配。本文所描述的特定实施例是示例性的，而不限制所公开的技术的范围。

现在参照图1，示出了根据所公开的技术的互联网商场基础设施100的一个实施例的框图。互联网商场基础设施100包括网络102，网络102可以包括一个或更多个电信设备(例如，路由器、集线器、网关等)以及一个或更多个连接(例如，有线连接或无线连接)。在不同的实施例中，网络102可以包括不同数量的电信设备和连接，并且可以跨越不同地理范围。在不同的实施例中，网络102可以尤其包括有线电话基础设施、蜂窝电话基础设施、有线电视基础设施和/或卫星电视基础设施的全部或部分。

各个互联网商场参与者(包括一个或更多个用户计算机104和106、零售商服务器108和网上购物服务器110)与网络102进行通信。本文所使用的术语“计算机”包括可以执行机器指令的任何系统或设备，包括例如：台式计算机、膝上型计算机、服务器、手机、智能手机、手持设备、电视机顶盒和/或联网的计算系统或其中的多个或其组合。零售商服务器108包括网页和web服务器软件，其中web服务器软件可以向请求网页的系统或设备提供网页。网页可以包括大量不同的媒体和内容，包括例如：购物内容。网上购物服务器114可操作以确定类别与产品之间的关联关系，构造话题页面，并且执行下面详细描述的各种其他功能。网上购物服务器114可以是零售商服务器108的一部分，或者可以是单独的服务器。

用户计算机104和106、零售商服务器108和网上购物服务器110均可以包括硬件，例如，网络通信设备、非瞬时存储介质/设备、处理器、存储器和诸如操作系统软件、web服务器软件和/或web浏览软件等的软件。在一个实施例中，用户计算机104和106包括web浏览器，web浏览器可以向零售商服务器108和/或网上购物服务器110请求网页。本领域技术人员将理解的是，“网页”是指不同事物的集合，包括：在屏幕上显示的视觉内容(例如，文本、图片、视频、按钮等)、使视觉内容被显示的软件代码、以及不使任何事物被显示而是结合网页执行特定功能的其他软件代码。

图2示出了根据所公开的技术的一个实施例的图1的网上购物服务器110的示例性组件。界面软件202允许与网上购物服务器110进行用户交互。存储介质204可操作以存储选择性程序，包括：实现关联关系提取引擎206和输出引擎210所需的程序。可以在数据处理器208上运行关联关系提取引擎206，使得执行下面所描述的算法和方法。输出引擎210可操作以向用户计算机或零售商服务器输出关联关系提取引擎206的结果，例如，话题页面。

在一个实施例中，用户能够在特定产品类别(例如，酒)中查看产品。系统的目的之一是确定用户将对哪些其他类别感兴趣并且显示这些类别。例如，在酒的情况下，可能存在各种类型的酒，但也有开瓶器具和储存器具以及酒杯或与酒一起供应的适合的食物(例如，奶酪)。可以在每一个零售商可能特有的“产品本体树”中定义这些产品类别。例如，零售商X可能具有家用项目类别(其具有开瓶器作为子类别)以及食物类别(其具有饮料作为子类别并且具有酒作为饮料类别的子类别)。在该示例中，上文提到的所有类型的产品被指派给零售商的产品层级中的不同类别，这些类别在产品本体树中通常离得很远。此外，用户数据可能不足以找到这种类型的关联，这是因为它可能遇到稀少问题，或者以此方式找到的相关内容可能不足够相干使得将它一起显示将提供愉快的上网体验。

考虑到零售商产品层级中的类别(例如，意大利面酱)以及指派给该类别的产品的描述，本发明在意大利面酱的情况下提取其他相关联的类别，例如，意大利面、西红柿、橄榄油和奶酪。这是通过创建“类别文档”的集合并且采用发现该文档集合中的隐藏话题的话题模型算法来实现的。

然后，基于对于每一个类别是重要的的话题和类别名称的共存来找到相关联的类别。此外，还可以根据相关联的类别被指派给的话题来对相关联的话题进行分组，这提供了布置相关联的类别信息的自然方式。对于每一个相关类别，所公开的发明选择示例产品和产品描述中说明关联的片段句子。此外，所公开的发明还构造话题页面，该话题页面列出了对于给定话题主要的类别。话题页面可以被认为是商店中的主题显示的等同物，例如，在意大利菜中使用的配料。

网上购物范例

网上购物可以被定义为网上购物范例，这有助于希望“浏览”网上商店的用户浏览和仔细查看各种产品。网上购物的目标用户是不一定打算搜索特定项目、而是访问网站以仔细查看和享受购物活动的用户。因此，网上购物界面的目的是捕获用户的意图并且提供娱乐。他们维持在站点上的时间越长，他们越可能发现他们决定购买的产品。网上购物的另一个功能是通过在浏览提议中显示用户可能还不了解或者还未想要搜索的产品来使他们接触到这些产品。

因此，在优选的实施例中，网上购物界面包括多个导航选项和一个吸引人的显示。为了使用户感兴趣，系统应当提供与用户当前正在查看的产品选择相关的多个选项，所述多个选项可以用作要仔细查看的其他可能的方向。此外，应当以有趣且吸引人的方式组织和显示作为相关选项显示的项目(产品类别或产品)以促进进一步浏览站点。通过用于提取产品类别之间的关联关系并且将这些关联组织为主题/话题的方法来促进这些要素。前面的两个部分介绍了在原型试验中使用的方法和数据的组成部分。

初步定义和数据

关联关系。考虑到典型的网上零售商产品类别层级，在不一定处于相同语义类中(即，在产品树中接近)但是仍然被感知为概念上相关的项目之间存在关联关系。这种关系的示例包括杯子和咖啡或者自行车和头盔。可以认为项目是关联相关的，这是因为它们参与一个活动或事件类型(煮意大利面涉及意大利面、锅、热水等)，一个项目类型用作另一个项目类型的容器(茶、茶壶)，或者它们经常一起被发现(女士手提包中的手帕和化妆镜)。

除了发现与给定实体关联相关的实体集合之外，还可以根据将它们与目标实体相联系的主题或整个话题来对其成员进行分组。例如，与奶酪相关的实体可以包括通常在早餐时吃的其他食物、或者与使用奶酪烹饪相关的项目，在该情况下，相关联的实体被细分为两个主题组。以单个话题为例，在烹饪主题下分组的与奶酪相关的实体可以包括擦菜板(用于擦菜的工具)、比萨(奶酪用作配料或调味配料)或者番茄汁(与奶酪搭配的配料)。

基于手动或自动分类，类别节点可以被分为类别和属性，其中，属性节点出现在树的下方。例如，饭碗类别的子类别可以包括描述诸如瓷、陶瓷、塑料等的材料的属性。

术语类别是指在层级中的该类别节点下的产品集合(和相应的产品文档)，而术语类别名称是指向类别提供的标签。在一个示例中，可以进行如下简化假设：当在产品文档中使用类别名称时，它是指该类别中的项目。在一个示例中，每一个类别具有一个名称/标签，但是原则上，可以使用用于提及类别中的项目的同义词或关键词列表来替换该名称。

方法概述

下面描述了一种用于找到所选域(例如，食物和厨房)中的产品类别之间的关联的方法。下面参照仅考虑来自食物和厨房域的类别节点(共1088个)的具体试验，并且将理解的是，下面对具体示例的参考不是限制性的。在一个实施例中，用于提取关联关系的方法由以下步骤构成：

1、类别文档构造

针对域中的每一个类别X，构造人造文档，该人造文档由关于其他类别Y描述该类别的所有句子构成，更具体地，包括对X中的产品的描述中提到至少一个其他类别Y的名称的所有句子以及对类别Y中的产品的描述中提到类别X的名称的所有句子。结果是文档集合(库)，针对每一个类别有一个文档。

2、使用潜在狄利克雷分配(LDA)的话题发现

通过对类别文档库使用LDA来运行话题模型，这发现了文档中的隐藏话题/主题。模型的结果提供了文档集合中的(由可能出现在每一个话题中的词表示的)主话题以及针对每一个类别文档的主要话题和针对文档集合中的每一个词的话题标签。必须凭经验建立针对给定文档库的话题的数量。针对食物和厨房域，话题的数量比类别的数量少十倍是最佳的。在一个实施例中，为了避免太笼统的话题，丢弃前10％的话题。

3、选择针对每一个类别文档的相关类别并且向话题指派类别

针对在单独的类别文档中描述的每一个目标类别，根据潜在相关话题在目标类别文档中的出现来对它们进行分类，或者基于话题模型结果来向它们指派相关分数。还基于目标中的最佳话题之一与相关类别文档中的最佳话题的重叠来将每一个相关类别指派给该目标中的最佳话题之一。

4、片段和样本产品选择

考虑到前两个步骤，相关类别到话题的指派是已知的，并且在目标类别文档中存在可以用作说明目标与相关类别之间的关系的片段候选的句子集合。针对该句子集合，包含关联对中的类别名称之一的最常见的谓语变元结构被发现，并且根据词属于被指派给该特定关联关系的话题的可能性来对这些句子进行分类。在其描述中具有高分数的片段的产品被选作示例。可以通过根据目标类别名称和代表话题的词构造查询并且将搜索结果限制于相关类别中的项目来在产品索引中搜索其他示例性产品。

5、类别的选择和聚类以表示每一个话题

因为使用LDA在类别文档集合中发现了隐藏话题，因此结果还使得可以构造“话题页面”，该话题页面可以被视为商店中的主题显示或主题角的等同物。为了构造话题页面，该话题下最可能的类别文档被选择并且k均值聚类版本用于根据产品本体树中的距离对其进行分组，使得类似的类别可以被显示在一起并且使得不适合在一起的类别可以被移除。在图3中示出了根据所公开的发明的一个实施例的示例性话题页面的屏幕截图。

6、话题标签选择

话题的数量远少于给定域中的类别的数量(例如，针对1088个类别的食物和厨房域有100个话题)，这允许手动的话题标签选择。然而，在一个实施例中，话题标签选择是自动化的。可以由注释器基于话题页面上的最佳话题关键词和类别的选择来指派话题标签。

方法细节

1、类别文档构造

该部分描述了如何考虑到该类别中的所有产品描述来构造类别文档。然后，针对给定域的此类文档的集合可以用作在下一部分中描述的话题模型聚类的输入。

首先，对所有描述进行标记化，并且给词性(POS)加标签并将词性划分到句子中。产品描述中的句子分段基于简单的朴素贝叶斯分类器，该朴素贝叶斯分类器决定当它遇到给定的具有约20个字符(不仅可以包括标点符号，而且还可以包括星号、音符以及一些其他符号)的集合中的分隔符之一时是否进行分段。提供给分类器的特征是：前一个词、前一个词的POS、分隔符自身以及与前一分隔符的距离(以词为单位)。

在分段之后，根据以下规则来清理(clean)描述数据。如果重复描述来自由相同的零售商提供的产品描述，则移除重复描述，也移除重复句子。仅标点符号或者数字不同的句子也被认为是重复的。此外，不包含任何谓语(动词或形容词)或格助词(case particle)的分段被移除，以排除诸如关键词列表等的非句子分段。

基于源类别将所有句子分组到单独的文档中，并且向这些句子指派唯一id，该唯一id包含产品描述所属的类别的id。然后，进一步对句子进行过滤，从而仅留下包含域中的另一类别的名称的那些句子。这允许保留潜在地描述给定产品类别与其他类别之间的关系的句子。这还有助于移除诸如运输或包装信息等的元数据。以标记化的格式保存数据，然而，与类别名称相匹配的所有子字符串被级联以形成单个词(很多类别名称由多于一个标记构成)。

与类别x相关的重要知识也可以包含在来自其他类别的提到类别x的名称的产品描述中。因此，在最后一个步骤中，使用从其他类别中的包含相关类别名称的描述复制而来的句子来增大每一个类别文档。

结果是文档集合(库)，针对每一个产品类别有一个文档。应当注意的是，这些文档不是连贯(coherent)文本或概述，它们仅将从产品描述中提取的相关句子聚集在一起。因为LDA是词包模型，因此这种类别文档库构成了下一个步骤的有效输入。

2、潜在狄利克雷分配

除了识别与给定目标关联相关的实体之外，另一个目的是基于目标实体的不同方面以及它与已经被分类为相关的实体相关联的方式将该知识组织到主题组中。因此，利用称作潜在狄利克雷分配(LDA)的模型。

为了运行LDA，必须指定三个参数：话题先验(prior)、词先验、以及话题群集的数量，即，库中将被模型发现的隐藏主题的数量。在一个实施例中，话题先验被设置为50除以话题的数量，并且词先验被设置为0.01。小于1的话题先验确保话题在文档中的“峰值”分布，其中针对每一个文档区分几个主要话题。应当凭经验来建立针对给定文档库的话题的数量。对于食物和厨房域，发现话题数量比类别数量小十倍是最佳的。

可以使用采用倒塌的吉布斯采样作为推断方法的软件。通过利用采样方法，可以在采样器的多次“老化(burn-in)”迭代之后通过多个采样对结果进行平均。然而，实际上，可能引入采样之间的话题不可辨识的问题。在一个实施例中，可以在库的对数似然已经稳定(例如，2500至3000次迭代)之后使用单个采样近似。

在一个试验中，以基本单调的形式呈现文档中的所有词。具有113个词的禁用列表用于从文档中移除所有数字和标点符号。输入还被格式化以增大发现表征关联关系和活动的话题的机会。除了使用文档中的所有词作为输入之外，还可以对库运行从属解析器并且仅保留谓语表达(动词、形容词和动名词)和其原始格位形式的变元(即，格助词被附着到名词以形成单个标记)。除了影响话题分布之外，后一个选项具有减小库大小从而缩短计算时间的优点。

LDA的结果由每一个文档中的推断的话题比例以及话题的词分布表示构成。话题词分布允许确定给定话题下最常见的词。这些词是可以由人类注释器使用以向话题指派标签或者通过自动化方式使用的词。

LDA发现的隐藏话题在特异性/通用性方面不同。一些话题群集对于给定域太笼统，例如，与食物和厨房域中的食用相关的话题。可以通过查看被指派该话题的类别的数量来找出和排除此类话题(类别越多，话题越笼统并且越不清楚)。为了避免太笼统的话题，可以设想根据文档的数量丢弃话题的前X％(例如，10％)。

在一个实施例中，使用被监督的LDA，例如，合理话题模型(RTM)，以发现产品本体树内的相关类别。通过使用RTM，可以在产品本体树中的类别之间的现有链路上训练模型，并且结果可以应用于预测类别层级树中彼此远离的类别之间的链路。

3、相关类别选择和话题指派

针对通过单独的类别文档所描述的每一个目标类别，所公开的发明根据目标类别文档中提到相关类别或者源自相关类别中的产品描述的句子的数量来对潜在相关类别进行分类。这提供了对两个类别之间相关强度的近似度量。

两个类别之间的关系的另一可能度量可以直接基于LDA结果计算的分数，其被表达为考虑到主类别和话题z感测到相关类别候选的概率，其可以被定义如下：

P (c_{2} | c_{1}) = \underset{z}{Σ} P (c_{2} | z) P (z | c_{1})

其中，(在另外假设所有文档是等概率的情况下)根据贝叶斯规则来计算考虑到话题z的类别文档c的概率：

P (c_{i} | z_{j}) = \frac{P (z_{j} | c_{i}) P (c_{i})}{P (z_{j})}

在一个实施例中，在目标类别文档中选择四个最佳话题以表示针对该类别的主要主题。虽然该数量是灵活的，但是通常在单个类别中仅有3至5个话题是主要的。对于这些话题中的每一个话题，通过迭代先前分类的类别候选列表并且基于以下公式将每一个候选指派给话题来指派4个相关类别，其中z是话题并且c是类别。

RelZ(c_i，c_j)＝max_z(P(z_k|c_i)+P(z_k|c_j)) (1)

这与选择重叠话题相对应，该重叠话题最大化两个类别在该话题下的概率。针对潜在重叠所核查的话题被限制于目标和相关候选类别中的前十个话题，因此如果不存在重叠则可以拒绝候选。

将相关类别指派给话题的另一备选方式可以是(例如，通过从主类别文档中提取包含相关类别的名称的所有句子)构建由描述关系的句子构成的新文档。然后，拟合的LDA模型可以用于使用标准LDA预测方法之一来预测新文档中的最佳话题。

4、片段选择

为了选择片段以表示每一个相关类别中的示例产品，所公开的发明使用来自目标类别文档的句子分段作为片段候选池。

包含在单个相关类别的候选集合中的句子包括(a)包含目标和相关类别的名称的句子、(b)包含对中的一个类别的名称并且来自另一类别中的产品描述的句子。这意味着可能仅类别名称之一出现在片段中并且另一个可能隐式地存在，这是因为句子来自该类别中的产品的描述。产品所属类别的名称通常不存在于描述中。取而代之地，它是隐式或空变元，例如，拉面面条的描述可能不包含词拉面，即使它是指面条。允许仅单个类别名称出现在句子中的策略允许对句子更大的覆盖和更可靠的频率统计。

首先，通过最常用的变元+谓语结构来对候选句子进行过滤，其中格位变元(case argument)是类别名称。假设存在通用地表达类别之间的关系的特定谓语形式，但是因为可能仅类别名称之一存在于句子中，因此所公开的发明从对中的两个类别中选择最常用的类别名称+格位组合。接下来，系统找出该类别变元在候选集合中依据的最常见动词。例如，针对类别对黄瓜和腌菜，最常见变元-谓语结构可以是腌制黄瓜。

然后，根据具有最常见的格位和谓语形式的候选句子中的词如何紧密地反映相关类别对被指派给的话题来对候选句子进行评分。通过对每一个句子中的词的话题z分数进行求和来指派分数。z分数是表示标准偏差的数量的统计度量，其中话题中的词的出现与均值(即，其预期的频率，而不论话题如何)相差该标准偏差。它是作为话题t中的词w_i的原始频率与t中的w_i的预期频率之间的差值除以库的标准偏差来计算的(针对二项式分布来计算的)，如下所示。N是整个库中的词的数量。

zscore (w_{i}, t) = \frac{count (w_{i} | w &Element; t) - (P (w_{i}) * \underset{w}{Σ} count (w | w &Element; t))}{N - P (w_{i}) * (1 - P (w_{i}))} - - - (2)

用于对片段候选进行分类的另一选项涉及使用skip-bigram统计而不是话题z分数。

5、话题页面构造

通过对与给定话题相关的类别进行聚类、然后选择最“可靠的”群集呈现在页面上来创建话题页面。

首先使用一维k均值聚类来对类别进行聚类，其中，类别之间的距离仅是本体树中的类别之间的边缘的数量。每一个群集接收基于考虑到话题指派给该群集中的类别的概率的平均值的可靠性分数。根据[068]中定义的公式来计算考虑到话题z的类别文档c的概率。因为LDA结果提供了考虑到类别的每一个话题的概率，因此在另外假设库中的所有类别都是等概率的情况下，可以使用贝叶斯规则来计算考虑到话题的类别的概率。根据群集的可靠性分数来对群集进行分类。

对于要被接受进入话题页面中的群集，针对该群集中的最佳类别的考虑到话题的概率必须高于具有最高可靠性的群集中的平均概率。此外，每一个群集中低于特定概率阈值的类别可以被丢弃，以确保构造更相干的页面(可以凭经验来确立阈值)。群集的标签是最低公共原型类别的名称。

6、自动加标签

话题加标签通常由两个阶段构成：(a)标签候选选择、然后(b)标签候选评分，这允许系统对候选标签进行分类并且选择最佳的候选标签。在本发明的一个实施例中，在候选选择和评分之前添加两个附加阶段：(c)将话题分类到x个(例如，三个)类型之一中、以及(d)根据话题类型对后续候选标签池进行评分。

通过使用本公开中描述的用于基于话题找到产品类别之间的关联的方法，系统还可以找到代表每一个话题的产品类别。在一个实施例中，系统使用该类别选择和来自产品类别本体的知识来将话题分类到以下类型之一中：

i、语义话题。这是指作为话题的代表所选择的产品类别中的80％或更多属于产品类别本体中的单个子树(即，它们在根以下2个等级处或者更低等级处共享公共原型)的话题。

ii、产品类型话题。话题将属于类别本体中的多个子树的类别进行分组，然而，在大多数类别中出现公共产品类型，这被反映在类别名称中。例如，凉鞋可以出现在本体中的男鞋、女鞋和童鞋分类组下面。然后，将预期词凉鞋将出现在多个类别名称中并且是给定话题中的高概率词。

iii、特性特征话题。话题对共享公共特征(例如，优雅的或随便的)或者在单个活动(例如，蒸汽蒸煮或调酒)中使用的不同类型的产品进行分组。如果话题未被识别为语义或产品类型话题，则它自动地落入该类型中。

标签候选池取决于所确定的话题类型。举例说明，如果话题被确定为是语义话题，则标签是原型类别标签。如果话题被确定为产品类型话题，则基于话题中前十个最可能的词以及在话题页面创建期间被指派给该话题的类别的名称来选择标签。如果话题是特性特征话题，则通过根据针对给定话题的最可能词构造的连词或名词短语或者通过将话题所表达的概念与最接近的电子百科全书进行匹配来选择标签候选(参见Jey Han Lau，Karl Grieser，David Newman，andTimothy Baldwin.Automatic labelling of topic models.In Proceedings ofthe 49th Annual Meeting of the Association for Computational Linguistics：Human Language Technologies-Volume 1，HLT′11，pages 1536-1545，Stroudsburg，PA，USA，2011。Association for Computational Linguistics.Qiaozhu Mei，Xuehua Shen，and ChengXiang Zhai.Automatic labeling ofmultinomial topic models.In Proceedings of the 13th ACM SIGKDDinternational conference on Knowledge discovery and data mining，KDD′07，pages490-499，New York，NY，USA，2007.ACM。其中的每一个通过引用的方式并入本文)。除了话题词多项式之外(考虑到话题的词在词汇表中的概率)，系统还选择说明话题的内容的相关产品类别，并且系统可以使用这些类别以及最佳话题词来搜索每一个相关类别中的代表性产品。在一个实施例中，选择标签候选连词从以下各项中选择：

i、给定话题中前十个最可能的词。

ii、被选择为表示话题及其原型类别(亲本以及以上)的类别的名称。如果话题主要对诸如盘子或意大利面等的相同类型的产品进行分组，则这特别有用。

iii、通过使用针对该话题的前十个词在每一个话题类别中进行搜索来为该类别选择的前五十个产品的标题。这些标题可能包含高概率话题词，但是因为这些产品是例证话题的产品，因此它们还可以包括额外有用的候选短语。可选择地，除了标题之外，还可以使用来自产品描述或评论的选择句子，例如，在给定话题下包含高概率词的句子。

除了标签仅是原型类别名称的语义话题之外，在一个实施例中，可以按如下方式对根据上文所概述的方法所选择的候选进行评分。系统基于以下公式向话题z的候选池L中的候选标签l_i指派分数，其中w表示词(公式中的求和是对库中的词汇表中的所有词进行的)，p表示概率，并且点间互信息(PMI)是在整个类别域库上逐个产品地计算的。

Score (l_{i}) = p (l_{i} | L) * \underset{w}{Σ} p (w | z) PMI (w, l_{i})

此外，可以基于逆文档频率(idf)来过滤出具有通用意思的非常频繁的候选，或者可以将idf并入到上面的分数中以归一化标签候选概率。在一个示例中，项t的idf是文档的总数除以包含t的文档的数量或者该量的对数。

附加应用

除了使用关联关系发现作为网上购物组成部分以显示产品类别供用户浏览之外，该方法还存在其他潜在应用，包括：

1、类别页面

考虑到类别的登录页面或特征页面，该方法的结果可以用于显示相关类别。

2、推荐

该方法的结果可以并入到推荐系统中，特别是在用户刚好购买了项目并且他们不再对给定类别中的类似项目进行比较感兴趣但是可能希望查看相关联的类别的情况下。

3、主题页面

通过该方法创建的话题页面可以与作为主题显示页面的剩余结果分离地使用。图4中示出了根据所公开的发明的一个实施例的示例性主题页面的屏幕截图。

潜在狄利克雷分配

下面的部分提供了上面简要描述的与LDA有关的附加细节。LDA是将库中的每一个文档表示为潜在话题的混合的生成话题模型。每一个话题进而可以表征为词的多项式分布。唯一可观测的变量是文档中的词，并且潜在话题被假设为表示库中的潜在主题。LDA的基本版本是词包模型，其中，文档内的词被假设为是可交换的。

模型隐含的直觉知识是诸如新闻文章等的每一个文档涵盖几个潜在话题。例如，与新学校的资金提供相关的文章可以包含属于教育话题的内容以及来自金钱/预算话题的内容。可以给文章中的每一个词指派话题标签，该话题标签将该词分类为传达与特定话题相关的信息。

从生成模型的角度来看，观测数据(文档中的词)取决于隐藏话题变量。因此，当创建文档时，根据该文档中的不同话题的重要性并且根据不同的词出现在给定话题中的可能性来对插入到文档中的词进行采样。例如，如果话题“教育”在该文档中具有较高概率，则可以根据该话题生成下一个词。此外，它更可能是教育话题中具有高概率的词，例如“学校”。

更正式地，集合中的文档的生成过程可以被概括如下：针对每一个文档，选择话题混合物，并且接下来以(a)从文档特定话题混合物中选择的话题和(b)针对该话题的词分布为条件，选择文档中的每一个词。下面更详细地描述文档的生成。

在图5中用图形表示LDA模型及其参数。图形模型显示具有D个文档的库，其中每一个文档具有N_d个词。此外，在库中存在K个话题，其中，每一个话题β与在库中找到的词的多项式分布相对应。z_d，n是指派给文档d中的第n个词的话题标签。除了词级变量z之外，还存在文档级变量Θ，其中Θ_d参数化文档d中的话题多项式。最后，α和η是与狄利克雷先验有关的参数，在生成过程中，根据该参数来对文档中的话题分布和话题中的词分布进行采样。

考虑到上面定义的变量，可以按以下步骤来定义图1中所示的生成过程：

1、选择Θ_d～Dir(α)，其中d∈{1，...，D}

2、选择β_k～Dir(η)，其中k∈{1，...，K}

3、对于词w_d，n中的每一个，其中n∈{1，...，N_d}：

(a)首先选择话题z_d，n～Multinomial(Θ_d)，

(b)然后选择词w_d，n～Multinomial。

因此，可以看出，针对文档d中的给定词的话题标签z的选择取决于通过Θ_d所参数化的文档中的话题的多项式分布。进而，词的选择取决于针对该词所选择的话题z以及该话题中的词分布。在针对参与生成过程的所有隐藏变量和观测变量的联合概率分布中，这些从属性也是明显的，如下面在(1)中所示。

p (β_{1 : K}, θ_{1 : D}, z_{1 : D}, w_{1 : D}) = Π_{k = 1}^{K} p (β_{k}) Π_{d = 1}^{D} p (θ_{d}) (Π_{n = 1}^{N} p (z_{d, n} | θ_{d}) p (w_{d, n} | β_{1 : K}, z_{d, n})) - - - (3)

上文给出的联合分布示出了生成模型隐含的概率假设。然而，这对于潜在变量Θ、β和z的值被假设为已知的模型参数的单一设置是有效的。实际上，模型的仅给定部分是由在集合中的文档中观测到的词构成的。因此，估计模型的变量设置(也称作推断或后验计算)的任务涉及找到考虑到观测的库的所有隐藏变量的条件分布，如下所述。

p (β_{1 : K}, Θ_{1 : D}, z_{1 : D} | w_{1 : D}) = \frac{p (β_{1 : K}, Θ_{1 : D}, z_{1 : D}, w_{1 : D})}{P (w_{1 : D})} - - - (4)

右侧的分子仅是模型的单个“版本”中的所有随机变量的联合分布。分母表示库在隐藏变量的任何设置下的边际概率。理论上，这可以通过对话题模型的所有可能的版本进行求和来计算，但是该总和由于库中的词的可能的话题标签指派的数量而难以求解。

因此，模型的后验通常是使用诸如变量推断或采样方法、最常见的吉布斯采样等的技术来估计的。在采样方法的情况下，可以通过对多个采样进行平均来计算估计，或者可以备选地使用单个采样近似。LDA的实现可以采用倒塌的吉布斯采样。

上述发明可以使用通用或专用计算系统环境或配置来操作。可以适于与本发明一起使用的公知的计算系统、环境和/或配置的示例包括但不限于：个人计算机、服务器计算机、手持或膝上型设备、平板设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、微型计算机、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境等。

本发明的计算机系统的组件可以包括但不限于：处理单元、系统存储器和将包括系统存储器在内的各个系统组件耦合到处理单元的系统总线。计算机系统通常包括多种非瞬时计算机可读介质。计算机可读介质可以是可以由计算机访问的任何可用介质，并且包括易失性和非易失性介质以及可移除和不可移除介质。地例说明而非限制的，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质可以存储诸如计算机可读指令、数据结构、程序模块或其他数据等的信息。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字通用盘(DVD)或者其他光盘存储设备、磁带盒、磁带、磁盘存储设备或其他磁性存储设备或者可以用于存储期望信息并且可以由计算机访问的任何其他介质。通信介质通常具体实现诸如载波或其他传输机制等的调制数据信号中的计算机可读指令、数据结构、程序模块或其他数据，并且包括任何信息传送介质。术语“调制数据信号”是指使其特性中的一个或更多个被设置或改变以对信号中的信息进行编码的信号。举例说明而非限制性的，通信介质包括诸如有线网络或直接有线连接等的有线介质和诸如声介质、RF介质、红外线介质和其他无线介质等的无线介质。上述介质中的任意介质的组合也应当落入计算机可读介质的范围内。

计算机系统可以使用与一个或更多个远端计算机的逻辑连接在联网环境中操作。远端计算机可以是个人计算机、服务器、路由器、网络PC、对等设备、或者其他公共网络节点，并且通常包括上文关于计算机所述的元件中的多个或全部。所描绘的逻辑连接包括一个或更多个局域网(LAN)和一个或更多个广域网(WAN)，但是还可以包括其他网络。此类联网环境在办公室、企业范围计算机网络、内联网和互联网中是普通的。

为了便于阐述，在本文中未将本发明的每一个步骤或要素描述为软件或计算机系统的一部分，但是本领域技术人员将认识到，每一个步骤或要素可以具有相应的计算机系统或软件组件。因此，这些计算机系统和/或软件组件通过运行(describe)其相应步骤或要素(也即是说，其功能)来启用，并且在本发明的范围内。此外，本发明的各个步骤和/或要素可以存储在非瞬时存储介质中，并且由处理器选择性地执行。

本发明的被描述为构成本发明的各个要素的前述组件旨在是说明性的而非限制性的。将执行与所述的组件相同或类似功能的很多适合的组件旨在被包含在本发明的范围内。这种其他组件可以包括例如在开发本发明之后开发的组件。

Claims

1.一种用于确定关联关系的计算机实现的方法，包括：

构造多个类别文档，其中所述多个类别文档中的每一个类别文档与类别相关联并且包括关于一个或更多个其他类别对相应类别的描述；

将所述多个类别文档应用于话题模型以确定话题；

选择针对所述多个类别文档中的第一类别文档的相关类别；

将所述相关类别中的一个或更多个相关类别指派给所确定的话题；

根据所述多个类别文档中的所述第一类别文档来选择所述描述中的一个或更多个描述，以说明所述多个类别文档中的所述第一类别文档与所述多个类别文档中的第二类别文档之间的关系；

基于所选择的一个或更多个描述来选择代表性产品；以及

构建话题页面。

2.根据权利要求1所述的计算机实现的方法，其中，所述话题模型使用潜在狄利克雷分配算法。

3.根据权利要求1所述的计算机实现的方法，其中，构建所述话题页面包括：进行k均值聚类，以根据产品本体树中的距离将话题聚集在一起。

4.根据权利要求1所述的计算机实现的方法，其中，确定的话题的数量比类别的数量少至少十倍。

5.根据权利要求1所述的计算机实现的方法，其中，选择相关类别包括：根据所述多个类别文档中的所述第一类别文档中提到所述相关类别之一或者源自所述相关类别之一中的产品描述的句子的数量来对潜在相关类别进行分类。

6.根据权利要求1所述的计算机实现的方法，其中，所述多个类别文档中的所述第一类别文档的所述描述包括所述多个类别文档中的所述第一类别文档中的产品描述中提到与所述多个类别文档中的所述第二类别文档相关联的类别名称的所有句子。

7.一种用于确定关联关系的系统，包括：

数据处理器，被编程为：

将所述多个类别文档应用于话题模型以确定话题；

选择针对所述多个类别文档中的第一类别文档的相关类别；

基于所选择的一个或更多个描述来选择代表性产品；以及

构建话题页面。

8.根据权利要求7所述的系统，其中，所述话题模型使用潜在狄利克雷分配算法LDA。

9.根据权利要求7所述的系统，其中，所述数据处理器被进一步编程为：

通过使用LDA结果以选择表示所述话题的产品类别，来构建所述话题页面；以及

使用k均值聚类根据产品本体树中的距离将所述类别聚集在一起。

10.根据权利要求7所述的系统，其中，确定的话题的数量比类别的数量少至少十倍。

11.根据权利要求7所述的系统，其中，所述数据处理器被进一步编程为选择相关类别包括：根据所述多个类别文档中的所述第一类别文档中提到所述相关类别之一或者源自所述相关类别之一中的产品描述的句子的数量来对潜在相关类别进行分类。

12.根据权利要求7所述的系统，其中，所述多个类别文档中的所述第一类别文档的所述描述包括所述多个类别文档中的所述第一类别文档中的产品描述中提到与所述多个类别文档中的所述第二类别文档相关联的类别名称的所有句子。

13.一种包含有程序的非瞬时计算机可读存储介质，当在数据处理器上执行所述程序时，所述程序使所述数据处理器执行包括以下各项的步骤：

将所述多个类别文档应用于话题模型以确定话题；

选择针对所述多个类别文档中的第一类别文档的相关类别；

基于所选择的一个或更多个描述来选择代表性产品；以及

构建话题页面。

14.根据权利要求13所述的非瞬时计算机可读存储介质，其中，所述话题模型使用潜在狄利克雷分配算法。

15.根据权利要求13所述的非瞬时计算机可读存储介质，其中，构建所述话题页面包括：进行k均值聚类，以根据产品本体树中的距离将话题聚集在一起。

16.根据权利要求13所述的非瞬时计算机可读存储介质，其中，确定的话题的数量比类别的数量少至少十倍。

17.根据权利要求13所述的非瞬时计算机可读存储介质，其中，选择相关类别包括：根据所述多个类别文档中的所述第一类别文档中提到所述相关类别之一或者源自所述相关类别之一中的产品描述的句子的数量来对潜在相关类别进行分类。

18.根据权利要求13所述的非瞬时计算机可读存储介质，其中，所述多个类别文档中的所述第一类别文档的所述描述包括所述多个类别文档中的所述第一类别文档中的产品描述中提到与所述多个类别文档中的所述第二类别文档相关联的类别名称的所有句子。