CN111448561A

CN111448561A - 用于基于聚类和句子相似度来生成答案的系统和方法

Info

Publication number: CN111448561A
Application number: CN202080000548.XA
Authority: CN
Inventors: 李斯佳; 王广涛; 郭进
Original assignee: Beijing Jingdong Shangke Information Technology Co Ltd; JD com American Technologies Corp
Current assignee: Beijing Jingdong Shangke Information Technology Co Ltd; JD com American Technologies Corp
Priority date: 2019-03-28
Filing date: 2020-03-09
Publication date: 2020-07-24
Anticipated expiration: 2040-03-09
Also published as: CN111448561B

Abstract

一种用于生成问题的答案的方法和系统。该系统包括计算设备。计算设备具有处理器和存储有计算机可执行代码的存储设备。计算机可执行代码在处理器处被执行时被配置为：接收由用户输入的关于产品的问题；使用问题从问答(QA)知识库中提取目标答案以形成答案集；从评论数据库中提取关于产品的用户评论以形成评论集；对答案集中的关键词进行聚类以获得集群中心；使用集群中心对答案集和评论集进行过滤，以得到答案子集和评论子集；以及从评论子集中生成问题的答案，其中答案选自评论子集，并与答案子集中的句子具有较高的句子相似度。

Description

用于基于聚类和句子相似度来生成答案的系统和方法

交叉引用

在本公开的描述中引用和讨论了可能包括专利、专利申请和各种出版物的一些参考文献。提供这样的参考文献的引用和/或讨论仅是为了阐明本公开的描述，而不是承认任何这样的参考文献是本文描述的公开的“现有技术”。在本说明书中引用和讨论的所有参考文献均通过引用以整体并入本文，并且其程度与每个参考文献通过引用单独并入本文的程度相同。

技术领域

本公开总体上涉及构建用于问答(QA)系统的答案生成系统，并且更具体地涉及用于通过利用电子商务平台上可用的丰富的问答数据和产品评论数据来基于词嵌入、嵌入词的聚类以及句子相似度测量构建答案生成系统的系统和方法。

背景技术

本文提供的背景描述是为了总体上呈现本公开的上下文的目的。在该背景技术部分中所描述的范围内，既未明确地承认也未暗含地承认当前提到名字的发明人的工作以及在申请时可能无法以其他方式视为现有技术的描述方面为本公开的现有技术。

当前的问答(QA)系统仅专注于向用户查询提供事实答案，例如，与产品、产品列表、术语定义、以及如何安装/使用产品有关的事实。现有技术不能针对许多类型的问题而找到答案，这是因为在用户的问题中存在许多可能变化，这些可能变化是由所使用的词、问题中的词的顺序、以及隐含在问题中的语义约束等引起的。

因此，未解决的需求在于基于当前的知识图，向那些没有确切答案的问题提供答案。

发明内容

在某些方面，本公开涉及一种用于生成用户(或客户)问题的答案的系统。在某些实施例中，系统包括计算设备。该计算设备具有处理器和存储有计算机可执行代码的存储设备。所述计算机可执行代码在所述处理器处执行时被配置为：

接收由用户输入的关于产品的问题；

使用所述问题从问答QA知识库中提取目标答案以形成答案集；

从评论数据库中提取关于所述产品的用户评论以形成评论集；

对所述答案集中的关键词进行聚类以获得集群中心；

使用所述集群中心对所述答案集和所述评论集进行过滤，以得到答案子集和评论子集；以及

从所述评论子集中生成所述问题的所述答案，其中所述答案选自所述评论子集，并与所述答案子集中的句子具有较高的句子相似度。

在某些实施例中，所述计算机可执行代码被配置为通过以下操作从所述QA知识库中提取答案：计算所述由用户输入的问题与所述QA知识库中的问题之间的句子相似度；以及将所述QA知识库中的所述问题中的在计算出的相似度中具有最大相似度的一个问题定义为最相似问题，其中所述目标答案是所述最相似问题的答案。在某些实施例中，用于比较的所述QA知识库中的问题仅包括用户问题中的产品所属产品类别下的问题。

在某些实施例中，所述计算机可执行代码被配置为通过以下操作来计算所述由用户输入的问题与所述QA知识库中的答案中的一个之间的句子相似度：

使用word2vec模型将所述由用户输入的问题分解为词向量v_A1，v_A2，...，v_Am，并使用word2vec模型将所述QA知识库中的答案中的所述一个分解为词向量v_B1，v_B2，...，v_Bn，其中，所述由用户输入的问题由S_A表示并包括m个词，并且所述QA知识库用户中的答案中的所述一个由S_B表示并包括n个词；

计算S_A中的向量中的一个与S_B中的向量中的一个之间的相似度距离s(v_i，v_j)，其中，i为A1至Am中的一个，且j为B1至Bm中的一个；

将针对所述词向量v_i的逆文档频率(IDF)计算为：

其中，C为所述评论数据库中的评论的总数，且C_i为所述评论数据库中的包含与所述词向量v_i相对应的词在内的评论的总数；以及

使用下式来计算S_A与S_B之间的所述句子相似度：

在某些实施例中，所述计算机可执行代码被配置为通过以下操作对所述答案集中的关键词进行聚类以获得所述集群中心：

将所述答案集中的关键词转换为关键词向量；

通过下式来计算关键词向量i中的一个的K-密度

其中，

是所述关键词向量i的K-密度，d_i，j是所述关键词向量i与关键词向量j中的一个之间的距离，K是预定的正整数，且从1到K的所述关键词向量j是所述关键词向量i的最近邻居；

通过下式计算基于密度的最小距离

其中，l是所述关键词向量中的具有比K-密度

大的K-密度

且与所述关键词向量i最近的一个关键词向量；

针对每个关键词向量i通过下式来计算关键词向量乘积x_i：

以及

基于所述关键词向量乘积的值，将多个关键词向量选择为集群中心，其中，所述集群中心的关键词向量乘积的值大于非集群中心的关键词向量乘积的值。

在某些实施例中，基于所述关键词向量乘积的值从低到高地依次以整数1至n对所述关键词向量进行索引，具有最高关键词向量乘积的非集群中心具有索引o，并且x_o+1-x_o≥1.5×(x_o+2-x_o+1)。在某些实施例中，n-o大于5。在某些实施例中，K是

并且n是所述答案集中的关键词的总数。

在某些实施例中，所述计算机可执行代码被配置为通过以下操作生成所述问题的答案：计算所述评论子集中的句子与所述答案子集中的句子之间的句子相似度；将所述评论子集中的句子中的一个与所述答案子集中的所有句子之间的平均句子相似度值定义为所述评论子集中的句子中的所述一个的句子-答案子集相似度值；选择所述评论子集中具有最高句子-答案子集值的预定数量的句子；以及将所述预定数量的句子中的一个选择为所述问题的所述答案。在某些实施例中，所述预定数量在3-10的范围内。

在某些实施例中，计算所述评论子集中的句子与所述答案子集中的句子之间的句子相似度的步骤包括：

使用word2vec模型将所述评论子集中的句子中的一个分解为词向量v_D1，v_D2，...，v_Dp，并使用所述word2vec模型将所述答案子集中的句子中的一个分解为词向量v_E1，v_E2，...，v_Eq，其中，所述评论子集中的句子中的所述一个由S_D表示并包括p个词，且所述子答案集中的句子中的所述一个由S_E表示并且包括q个词；

计算S_D中的向量中的一个与S_E中的向量中的一个之间的相似度距离s(v_i，v_j)，其中，i为D1至Dp中的一个，且j为E1至Eq中的一个；

将针对所述词向量v_i的逆文档频率(IDF)计算为：

其中，C是所述评论子集中的句子的总数，且C_i是所述评论子集中的包含与所述词向量v_i相对应的词在内的句子的总数；以及

使用下式来计算S_D与S_E之间的所述句子相似度：

在某些方面，本公开涉及一种用于生成问题的答案的方法。在某些实施例中，所述方法包括：

由计算设备接收由用户输入的关于产品的问题；

由所述计算设备使用所述问题从问答(QA)知识库中提取目标答案以形成答案集；

由所述计算设备从评论数据库中提取关于所述产品的用户评论以形成评论集；

由所述计算设备对所述答案集中的关键词进行聚类以获得集群中心；

由所述计算设备使用所述集群中心对所述答案集和所述评论集进行过滤，以得到答案子集和评论子集；以及

由所述计算设备根据所述评论子集生成所述问题的答案，其中，所述答案选自所述评论子集，并与所述答案子集中的句子具有较高的句子相似度。

在某些实施例中，从所述QA知识库中提取答案的步骤包括：计算所述由用户输入的问题与所述QA知识库中的问题之间的句子相似度；以及将所述QA知识库中的所述问题中的具有计算出的相似度中的最大相似度的一个问题定义为最相似问题，其中所述目标答案是所述最相似问题的答案。

在某些实施例中，计算所述由用户输入的问题与所述QA知识库中的答案中的一个之间的句子相似度的步骤包括：

使用word2vec模型将所述由用户输入的问题分解为词向量v_A1，v_A2，...，v_Am，并使用所述word2vec模型将所述QA知识库中的答案中的所述一个分解为词向量v_B1，v_B2，...，v_Bn，其中，所述由用户输入的问题由S_A表示并包括m个词，且所述QA知识库用户中的答案中的所述一个由S_B表示并包括n个词；

将针对所述词向量v_i的逆文档频率(IDF)计算为：

使用下式来计算S_A与S_B之间的句子相似度：

在某些实施例中，对所述答案集中的所述关键词进行聚类以获得所述集群中心的步骤包括：

将所述答案集中的关键词转换为关键词向量；

通过下式来计算关键词向量i中的一个的K-密度

其中，

通过下式计算基于密度的最小距离

其中，l是所述关键词向量中的具有比K-密度

大的K-密度

且与所述关键词向量i最近的一个关键词向量；

针对每个关键词向量i通过下式来计算关键词向量乘积x_i：

以及

在某些实施例中，基于所述关键词向量乘积的值从低到高地依次以整数1至n对所述关键词向量进行索引，具有最高关键词向量乘积的非集群中心具有索引o，并且x_o+1-x_o≥1.5×(x_o+2-x_o+1)。在某些实施例中，K是

并且n是所述答案集中的关键词的总数。

在某些实施例中，生成所述问题的所述答案的步骤包括：计算所述评论子集中的句子与所述答案子集中的句子之间的句子相似度；将所述评论子集中的句子中的一个与所述答案子集中的所有句子之间的平均句子相似度值定义为所述评论子集中的句子中的所述一个的句子-答案子集相似度值；选择所述评论子集中具有最高句子-答案子集值的预定数量的句子；以及将所述预定数量的句子中的一个选择为所述问题的所述答案。在某些实施例中，所述预定数量在3-10的范围内。

使用word2vec模型将所述评论子集中的句子中的一个分解为词向量v_D1，v_D2，...，v_Dp，并使用所述word2vec模型将所述答案子集中的句子中的一个分解为词向量v_E1，v_E2，...，v_Eq，其中，所述评论子集中的句子中的所述一个由S_D表示并且包括p个词，所述子答案集中的句子中的所述一个由S_E表示并且包括q个词；

将针对所述词向量v_i的逆文档频率(IDF)计算为：

使用下式来计算S_D与S_E之间的所述句子相似度：

在某些方面，本公开涉及存储有计算机可执行代码的非暂时性计算机可读介质。所述计算机可执行代码在计算设备的处理器处被执行时，被配置为执行上述方法。

从以下结合附图及其注释对优选实施例的描述，以上这些和本公开的其他方面将变得更加清楚，尽管可以在不脱离本公开新颖构思的精神和范围的情况下进行多种改变和修改。

附图说明

附图示出了本公开的一个或多个实施例，并且与书面说明书一起用于解释本公开的原理。在任何可能的地方，贯穿附图，相同的附图标记用于表示实施例的相同或相似元件。

图1示意性地描绘了根据本公开的某些实施例的QA答案生成系统的框架。

图2示意性地描绘了根据本公开的某些实施例的QA答案生成系统。

图3示意性地描绘了根据本公开的某些实施例的用于生成对客户问题的答案的方法。

图4示意性地描绘了根据本公开的某些实施例的从向量集中检测集群中心的方法。

图5示意性地描绘了根据本公开的某些实施例的用于计算两个句子之间的相似度的方法。

图6示意性地描绘了根据本公开的某些实施例的计算两个句子之间的相似度的示例。

具体实施方式

在下面的示例中更具体地描述了本公开，这些示例仅旨为说明性的，因为其中的许多修改和变化对本领域技术人员而言是显而易见的。现在，具体描述本公开的各种实施例。参考附图，贯穿视图，相同的附图标记表示相同的组件。如在此说明书中和贯穿所附权利要求书所使用的，除非上下文另有明确说明，否则“一”、“一个”和“所述”的含义包括复数指示物。此外，如在此说明书中和贯穿所附权利要求书所使用的，除非上下文另有明确说明，否则“在......中”的含义包括“在......中”和“在......上”。此外，为了方便读者，可以在说明书中使用标题或副标题，这将不影响本公开的范围。另外，本说明书中使用的一些术语在下面更具体地定义。

在本公开的上下文内以及在使用每个术语的特定上下文中，本说明书中使用的术语通常具有其本领域的普通含义。在下文或说明书的其他地方讨论了用于描述本公开的某些术语，以向从业者提供关于本公开的描述的附加指导。将理解，可以以一种以上的方式阐述同一件事。因此，备选的语言和同义词可以用于本文时论的任何一个或多个术语，无论在本文中术语是否被详尽说明或讨论，都不被赋予任何特殊意义。提供了某些术语的同义词。一个或多个同义词的描述不排除使用其他同义词。对本说明书中任何地方的示例(包括在本文中讨论的任何术语示例)的使用仅是说明性的，并且绝不限制本公开或任何示例性术语的范围和含义。同样，本公开不限于本说明书中给出的各种实施例。

除非另外定义，否则本文使用的所有术语(包括技术术语和科学术语)具有与本公开所属领域的普通技术人员通常所理解的相同的含义。还将理解的是，诸如在常用词典中定义的术语应被解释为其含义与在相关技术和本公开的上下文中的含义相同，而不应将其解释为理想的或过于正式的含义，除非本文明确如此定义。

如本文使用的，“大约”、“约”、“基本上”或“近似”应通常是指在给定值或范围的20％内、优选地在10％内、更优选地在5％内。本文给出的数值量是近似的，意味着如果没有明确说明，则可以推断出术语“大约”、“约”、“基本上”或“近似”。

如本文所使用的，“多个”意指两个或更多个。

如本文使用的，术语“包括”、“包括”、“携带”、“具有”、“包含”、“涉及”等应被理解为开放式的，即意指包括但不限于。

如本文使用的，短语A、B和C中的至少一个应被解释为意指使用非排他性逻辑或(OR)的逻辑(A或B或C)。应当理解，在不改变本公开的原理的情况下，可以以不同的顺序(或同时)执行方法内的一个或多个步骤。如本文中所使用的术语“和/或”包括相关列出项目中的一个或多个的任何和所有组合。

如本文使用的，术语“模块”可以指代以下项、以下项的部分或包括以下项：专用集成电路(ASIC)；电子电路；组合逻辑电路；现场可编程门阵列(FPGA)；执行代码的处理器(共享、专用或组)；提供描述的功能的其他合适的硬件组件；或上述某些或全部的组合，例如在片上系统中。术语模块可以包括存储由处理器执行的代码的存储器(共享、专用或组)。

如本文使用的，术语“代码”可以包括软件、固件和/或微代码，并且可以指代程序、例程、函数、类和/或对象。如上使用的，术语共享是指可以使用单个(共享)处理器来执行来自多个模块的一些或全部代码。另外，来自多个模块的一些或全部代码可以由单个(共享)存储器存储。如上使用的，术语组是指可以使用处理器组来执行来自单个模块的一些或全部代码。另外，可以由存储器组存储来自单个模块的一些或全部代码。

如本文使用的，术语“接口”通常是指在组件之间的交互点处用于在组件之间执行数据通信的通信工具或装置。通常，接口可以在硬件和软件两者上适用，并且可以是单向或双向接口。物理硬件接口的示例可以包括电连接器、总线、端口、电缆、端子和其他I/O设备或组件。与接口通信的组件可以是例如计算机系统的多个组件或外围设备。

本公开涉及计算机系统。如附图中所示，计算机组件可以包括物理硬件组件和虚拟软件组件，物理硬件组件显示为实线框，虚拟软件组件显示为虚线框。本领域普通技术人员将理解，除非另外指出，否则可以以但不限于软件、固件或硬件组件、或其组合的形式来实现这些计算机组件。

本文描述的装置、系统和方法可以由一个或多个处理器执行的一个或多个计算机程序来实现。计算机程序包括存储在非暂时性有形计算机可读介质上的处理器可执行指令。计算机程序还可以包括存储的数据。非暂时性有形计算机可读介质的非限制性示例是非易失性存储器、磁性存储装置和光学存储装置。

现在将参考示出了本公开的实施例的附图，在下文中更详细地描述本公开。然而，本公开可以以许多不同的形式来体现，并且不应当被解释为受限于本文中所阐述的实施例；相反，提供这些实施例，使得本公开将是全面且完整的，并且将把本公开的范围完全传达给本领域的技术人员。

在某些方面，为了利用电子商务平台上可用的丰富和大量的问答(QA)数据，本公开提供了一种用于智能答案生成系统的框架，以生成响应用户查询而选择的用于客户服务代表(CSR)的最佳候选答案。

在某些实施例中，响应于用户询问而仅提供事实直接答案，而不利用与用户询问中涉及的产品有关的可用的大量用户评论。然而，本文中认为从这些丰富的用户评论中，可以提取出有用的信息并将其作为超出事实答案的补充建议提供给用户。在某些实施例中，这些补充建议包含关于产品应用场景的信息、或为什么/为什么不的信息。在一个示例中，如果客户问“冰箱的容量是多少？”，则除了直接的事实答案“容积为20至30立方英尺”之外，还可以提供补充建议，例如，“适合三到四个人的家庭”。

此外，由于用户的问题中由问题成分(例如，使用的词、问题中的词的顺序、以及问题中隐含的语义约束)引起的大量变化，因此不是所有用户问题都可以被回答。

为了克服这些挑战和缺点，在某些方面，本公开提供了一种框架，该框架基于在CSR与客户之间和在客户之间生成的大量QA数据(QA知识库)以及由客户在电子商务平台中生成的产品评论数据(产品评论DB)，来构建智能QA答案生成系统。图1示意性地示出了根据本公开的某些实施例的框架(或流程图)。如图1所示，当客户输入问题时，框架将客户问题与QA知识库中的所有或某些类别的问题进行比较以找到最相似的问题，并使用最相似的问题从QA知识库中提取答案集。然后，框架将答案集中的答案进行标记化(tokenize)并嵌入以获得关键词向量。然后，框架对关键词向量进行聚类，并且将集群中心视为有效值，这些有效值是从关键词向量中选择的最重要的关键词。

同时，当客户输入问题时，框架还使用标识(例如，与问题有关的产品的SKU)以从产品评论数据库中提取评论集。评论集包括在该产品下做出或列出的评论、或与该产品有关的所有评论。

通过可用的答案集、评论集和有效值，框架使用有效值(最重要的关键词)分别过滤答案集和评论集，以获得答案子集和评论子集。然后，框架对答案子集中的句子与评论子集中的句子之间的相似度进行比较，并从评论子集中选择预定数量的评论作为最佳候选答案，其中最佳候选答案与答案子集中的句子具有较高的相似度。预定数量可以在3到10的范围内，并且在一个实施例中预定数量是5。最后，框架向客户服务代表呈现最佳候选答案，使得客户服务代表可以选择最佳候选答案中的一个，并将所选择的答案返回给输入该问题的客户。在某些实施例中，框架还可以直接向用户呈现一个最佳候选答案，而无需与客户服务代表进行交互。在某些实施例中，框架还可以向用户呈现所有最佳候选答案。

通过结合经由电子商务平台的全球QA知识库信息和与特定产品相关的评论信息，框架可以针对一个产品准确地定位与客户问题最相关的答案。

图2示意性地描绘了根据本公开的某些实施例的智能QA答案生成系统。在某些实施例中，图2中所示的系统200用于实现图1中的框架。如图2所示，系统200包括计算设备210。在某些实施例中，计算设备210可以是服务器计算机、集群、云计算机、通用计算机、或专用计算机，其基于QA知识库中的数据和产品评论数据来响应于用户查询生成前k个候选答案，其中k是约3到10的范围内的预定正整数。在一个实施例中，k为5。在某些实施例中，计算设备210可以与其他计算设备或服务进行通信，以便从那些计算设备获得QA知识库和产品评论数据。在某些实施例中，通过网络来执行通信，该网络可以是有线或无线网络，并且可以具有各种形式，例如，公共网络和专用网络；或者通过包括但不限于以下项的非暂时性计算机介质来执行通信：闪存驱动器、USB驱动器、硬盘驱动器、软盘、SD卡、光盘驱动器、或任何其他便携式数据存储介质。在某些实施例中，计算设备210针对例如个人计算机、平板电脑、或智能电话的大量用户计算设备中的每一个提供接口，使得用户可以通过该接口与计算设备210进行通信、发送关于产品的问题、以及通过计算设备210读取返回的答案。

QA知识库260可以由计算设备210访问并且可以定期地进行更新。在某些实施例中，QA知识库260不断地被更新。QA知识库260记录在特定产品列表下由客户提出的问题以及由其他客户提供的对应答案。在某些实施例中，产品的制造商或供应商或销售商也可以提供用户问题的答案。产品知识库260还记录客户服务代表与客户之间关于特定产品的在线聊天对话。在某些实施例中，QA知识库260中的问答是按产品类别或SKU组织的。在产品QA知识库260中，每个产品与客户先前在电子商务平台上提出的问题集相关联。每个问题具有与其相关联的答案列表。QA知识库260可以存储在计算设备210上，或者可以存储在计算设备210可访问的其他服务器计算设备上。由于QA知识库260包括来自不同资源的问题和答案，因此它更像是跨电子商务平台的全局数据库。

在某些实施例中，QA知识库260可以经历归一化处理。客户可能针对特定产品提出多个问题。有些问题本质上可能非常相似，因此无需保留所有问题。相反，这些相似的问题可以被合并为代表性问题。这减少了系统需要存储和处理的数据量。此外，每个客户问题可以与由CSR和其他同类客户或例如制造商、供应商等的其他方提供的答案列表相关联。同样，这些答案中的某些可能本质上是非常相似的，因此它们可以被合并为代表性答案。在某些实施例中，针对QA知识库260的归一化处理可以包括使用图5中所示的相似度测量方法来比较问题或答案。在该归一化之后，每个产品与不同问题集相关联，每个问题与不同答案集相关联。

产品评论数据库(DB)280可以由计算设备210访问并可以被定期地更新。在某些实施例中，产品评论DB 280不断地被更新。产品评论DB 280记录与由客户提供的产品有关的评论，通常是在产品网页下列出的评论。每个产品具有与其相关的评论列表。评论涉及客户可能对产品发表评论的任何内容，包括利弊、典型用法、他们为什么喜欢/不喜欢它等。产品评论DB 280可以存储在计算设备210上，或者可以存储在由计算设备210可访问的其他服务器计算设备上。

在某些实施例中，通过产品标识(例如，库存单位(SKU或sku_id))来布置产品评论DB 280，其中，对相同产品的评论被放置在对应的SKU下或由其索引。在某些实施例中，产品评论DB 280可以例如使用图5中所示的相似度测量方法来进一步归一化针对每个产品的评论，以便合并相似的评论以减少冗余。在该归一化之后，每个产品与不同评论集相关联。

如图2所示，计算设备210可以包括但不限于处理器212、存储器214和存储设备216。在某些实施例中，计算设备210可以包括其他硬件组件和软件组件(未示出)以执行其对应的任务。这些硬件和软件组件的示例可以包括但不限于其他所需的存储器、接口、总线、输入/输出(I/O)模块或设备、网络接口、以及外围设备。

处理器212可以是被配置为控制计算设备210的操作的中央处理单元(CPU)。处理器212可以执行计算设备210的操作系统(OS)或其他应用。在一些实施例中，计算设备210可以具有一个以上的CPU作为处理器，例如，两个CPU、四个CPU、八个CPU或任何合适数量的CPU。存储器214可以是用于在计算设备210的操作期间存储数据和信息的易失性存储器，例如，随机存取存储器(RAM)。在某些实施例中，存储器214可以是易失性存储器阵列。在某些实施例中，计算设备210可以在一个以上的存储器214上运行。存储设备216是用于存储计算设备210的OS(未示出)和其他应用程序的非易失性数据存储介质。存储设备216的示例可以包括例如，闪存、存储卡、USB驱动器、硬盘驱动器、软盘、光盘驱动器、固态驱动器(SSD)的非易失性存储器或任何其他类型的数据存储设备。在某些实施例中，存储设备216可以是本地存储、远程存储、或云存储。在某些实施例中，计算设备210可以具有多个存储设备216，其可以是相同的存储设备或不同类型的存储设备，并且计算设备210的应用可以存储在计算设备210的存储设备216中的一个或多个中。在某些实施例中，计算设备210是云计算机，并且处理器212、存储器214和存储设备216是通过互联网按需提供的共享资源。

如图2所示，存储设备216包括答案生成应用程序220。答案生成应用程序220被配置为基于QA知识库260和产品评论DB 280，响应于客户或用户输入的问题而生成前k个候选答案。如上所述，QA知识库260能够从电子商务平台检索并可用于答案生成应用程序220。产品评论DB 280也能够从电子商务平台检索并可用于答案生成应用程序220。

此外，答案生成应用程序220还包括用户问题接收器222、评论集提取器224、最相似问题识别器226、答案集提取器228、关键词分词器和向量生成器230、集群中心检测器232、集群中心滤波器234、答案子集生成器236、评论子集生成器238、以及最佳候选答案生成器240。在某些实施例中，答案生成应用程序220可以包括答案生成应用程序220的操作所必需的其他应用或模块。应该指出的是，模块均由计算机可执行代码或指令、或数据表或数据库来实现，它们共同形成一个应用程序。在某些实施例中，模块中的每一个还可以包括子模块。备选地，模块中的一些可以组合为一个栈。在其他实施例中，某些模块可以被实现为电路而不是可执行代码。在某些实施例中，答案生成应用程序220中的一些或全部模块可以位于远程计算设备处或分布在云中。

用户问题接收器222被配置为通过界面(例如，通过在电子商务平台的产品网页的问题/答案部分下的图形用户界面(GUI)，或通过由电子商务平台支持的在客户与CSR之间的聊天会话)来获取用户问题或客户问题。在某些实施例中，用户在特定产品网页下提出问题或通过聊天会话提供产品标识，因此产品的SKU是已知的，并且因此与问题相关联。在接收到问题之后，用户问题接收器222被配置为将用户问题和相关联的SKU中的至少一个发送给评论集提取器224和最相似问题识别器226。

评论集提取器224被配置为在从用户问题接收器222接收到SKU时，从产品评论DB280检索与该SKU有关的评论以形成评论集，并且将评论集发送给评论子集生成器238。由于产品评论DB 280中的评论是按产品(或SKU)组织的，因此SKU信息本身足以检索与问题有关的评论集。因此，由客户输入的问题本身可能不是检索评论集所必需的。在某些实施例中，评论集提取器224还可以使用问题信息来过滤或扩展评论集。

最相似问题识别器226被配置为在接收到用户输入的问题和可选地SKU时，在QA知识库260中识别与用户输入的问题最相似的问题。在某些实施例中，最相似问题识别器226被配置为相对于QA知识库260中的问题，使用用户输入的问题来采用相似度测量方法(在图5中说明)以找到最相似的问题。具体地，最相似问题识别器226被配置为计算用户输入的问题与QA知识库260中的每个问题之间的相似度，并识别与用户输入的问题具有最大相似度的最相似问题。在某些实施例中，如果最大相似度达到某个阈值，则将具有最大相似度的问题视为最相似问题。在某些实施例中，阈值被设置为0.5-0.8的范围。在一个实施例中，阈值被设置为0.8。当最大相似度小于阈值时，答案生成应用程序220可以提供该问题没有可用的答案的响应。在某些实施例中，如果存在相似度大于阈值0.8的5个以上的答案，则在以下步骤中仅考虑前5个答案或仅考虑最佳答案。当考虑前5个答案时，它们在以下步骤中被组合在一起或在以下步骤中被单独地处理。在某些实施例中，将用户输入的问题与QA知识库260中的所有问题进行比较。在某些实施例中，QA知识库260中的问题是按产品类别组织的，且将用户问题与QA知识库260中的与在用户输入的问题中描述的产品在相同的产品类别下的问题进行比较。最相似问题识别器226还被配置为在识别最相似问题之后，将最相似问题发送给答案集提取器228。

答案集提取器228被配置为在从最相似问题识别器226接收到最相似问题时，从QA知识库260中提取针对所识别的最相似问题的答案，并将所提取的答案集发送给关键词分词器和向量生成器230以及子答案生成器236。

关键词分词器和向量生成器230被配置为：在接收到所提取的答案集时，将答案集中的每个答案分解为一系列关键词(标记(token))，将关键词转换为向量，并将向量发送给集群中心检测器232。在某些实施例中，答案集中的答案是中文，并且关键词分词器和向量生成器230使用解析器将答案分解为词，并使用正则表达式来清理分解后的关键词。清理过程可能包括移除英文词、数字和标点符号，并且移除只有一个汉字的分解词。例如，将句子“可以免费安装呀(free installation)”分解为关键词序列“可以(can be)//免费(free)//安装(install)//呀(中文中的语气词)”，并且最后一个关键词“呀”被丢弃，因为其长度仅为一个汉字。

关键词分词器和向量生成器230还被配置为：在获得经分解和清理的关键词之后，将那些关键词馈送到word2vec中以进行词嵌入，从而获得与那些关键词相对应的向量，并且将向量发送给集群中心检测器232。word2vec是用于产生词嵌入的一组相关模型。在某些实施例中，word2vec模型是被训练以重组词的语言环境的浅层(两层)神经网络。词嵌入是自然语言处理(NLP)中语言建模和特征学习技术的集合的总称，其中词汇中的词或短语被映射到实数向量。嵌入查找(embedding lookup)针对每个关键词生成向量。每个词由具有多个维度的一个向量表示。在某些实施例中，针对经分解和清理的关键词，构建具有300个维度的向量。在某些实施例中，word2vec训练利用来自产品评论DB 280的产品评论数据来进行初始化。

集群中心检测器232被配置为：在接收到关键词向量之后，检测关键词向量的集群中心，并且将集群中心发送给聚类滤波器234。在某些实施例中，集群中心检测器232被配置为使用以下步骤来检测集群中心：

1.假设从关键词分词器和向量生成器230接收的关键词向量的数量为n，并且n个关键词向量形成向量集。对于n个关键词向量中的每个关键词向量i，找到其在它们的向量空间中与向量集内的其他关键词向量j的距离。换句话说，d_i，j表示对象O_i和对象O_j(或向量空间中的向量i和向量j)之间的距离。在某些实施例中，使用共享最近邻(SNN)或余弦相似度方法来计算距离。d_i，j的值越小，两个向量的关系越相似或越接近(相反，s_i，j的值越大，两个向量的关系越相似或越接近，其中s_i，j＝1-d_i，j)。计算之后，然后确定与向量i最邻近的K个向量，称为向量j，其中j在1到K的范围内。

2.对于每个关键词向量i，计算其K-密度

为：

在该等式中，根据步骤1计算得出d_i，j，其中d_i，j是从向量i到向量j的距离，向量j是向量i的最近邻居。K是可配置的参数。通常，K与向量i的最近邻居的数量相关联。在某些实施例中，K被定义在5-50的范围内，并且在一个实施例中，K被设置为10。在某些实施例中，K被定义为

即，n的平方根的整数部分，其中n是向量集中的关键词向量的总数。根据该等式，包括了向量集中的作为向量i的最近邻居的K个向量，以用于计算

如果K个向量非常接近向量i，则向量i与K个向量之间的距离较小，且向量i的K-密度大。否则，如果K个向量距离向量i普遍较远，则向量i与K个向量之间的距离大，且向量i的K-密度小。

3.对于每个关键词向量i，使用下式找到其基于密度的最小距离：

在该等式中，对于给定的对象O_i(向量空间中的向量i)，向量空间中可能存在距离对象O_i不远且K-密度高于对象O_j的多个对象j。请注意，计算

时的对象j和计算

包括的对象j可能彼此不同，其中计算

时的对象j通常更接近对象i，而计算

时的对象j通常距离对象i更远一点。计算出对象O_i与那些邻近的高K-密度对象O_j之间的距离，并且距离中的最小距离定义为

该距离在对象O_i与如下对象之间：该对象最接近对象O_i且具有比对象O_i的K-密度大的K-密度。

越小，向量i是集群中心的可能性就越小，因为具有较高K-密度的附近向量j更可能成为集群中心，并且

可能是将向量j作为集群中心的聚类的成员。在某些实施例中，如果数据集包含异常值，则仅利用

来检测集群中心是不够的，这是因为异常值通常远离其他对象，并且还具有大的

4.对于每个关键词向量，计算其K-密度

与基于密度的最小距离

的乘积，即：

5.将所有关键词向量的上述乘积放置在一起成为一序列(series)，并且然后按降序(或升序)对序列进行排序。那些排序后的乘积列表被定义为X₁，X₂，X₃，...，X_i，...，X_n，其中列表中的乘积的值递减。假设将列表制成图，将具有最高乘积值的向量放置在图的最右边，将具有最低乘积值的向量放置在图的最左侧。

6.集群中心检测器232然后确定图或序列中的间隙。在该序列中，从最右向量向左开始，在该乘积序列中找到明显的间隙。在某些实施例中，计算当前向量与它的左邻居之间的差(delta)。然后将该差(delta)与前一个delta进行比较。如果当前delta大于前一个delta的阈值，则检测到当前向量与其左邻居之间间隙。在某些实施例中，阈值是120％-500％。在一个实施例中，将阈值设置为150％，即，如果当前delta为150％或大于先前的delta，则当前向量与其左邻居之间存在间隙。间隙位置被记录。在一个示例中，按升序排序的针对向量集的乘积序列中的一部分具有以下内容[...9.0，12.0，12.5，13.1，13.6，14.2，15]。从最右项开始，2个邻近项之间的差值可以被计算为15-14.2＝0.8、14.2-13.6＝0.6、13.6-13.1＝0.5、13.1-12.5＝0.6、12.5-12.0＝0.5、12.0-9.0＝3.0。差值序列为：0.8、0.6、0.5、0.6、0.5和3.0。在该系列中，仅差值3.0大于其先前距离(为0.5)的150％。因此，在元素12.0与它的左邻居9.0之间检测到间隙。

7.间隙右侧的所有向量都被视为集群中心。通常，必需找到5个以上至10个的集群中心，因此在某些实施例中，间隙搜索可以在排序后的乘积序列中从右侧的第5、6、7、8、9或10个向量开始。仅需要一个间隙。

8.在识别出集群中心之后，将每个剩余的非中心向量放入集群中的一个中。每个集群围绕集群中心中的一个构建，该集群中心是基于具有较高K-密度的最近邻居检测到的。在某些实施例中，仅需要集群中心，而不必需将其他向量指派给集群中心中的一个。

在已经检测到集群中心(可选地已经形成了集群)之后，集群中心检测器226被配置为将集群中心(以及可选地集群)发送给聚类滤波器234。

聚类滤波器234被配置为：在接收到所生成的集群中心之后，移除无效的集群中心以形成有效集群中心列表，并将有效集群中心列表发送给答案子集生成器236和评论子集生成器238。在某些实施例中，聚类滤波器234被配置为在将有效集群中心列表发送给答案子集生成器236和评论子集生成器238之前将有效集群中心列表转换为对应的关键词。转换后的关键词被称为有效关键词或有效值。在某些实施例中，聚类滤波器234使用用于对集群中心进行过滤的深度解析器方法以获得有效集群中心。以下是使用深度解析器方法来移除无效集群的步骤：

1.考虑每个集群的集群中心，并将语料库中的中心加标示为对应于不同语句成分集：

a.如果词在语料库中存在，则深度解析器系统针对该词直接提供特征集。

b.如果词太长而无法使深度解析器读取，则深度解析器针对该词提供基于结构的子图。每个较低的节点具有其自己的特征，并且可以基于特定规则来提取整个词的语句成分。

在某些实施例中，通过对深度解析器引擎的应用编程接口(API)调用来获取上述关键词特征。深度解析器引擎是可用于答案生成应用程序220(尤其是聚类滤波器234)的外部组件。

2.根据每个中心的特征对集群中心进行过滤。有效的集群中心关键词必须是名词或动词，但不能是没有实际意义的无用词(stop word)。在这种深度解析器方法中，保留具有特征“N”、“nc”、“DE”、“NE”、“V”、“vc”的词，并丢弃具有特征“xC”、“MD”、“RC”的词，其中“N”表示名词，例如“猫(cat)”；“nc”表示明确的名词，例如“苹果(apple)”；“DE”表示数据实体，例如“客户(customer)”；“NE”表示名词实体，例如“苹果(apple)”；“V”表示动词，例如“工作(work)”；“vc”表示语言提示，例如“解释(explain)”；“xC”表示小词，例如“许多(lot)”；“MD”表示情态动词，例如“能够(can)”；以及“RC”表示关系从句，例如“使得(that)”。在某些实施例中，通常约60％的集群中心被丢弃，而约40％的集群中心被保留。在一个示例中，存在约50个接收到的集群中心，并且在深度解析器过滤之后，聚类滤波器234丢弃约30个无效集群中心，而其余20个集群中心成为有效集群中心。

在某些实施例中，聚类滤波器234被配置为使用用于过滤集群中心的无用词方法，而不是使用深度解析器引擎。在该方法中，聚类滤波器234被配置为通过相比于无用词数据集对与集群中心相对应的每个关键词进行检查来确定该关键词是否为无用词，并且如果其对应的关键词为无用词，则丢弃该集群中心。在某些实施例中，通过对大型QA数据集进行聚类以获得集群来初始化无用词数据集。利用深度解析器对集群加标记，并基于由深度解析器所加的标记从集群中选择无用词(例如，具有标记为“xC”、“MD”或“RC”的词)。此外，如果集群中的任何词都属于现有的无用词数据集，则在无用词数据集中不存在这些词的情况下可以将该集群中的所有关键词添加到无用词数据集中以供将来使用。

在集群中心(或集群)已被过滤之后，剩余的集群中心被视为有效。与那些过滤后的集群中心相对应的关键词被称为有效关键词或有效值。如上所述，聚类滤波器234被配置为将有效值发送给子答案生成器236和子评论生成器238。

答案子集生成器236被配置为：在从聚类滤波器234接收到有效值并且从答案集提取器228接收到答案集之后，使用有效值对答案集进行过滤以获得答案子集，并将答案子集发送给最佳候选答案生成器240。对于答案集中的每个答案，如果它包含有效值中的任何关键词，则答案子集生成器236保留该答案并将其添加到答案子集。否则，如果答案不包含任何有效值，则答案被丢弃并且不包含在答案子集中。

评论子集生成器238被配置为：在从聚类滤波器234接收到有效值并从评论集提取器224接收到评论集之后，使用有效值对评论集进行过滤以形成评论子集，并将评论子集发送给最佳候选答案生成器240。对于所检索的评论集中的每个评论，如果它包含有效值中的任何关键词，则评论子集生成器238保留该产品评论并将其添加到评论子集。否则，如果该评论不包含任何有效值，则该评论被丢弃并且不包含在评论子集中。

最佳候选答案生成器240被配置为：在接收到答案子集和评论子集之后，比较答案子集和评论子集，并生成用于客户服务代表的最佳候选答案。在某些实施例中，要生成的最佳候选的数量是预定的，所述数量可以在3-10的范围内，并且在一个实施例中所述数量为5。在某些实施例中，最佳候选答案生成器240采用以下过程来生成最佳评论。请注意，答案子集中的每个QA答案或子评论子集中的产品评论可能包含一个或多个句子。

对于评论子集中的每个句子，最佳候选答案生成器240被配置为确定评论子集中的句子与答案子集中的所有句子之间的评论句子-答案句子相似度，并取评论句子-答案句子相似度的平均值作为该评论句子与答案子集之间的评论句子-答案子集相似度。通过重复该过程，最佳候选答案生成器240被配置为获得评论子集中的句子中的每一个与答案子集之间的评论句子-答案子集相似度。然后，最佳候选答案生成器240被配置为基于评论子集中的评论句子的评论句子-答案子集相似度来对评论句子进行排名，并选择列表中具有最高评论句子-答案子集相似度的特定数量的评论句子。在某些实施例中，选择前3-10个评论句子。在一个实施例中，最佳候选答案生成器240被配置为选择前5个评论(或评论句子)。

最佳候选答案生成器240被配置为如下计算评论句子-答案句子相似度，其中两个句子被称为S_A和S_B以概括该过程：

1.使用前面讨论的word2vec模型将句子S_A分解成词向量{v₁，v₂，...，v_m}。类似地，将S_B分解为{v₁，v₂，...，v_n}。请注意，v₁和v₂仅用于说明词向量，并且例如，针对句子S_A的v₁很可能与针对句子S_B的v₁不同。

2.构造词向量相似度的矩阵s(v_i，v_j)，其中来自S_A的向量{v₁，v₂，...，v_m}为行，来自S_B的向量{v₁，v₂，...，v_n}为列，并且s(v_i，v_j)是向量空间中S_A的向量v_i与S_B的向量v_j之间的相似度距离，该相似度距离可以使用SNN或余弦相似度方法进行计算。s(v_i，v_j)的值越大，向量v_i和v_j越相似。

3.针对S_A中的每个词向量确定逆文档频率(IDF)。IDF意在表示一个词对语料库集合中的文档是多么重要。向量v_i的IDF可以利用等式

来计算，其中C是评论的总数，并且c_i是包含与向量v_i相对应的词的评论的总数。

4.现在，两个句子S_A和S_B之间的相似度可以被计算为：

在这个等式中，句子S_A中存在m个向量，且句子S_B中存在n个向量。对于句子S_A中的每个向量i，存在对应的idf_i，并且向量i与句子S_B中的向量j之间存在最高相似度(高于向量i与句子S_B中的n个向量中的除了向量j之外的任意向量之间的相似度)，该最高相似度表示为max_j＝1到ns(v_i，v_j)。

句子之间的相似度不仅由最佳候选答案生成器240用于将评论子集中的句子与答案子集中的句子进行比较，还被最相似问题识别器226用于将问题句子与QA知识库260中的问题句子中的全部或部分进行比较。

图3示意性地描绘了根据本公开的某些实施例的用于生成对客户问题的答案的方法。在某些实施例中，该方法由图2所示的计算设备210实现。在某些实施例中，图3中所示的方法与答案生成应用程序220的功能相对应。应该特别注意的是，除非本公开中另有说明，否则该方法的步骤可以以不同的顺序次序布置，并且因此不限于如图3所示的顺序次序。

如图3所示，在过程302，用户问题接收器(或客户问题接收器)222通过用户界面获取关于产品的用户或客户询问问题。由于问题是针对特定产品的，因此此时可以识别产品的标识(sku_id或SKU)。在接收到问题之后，用户问题接收器222将用户问题和相关联的SKU中的至少一个发送到评论集提取器224和最相似问题识别器226。

在过程304，在接收到产品SKU(以及可选地用户问题)之后，评论集提取器224从产品评论DB 280中检索由SKU索引的评论以形成评论集，并将评论集发送给评论子集生成器238。在某些实施例中，评论集提取器224还可以将评论集保持在临时存储器中，并使评论集可由评论子集生成器238访问。

在过程306，在接收到用户问题(以及可选地SKU)之后，最相似问题识别器226比较用户问题与QA知识库260中的问题之间的句子-句子相似性，并且QA知识库260中与用户问题具有最高句子相似度的一个问题被定义为最相似问题。然后，最相似问题识别器226将最相似问题发送给答案集提取器228。在某些实施例中，使用图5中描述的方法来计算用户询问问题与QA知识库260中的问题之间的相似度，并且QA知识库260中与用户输入的问题具有最大相似度的问题作为最相似问题被返回。在某些实施例中，最相似问题识别器226仅将用户问题与QA知识库260中的相关问题进行比较，而不是将用户问题与QA知识库260中的所有问题进行比较。例如，如果用户问题是关于蜂窝电话的，则QA知识库260中在电子类别或蜂窝电话类别下的问题被用于比较。

在过程308，在接收到最相似问题之后，答案集提取器228从QA知识库260中提取对最相似问题的答案，对那些提取出的答案进行布置以形成答案集，并将答案集发送给关键词分词器和向量生成器230。在某些实施例中，答案集提取器228还可以将答案集保持在临时存储器中，并使其可用于关键词分词器和向量生成器230以及答案子集生成器236。在某些实施例中，仅最相似问题被用于检索答案。在其他实施例中，SKU也可以用于检索答案。例如，QA知识库260中的问题-答案可以按照产品类别来组织，并且用户输入的问题中描述的产品的SKU可以用于确定应从哪个类别检索这些答案。换句话说，答案集提取器228可以使用最相似问题和SKU两者来提取答案，以限制提取从而获得更少的答案，或者扩展提取从而获得更多的答案。在某些实施例中，答案集提取器228仅将提取的答案包括在答案集中。在其他实施例中，答案集提取器228也可以将最相似问题放入答案集中。

在过程310，在接收到答案集之后，关键词分词器和向量生成器230首先将每个答案分解为一系列关键词(标记)。然后，它检查关键词的长度。在某些实施例中，答案集中的答案是中文答案，仅保留包含一个以上汉字的关键词，否则丢弃关键词。在某些实施例中，关键词分词器和向量生成器230还可以使用其他标准来过滤关键词，诸如移除中文答案中的英语词和数字。在某些实施例中，关键词分词器和向量生成器230使用正则表达式来过滤关键词。在分解和过滤之后，关键词分词器和向量生成器230然后使用word2vec以通过例如词嵌入和嵌入查找来生成针对剩余关键词的向量。在某些实施例中，所得的向量均以300个维度进行构建。答案分词器和关键词向量生成器230然后将所生成的关键词向量发送给集群中心检测器232。

在过程312，在接收到关键词向量之后，集群中心检测器232检测关键词向量的集群中心，并将集群中心发送给聚类滤波器234。在某些实施例中，集群中心检测器232还可以基于检测到的集群中心将所有关键词向量布置成集群。在某些实施例中，集群中心检测器232采用自动聚类方法。该自动聚类方法是多步骤的过程，这在图4中详细说明。此处的主要思想是，与集群中心相对应的关键词是在与最相似问题相对应的初始答案集中阐述/提及的最具代表性的主题。

在过程314，在接收到所生成的集群中心之后，聚类滤波器234检查集群中心并丢弃无效的集群中心，并将过滤后的集群中心发送给答案子集生成器236和评论子集生成器238。可以使用不同的过滤方法。在某些实施例中，聚类滤波器234使用深度解析器引擎来移除无效的集群。在某些实施例中，深度解析器是通过API调用可访问的外部组件。聚类滤波器234通过传入集群中心关键词来调用深度解析器。深度解析器返回被调用的关键词的特征。仅当关键词的词特征是动词或名词的特定形式时，聚类滤波器234才认为关键词有效。

在过程316，在接收到有效值(与过滤之后的集群中心相对应的关键词)之后，答案子集生成器236使用有效值对提取的答案集进行过滤以获得答案子集。对于答案集中的每个答案，如果它包含有效值中的任何关键词，则答案子集生成器236保留该答案并将其添加到答案子集，否则，如果答案不包括任何有效值，则答案被丢弃。在生成答案子集之后，答案子集生成器236将答案子集发送给最佳候选答案生成器240。

同时，在接收到有效值之后，评论子集生成器238使用有效值对所检索的评论集进行过滤以获得评论子集。对于评论集中的每个评论，如果它包含有效值中的任何关键词，则评论子集生成器238保留该产品评论，并将其添加到评论子集，否则，丢弃该评论。然后，评论子集生成器238将形成的评论子集发送给最佳候选答案生成器240。

在过程318，在接收到答案子集和评论子集之后，最佳候选答案生成器240生成前K个候选答案，以供CSR从其进行选择并且使用从前K个候选答案选择的一个答案来对用户进行响应。K是预定的正整数。具体地，对于评论子集中的每个句子，最佳候选答案生成器240确定其与答案子集中的每个句子的句子相似度。计算句子相似度的方法在图5中详细描述。最佳候选答案生成器240计算评论子集中的评论之一与答案子集中的答案之间的句子相似度，并将句子相似度的平均值用作评论与答案子集之间的相似度。最后，在计算出所有评论的句子与答案子集相似度之后，最佳候选答案生成器240基于相似度的值从上到下对评论子集中的评论进行排名，并在列表中的顶部选择预定数量的评论作为候选答案。在某些实施例中，预定数量是2-10。在某些实施例中，预定数量是3-5。在一个实施例中，预定数量是5。之后，最佳候选答案生成器240例如通过图形用户界面向CSR呈现那些最佳候选答案，并且CSR可以从最佳候选答案中选择一个作为最终答案，并向用户或客户呈现该答案。在某些实施例中，最佳候选答案生成器240还可以将列表中的最佳评论直接呈现给客户。

图4示意性地描绘了根据本公开的某些实施例的用于从向量集中检测集群中心并将向量集分成围绕那些检测到的集群中心构建的一系列集群的方法。在某些实施例中，该方法由图2所示的计算设备210实现。应当特别注意的是，除非在本公开中另有说明，否则该方法的步骤可以以不同的顺序次序排列，因此不限于图4所示的顺序次序。

如图4所示，在过程402，集群中心检测器232从关键词分词器和向量生成器230中接收向量集，并计算向量集中任何两个向量之问的相似度距离。在某些实施例中，使用共享最近邻(SNN)方法来计算两个向量之间的距离。在某些实施例中，使用余弦相似度方法来计算两个向量之间的距离。两个向量之间的相似度距离表示为s_i，j，即，向量i和向量j之间的相似度距离。s_i，j的值越大，即，两个向量越接近或更相似。

在过程304，集群中心检测器232使用在过程302中计算的距离来计算每个向量的K-密度。每个向量i的K-密度被表示为

并且可以使用等式

来计算。K是预定的正整数。在某些实施例中，K设置在10-100的范围内。在一个实施例中，K被设置为10。在某些实施例中，K被定义为

其中n是向量集中的关键词向量的总数。K个向量是向量i的K个最近邻居。

在过程406，集群中心检测器232使用在步骤302中计算出的距离和在步骤304中计算出的K-密度，计算每个向量的基于密度的最小距离。基于密度的最小距离表示为

并且可以使用等式

来计算。向量l的K-密度大于向量i的K-密度，并且向量l在向量空间中比任何其他高K-密度向量(K-密度比向量i的K-密度高)更接近向量i。

在过程408，集群中心检测器232针对每个向量来计算K-密度和基于密度的最小距离的乘积。可以使用等式

计算该乘积。

在过程410，集群中心检测器232以升序(或可选地以降序)对来自所有向量的过程308的乘积进行排序。

在过程412，集群中心检测器232从右到左(或者换句话说，从高乘积值到低乘积值)检测该乘积序列中的明显间隙。从最右向量向左开始，并计算当前向量与其左邻居之间的乘积值的差值。然后将该差值与前一个差值(如果存在)进行比较。如果这两个差值的变化达到特定阈值，则集群中心检测器232认为当前向量与其左邻居之间存在间隙。阈值必须大于100％。在某些实施例中，阈值被设置在120％-500％的范围内。在某些实施例中，阈值被设置为150％，即，当当前差值大于前一差值的150％时，认为在当前向量与其左邻居之间存在间隙。间隙位置被记录。请注意，仅需要从右侧或高乘积值侧开始确定一个间隙，并且当发现一个间隙时，该过程停止。在某些实施例中，因为至少需要特定数量的集群，所以集群中心检测器232可以从右侧的第5至第10个向量开始而不是从最右侧的向量开始。

在步骤414，集群中心检测器232将间隙右侧的所有向量指定为集群中心。

该方法可以可选地包括过程416，其中集群中心检测器232形成一系列集群。每个集群围绕在步骤314检测到的集群中心之一来构建。所有非中心向量被指派给集群中的一个。

图5示意性地描绘了根据本公开的某些实施例的用于计算两个句子之间的相似度的方法。在某些实施例中，该方法由图2所示的计算设备210来实现。在某些实施例中，图5中所示的方法是公共的实用工具，并且用于最相似问题检测器226和最佳候选答案生成器240中。应该特别注意的是，除非在本公开中另有说明，否则该方法的步骤可以以不同的顺序次序布置，因此不限于图5所示的顺序次序。

如图5所示，在过程502，该方法/工具使用word2vec分别将传入的两个句子S_A和S_B分解为一系列词向量{v₁，v₂，...，v_m}和{v₁，v₂，...，v_n}。

在过程504，该方法/工具构建词向量相似度的矩阵，其中来自S_A的向量{v₁，v₂，...，v_m}是矩阵的行，并且来自S_B的向量{v₁，v₂，...，v_n}是列。矩阵的每个单元是两个词向量之间的相似度，并且通过使用SNN或余弦相似度方法在向量空间中向量v_i与向量v_j之间的相似度距离(即，s(v_i，v_j))来计算。

在过程506，针对矩阵的每一行，该方法/工具找到具有最大相似度的单元。

在过程508，该方法/工具针对S_A中的每个词向量来确定逆文档频率(IDF)。可以使用等式

来计算向量v_i的IDF，其中C是评论/语句的总数，并且C_i是包含v_i的词在内的评论的总数。此处使用的评论是针对用户问题所涉及的产品而检索的产品评论。

在过程510，该方法/工具将两个句子之间的相似度计算为

(S_A，S_B)的值越高，两个句子S_A和S_B越相似。

图6示意性地示出了根据本公开的句子相似度测量的示例。如图6所示，两个问题(句子)被输入到系统。将两个句子分别标记化为关键词，并执行清理以仅保留动词和名词。使用word2vector模型将过滤后的关键词转换为向量，其中每个向量具有300个维度。针对来自第一句子的关键词向量，生成最大相似度距离并计算IDF。将针对来自第一句子的每个关键词向量的最大相似度距离与IDF相乘，以形成针对该关键词向量的乘积。然后将针对所有向量的乘积置于相似度度量中，并且根据相似度度量来确定两个句子之间的句子相似度。

总之，本公开的某些实施例提供了一种框架，该框架利用电子商务平台上可用的QA问答数据和产品评论数据，来基于词嵌入来构建答案生成系统。QA知识库260包括整个电子商务平台上的问题和答案，而产品评论DB 280包括特定于产品(SKU)的评论。通过使用整个电子商务平台上的信息以评估和限制产品评论DB 280中的特定评论，本公开内容为对客户问题的候选答案提供了准确的预测。此外，通过对来自QA知识库260的关键词向量进行聚类的特定设计，尤其是基于密度与距离乘积的列表中的间隙来确定集群中心的新颖方法，本公开的某些实施例可以有效地从大量关键词中选择重要关键词。此外，本公开的某些实施例使用相似度距离和IDF来评估句子之间的相似度，这有助于从QA知识库260中选择与客户的问题最相似的问题，并有助于从特定数量的所选评论中确定最佳候选答案。

本公开的示例性实施例的以上描述是仅为了说明和描述的目的而给出的，而非意在穷举或将本公开限制于所公开的精确形式。鉴于上述教导，许多修改和变化都是可能的。

选择和描述实施例以便解释本公开的原理及其实际应用，使得本领域的其他技术人员能够在各种实施例和具有适合于预期特定用途的各种修改中利用本公开。在不脱离本公开的精神和范围的情况下，备选实施例对于本领域的技术人员来说将变得显而易见。因此，本公开的范围由随附权利要求、而不是由以上描述和本文描述的示例性实施例来限定。

参考文献：

1.U.S.8819007 B2，Providing answers to questions using multiple modelsto score candidate answers，International Business Machines Corp，2014。

2.Guangtao Wang and Qinbao Song，Automatic clustering via outwardstatistical testing on density metrics，IEEE Transactions on Knowledge andData Engineering，2016，28(8)：1971-1985。

3.Hongjie Jia et al.，Self-tuning p-spectral clustering based onshared nearest neighbors，Cognitive Computation，2015，7(5)：622-632。

Claims

1.一种用于生成问题的答案的系统，所述系统包括计算设备，所述计算设备包括处理器和存储有计算机可执行代码的存储设备，其中所述计算机可执行代码在所述处理器处执行时被配置为：

接收由用户输入的关于产品的问题；

对所述答案集中的关键词进行聚类以获得集群中心；

从所述评论子集中生成所述问题的答案，其中，所述答案选自所述评论子集并与所述答案子集中的句子具有高句子相似度。

2.根据权利要求1所述的系统，其中，所述计算机可执行代码被配置为通过以下操作从所述QA知识库中提取答案：

计算所述由用户输入的问题与所述QA知识库中的问题之间的句子相似度；以及

将所述QA知识库中的问题中的具有计算出的相似度中的最大相似度的一个问题定义为最相似问题，其中所述目标答案是所述最相似问题的答案。

3.根据权利要求2所述的系统，其中，所述计算机可执行代码被配置为通过以下操作来计算所述由用户输入的问题与所述QA知识库中的答案中的一个之间的句子相似度：

计算针对词向量v_i的逆文档频率IDF：

其中，C为所述评论数据库中的评论的总数，且C_i为所述评论数据库中包含与所述词向量v_i相对应的词在内的评论的总数；以及

使用下式来计算S_A与S_B之间的句子相似度：

4.根据权利要求1所述的系统，其中，所述计算机可执行代码被配置为通过以下操作对所述答案集中的关键词进行聚类以获得所述集群中心：

将所述答案集中的关键词转换为关键词向量；

通过下式来计算关键词向量i中的一个的K-密度

其中，

是所述关键词向量i的K-密度，d_i，j是所述关键词向量i与关键词向量j中的一个之间的距离，K是预定的正整数，以及从1到K的所述关键词向量j是所述关键词向量i的最近邻居；

通过下式计算基于密度的最小距离

其中，l是所述关键词向量中的具有比K-密度

高的K-密度

且与所述关键词向量i最近的一个关键词向量；

针对每个关键词向量i通过下式来计算关键词向量乘积x_i：

以及

5.根据权利要求4所述的系统，其中，基于所述关键词向量乘积的从低到高的值以整数1至n依次对所述关键词向量编索引，具有最高关键词向量乘积的非集群中心具有索引o，并且

x_o+1-x_o≥1.5×(x_o+2-x_o+1)。

6.根据权利要求5所述的系统，其中，n-o大于5。

7.根据权利要求4所述的系统，其中，K是

且n是所述答案集中的所述关键词的总数。

8.根据权利要求1所述的系统，其中，所述计算机可执行代码被配置为通过以下操作生成所述问题的答案：

计算所述评论子集中的句子与所述答案子集中的句子之间的句子相似度；

将所述评论子集中的句子中的一个与所述答案子集中的所有句子之间的平均句子相似度值定义为所述评论子集中的句子中的所述一个的句子-答案子集相似度值；

选择所述评论子集中具有最高句子-答案子集值的预定数量的句子；以及

将所述预定数量的句子中的一个选择为所述问题的答案。

9.根据权利要求7所述的系统，其中，所述预定数量在3-10的范围内。

10.根据权利要求1所述的系统，其中，计算所述评论子集中的句子与所述答案子集中的句子之间的句子相似度的步骤包括：

计算针对词向量v_i的逆文档频率IDF为：

其中，C是所述评论子集中的句子的总数，且C_i是所述评论子集中包含与所述词向量v_i相对应的词在内的句子的总数；以及

使用下式来计算S_D与S_E之间的句子相似度：

11.一种生成问题的答案的方法，包括：

由计算设备接收由用户输入的关于产品的问题；

由所述计算设备使用所述问题从问答QA知识库中提取目标答案以形成答案集；

由所述计算设备从所述评论子集中生成所述问题的答案，其中，所述答案选自所述评论子集并与所述答案子集中的句子具有较高的句子相似度。

12.根据权利要求11所述的方法，其中，从所述QA知识库中提取答案的步骤包括：

13.根据权利要求12所述的方法，其中，计算所述由用户输入的问题与所述QA知识库中的答案中的一个之间的句子相似度的步骤包括：

计算针对词向量v_i的逆文档频率IDF：

使用下式来计算S_A与S_B之间的句子相似度：

14.根据权利要求11所述的方法，其中，对所述答案集中的所述关键词进行聚类以获得所述集群中心的步骤包括：

将所述答案集中的关键词转换为关键词向量；

通过下式来计算关键词向量i中的一个的K-密度

其中，

通过下式来计算基于密度的最小距离

其中，l是所述关键词向量中具有比K-密度

高的K-密度

且与所述关键词向量i最近的一个关键词向量；

针对每个关键词向量i通过下式来计算关键词向量乘积x_i：

以及

15.根据权利要求14所述的方法，其中，基于所述关键词向量乘积的从低到高的值以整数1至n依次对所述关键词向量编索引，具有最高关键词向量乘积的非集群中心具有索引o，并且

x_o+1-x_o≥1.5×(x_o+2-x_o+1)。

16.根据权利要求14所述的系统，其中，K是

并且n是所述答案集中的所述关键词的总数。

17.根据权利要求11所述的方法，其中，生成所述问题的答案的步骤包括：

选择所述评论子集中的具有最高句子-答案子集值的预定数量的句子；以及

将所述预定数量的句子中的一个选择为所述问题的答案。

18.根据权利要求7所述的方法，其中，所述预定数量在3-10的范围内。

19.根据权利要求11所述的方法，其中，计算所述评论子集中的句子与所述答案子集中的句子之间的句子相似度的步骤包括：

计算针对词向量v_i的逆文档频率IDF为：

使用下式来计算S_D与S_E之间的句子相似度：

20.一种存储有计算机可执行代码的非暂时性计算机可读介质，其中，所述计算机可执行代码在计算设备的处理器处被执行时被配置为：

接收由用户输入的关于产品的问题；

对所述答案集中的关键词进行聚类以获得集群中心；

从所述评论子集中生成所述问题的答案，其中，所述答案选自所述评论子集并与所述答案子集中的句子具有较高的句子相似度。