CN105139211B

CN105139211B - 产品简介生成方法及系统

Info

Publication number: CN105139211B
Application number: CN201510465911.6A
Authority: CN
Inventors: 朴旲焄; 郭立帆; 丁婉莹; 汪灏泓
Original assignee: TCL Technology Group Co Ltd
Current assignee: TCL Technology Group Co Ltd
Priority date: 2014-12-19
Filing date: 2015-07-30
Publication date: 2021-06-22
Anticipated expiration: 2035-07-30
Also published as: US9817904B2; US20160179966A1; CN105139211A

Abstract

本发明提供了一种产品简介生成方法及系统。所述方法包括获取若干个产品的用户评论和产品说明作为输入数据，其中产品分别与多个产品说明和用户评论对应，每个产品说明至少包括一个产品功能‑功能参数配对。在产品的用户评论之间建立联系来形成产品文档并与所述用户评论对应。应用主题模型处理输入数据并生成文档中的主题分布和主题中的单词分布，主题包括产品说明。所述主题模型是一个挖掘在产品文档中存在主题的统计模型，每个产品文档中均包含有若干主题并且每个主题都在若干产品文档中。基于所述主题模型向用户提供产品简介，其包括一个或者多个与功能参数相关的语句、产品功能重要程度信息以及产品特点描述单词。

Description

产品简介生成方法及系统

技术领域

本发明涉及数据挖掘技术领域，尤其涉及基于产品信息及用户评论生成产品简介。

背景技术

当人们从在线商城购买产品时，通常能够获知与产品相关的信息，例如产品描述、产品图像以及用户的评论。通常，产品说明能够有条理的描述产品的性能，特别是对于那些由许多电子模块组成的高科技产品，并且能够提供丰富的信息使用户理解产品。如图1所示，为某一数码相机的典型的产品说明。

但是，当消费者不熟悉这些产品时，他们很难正确的理解产品说明内容的真正含义。例如，当毫无经验的消费者阅读上述数码相机的产品描述时，由于其对此非常陌生，所以他们对于“自动对焦”功能中的“TTL相位检测”的作用将毫无概念。这些消费者不仅会对某些功能的参数感到疑惑，并且他们也无法理解这些功能参数的真正含义。

为了选择“正确”的产品功能，消费者通常希望得到那些已经拥有这些产品的消费者的使用经验，来解答那里诸如“这功能的是否适合其他人”这样一些疑问。如图2所示，为一个典型的在线商城产品购买界面。当消费者点击某产品的链接时，消费者能够获知产品相关信息，例如产品描述、评论以及说明。若用户购买产品，他/她在使用产品后通常会对产品进行评论来和其他人分享使用经验。消费者能够通过维基百科或者互联网搜索来了解某一功能参数的具体意义，但寻找源自于其他消费者对于具有这一功能的产品的评论的对于这一功能参数的描述是相当费力的。另外，若产品功能的相关信息不足，被迫从其他产品的评论中收集相同功能的相关信息的操作是相当费时的。

意见挖掘和总结已经被广泛的研究。而大部分的研究工作都在包含有大量意见的产品评价以及网络日志数据集合中进行。为了了解意见的真正含义以及更有效地进行意见挖掘，基于文本倾向(aspect－based)意见挖掘和总结是在这一领域的主流研究方向。为了寻找产品的描述方面，许多研究应用那些寻找文本中隐藏主题的典型模型。大部分这一方面的现有研究成果均为对于某一预设或者隐藏的产品功能进行意见挖掘。

尽管产品说明已经在许多电子商务领域中应用，但对于在用户评论分析中应用产品说明的研究非常少。例如，本体支持极性挖掘(ontology－supported polarity mining，OSPM)，利用从IMDb的本体领域数据库，以实现评论的情感分类。但是，这些方法仅研究电影特点(即功能)而不包括功能参数。也有其他的方法应用产品评论分析，但是其目标在于文本分类。产品说明及评论均可以用于构建一个描述方面层次结构，但是这一方法也没有涉及功能参数的作用，其他利用产品说明来总结产品功能的研究也并未涉及功能参数的作用。

因此，绝大部分的基于主体模型的意见挖掘以及总结技术均未使用预先定义的主体(例如产品说明)来进行产品评论分析。进一步的，现有意见挖掘技术与产品说明的结合依然无法解决无经验消费者对某一产品说明中的功能的参数作用认知程度非常低的问题。

本发明公开的方法及其系统用于解决现有技术中的一个或者多个问题。

发明概述

本发明一方面公开了一种基于用户评论生成产品简介的方法。所述方法获取若干个产品的用户评论和产品说明作为输入数据，其中每个产品分别与多个产品说明和用户评论对应。每个产品说明至少包括一个产品功能和与该功能相关联的功能参数。所述方法还通过在产品的用户评论之间建立联系来形成产品文档，每个产品文档与该产品相关联的用户评论对应。所述方法进一步应用主题模型对所述输入数据进行处理并且生成在产品文档中的主题分布和在主题中的单词分布，所述主题包括产品的说明。所述主题模型是一个挖掘在选出的产品文档中存在的主题的统计模型，每个产品文档中均包含有一个或者多个主题并且每个主题都会存在于一个或者多个产品文档。所述方法可以基于所述主题模型向用户提供产品简介，所述产品简介包括一个或者多个与功能参数相关的语句、产品功能重要程度信息以及产品特点描述单词。

本发明另一方面还公开了一种存储有用于在处理器运行时，执行基于用户评论生成产品简介的系统。所述系统包括：预处理模块，用于获取若干个产品的用户评论和产品说明作为输入数据，其中每个产品分别与多个产品说明和用户评论对应，每个产品说明至少包括一个产品功能和与该功能相关联的功能参数。所述预处理模块还用于通过在产品的用户评论之间建立联系来形成产品文档，每个产品文档与该产品相关联的用户评论对应。主题模型生成模块，用于应用主题模型对所述输入数据进行处理并且生成在产品文档中的主题分布和在主题中的单词分布，所述主题包括产品的说明；所述主题模型是一个挖掘在选出的产品文档中存在的主题的统计模型，每个产品文档中均包含有一个或者多个主题并且每个主题都会存在于一个或者多个产品文档。所述系统还包括产品简介生成模块，用于基于所述主题模型向用户提供产品简介，所述产品简介包括一个或者多个与功能参数相关的语句、产品功能重要程度信息以及产品特点描述单词。

本发明的其他方面，所属技术领域技术人员能够依据本发明的权利要求书，说明书，以及附图有效实施并充分公开。

附图简要说明

图1为现有产品说明的具体例子的屏幕截图。

图2为现有产品购买循环系统的结构框图。

图3为本发明具体实施方式的具体工作系统的示意图。

图4为本发明具体实施方式的计算系统的结构框图。

图5为本发明具体实施方式的提供产品简介系统的结构框图。

图6为本发明具体实施方式的产品购买循环的框图。

图7为本发明具体实施方式的生成产品简介程序的框图。

图8为本发明具体实施方式的产品简介的屏幕截图。

图9为本发明具体实施方式的生成产品简介的方法的方法流程图。

图10为本发明具体实施方式的LDA模型的图模型。

图11为本发明具体实施方式的半监督LDA模型的图模型。

图12为本发明具体实施方式的DuanLDA模型的图模型。

图13为本发明具体实施方式的DuanLDA+模型的图模型。

图14为本发明具体实施方式的SpecLDA模型的图模型。

详细说明

附图中展示的部分将被引用以具体说明，阐述本发明具体技术实施方案。说明书中引用的数字代表附图的相应部分。应当说明的是，下述的具体实施方式仅为本发明的其中一些具体实施方案，而非本发明全部可能的实施方案。依据下述的具体实施方式的启示，本领域技术人员获得的其他技术方案均在本发明的保护范围内。

当消费者从在线商城购买产品时，消费者通常会得知产品相关信息，例如产品说明、产品图片以及用户评论。但是，消费者可能并不知道产品的某些功能和功能参数的真正意义。随着越来越多的高科技模块和产品的功能数量的增长，功能参数会发散。因此，解决上述问题变得越来越重要。

现实中，最新的数码相机或者电脑产品通常包含有超过50项以上的功能，其中的大部分功能对于普通消费者而言很难理解。例如，数码相机“佳能70D”在CNET上的产品说明中包括了79项功能。它包括许多功能与参数的高级联系，例如(“电池类型”与“佳能LP－E6”)以及(“感光度”与“ISO25600”)。一个没有经验的消费者基本上很难了解其他消费者是否喜欢这些功能或者这些功能对于自己是过多还是恰好合适。这一问题可以从其他用户的使用经验中找到答案。以下的句子是对其他产品的“佳能LP－E6”和“ISO256000”这两项功能参数的手动检索结果。结果如下：“60D使用和7D一样的LP－E6电池，这一电池的优点在于能够满足一整天的拍照需求，但其缺陷为……，并且在最高ISO档位时(即256000)噪点太多几乎无法使用。”

通过阅读上述有用的评论，消费者能够了解功能参数，从而帮助他们更有效和更经济的选择合适的产品。例如，用户从上述句子中得知电池“LP－E6”的相关信息：它能够维持一整天的拍照并且是一个非常好的功能，表明评论者认可这一功能参数。当用户考虑照相机需要较高的电池续航能力而又不清楚“LP－E6”时，上述评论对于用户选择产品就非常有用。虽然上述评论中还可能包括了一些不相同的意见，但用户也可以据此得知对于同一功能参数存在的不同的观点。

本发明提供了一个依据用户评论自动生成产品简介的系统。图3为本发明具体实施方式中的工作系统300。如图3所示，所述工作系统300可以包括：web用户终端301、网络303以及产品信息网站304。当然，还可以包括其他合适的设备。

用户302可以连接网络303(如因特网)并且通过web用户终端301登入产品信息网站304。Web用户终端301可以是任何能够连接网络303，实现用户302和产品信息网站304交互的设备，例如桌上电脑、手提电脑、平板电脑、智能手机等等。所述产品信息网站304可以提供不同产品的多种信息，例如样板、说明、价格、用户评论等等。所述产品信息网站304还可以提供产品购买渠道。用户302可以在产品信息网站304上获取产品信息并且购买产品。用户302还可以写下对已购产品的评论。所述网站304可以通过任何合适的网络接入，例如因特网。计算模块3041用于依据产品信息以及用户评价生成产品简介。在本发明的一个具体实施例中，所述计算模块3041可以整合在产品信息网站304中。在其他实施例中，所述计算模块3014也可以是独立的，与产品信息网站304通信连接的模块。

计算模块3041和/或web用户终端301可以在任何合适的电子计算平台上运行。图4为本发明具体实施例中，能够执行所述依据用户评论自动生成产品简介的系统的电子计算系统400。

如图4所示，计算系统400可以包括处理模块402、存储模块404、监视器406、通信模块408、数据库410以及外围设备412。所述计算系统可以减省上述设备，也可以添加一些其他类型的设备，而不限于上述设备。

所述处理模块402可以是任何合适的处理器或处理器组。具体的，所述处理模块402为能够进行多线程处理的多核心处理器。存储模块404可以是任何合适的存储设备，例如ROM，RAM，闪存或者大容量存储器，例如CD－ROM，硬盘等。存储模块404用于存储为进行各种数据处理而预设的由处理模块402执行的计算机运行程序。

进一步的，所述外围设备412包括：各种类型的传感器以及输入，输出设备，例如键盘，鼠标。通信模块408包括用于在设备间通过网络建立通信连接的各类网络交互设备。数据库410包括一到多个用于存储不同数据以及对数据进行一些处理，例如搜索数据的数据库。

图5为本发明依据用户评论自动生成产品简介的系统的具体实施例的结构框图。如图5所示，所述系统500(即计算模块3041)包括：产品信息数据库501、预处理模块502、主题模型生成模块503以及产品简介生成模块504。

所述产品信息数据库501可以存储源自于产品信息网站304的数据。具体的，所述数据库501可以存储产品说明5011、用户评论5012以及产品简介5013的数据。

在具体操作中，当消费者使用web用户终端301来浏览产品信息网站303时，消费者可以在网站304中对产品进行评论。那些存储在产品信息数据库501中，选中的用户评论5012以及产品说明5011可以用来生成产品简介5013。所述产品简介5013可以存储在产品信息数据库501中。在本发明的具体实施例中，一个产品说明表示一个产品功能与其配对的功能参数，例如(数码照相机产品的“感光度”为“ISO25600”)。每个产品都具有多个产品说明5013(即上述配对的功能－参数)。所述产品简介5013包括了那些用于帮助消费者理解产品说明的额外产品相关信息。

源自于产品信息数据库501的产品说明5011以及用户评论5012数据可以在预处理模块502中进行处理。所述预处理模块502可以用于运行评论的自然语言分析工具以及将同一产品的所有评论收集并为每一产品形成一个对应的产品文档。

将预处理模块502中生成的产品文档提供给主题模型生成模块503进行处理。在本发明的具体实施例中，主题模型是指使用自然语言处理形成的，用于挖掘在选中的文档中出现的主题的统计模型。所述主题模型可以依据在文档中的包含的主题统计结果以及在主题中包含的词汇统计结果，计算一系列的文档并且输出结果。亦即，所述主题模型可以学习在每个文档中的主题分布以及每个主题中的单词分布。

所述主题模型生成模块503进一步包括：先验知识生成单元5031以及改进的LDA模型生成单元5032.在某具体实施例中，可以使用改进的三层贝叶斯概率分布模型(LDA)作为主题模型。在这一LDA模型中，每个文档与一个产品的用户评论内容相关联，而每一个主题则为源自于产品说明的功能－参数配对。

LDA模型假设主题的分布具有狄利克雷先验。亦即，主题分布服从狄利克雷分布。在实际操作中，所述LDA模型通过描述依据狄利克雷分布的两个变量来生成文档中的全部单词：每个文档都具有不同的主题分布以及每个主题都具有不同的单词分布。由于某一文档的单词分布是已知的，随着LDA模型迭代生成文档中的单词，LDA模型不断调整上述两个变量以便于其尽可能好的与数据拟合。所述数据包括给定的文档(与评论内容相关联)和主题(来源于产品说明的功能－参数配对)。因此，所述LDA模型可以学习所述数据并且在每个文档中生成主题分布以及在主题中生成单词分布。

所述改进的LDA模型生成单元5032也可以在传统LDA模型中整合先验知识。所述先验知识生成单元5031可以获取先验知识，包括预先得知的，在文档中具体的主题分布以及主题中具体的单词分布。

所述产品简介生成模块504可以用于生成一个或者多个相关语句5041、功能重要程度信息5042以及产品－特点单词5043。在某具体实施例中，对相关语句5041查询结果可以为通过即席查询(ad－hoc)语言模型检索系统生成的相关评论句子。检索条件可以为某一具体产品的功能－参数配对。所述ad－hoc语言模型检索系统可以使用基于生成的主题模型的检索条件检索相关的句子。(例如，在文档中的主题分布以及在主题中的单词分布)。所述功能重要程度信息5042可以依据生成的主题模型对产品功能进行排序。产品－特点单词5043可以基于生成的主题模型显示某一产品的独特特点描述单词。

图6为本发明具体实施例的通过用于生成产品简介的系统500执行的产品购买循环600的示意图。当消费者点击某产品的链接时(S601)，消费者可以获得产品相关信息(S602)，例如一般的产品说明6021，产品的用户评论6051以及产品简介6061。当消费者购买了产品后(S603)，消费者使用了产品一段时间后，可以写下产品评论来和其他人分享使用经验(S605)。所述产品简介6061从积累的产品的用户评论6051中生成(S606)。更具体的，结合产品的数据和相应的用户评论、产品说明，所述用于提升产品购买经验的系统500能够自动分析关于某说明的评论句子并且结合上述分析结果提供更精确的产品说明。

图7为系统500的具体使用方法的示意图。在包含由消费者提供的用户评论和相关产品说明的产品信息数据库中可以执行一些具体的处理。例如可以对用户评论数据进行预处理，并且将预处理后的用户评论或者产品说明作为语料提供给主题模型。所述语料可以用于主题模型算法中从而创建一个主题模型。

所述产品说明也可以进行预处理。预处理后的产品说明可以用以作为主题模型的先验知识(“先验分布”)并且作为检索系统的检索条件。所述主题模型学习带先验知识的文本数据并且生成一个新的文档，所述文档同样也提供给检索系统。所述检索系统从所述新的文档中检索与检索条件相关的句子。

同时，所述主题模型可以用于依据语料和先验知识，生成产品功能重要程度信息以及产品特点单词。将主题模型的结果(即功能重要程度信息和产品特点单词)和检索系统的输出结果加入到产品说明中，从而生成产品简介。

图8为本发明具体实施例所述的产品简介的示意图。如图8所示，所述产品简介可以包括每个功能的重要程度信息，描述产品特点的词汇以及与每个功能参数相关的句子。

具体的，除了展示产品功能列表和对应功能参数列表外，功能重要程度列表也可以加入到对应的功能中。所述功能的重要程度列表依据功能的重要性对每个功能进行排序。进一步的，所述产品特点描述单词也可以一同展示。可以通过所述产品特点描述单词的字体以及颜色显示哪一个单词描述了某产品的最佳特点。例如，在所述产品特点描述单词中，最佳的特点描述单词可以使用最大的字体和最深的颜色。

另外，如果消费者点击某个功能参数框，则向其展示评论中相关的句子。无经验的消费者可以通过搜索获得的相关评论语句中了解某一具体功能参数，从而使消费者在阅读产品说明时，能够选择购买符合自身需求的功能的产品。在某具体实施例中，所述相关评论语句可以在浮动窗口中展示，功能参数描述单词则可以在句子中突出显示。

图9为具体实施例的生成产品简介的方法900的方法流程图。所述方法900可以结合在评论中，与每个功能参数相关语句的检索结果来生成增强型的产品说明并且获取功能重要程度和产品特点项以便于用户能够更好的理解产品。假如一个消费者阅读更多的，源自于其他消费者，与某功能参数相关的内容，相信他能够更好的了解这一功能参数。

如图9所示，获取若干个产品的产品说明和用户评论(S901)。具体的，给定M个具有多个评论R的产品P，评论句子T以及产品说明S。对于每个产品p而言，其具有对应的产品说明S_p和由评论语句T_p组成的评论R_p。产品p的评论数据R_p由一个或者多个评论组成，其中每个评论又包括一个或者多个句子。产品p的产品说明数据S_p定义为：Sp＝{s/s∈S并且s为p的一部分}。其中，s为功能－参数配对(f，u)，并且S表示所有可能的功能－参数配对的集合。举例来说，f为“图像处理芯片”而排序第一的u则为“DIGIC5+”。所述方法900可以生成产品简介S_p’，具体通过加入与(f，u)相关的句子T_(f，u)并标记所有f的重要程度来获得。另外，还可以增加描述产品p特点的单词。

所述方法900的实现面临如下问题。首先，对于同一功能或者功能的价值，在产品说明中使用的单词可能与评论中使用的不一样。例如，在功能“有效像素值”中的参数“10.000.000像素”与用户使用的表示方法不相同。一般的，用户更倾向于使用“10MP”或者“十万像素”来表示。若仅使用预设的功能参数描述，可能会错失很多相关的用户评论。另外的问题还包括：功能或者功能参数的单词通常会在说明的多个地方中使用，导致同一句子会在多个不同的检索条件中重复出现。例如，功能单词“像素值”可以在“感光芯片像素值”，“有效像素值”，“最大录像像素值”，以及“屏幕像素值”这样一些完全不同的功能中出现。所述检索系统需要采用某些方法来很好的区分这些功能。另外，产品说明中的一些功能和功能参数并不会过多的在评论中出现，若作者认为这些功能不值得提及。这种情况会导致许多假阳性结果。

使用自然语言分析工具，例如Stanford CoreNLP，对评论内容进行句子情感分析，单词标记以及词干提取以完成评论内容的预处理(S902)。对标记词降序并且移除那些罚分部分。然后通过自然语言分析工具移除停用词。在某具体实施例中，那些在少于5个评论中出现的标记词也移除。将一个产品的所有评论进行压缩并形成一个单独的产品文档用于主题模型构建。

产品说明数据同样也进行预处理(S903)。在某具体实施例中，移除那些在少于5个产品中出现的功能。然后，将每个功能及其参数描述文本依据空格(blank)分成标记词，并且对标记词降序。所述功能和功能参数的标记词用于生成先验知识。所述产品说明的标记词提供给检索系统作为检索条件来检索相关句子。

所述预处理的用户评论以及产品说明数据可以应用于主题模型来定义在压缩后的评论文档中的功能－参数配对的分布(S905)。生成由用户评论和产品说明形成的先验知识(S904)并应用于主题模型提升拟合效果。

具体的，一个主题模型是一个可以寻找到那些隐藏项目以及他们在源自于采样文本的文档中的分布的概率分布模型。其中，所述项目是指那些在文档中重复出现频率较高的单词的聚类。在一个主题模型中，主题表示相关的单词。亦即，即使文档中不包含完全相同的单词，在文档d中有足够的单词与w相似时，一个文档中的单词w的相似概率p(w|d)依然具有足够高的值。例如，即使“LCD”没有在评论句子t中出现，若句子中包含了相关的词语“屏幕”和“易碎”等时，该句子的p(“LCD”|t)值依然足够高。因此，在本实施例中应用的主体模型，特别是LDA主题模型，能够在产品说明和评论的之间词汇差异建立联系。

图10为LDA的图模型。如图10所示，LDA是一个学习型的主题模型，他能够挖掘隐藏的主题。其中每个主题z由单词分布φ_z表示，并且在文档d中具有分布θ_d。给定主题的数量K和文档数量M，每个文档d都包含了N_d个单词并且通过所有的文档建立单词词汇表V。LDA通过计算服从狄利克雷分布的_θd＝{p(z|d)_}z∈[1，K]和φ_z＝{p(w|z)_}w∈V来生成每个文档d。换言之，当LDA生成在d中的每个单词时，它首先依据狄利克雷分布Dir(α)来描述d中的主题总体情况θ_d，其中，α为对称先验分布。其次，它通过多项分布θ_d来选择一个主题z。最后，它通过多项分布φ_z来选择单词w。其中，φ_z依据狄利克雷分布Dir(β)描述，β为对称先验分布。

因为计算所有可能的主题结构是不可行的，所以通过近似算法计算变量θ_d和φ_z以尽量好的拟合数据。在近似算法中，文档作为在所有可能的主题结构中进行检索的线索。其中，变分法(variational method)和简化的吉布斯采样(collapsed Gibbs sampling CGS)是最受欢迎的两种算法。在某具体实施例中，采用比变分法更为简单和可比较的简化的吉布斯采样方法。

在经典的LDA中，文档中的主题分布和主题中的单词分布都是未知的。但是，可以应用上述分布的线索来提升LDA模型的效果。直观地，若已知文档是关于数码相机的，所述文档很有可能具有与“相机”相关的主题和单词。应用这样一些先验知识以提高模型的拟合效果。可以将上述模型命名为半监督LDA。

图11为所述半监督LDA的图模型。当创建者在文档d中写下第i个评论的单词w_d，i时，创建者首先会依据在d中的，由第一狄利克雷分布(K·α·α′_d)描述的主题分布θ_d选择其中一个主题z_d，i。其中，K为主题的数量，α为比例常数，α′_d为归一化的先验概率p′(z|θ_d)，p′(z|θ_d)为非对称向量。然后，在选中的主题z_d，i中，创建者依据主题z中的，由第二狄利克雷分布(V·β·β′_z)描述的单词分布φ_z选出单词w_d，i。其中，V为词汇表的大小，β为比例常数，β′_z是一个非对称向量和归一化的先验概率p′(w|φ_z)。所述先验分布α′和β′可以通过手动设定或者依据测试样本自动生成。对所有文档中的所有单词重复上述生成步骤。

吉布斯采样可以用于模型的学习。基于所有其他主题标记Z^\d，i与先验因子对主题z_d，i进行重复采样。某主题选中的概率可以通过如下算式表示：

其中，N表示满足下标以及上标条件的单词数量，而在Z和N的上标或者下标中的“\d，i”表示除了在文档d中的第i位置上的数据外的数量。所述变量可以在多次迭代后，通过一次吉布斯采样获得。为了计算结果更可靠，在本发明某具体实施例中，所述主题模型可以获取并利用不同的初始化条件中的多重马尔科夫链。

经典的LDA对不同的主题和文档均使用相同的α，对不同的单词和主题也使用相同的β，而半监督LDA则在主题和文档使用特定的α′，在单词和主题使用特定的β′来实现先验知识的整合。

继续参阅图9，依据对应的先验知识(S904)，本发明提供了三个生成改进的LDA模型的具体实施例(S905)。依据本发明所公开的技术特征及具体实施例，本领域技术人员还可以在不进行创造性劳动时获得其他的具体技术方案。所述改进的LDA模型以半监督LDA为基础，分别表示为DuanLDA，DuanLDA+和SpecLDA。

图12为DuanLDA的图模型。在DuanLDA模型中，将说明视为主题，压缩后的评论视为文档。

假设具有M个文档，每个文档具体为某一产品p的压缩后的评论，并且在每个文档中具有N_p个单词。S为产品说明(功能－参数配对)，视作主题，并且具有|S|个可能的主题。结合生成的先验知识，p的主题(功能－参数配对)分布θ_p，由狄利克雷分布(K·α·α′_p，s)描述，其中K表示主题的数量。功能－参数配对的单词分布φ_s由狄利克雷分布(V·β·β′_s，w)描述，其中V表示词汇表的大小。对所有产品文档中的所有单词重复执行上述生成步骤。

具体的，β′_s，w为通过计算功能单词与评论单词之间的标准化互信息(NPMI)获取的数据生成的先验知识φ_s。然后移除那些负相关的单词，并且给出每个单词的归一化概率p(w|f)，其中，f为功能。另外，DuanLDA还可以依据说明生成先验知识θ；若某一功能－参数配对s没有出现在某具体产品p中，将α′_p，s标记为0，否则标记为相应的概率。文档中所有存在的功能－参数配对的概率均相等。

进一步的，所述DuanLDA与半监督LDA的最大区别在于：DuanLDA使用背景语言模型，表示整个数据集合中的单词最大拟然估计。

更具体的，当创建者为p写下一个评论单词w_p，i时，创建者依据由参数λ决定的选择条件x_p，i选择背景语言模型或者功能主题。若选择背景语言模型，w_p，i则通过背景语言模型φ_B来描述。否则，依据θ_p选择说明s_p，i。其中，θ_p由带α和α′_p的狄利克雷分布所描述，此时w_p，i由φ_s.描述。

所述DuanLDA的文档模型可以通过如下算式定义：

选择条件x_p，i选择背景语言模型的概率由参数λ决定。其中，所述背景语言模型可以定义如下：

当选择条件x_p，i为不选择背景语言模型时，学习s_p，i的吉布斯采样方程可以通过如下算式定义：

若w_p，i在一个背景语言模型具有足够高的值，可以基本上分配到该背景主题中，并且若w_p，i与其中一个|S|说明相接近时，分配到该说明主题s_p，i。

图13为DuanLDA+的图模型。DuanLDA面临两个主要问题：1、它仅考虑了说明形成的主题；2、先验分布β′的使用中忽略了主题的大小。为了解决上述缺陷，DuanLDA+模型不再使用背景语言模型而加入并使用产品－特点语言模型。

评论中可能存在一些产品说明中没有的主题。例如，价值、设计或者其他产品说明中没有列举，而在评论中提及的功能。所述DuanLDA+模型在产品说明中增加|E|评论的主题。由此，所有主题为{s₁，...，s_|S|，s_|S|+1，...，s_|S|+|E|}。产品说明的分布θ_p。由带α和α′_p的狄利克雷分布所描述。其中α′_p，s。在所有的说明和评论主题中均相等。若描述的说明s_p，i属于说明的主题，则与上述DuanLDA的执行方式相同。但是，若s_p，i属于评论主题(E)，其单词w_p，i则由带φ^r _s的狄利克雷分布来描述。

每个说明的主题均具有计算得出的主题大小N_s。若主题大小N_s相对于先验知识Vβ过大或者过小，这些主题将过多或者过少的依赖先验分布β′_s。当一个主题过多的依赖先验分布时，这个主题的单词分布将基本遵循先验分布。而当一个主题过少的依赖先验分布时，这个主题却能够包容那些与先验知识毫无关联的项目。其中，后者是一个更为严重问题。因此，可以依据主题的大小归一化所述先验分布。所述DuanLDA+模型引入了先验分布大小控制子{η₁，...，η_|S|}，若主题过小时，每个控制子均通过衰减因子ζ来不断的减小先验分布的大小。更具体的，对于单词在某一主题s_p，i＝z中进行吉布斯采样的概率可以定义如下：

其中，先验知识大小Vβ由η_s控制，依据如下算式进行减小：

其中，上标(n)和(n+1)分别表示在第n次和第n+1次吉布斯采用迭代过程的变量。说明s与先验分布的大小比例pp(s)为：pp(s)＝η_sVβ/(N_s+η_sVβ)。所述DuanLDA+能够在主题过小时减少先验分布控制子的大小来避免一个小的主题具有一个小的先验知识比例，导致主题与先验分布之间的联系不足的情况的发生。因此，若主题的大小对于s而言足够并且先验分布的比例过大时，先验分布的大小的η_sVβ将减小。

进一步的，DuanLDA模型使用的背景语言模型对于处理数据而言并不是必要的。因为，在评论的文本数据预处理时，停止词已经被移除以保证主题是由有用的词语所组成。因此，所述DuanLDA+模型不使用背景语言模型，而用产品特点主题来替代。这些主题可以是那些产品的特点。为了应用，DuanLDA+模型为每个产品p增加特点主题ψ_p从而抓取产品特点描述单词。当评论创建者为产品p写下一个单词w_p，i时，创建者首先会依据由带参数γ的贝尔塔分布描述的λ_p，在特点主题和说明主题之间进行选择。若选择了特点主题，单词w_p，i将由带δ的狄利克雷分布描述的ψ_p来描述。其余的步骤则与上述DuanLDA相同，在此不作赘述。

所述最终结果的文档模型可以定义如下：

当x＝0时，用于学习的吉布斯采样方程具体如下式表示：

其中，γ为小常数。为了学习当x＝1时的说明主题s∈S，结合所有先验知识Ω的方程具体如下：

其中，K是所有主题(|S|+|E|)的数量。相类似的，学习当x＝1时的评论主题s∈E的吉布斯采样方程为：

基于互信息β的先验分布中包含了非常多与功能“有些”相关的单词。由于那些与功能“有些”相关的单词概率的加入会使高序列位置的单词概率p(w|F)排序降低。因此，主题F很难选中这些单词，即使它们相关程度很高并且在β′_f中有高的排序位置。因此，所述DuanLDA+模型假设先验知识服从齐夫定律分布并且据此调整p(w|F)。更具体的，对于DuanLDA中获得的先验知识的p(w|F)，每个单词w的调整后p′(w|F)可以定义如下：

其中，v(F)为F中的词汇表，V表示所有评论的词汇表，rank_F(w)为不包括v(F)的单词时，w在p(w|F)中的排序位置。齐夫定律分布的函数Zipf(i)可以表示如下：

其中，a为分布的特征参数。基本上，p′(w|F)保持p(w|F)的排序结果，但是抛弃非功能单词的单词概率。功能单词对齐夫定律分布的前n个概率求和，其中n为功能词汇表与所有评论词汇表的交集。并且利用上述概率和重新分配功能单词在p(w|F)中各自的比例。除去功能单词，非功能单词保持它们的排序位置并且将新的，服从上述排序结果的齐夫定律分布的先验知识概率与v(F)相加。通过采用这种方式，所述DuanLDA+模型可以更精确的从不重要的单词中辨别出重要的单词从而使主题不再被不重要的先验知识单词所占据。

图14为SpecLDA的图模型。所述DuanLDA+模型还存在的问题为：这一模型还未能很好的利用产品说明的结构。在DuanLDA和DuanLDA+模型中，每个功能－参数配对被认为是一个独立的产品说明。若数据中不具有足够的描述功能－参数配对的句子，计算出的功能－参数配对主题将不恰当。而且，大部分的功能均具有超过一个以上的功能参数，意味着功能是多个具有相同功能的功能－参数配对之间的交集。因此，SpecLDA将功能主题和功能参数主题分离从而合并那些功能交集。另外，DuanLDA和DuanLDA+模型仅输入那些来源于功能单词的先验知识。然而，功能参数单词很可能比功能单词更为重要。例如，对于一个功能－参数配对(“感光芯片类型”，“CMOS”)，当他们提到这个功能－参数配对时，人们喜欢使用“CMOS”这个词。但是，“CMOS”很可能在DuanLDA的功能先验知识的“感光芯片类型”中排序较低，因为这个功能通常具有其他的功能参数配对。因此，所述SpecLDA模型使用功能与参数分离的先验知识。

在SpecLDA模型中，对于功能|F|中的每个功能f，设定具有|U^f|个可能关联的功能参数。为了从功能参数中分离出功能部分，功能变量f与参数变量u^f分离。其中，u^f为f的一个可能的功能参数。当然，引入功能参数主题ω与功能主题φ进行分离。

在这一模型中，当创建者书写某一产品p的评论单词w_p，i时，所述创建者首先使用依据由带对称向量γ的贝尔塔(beta)分布描述的λ_p的转换子x_p，i选择单词关于产品功能主题还是产品－特点主题。若选择为产品－特点主题，单词将服从由带对称向量δ的狄利克雷分布描述的ψ_p。若选择了产品功能主题，创建者将从可能功能集合{f₁，...，f_|F|，f_|F|+1，...，f_|F|+|E|}中选择其中一个功能f_p，i，其中{f₁，...，f_|F|}为来源于产品说明的功能集合，{f_|F|+1，...，f_|F|+|E|}为产品说明中没有出现而在评论中提及的，依据由带α和对称向量α′_p的狄利克雷分布描述的θ_p形成的功能集合。若f_p，i属于评论提及的功能，w_p，i由多项分布φ^r _f进行描述其中，所述多项分布由带对称向量β^r的狄利克雷分布描述。

若f_p，i属于产品说明的功能，创建者继续通过依据由带对称向量γ^y的beta分布描述的π_f的转换子y_p，i选择书写功能单词还是功能参数单词。若创建者选择为功能单词f_p，i，则依据由带常数β和非对称先验知识β′的狄利克雷分布描述的φ_f选择w_p，i。相反的，创建者则依据ξ_p，f选择功能f_p，i功能参数单词u_f。其中，ξ_p，f由带常数τ和非对称先验知识τ_p，_f的狄利克雷分布描述。结合选中的功能参数u_f，创建者依据ω_f，u选择单词，其中，ω_f，u由带常数ρ和非对称先验知识ρ’_f，u的狄利克雷分布所描述。上述生成步骤在所有产品的所有评论单词中重复进行。

方法可以通过如下具所述生成体算法描述：

因此，SpecLDA的文档模型具体如下：

其中，

并且，当使用产品-细节主题(即x＝0)时，用于学习的吉布斯采样方程与算式(8)相同。

当学习某评论主题或者产品说明功能主题f时，所述方程具体如下：

其中，p(x_p，i＝1|X_\p，i，Ω)由算式(9)所定义，其他的项的具体定义如下：

其中K为所有评论及产品说明主题的总数。

当选中某功能(即f_p，i＝z)和配对的功能参数(u_p，i＝j)来描述该功能时，所述SpecLDA模型也进行学习，具体如下：

p(x_p，i＝1，f_p，i＝z，y＝1，u_p，i＝j

|w_p，i，X_\p，i，F_\p，i，Y_\p，i，U_\p，i，Ω)

∝p(x_p，i＝1|X_\p，i，Ω)

p(f_p，i＝z|F_\p，i，E_\p，i，Ω)

p(y_p，i＝1|z，Y_\p，i，F_\p，i，E_\p，i，Ω)

p(u_p，j＝1|z，Y_\p，i，F_\p，i，U_\p，i，Ω)

p(w_p，i|z，j，U_\p，i，Ω) (19)

其中，第一及第二项定义如前所述，剩余项具体定义如下：

其中，|U^f|为某功能f的所有可能的功能参数的总数。对功能单词和功能参数单词采用DuanLDA+模型中使用的归一化方法。

请继续参阅图9，所述主题生成模型还可以用于提供精确化的产品说明。基于生成的主题模型的ad-hoc语言模型检索系统可以依据检索条件检索相关的评论语句(S906)。所述检索条件可以是从产品说明的预处理结果中获得的产品的功能-参数配对。

更具体的，为了从收集的文档中检索相关的文档，可以使用如下所述的拟然查询检索模型

p(d|q)∝p(q|d)·p(d)

∝p(q|d) (23)

其中，d表示某文档，q为词语列表的检索条件，p(d|q)为d满足在给定的q下的信息要求的概率。p(q|d)用于衡量d到q的距离，并且p(d)为在d中，与检索条件相独立的用户偏好。由此，若文档能够与检索条件良好吻合并且符合用户偏好，上述算式将这一文档标记为高得分。在某具体实施例中，假设所述文档的偏好没有给定，因此，可以认为q是均等的并且忽略p(d)这一项。

总的来说，p(q|d)可以定义如下：

其中，w为在q中的单词，V为收集的文档中的词汇表集合，并且c(w，q)为在q中w的计数。p(w|d)为通过最大拟然估计计算得出的一元文法语言模型(unigram languagemodel)，它表示在文档d中单词w的相似性。因此，若在q中的单词更多的出现在文档d中，文档d与检索条件q的相似性p(q|d)将会提高。

为了避免过拟合和阻止当没有任何q的单词出现在文档d中时，p(q|d)等于0，通常需要使用平滑的p(q|d)。具体的，可以使用线性插值平滑方法(Jelinek－Mercersmoothing method)，p(w|d)可以定义如下：

p(w|d)＝(1-λ)p_ml(w|d)+λp(w|B) (25)

其中，若将∑_ω∈Vc(ω，q)log λp(ω|B)代入算式(28)中，算式(27)和算式(28)是等效的。但是省略了α_q，因为它不依赖于d，亦表示它不会影响文档的排序。通过将算式(27)改写为算式(28)，其能够对于检索条件中的普通单词进行罚分，这也是ad－hoc信息检索中需要的特性。

在较佳实施例中，可以应用进行了合适调整的拟然查询检索方法。在当前的问题设定中，检索条件q为在待检索的产品说明s_q＝(f_q，u_q)中的单词，而d为在所有评论语句T中的语句t。V表示在T中的词汇表，B为T的一元文法语言模型。由于当前文本单位为句子，所以通常包含的单词比文档要少得多导致在检索条件与句子之间的统计论据相当薄弱，使得问题要比文档检索更难解决。幸运的是，所述方法利用产品说明来过滤掉不相关的句子；若句子t^p来自产品p的评论语句T^p而待检索的产品说明不在p的产品说明S_p中，那么可以忽略t^p。因此，所述句子t对于q的相关性得分可以表示如下：

其中，o/w表示“否则”，并且可以采用算式(25)中计算p(w|d)的方法来计算p_ml(w|t^p)。算式(29)可以被用作基线法并且简称为QL。

但是对于基线法而言，若检索条件使用的词汇表与文档中描述检索条件所使用的词汇表不相同时，其运算结果不佳。例如，对于检索某功能－参数配对(“显示屏”“3英寸LCD显示屏”)，因为检索条件的单词没有出现在句子“屏幕较大但是在活动时容易破碎”中，QL会将这一与功能密切相关的句子标记为零分，并且p_ml(w|t^p)的输出结果也会是0。因此，为了在产品说明和评论的词汇表差异之间建立联系，需要用使用了主题模型的p′(w|t^p)来代替p_ml(w|t^p)。

另外，在较佳实施例中，在ad－hoc检索方法中结合改进的LDA模型。因为它会丢失原始的检索信息，因此仅仅依靠LDA文档模型并不是一个理想的做法，而应当整合原始信息的语言模型。因此，本发明所述方法使用了一个结合了改进的LDA文档模型和最大拟然估计语言模型的加权插值模型。

具体的，检索系统的目标在于获取相关的句子而非文档。若拓展的主题模型具有句子单元，由于句子的数量通常远大于文档的数量，它可能需要过多的目标变量。因此，在较佳的实施例中，不使用LDA中的句子单元，而转化为计算从文档层次到句子层次。在某文档d中的句子t的语言模型p′(w|t^p)由此可以定义如下：

p′(w|t^p)＝λ′p_ml(w|t^p)+(1-λ′)p_lda (30)

因此，结合主题模型和最大拟然估计语言模型，在较佳实施例中使用的句子t对于q的相关性得分计算算式如下所示：

其中，p′(w|t^p)是通过上述的任意一种改进的LDA模型和最大拟然估计语言模型计算得出。在此，通过算式(30)获取p′(w|t^p)从而为句子标记得分。

消费者一般想要知道与其他产品相比，这一产品具有哪些特点。产品特点主题可以通过DuanLDA+和DuanLDA获得(S907)。对于每个产品p，ψ_p包括了一个产品特点主题。在ψ_p中具有排序靠前的单词表示这些单词更为接近产品特点主题而非其他主题。因此，那些排序靠前的单词可以认为是某个产品的特点描述单词。

对于一个不熟悉产品的功能的新手来说，功能的重要程度也是非常有用的信息。功能重要程度信息可以由改进的LDA模型生成(S908)。在DuanLDA和DuanLDA+中，不同的功能－参数配对具有功能交集。并且对于某功能f的功能重要程度可以通过学习后的吉布斯采样计算得出，具体如下所示：

而由于在SpecLDA中，功能和功能参数分离，所以功能的重要程度可以由下式表示：

p(f)越高表示功能f在评论中提及得越多。

将所述相关句子、功能重要程度信息以及产品特点描述单词加入到前述步骤(即S901)获得的产品的产品简介中(S909)。所述产品简介能够帮助用户更好的理解产品的功能参数。

本发明提供了一种依据用户评论生成产品简介的方法及其系统。所述产品简介可以提高购物体验。所述系统使用基于改进的LDA模型的新方法来学习在文档中的主题分布以及在主题中的单词分布。所述主题生成模型可以用于检索与产品的一个功能－参数配对相关的评论语句。所述主题生成模型还可以用于对功能重要程度进行排序并且提供产品特点单词。与现有技术相比，本发明能够通过提供具有额外信息展示的产品说明来提升用户购物体验。

在电子商务网站上也经常使用产品说明。但是，没有经验的消费者通常没有足够的背景知识来了解产品的所有功能，尤其是那些高级功能。为了向消费者提供有用的信息，本发明提供了一种能够结合当今网站上丰富的产品评论，自动分析产品说明的系统。具体的，本发明的具体实施例提供了一种新的LDA模型，它能够提供有用的信息，例如功能重要性程度、产品特点以及检索与产品说明相关的评论，向消费者展示其他消费者对于该产品或者其他不同产品的同一产品说明的评论。

应当指出的是，本发明所述的用于生成产品简介的方法及系统不仅限于应用在产品购买领域，还可以应用其他任何结合先验知识的说明类型(关键功能参数)的文本收集。

依据上述说明和本发明具体实施例，本领域普通技术人员不需要通过创造性劳动可以实现其他任何合适的具体实施方式。应当指出的是，本发明所述的具体实施例仅用于解释和说明，不用于限制本发明的权利要求保护范围。

Claims

1.一种基于用户评论生成产品简介的方法，其特征在于，所述方法包括如下步骤：

获取若干个产品的用户评论和产品说明作为输入数据，其中每个产品分别与多个产品说明和用户评论对应，每个产品说明至少包括一个产品功能和与该功能相关联的功能参数；

通过在产品的用户评论之间建立联系来形成产品文档，每个产品文档与该产品相关联的用户评论对应；

应用主题模型对所述输入数据进行处理并且生成在产品文档中的主题分布和在主题中的单词分布，所述主题包括产品的说明；所述主题模型是一个挖掘在选出的产品文档中存在的主题的统计模型，每个产品文档中均包含有一个或者多个主题并且每个主题都会存在于一个或者多个产品文档，以及

基于所述主题模型向用户提供产品简介，所述产品简介包括一个或者多个与功能参数相关的语句、产品功能重要程度信息以及产品特点描述单词；

所述基于所述主题模型向用户提供产品简介的步骤还包括：

令f表示产品功能，N_i表示在文档i中的单词数量，s表示产品说明，z表示主题，

若获取先验知识时，没有将产品功能和功能参数分开，在获取主题模型的输出结果后，所述功能的重要程度具体表示如下：

其中，N表示满足下标以及上标条件的单词数量，下标s表示主题s_p，i，下标z表示主题z_d，i，下标x表示转换子x_p，i；

若获取先验知识时，将产品功能和功能参数分开，在获取主题模型的输出结果后，所述功能的重要程度具体表示如下：

其中，N表示满足下标以及上标条件的单词数量，下标f表示产品功能。

2.根据权利要求1所述的方法，其特征在于，所述应用主题模型的步骤具体包括：

获取包括在产品文档中已知的主题分布和主题中已知的单词分布的先验知识；

整合所述先验知识并且应用主题模型处理输入数据以生成在产品文档中的主题分布和在主题中的单词分布；并且

获取主题模型的输出结果，所述输出结果包括学习生成的在产品文档中的主题分布和在主题中的单词分布。

3.根据权利要求2所述的方法，其特征在于，

所述主题模型为三层贝叶斯概率分布模型；

所述在产品文档中的主题分布服从狄利克雷分布；

所述在主题中的单词分布服从狄利克雷分布。

4.根据权利要求2所述的方法，其特征在于，所述获取先验知识的步骤具体包括：

获取每个单词的类型，所述单词的类型具体为产品说明单词或者产品特点描述单词。

5.根据权利要求4所述的方法，其特征在于，

所述主题包括产品说明主题和用户评论主题；并且

所述先验知识的在产品文档中已知的主题分布具体包括在产品文档中已知的产品说明主题分布和在产品文档中已知的用户评论主题分布。

6.根据权利要求5所述的方法，其特征在于，所述获取先验知识的步骤还包括：

获取每个产品说明单词的类型，所述产品说明单词的类型具体为产品功能单词或者功能参数单词。

7.根据权利要求6所述的方法，其特征在于，所述应用主题模型步骤还包括：

将产品说明主题分为产品功能主题和功能参数主题；

获取在产品文档中已知的产品说明主题分布的先验知识，具体包括在产品文档中已知的产品功能主题分布和在产品文档中已知的功能参数主题分布；以及

整合所述先验知识并应用主题模型处理输入数据以生成在产品文档中的产品功能主题分布、在产品文档中的功能参数主题分布、在产品文档中的评论主题分布以及在主题中的单词分布。

8.根据权利要求4所述的方法，其特征在于，所述获取先验知识的步骤还包括：

引入先验分布大小控制子，依据主题的大小对先验分布进行归一化，所述先验分布具体为属于先验知识的，在主题中的单词分布。

9.根据权利要求5所述的方法，其特征在于，由p(w|F)表示先验知识中在功能主题F中的单词w的分布，所述在功能主题中已知的单词分布服从齐夫定律分布，单词w的调整后先验分布p′(w|F)具体表示如下：

其中，v(F)为F中的词汇表，V表示所有评论的词汇表；rank_F(w)为不包括v(F)的单词时，w在p(w|F)中的排序位置；

齐夫定律分布的函数Zipf(i)具体表示如下：

其中，a为分布的特征参数，功能单词对齐夫定律分布的前n个概率求和，n为功能词汇表与所有评论词汇表的交集，i为功能词汇表的第i个词汇。

10.根据权利要求2所述的方法，其特征在于，所述基于所述主题模型向用户提供产品简介的步骤具体包括：

应用即席查询检索系统生成与检索条件相关的语句，所述检索条件为产品的产品功能及与其相关联的功能参数的配对，其中

所述即席查询检索系统通过整合检索条件信息和主题模型输出结果，计算用户评论中的语句的相关程度。

11.根据权利要求1所述的方法，其特征在于，所述基于所述主题模型向用户提供产品简介的步骤进一步包括：

当用户将光标点击于产品功能参数框时，依据光标的位置，在悬浮框中展示相关的语句；

对产品功能重要程度信息进行排序，并在一个独立的，与产品功能相对应的列表中展示；以及

将产品特点描述单词在独立的一排中展示，其中，描述单词的字体大小及字体颜色与产品特点的特别程度相对应。

12.根据权利要求7所述的方法，其特征在于，令P表示产品，产品有M个，R表示产品评论，T表示评论语句，S表示分析后的产品说明，每个文档p中包含N_p个单词w，θ表示文档中的主题分布，φ表示主题中的单词分布，f表示产品功能，u表示产品功能参数，

所述获取先验知识的步骤具体包括：

将产品功能变量f与f对应的可能的功能参数变量u^f分离，并且引入功能参数主题ω以实现在产品功能主题φ中分离出功能参数主题；

当创建者书写产品的评论单词w_p，i时，其首先使用基于λ_p的转换子x_p，i选择单词关于产品功能主题还是产品特点主题，其中，λ_p由带对称向量γ的贝尔塔分布所描述；

若选择了产品功能主题，创建者从功能集合{f₁，...，f_|F|，f_|F|+1，...，f_|F|+|E|}中选择其中一个功能f_p，i，其中{f₁，...，f_|F|}为来源于产品说明的功能集合，{f_|F|+1，...，f_|F|+|E|}为产品说明中没有出现而在评论中提及的，依据由带参数α和对称向量α′_p的狄利克雷分布描述的θ_p形成的功能集合；

若功能f_p，i属于产品说明的功能，创建者通过基于π_f的转换子y_p，i进一步选择单词为功能单词还是功能参数单词；其中，π_f由带对称向量γ^y的贝尔塔分布所描述；

若创建者进一步依据ξ_p，f选择功能f_p，i的功能参数单词u_f，则结合选中的功能参数u_f，依据ω_f，u选择单词；其中，ξ_p，f由带常数τ和非对称先验知识τ_p，_f的狄利克雷分布所描述；ω_f，u由带常数ρ和非对称先验分布ρ’_f，u的狄利克雷分布所描述；以及

对功能单词和功能参数单词的先验分布进行归一化处理；

基于先验知识，应用吉布斯采样来构建主题模型；其中，所述主题模型具体如下：

其中，x＝0表示使用产品－细节主题时，x＝1表示学习某评论主题或者产品说明功能主题f时；

其中

其中，y＝0选择书写功能单词或功能参数单词，y＝1选择功能参数单词或书写功能单词。

13.一种基于用户评论生成产品简介的系统，其特征在于，所述系统包括：

预处理模块，用于获取若干个产品的用户评论和产品说明作为输入数据，其中每个产品分别与多个产品说明和用户评论对应，每个产品说明至少包括一个产品功能和与该功能相关联的功能参数；

所述预处理模块还用于通过在产品的用户评论之间建立联系来形成产品文档，每个产品文档与该产品相关联的用户评论对应；

主题模型生成模块，用于应用主题模型对所述输入数据进行处理并且生成在产品文档中的主题分布和在主题中的单词分布，所述主题包括产品的说明；所述主题模型是一个挖掘在选出的产品文档中存在的主题的统计模型，每个产品文档中均包含有一个或者多个主题并且每个主题都会存在于一个或者多个产品文档，以及

产品简介生成模块，用于基于所述主题模型向用户提供产品简介，所述产品简介包括一个或者多个与功能参数相关的语句、产品功能重要程度信息以及产品特点描述单词；

所述基于所述主题模型向用户提供产品简介的步骤还包括：

14.根据权利要求13所述的系统，其特征在于，所述主题模型生成模块的具体包括：

先验知识生成单元，用于获取包括在产品文档中已知的主题分布和主题中已知的单词分布的先验知识；

改进的LDA模型生成单元，用于整合所述先验知识并且应用主题模型处理输入数据以生成在产品文档中的主题分布和在主题中的单词分布；并且

15.根据权利要求14所述的系统，其特征在于，

所述主题模型为三层贝叶斯概率分布模型；

所述在产品文档中的主题分布服从狄利克雷分布；

所述在主题中的单词分布服从狄利克雷分布。

16.根据权利要求15所述的系统，其特征在于，所述先验知识生成单元具体用于：

17.根据权利要求16所述的系统，其特征在于，所述主题包括产品说明主题和用户评论主题；并且

18.根据权利要求17所述的系统，其特征在于，所述先验知识生成单元用于：