CN105139211B - 产品简介生成方法及系统 - Google Patents
产品简介生成方法及系统 Download PDFInfo
- Publication number
- CN105139211B CN105139211B CN201510465911.6A CN201510465911A CN105139211B CN 105139211 B CN105139211 B CN 105139211B CN 201510465911 A CN201510465911 A CN 201510465911A CN 105139211 B CN105139211 B CN 105139211B
- Authority
- CN
- China
- Prior art keywords
- product
- topic
- distribution
- function
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000009826 distribution Methods 0.000 claims abstract description 139
- 238000012552 review Methods 0.000 claims abstract description 64
- 230000008569 process Effects 0.000 claims abstract description 11
- 238000013179 statistical model Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 151
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 2
- 238000000926 separation method Methods 0.000 claims description 2
- 239000000725 suspension Substances 0.000 claims 1
- 238000005065 mining Methods 0.000 abstract description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000007476 Maximum Likelihood Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000004800 variational method Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种产品简介生成方法及系统。所述方法包括获取若干个产品的用户评论和产品说明作为输入数据,其中产品分别与多个产品说明和用户评论对应,每个产品说明至少包括一个产品功能‑功能参数配对。在产品的用户评论之间建立联系来形成产品文档并与所述用户评论对应。应用主题模型处理输入数据并生成文档中的主题分布和主题中的单词分布,主题包括产品说明。所述主题模型是一个挖掘在产品文档中存在主题的统计模型,每个产品文档中均包含有若干主题并且每个主题都在若干产品文档中。基于所述主题模型向用户提供产品简介,其包括一个或者多个与功能参数相关的语句、产品功能重要程度信息以及产品特点描述单词。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及基于产品信息及用户评论生成产品简介。
背景技术
当人们从在线商城购买产品时,通常能够获知与产品相关的信息,例如产品描述、产品图像以及用户的评论。通常,产品说明能够有条理的描述产品的性能,特别是对于那些由许多电子模块组成的高科技产品,并且能够提供丰富的信息使用户理解产品。如图1所示,为某一数码相机的典型的产品说明。
但是,当消费者不熟悉这些产品时,他们很难正确的理解产品说明内容的真正含义。例如,当毫无经验的消费者阅读上述数码相机的产品描述时,由于其对此非常陌生,所以他们对于“自动对焦”功能中的“TTL相位检测”的作用将毫无概念。这些消费者不仅会对某些功能的参数感到疑惑,并且他们也无法理解这些功能参数的真正含义。
为了选择“正确”的产品功能,消费者通常希望得到那些已经拥有这些产品的消费者的使用经验,来解答那里诸如“这功能的是否适合其他人”这样一些疑问。如图2所示,为一个典型的在线商城产品购买界面。当消费者点击某产品的链接时,消费者能够获知产品相关信息,例如产品描述、评论以及说明。若用户购买产品,他/她在使用产品后通常会对产品进行评论来和其他人分享使用经验。消费者能够通过维基百科或者互联网搜索来了解某一功能参数的具体意义,但寻找源自于其他消费者对于具有这一功能的产品的评论的对于这一功能参数的描述是相当费力的。另外,若产品功能的相关信息不足,被迫从其他产品的评论中收集相同功能的相关信息的操作是相当费时的。
意见挖掘和总结已经被广泛的研究。而大部分的研究工作都在包含有大量意见的产品评价以及网络日志数据集合中进行。为了了解意见的真正含义以及更有效地进行意见挖掘,基于文本倾向(aspect-based)意见挖掘和总结是在这一领域的主流研究方向。为了寻找产品的描述方面,许多研究应用那些寻找文本中隐藏主题的典型模型。大部分这一方面的现有研究成果均为对于某一预设或者隐藏的产品功能进行意见挖掘。
尽管产品说明已经在许多电子商务领域中应用,但对于在用户评论分析中应用产品说明的研究非常少。例如,本体支持极性挖掘(ontology-supported polarity mining,OSPM),利用从IMDb的本体领域数据库,以实现评论的情感分类。但是,这些方法仅研究电影特点(即功能)而不包括功能参数。也有其他的方法应用产品评论分析,但是其目标在于文本分类。产品说明及评论均可以用于构建一个描述方面层次结构,但是这一方法也没有涉及功能参数的作用,其他利用产品说明来总结产品功能的研究也并未涉及功能参数的作用。
因此,绝大部分的基于主体模型的意见挖掘以及总结技术均未使用预先定义的主体(例如产品说明)来进行产品评论分析。进一步的,现有意见挖掘技术与产品说明的结合依然无法解决无经验消费者对某一产品说明中的功能的参数作用认知程度非常低的问题。
本发明公开的方法及其系统用于解决现有技术中的一个或者多个问题。
发明概述
本发明一方面公开了一种基于用户评论生成产品简介的方法。所述方法获取若干个产品的用户评论和产品说明作为输入数据,其中每个产品分别与多个产品说明和用户评论对应。每个产品说明至少包括一个产品功能和与该功能相关联的功能参数。所述方法还通过在产品的用户评论之间建立联系来形成产品文档,每个产品文档与该产品相关联的用户评论对应。所述方法进一步应用主题模型对所述输入数据进行处理并且生成在产品文档中的主题分布和在主题中的单词分布,所述主题包括产品的说明。所述主题模型是一个挖掘在选出的产品文档中存在的主题的统计模型,每个产品文档中均包含有一个或者多个主题并且每个主题都会存在于一个或者多个产品文档。所述方法可以基于所述主题模型向用户提供产品简介,所述产品简介包括一个或者多个与功能参数相关的语句、产品功能重要程度信息以及产品特点描述单词。
本发明另一方面还公开了一种存储有用于在处理器运行时,执行基于用户评论生成产品简介的系统。所述系统包括:预处理模块,用于获取若干个产品的用户评论和产品说明作为输入数据,其中每个产品分别与多个产品说明和用户评论对应,每个产品说明至少包括一个产品功能和与该功能相关联的功能参数。所述预处理模块还用于通过在产品的用户评论之间建立联系来形成产品文档,每个产品文档与该产品相关联的用户评论对应。主题模型生成模块,用于应用主题模型对所述输入数据进行处理并且生成在产品文档中的主题分布和在主题中的单词分布,所述主题包括产品的说明;所述主题模型是一个挖掘在选出的产品文档中存在的主题的统计模型,每个产品文档中均包含有一个或者多个主题并且每个主题都会存在于一个或者多个产品文档。所述系统还包括产品简介生成模块,用于基于所述主题模型向用户提供产品简介,所述产品简介包括一个或者多个与功能参数相关的语句、产品功能重要程度信息以及产品特点描述单词。
本发明的其他方面,所属技术领域技术人员能够依据本发明的权利要求书,说明书,以及附图有效实施并充分公开。
附图简要说明
图1为现有产品说明的具体例子的屏幕截图。
图2为现有产品购买循环系统的结构框图。
图3为本发明具体实施方式的具体工作系统的示意图。
图4为本发明具体实施方式的计算系统的结构框图。
图5为本发明具体实施方式的提供产品简介系统的结构框图。
图6为本发明具体实施方式的产品购买循环的框图。
图7为本发明具体实施方式的生成产品简介程序的框图。
图8为本发明具体实施方式的产品简介的屏幕截图。
图9为本发明具体实施方式的生成产品简介的方法的方法流程图。
图10为本发明具体实施方式的LDA模型的图模型。
图11为本发明具体实施方式的半监督LDA模型的图模型。
图12为本发明具体实施方式的DuanLDA模型的图模型。
图13为本发明具体实施方式的DuanLDA+模型的图模型。
图14为本发明具体实施方式的SpecLDA模型的图模型。
详细说明
附图中展示的部分将被引用以具体说明,阐述本发明具体技术实施方案。说明书中引用的数字代表附图的相应部分。应当说明的是,下述的具体实施方式仅为本发明的其中一些具体实施方案,而非本发明全部可能的实施方案。依据下述的具体实施方式的启示,本领域技术人员获得的其他技术方案均在本发明的保护范围内。
当消费者从在线商城购买产品时,消费者通常会得知产品相关信息,例如产品说明、产品图片以及用户评论。但是,消费者可能并不知道产品的某些功能和功能参数的真正意义。随着越来越多的高科技模块和产品的功能数量的增长,功能参数会发散。因此,解决上述问题变得越来越重要。
现实中,最新的数码相机或者电脑产品通常包含有超过50项以上的功能,其中的大部分功能对于普通消费者而言很难理解。例如,数码相机“佳能70D”在CNET上的产品说明中包括了79项功能。它包括许多功能与参数的高级联系,例如(“电池类型”与“佳能LP-E6”)以及(“感光度”与“ISO25600”)。一个没有经验的消费者基本上很难了解其他消费者是否喜欢这些功能或者这些功能对于自己是过多还是恰好合适。这一问题可以从其他用户的使用经验中找到答案。以下的句子是对其他产品的“佳能LP-E6”和“ISO256000”这两项功能参数的手动检索结果。结果如下:“60D使用和7D一样的LP-E6电池,这一电池的优点在于能够满足一整天的拍照需求,但其缺陷为……,并且在最高ISO档位时(即256000)噪点太多几乎无法使用。”
通过阅读上述有用的评论,消费者能够了解功能参数,从而帮助他们更有效和更经济的选择合适的产品。例如,用户从上述句子中得知电池“LP-E6”的相关信息:它能够维持一整天的拍照并且是一个非常好的功能,表明评论者认可这一功能参数。当用户考虑照相机需要较高的电池续航能力而又不清楚“LP-E6”时,上述评论对于用户选择产品就非常有用。虽然上述评论中还可能包括了一些不相同的意见,但用户也可以据此得知对于同一功能参数存在的不同的观点。
本发明提供了一个依据用户评论自动生成产品简介的系统。图3为本发明具体实施方式中的工作系统300。如图3所示,所述工作系统300可以包括:web用户终端301、网络303以及产品信息网站304。当然,还可以包括其他合适的设备。
用户302可以连接网络303(如因特网)并且通过web用户终端301登入产品信息网站304。Web用户终端301可以是任何能够连接网络303,实现用户302和产品信息网站304交互的设备,例如桌上电脑、手提电脑、平板电脑、智能手机等等。所述产品信息网站304可以提供不同产品的多种信息,例如样板、说明、价格、用户评论等等。所述产品信息网站304还可以提供产品购买渠道。用户302可以在产品信息网站304上获取产品信息并且购买产品。用户302还可以写下对已购产品的评论。所述网站304可以通过任何合适的网络接入,例如因特网。计算模块3041用于依据产品信息以及用户评价生成产品简介。在本发明的一个具体实施例中,所述计算模块3041可以整合在产品信息网站304中。在其他实施例中,所述计算模块3014也可以是独立的,与产品信息网站304通信连接的模块。
计算模块3041和/或web用户终端301可以在任何合适的电子计算平台上运行。图4为本发明具体实施例中,能够执行所述依据用户评论自动生成产品简介的系统的电子计算系统400。
如图4所示,计算系统400可以包括处理模块402、存储模块404、监视器406、通信模块408、数据库410以及外围设备412。所述计算系统可以减省上述设备,也可以添加一些其他类型的设备,而不限于上述设备。
所述处理模块402可以是任何合适的处理器或处理器组。具体的,所述处理模块402为能够进行多线程处理的多核心处理器。存储模块404可以是任何合适的存储设备,例如ROM,RAM,闪存或者大容量存储器,例如CD-ROM,硬盘等。存储模块404用于存储为进行各种数据处理而预设的由处理模块402执行的计算机运行程序。
进一步的,所述外围设备412包括:各种类型的传感器以及输入,输出设备,例如键盘,鼠标。通信模块408包括用于在设备间通过网络建立通信连接的各类网络交互设备。数据库410包括一到多个用于存储不同数据以及对数据进行一些处理,例如搜索数据的数据库。
图5为本发明依据用户评论自动生成产品简介的系统的具体实施例的结构框图。如图5所示,所述系统500(即计算模块3041)包括:产品信息数据库501、预处理模块502、主题模型生成模块503以及产品简介生成模块504。
所述产品信息数据库501可以存储源自于产品信息网站304的数据。具体的,所述数据库501可以存储产品说明5011、用户评论5012以及产品简介5013的数据。
在具体操作中,当消费者使用web用户终端301来浏览产品信息网站303时,消费者可以在网站304中对产品进行评论。那些存储在产品信息数据库501中,选中的用户评论5012以及产品说明5011可以用来生成产品简介5013。所述产品简介5013可以存储在产品信息数据库501中。在本发明的具体实施例中,一个产品说明表示一个产品功能与其配对的功能参数,例如(数码照相机产品的“感光度”为“ISO25600”)。每个产品都具有多个产品说明5013(即上述配对的功能-参数)。所述产品简介5013包括了那些用于帮助消费者理解产品说明的额外产品相关信息。
源自于产品信息数据库501的产品说明5011以及用户评论5012数据可以在预处理模块502中进行处理。所述预处理模块502可以用于运行评论的自然语言分析工具以及将同一产品的所有评论收集并为每一产品形成一个对应的产品文档。
将预处理模块502中生成的产品文档提供给主题模型生成模块503进行处理。在本发明的具体实施例中,主题模型是指使用自然语言处理形成的,用于挖掘在选中的文档中出现的主题的统计模型。所述主题模型可以依据在文档中的包含的主题统计结果以及在主题中包含的词汇统计结果,计算一系列的文档并且输出结果。亦即,所述主题模型可以学习在每个文档中的主题分布以及每个主题中的单词分布。
所述主题模型生成模块503进一步包括:先验知识生成单元5031以及改进的LDA模型生成单元5032.在某具体实施例中,可以使用改进的三层贝叶斯概率分布模型(LDA)作为主题模型。在这一LDA模型中,每个文档与一个产品的用户评论内容相关联,而每一个主题则为源自于产品说明的功能-参数配对。
LDA模型假设主题的分布具有狄利克雷先验。亦即,主题分布服从狄利克雷分布。在实际操作中,所述LDA模型通过描述依据狄利克雷分布的两个变量来生成文档中的全部单词:每个文档都具有不同的主题分布以及每个主题都具有不同的单词分布。由于某一文档的单词分布是已知的,随着LDA模型迭代生成文档中的单词,LDA模型不断调整上述两个变量以便于其尽可能好的与数据拟合。所述数据包括给定的文档(与评论内容相关联)和主题(来源于产品说明的功能-参数配对)。因此,所述LDA模型可以学习所述数据并且在每个文档中生成主题分布以及在主题中生成单词分布。
所述改进的LDA模型生成单元5032也可以在传统LDA模型中整合先验知识。所述先验知识生成单元5031可以获取先验知识,包括预先得知的,在文档中具体的主题分布以及主题中具体的单词分布。
所述产品简介生成模块504可以用于生成一个或者多个相关语句5041、功能重要程度信息5042以及产品-特点单词5043。在某具体实施例中,对相关语句5041查询结果可以为通过即席查询(ad-hoc)语言模型检索系统生成的相关评论句子。检索条件可以为某一具体产品的功能-参数配对。所述ad-hoc语言模型检索系统可以使用基于生成的主题模型的检索条件检索相关的句子。(例如,在文档中的主题分布以及在主题中的单词分布)。所述功能重要程度信息5042可以依据生成的主题模型对产品功能进行排序。产品-特点单词5043可以基于生成的主题模型显示某一产品的独特特点描述单词。
图6为本发明具体实施例的通过用于生成产品简介的系统500执行的产品购买循环600的示意图。当消费者点击某产品的链接时(S601),消费者可以获得产品相关信息(S602),例如一般的产品说明6021,产品的用户评论6051以及产品简介6061。当消费者购买了产品后(S603),消费者使用了产品一段时间后,可以写下产品评论来和其他人分享使用经验(S605)。所述产品简介6061从积累的产品的用户评论6051中生成(S606)。更具体的,结合产品的数据和相应的用户评论、产品说明,所述用于提升产品购买经验的系统500能够自动分析关于某说明的评论句子并且结合上述分析结果提供更精确的产品说明。
图7为系统500的具体使用方法的示意图。在包含由消费者提供的用户评论和相关产品说明的产品信息数据库中可以执行一些具体的处理。例如可以对用户评论数据进行预处理,并且将预处理后的用户评论或者产品说明作为语料提供给主题模型。所述语料可以用于主题模型算法中从而创建一个主题模型。
所述产品说明也可以进行预处理。预处理后的产品说明可以用以作为主题模型的先验知识(“先验分布”)并且作为检索系统的检索条件。所述主题模型学习带先验知识的文本数据并且生成一个新的文档,所述文档同样也提供给检索系统。所述检索系统从所述新的文档中检索与检索条件相关的句子。
同时,所述主题模型可以用于依据语料和先验知识,生成产品功能重要程度信息以及产品特点单词。将主题模型的结果(即功能重要程度信息和产品特点单词)和检索系统的输出结果加入到产品说明中,从而生成产品简介。
图8为本发明具体实施例所述的产品简介的示意图。如图8所示,所述产品简介可以包括每个功能的重要程度信息,描述产品特点的词汇以及与每个功能参数相关的句子。
具体的,除了展示产品功能列表和对应功能参数列表外,功能重要程度列表也可以加入到对应的功能中。所述功能的重要程度列表依据功能的重要性对每个功能进行排序。进一步的,所述产品特点描述单词也可以一同展示。可以通过所述产品特点描述单词的字体以及颜色显示哪一个单词描述了某产品的最佳特点。例如,在所述产品特点描述单词中,最佳的特点描述单词可以使用最大的字体和最深的颜色。
另外,如果消费者点击某个功能参数框,则向其展示评论中相关的句子。无经验的消费者可以通过搜索获得的相关评论语句中了解某一具体功能参数,从而使消费者在阅读产品说明时,能够选择购买符合自身需求的功能的产品。在某具体实施例中,所述相关评论语句可以在浮动窗口中展示,功能参数描述单词则可以在句子中突出显示。
图9为具体实施例的生成产品简介的方法900的方法流程图。所述方法900可以结合在评论中,与每个功能参数相关语句的检索结果来生成增强型的产品说明并且获取功能重要程度和产品特点项以便于用户能够更好的理解产品。假如一个消费者阅读更多的,源自于其他消费者,与某功能参数相关的内容,相信他能够更好的了解这一功能参数。
如图9所示,获取若干个产品的产品说明和用户评论(S901)。具体的,给定M个具有多个评论R的产品P,评论句子T以及产品说明S。对于每个产品p而言,其具有对应的产品说明Sp和由评论语句Tp组成的评论Rp。产品p的评论数据Rp由一个或者多个评论组成,其中每个评论又包括一个或者多个句子。产品p的产品说明数据Sp定义为:Sp={s/s∈S并且s为p的一部分}。其中,s为功能-参数配对(f,u),并且S表示所有可能的功能-参数配对的集合。举例来说,f为“图像处理芯片”而排序第一的u则为“DIGIC5+”。所述方法900可以生成产品简介Sp’,具体通过加入与(f,u)相关的句子T(f,u)并标记所有f的重要程度来获得。另外,还可以增加描述产品p特点的单词。
所述方法900的实现面临如下问题。首先,对于同一功能或者功能的价值,在产品说明中使用的单词可能与评论中使用的不一样。例如,在功能“有效像素值”中的参数“10.000.000像素”与用户使用的表示方法不相同。一般的,用户更倾向于使用“10MP”或者“十万像素”来表示。若仅使用预设的功能参数描述,可能会错失很多相关的用户评论。另外的问题还包括:功能或者功能参数的单词通常会在说明的多个地方中使用,导致同一句子会在多个不同的检索条件中重复出现。例如,功能单词“像素值”可以在“感光芯片像素值”,“有效像素值”,“最大录像像素值”,以及“屏幕像素值”这样一些完全不同的功能中出现。所述检索系统需要采用某些方法来很好的区分这些功能。另外,产品说明中的一些功能和功能参数并不会过多的在评论中出现,若作者认为这些功能不值得提及。这种情况会导致许多假阳性结果。
使用自然语言分析工具,例如Stanford CoreNLP,对评论内容进行句子情感分析,单词标记以及词干提取以完成评论内容的预处理(S902)。对标记词降序并且移除那些罚分部分。然后通过自然语言分析工具移除停用词。在某具体实施例中,那些在少于5个评论中出现的标记词也移除。将一个产品的所有评论进行压缩并形成一个单独的产品文档用于主题模型构建。
产品说明数据同样也进行预处理(S903)。在某具体实施例中,移除那些在少于5个产品中出现的功能。然后,将每个功能及其参数描述文本依据空格(blank)分成标记词,并且对标记词降序。所述功能和功能参数的标记词用于生成先验知识。所述产品说明的标记词提供给检索系统作为检索条件来检索相关句子。
所述预处理的用户评论以及产品说明数据可以应用于主题模型来定义在压缩后的评论文档中的功能-参数配对的分布(S905)。生成由用户评论和产品说明形成的先验知识(S904)并应用于主题模型提升拟合效果。
具体的,一个主题模型是一个可以寻找到那些隐藏项目以及他们在源自于采样文本的文档中的分布的概率分布模型。其中,所述项目是指那些在文档中重复出现频率较高的单词的聚类。在一个主题模型中,主题表示相关的单词。亦即,即使文档中不包含完全相同的单词,在文档d中有足够的单词与w相似时,一个文档中的单词w的相似概率p(w|d)依然具有足够高的值。例如,即使“LCD”没有在评论句子t中出现,若句子中包含了相关的词语“屏幕”和“易碎”等时,该句子的p(“LCD”|t)值依然足够高。因此,在本实施例中应用的主体模型,特别是LDA主题模型,能够在产品说明和评论的之间词汇差异建立联系。
图10为LDA的图模型。如图10所示,LDA是一个学习型的主题模型,他能够挖掘隐藏的主题。其中每个主题z由单词分布φz表示,并且在文档d中具有分布θd。给定主题的数量K和文档数量M,每个文档d都包含了Nd个单词并且通过所有的文档建立单词词汇表V。LDA通过计算服从狄利克雷分布的θd={p(z|d)}z∈[1,K]和φz={p(w|z)}w∈V来生成每个文档d。换言之,当LDA生成在d中的每个单词时,它首先依据狄利克雷分布Dir(α)来描述d中的主题总体情况θd,其中,α为对称先验分布。其次,它通过多项分布θd来选择一个主题z。最后,它通过多项分布φz来选择单词w。其中,φz依据狄利克雷分布Dir(β)描述,β为对称先验分布。
因为计算所有可能的主题结构是不可行的,所以通过近似算法计算变量θd和φz以尽量好的拟合数据。在近似算法中,文档作为在所有可能的主题结构中进行检索的线索。其中,变分法(variational method)和简化的吉布斯采样(collapsed Gibbs sampling CGS)是最受欢迎的两种算法。在某具体实施例中,采用比变分法更为简单和可比较的简化的吉布斯采样方法。
在经典的LDA中,文档中的主题分布和主题中的单词分布都是未知的。但是,可以应用上述分布的线索来提升LDA模型的效果。直观地,若已知文档是关于数码相机的,所述文档很有可能具有与“相机”相关的主题和单词。应用这样一些先验知识以提高模型的拟合效果。可以将上述模型命名为半监督LDA。
图11为所述半监督LDA的图模型。当创建者在文档d中写下第i个评论的单词wd,i时,创建者首先会依据在d中的,由第一狄利克雷分布(K·α·α′d)描述的主题分布θd选择其中一个主题zd,i。其中,K为主题的数量,α为比例常数,α′d为归一化的先验概率p′(z|θd),p′(z|θd)为非对称向量。然后,在选中的主题zd,i中,创建者依据主题z中的,由第二狄利克雷分布(V·β·β′z)描述的单词分布φz选出单词wd,i。其中,V为词汇表的大小,β为比例常数,β′z是一个非对称向量和归一化的先验概率p′(w|φz)。所述先验分布α′和β′可以通过手动设定或者依据测试样本自动生成。对所有文档中的所有单词重复上述生成步骤。
吉布斯采样可以用于模型的学习。基于所有其他主题标记Z\d,i与先验因子对主题zd,i进行重复采样。某主题选中的概率可以通过如下算式表示:
其中,N表示满足下标以及上标条件的单词数量,而在Z和N的上标或者下标中的“\d,i”表示除了在文档d中的第i位置上的数据外的数量。所述变量可以在多次迭代后,通过一次吉布斯采样获得。为了计算结果更可靠,在本发明某具体实施例中,所述主题模型可以获取并利用不同的初始化条件中的多重马尔科夫链。
经典的LDA对不同的主题和文档均使用相同的α,对不同的单词和主题也使用相同的β,而半监督LDA则在主题和文档使用特定的α′,在单词和主题使用特定的β′来实现先验知识的整合。
继续参阅图9,依据对应的先验知识(S904),本发明提供了三个生成改进的LDA模型的具体实施例(S905)。依据本发明所公开的技术特征及具体实施例,本领域技术人员还可以在不进行创造性劳动时获得其他的具体技术方案。所述改进的LDA模型以半监督LDA为基础,分别表示为DuanLDA,DuanLDA+和SpecLDA。
图12为DuanLDA的图模型。在DuanLDA模型中,将说明视为主题,压缩后的评论视为文档。
假设具有M个文档,每个文档具体为某一产品p的压缩后的评论,并且在每个文档中具有Np个单词。S为产品说明(功能-参数配对),视作主题,并且具有|S|个可能的主题。结合生成的先验知识,p的主题(功能-参数配对)分布θp,由狄利克雷分布(K·α·α′p,s)描述,其中K表示主题的数量。功能-参数配对的单词分布φs由狄利克雷分布(V·β·β′s,w)描述,其中V表示词汇表的大小。对所有产品文档中的所有单词重复执行上述生成步骤。
具体的,β′s,w为通过计算功能单词与评论单词之间的标准化互信息(NPMI)获取的数据生成的先验知识φs。然后移除那些负相关的单词,并且给出每个单词的归一化概率p(w|f),其中,f为功能。另外,DuanLDA还可以依据说明生成先验知识θ;若某一功能-参数配对s没有出现在某具体产品p中,将α′p,s标记为0,否则标记为相应的概率。文档中所有存在的功能-参数配对的概率均相等。
进一步的,所述DuanLDA与半监督LDA的最大区别在于:DuanLDA使用背景语言模型,表示整个数据集合中的单词最大拟然估计。
更具体的,当创建者为p写下一个评论单词wp,i时,创建者依据由参数λ决定的选择条件xp,i选择背景语言模型或者功能主题。若选择背景语言模型,wp,i则通过背景语言模型φB来描述。否则,依据θp选择说明sp,i。其中,θp由带α和α′p的狄利克雷分布所描述,此时wp,i由φs.描述。
所述DuanLDA的文档模型可以通过如下算式定义:
选择条件xp,i选择背景语言模型的概率由参数λ决定。其中,所述背景语言模型可以定义如下:
当选择条件xp,i为不选择背景语言模型时,学习sp,i的吉布斯采样方程可以通过如下算式定义:
若wp,i在一个背景语言模型具有足够高的值,可以基本上分配到该背景主题中,并且若wp,i与其中一个|S|说明相接近时,分配到该说明主题sp,i。
图13为DuanLDA+的图模型。DuanLDA面临两个主要问题:1、它仅考虑了说明形成的主题;2、先验分布β′的使用中忽略了主题的大小。为了解决上述缺陷,DuanLDA+模型不再使用背景语言模型而加入并使用产品-特点语言模型。
评论中可能存在一些产品说明中没有的主题。例如,价值、设计或者其他产品说明中没有列举,而在评论中提及的功能。所述DuanLDA+模型在产品说明中增加|E|评论的主题。由此,所有主题为{s1,...,s|S|,s|S|+1,...,s|S|+|E|}。产品说明的分布θp。由带α和α′p的狄利克雷分布所描述。其中α′p,s。在所有的说明和评论主题中均相等。若描述的说明sp,i属于说明的主题,则与上述DuanLDA的执行方式相同。但是,若sp,i属于评论主题(E),其单词wp,i则由带φr s的狄利克雷分布来描述。
每个说明的主题均具有计算得出的主题大小Ns。若主题大小Ns相对于先验知识Vβ过大或者过小,这些主题将过多或者过少的依赖先验分布β′s。当一个主题过多的依赖先验分布时,这个主题的单词分布将基本遵循先验分布。而当一个主题过少的依赖先验分布时,这个主题却能够包容那些与先验知识毫无关联的项目。其中,后者是一个更为严重问题。因此,可以依据主题的大小归一化所述先验分布。所述DuanLDA+模型引入了先验分布大小控制子{η1,...,η|S|},若主题过小时,每个控制子均通过衰减因子ζ来不断的减小先验分布的大小。更具体的,对于单词在某一主题sp,i=z中进行吉布斯采样的概率可以定义如下:
其中,先验知识大小Vβ由ηs控制,依据如下算式进行减小:
其中,上标(n)和(n+1)分别表示在第n次和第n+1次吉布斯采用迭代过程的变量。说明s与先验分布的大小比例pp(s)为:pp(s)=ηsVβ/(Ns+ηsVβ)。所述DuanLDA+能够在主题过小时减少先验分布控制子的大小来避免一个小的主题具有一个小的先验知识比例,导致主题与先验分布之间的联系不足的情况的发生。因此,若主题的大小对于s而言足够并且先验分布的比例过大时,先验分布的大小的ηsVβ将减小。
进一步的,DuanLDA模型使用的背景语言模型对于处理数据而言并不是必要的。因为,在评论的文本数据预处理时,停止词已经被移除以保证主题是由有用的词语所组成。因此,所述DuanLDA+模型不使用背景语言模型,而用产品特点主题来替代。这些主题可以是那些产品的特点。为了应用,DuanLDA+模型为每个产品p增加特点主题ψp从而抓取产品特点描述单词。当评论创建者为产品p写下一个单词wp,i时,创建者首先会依据由带参数γ的贝尔塔分布描述的λp,在特点主题和说明主题之间进行选择。若选择了特点主题,单词wp,i将由带δ的狄利克雷分布描述的ψp来描述。其余的步骤则与上述DuanLDA相同,在此不作赘述。
所述最终结果的文档模型可以定义如下:
当x=0时,用于学习的吉布斯采样方程具体如下式表示:
其中,γ为小常数。为了学习当x=1时的说明主题s∈S,结合所有先验知识Ω的方程具体如下:
其中,K是所有主题(|S|+|E|)的数量。相类似的,学习当x=1时的评论主题s∈E的吉布斯采样方程为:
基于互信息β的先验分布中包含了非常多与功能“有些”相关的单词。由于那些与功能“有些”相关的单词概率的加入会使高序列位置的单词概率p(w|F)排序降低。因此,主题F很难选中这些单词,即使它们相关程度很高并且在β′f中有高的排序位置。因此,所述DuanLDA+模型假设先验知识服从齐夫定律分布并且据此调整p(w|F)。更具体的,对于DuanLDA中获得的先验知识的p(w|F),每个单词w的调整后p′(w|F)可以定义如下:
其中,v(F)为F中的词汇表,V表示所有评论的词汇表,rankF(w)为不包括v(F)的单词时,w在p(w|F)中的排序位置。齐夫定律分布的函数Zipf(i)可以表示如下:
其中,a为分布的特征参数。基本上,p′(w|F)保持p(w|F)的排序结果,但是抛弃非功能单词的单词概率。功能单词对齐夫定律分布的前n个概率求和,其中n为功能词汇表与所有评论词汇表的交集。并且利用上述概率和重新分配功能单词在p(w|F)中各自的比例。除去功能单词,非功能单词保持它们的排序位置并且将新的,服从上述排序结果的齐夫定律分布的先验知识概率与v(F)相加。通过采用这种方式,所述DuanLDA+模型可以更精确的从不重要的单词中辨别出重要的单词从而使主题不再被不重要的先验知识单词所占据。
图14为SpecLDA的图模型。所述DuanLDA+模型还存在的问题为:这一模型还未能很好的利用产品说明的结构。在DuanLDA和DuanLDA+模型中,每个功能-参数配对被认为是一个独立的产品说明。若数据中不具有足够的描述功能-参数配对的句子,计算出的功能-参数配对主题将不恰当。而且,大部分的功能均具有超过一个以上的功能参数,意味着功能是多个具有相同功能的功能-参数配对之间的交集。因此,SpecLDA将功能主题和功能参数主题分离从而合并那些功能交集。另外,DuanLDA和DuanLDA+模型仅输入那些来源于功能单词的先验知识。然而,功能参数单词很可能比功能单词更为重要。例如,对于一个功能-参数配对(“感光芯片类型”,“CMOS”),当他们提到这个功能-参数配对时,人们喜欢使用“CMOS”这个词。但是,“CMOS”很可能在DuanLDA的功能先验知识的“感光芯片类型”中排序较低,因为这个功能通常具有其他的功能参数配对。因此,所述SpecLDA模型使用功能与参数分离的先验知识。
在SpecLDA模型中,对于功能|F|中的每个功能f,设定具有|Uf|个可能关联的功能参数。为了从功能参数中分离出功能部分,功能变量f与参数变量uf分离。其中,uf为f的一个可能的功能参数。当然,引入功能参数主题ω与功能主题φ进行分离。
在这一模型中,当创建者书写某一产品p的评论单词wp,i时,所述创建者首先使用依据由带对称向量γ的贝尔塔(beta)分布描述的λp的转换子xp,i选择单词关于产品功能主题还是产品-特点主题。若选择为产品-特点主题,单词将服从由带对称向量δ的狄利克雷分布描述的ψp。若选择了产品功能主题,创建者将从可能功能集合{f1,...,f|F|,f|F|+1,...,f|F|+|E|}中选择其中一个功能fp,i,其中{f1,...,f|F|}为来源于产品说明的功能集合,{f|F|+1,...,f|F|+|E|}为产品说明中没有出现而在评论中提及的,依据由带α和对称向量α′p的狄利克雷分布描述的θp形成的功能集合。若fp,i属于评论提及的功能,wp,i由多项分布φr f进行描述其中,所述多项分布由带对称向量βr的狄利克雷分布描述。
若fp,i属于产品说明的功能,创建者继续通过依据由带对称向量γy的beta分布描述的πf的转换子yp,i选择书写功能单词还是功能参数单词。若创建者选择为功能单词fp,i,则依据由带常数β和非对称先验知识β′的狄利克雷分布描述的φf选择wp,i。相反的,创建者则依据ξp,f选择功能fp,i功能参数单词uf。其中,ξp,f由带常数τ和非对称先验知识τp,f的狄利克雷分布描述。结合选中的功能参数uf,创建者依据ωf,u选择单词,其中,ωf,u由带常数ρ和非对称先验知识ρ’f,u的狄利克雷分布所描述。上述生成步骤在所有产品的所有评论单词中重复进行。
方法可以通过如下具所述生成体算法描述:
因此,SpecLDA的文档模型具体如下:
其中,
并且,当使用产品-细节主题(即x=0)时,用于学习的吉布斯采样方程与算式(8)相同。
当学习某评论主题或者产品说明功能主题f时,所述方程具体如下:
p(xp,i=1,fp,i=z,yp,i=0|wp,i,X\p,i,F\p,i,E\p,i,Y\p,i,Ω)∝p(xp,i=1|X\p,i,Ω)p(fp,i=z|F\p,i,E\p,i,Ω)p(yp,i=0|z,Y\p,i,F\p,i,E\p,i,Ω)p(wp,i|z,F\p,i,E\p,i,Y\p,i,Ω) (15)
其中,p(xp,i=1|X\p,i,Ω)由算式(9)所定义,其他的项的具体定义如下:
其中K为所有评论及产品说明主题的总数。
当选中某功能(即fp,i=z)和配对的功能参数(up,i=j)来描述该功能时,所述SpecLDA模型也进行学习,具体如下:
p(xp,i=1,fp,i=z,y=1,up,i=j
|wp,i,X\p,i,F\p,i,Y\p,i,U\p,i,Ω)
∝p(xp,i=1|X\p,i,Ω)
p(fp,i=z|F\p,i,E\p,i,Ω)
p(yp,i=1|z,Y\p,i,F\p,i,E\p,i,Ω)
p(up,j=1|z,Y\p,i,F\p,i,U\p,i,Ω)
p(wp,i|z,j,U\p,i,Ω) (19)
其中,第一及第二项定义如前所述,剩余项具体定义如下:
其中,|Uf|为某功能f的所有可能的功能参数的总数。对功能单词和功能参数单词采用DuanLDA+模型中使用的归一化方法。
请继续参阅图9,所述主题生成模型还可以用于提供精确化的产品说明。基于生成的主题模型的ad-hoc语言模型检索系统可以依据检索条件检索相关的评论语句(S906)。所述检索条件可以是从产品说明的预处理结果中获得的产品的功能-参数配对。
更具体的,为了从收集的文档中检索相关的文档,可以使用如下所述的拟然查询检索模型
p(d|q)∝p(q|d)·p(d)
∝p(q|d) (23)
其中,d表示某文档,q为词语列表的检索条件,p(d|q)为d满足在给定的q下的信息要求的概率。p(q|d)用于衡量d到q的距离,并且p(d)为在d中,与检索条件相独立的用户偏好。由此,若文档能够与检索条件良好吻合并且符合用户偏好,上述算式将这一文档标记为高得分。在某具体实施例中,假设所述文档的偏好没有给定,因此,可以认为q是均等的并且忽略p(d)这一项。
总的来说,p(q|d)可以定义如下:
其中,w为在q中的单词,V为收集的文档中的词汇表集合,并且c(w,q)为在q中w的计数。p(w|d)为通过最大拟然估计计算得出的一元文法语言模型(unigram languagemodel),它表示在文档d中单词w的相似性。因此,若在q中的单词更多的出现在文档d中,文档d与检索条件q的相似性p(q|d)将会提高。
为了避免过拟合和阻止当没有任何q的单词出现在文档d中时,p(q|d)等于0,通常需要使用平滑的p(q|d)。具体的,可以使用线性插值平滑方法(Jelinek-Mercersmoothing method),p(w|d)可以定义如下:
p(w|d)=(1-λ)pml(w|d)+λp(w|B) (25)
其中,pml(w|d)为结合最大拟然估计得出的文档语言模型,并且p(w|B)为收集语言模型。为了平滑pml(w|d),需要使用一个参考语言模型p(w|B)。其中,使用由B表示的整个语料库以便于一般的单词相似性能够提升pml(w|d)。由此,所述结果p(w|d)通过pml(w|d)和p(w|B)加权平均获得。在算式(24)中,由于多次小值相乘可能会导致下溢的发生。为了避免这种情况,需要采用一个算法并随之使用标准语言模型检索方法。所述对于q的文档d的得分可以定义如下:
其中,若将∑ω∈Vc(ω,q)log λp(ω|B)代入算式(28)中,算式(27)和算式(28)是等效的。但是省略了αq,因为它不依赖于d,亦表示它不会影响文档的排序。通过将算式(27)改写为算式(28),其能够对于检索条件中的普通单词进行罚分,这也是ad-hoc信息检索中需要的特性。
在较佳实施例中,可以应用进行了合适调整的拟然查询检索方法。在当前的问题设定中,检索条件q为在待检索的产品说明sq=(fq,uq)中的单词,而d为在所有评论语句T中的语句t。V表示在T中的词汇表,B为T的一元文法语言模型。由于当前文本单位为句子,所以通常包含的单词比文档要少得多导致在检索条件与句子之间的统计论据相当薄弱,使得问题要比文档检索更难解决。幸运的是,所述方法利用产品说明来过滤掉不相关的句子;若句子tp来自产品p的评论语句Tp而待检索的产品说明不在p的产品说明Sp中,那么可以忽略tp。因此,所述句子t对于q的相关性得分可以表示如下:
其中,o/w表示“否则”,并且可以采用算式(25)中计算p(w|d)的方法来计算pml(w|tp)。算式(29)可以被用作基线法并且简称为QL。
但是对于基线法而言,若检索条件使用的词汇表与文档中描述检索条件所使用的词汇表不相同时,其运算结果不佳。例如,对于检索某功能-参数配对(“显示屏”“3英寸LCD显示屏”),因为检索条件的单词没有出现在句子“屏幕较大但是在活动时容易破碎”中,QL会将这一与功能密切相关的句子标记为零分,并且pml(w|tp)的输出结果也会是0。因此,为了在产品说明和评论的词汇表差异之间建立联系,需要用使用了主题模型的p′(w|tp)来代替pml(w|tp)。
另外,在较佳实施例中,在ad-hoc检索方法中结合改进的LDA模型。因为它会丢失原始的检索信息,因此仅仅依靠LDA文档模型并不是一个理想的做法,而应当整合原始信息的语言模型。因此,本发明所述方法使用了一个结合了改进的LDA文档模型和最大拟然估计语言模型的加权插值模型。
具体的,检索系统的目标在于获取相关的句子而非文档。若拓展的主题模型具有句子单元,由于句子的数量通常远大于文档的数量,它可能需要过多的目标变量。因此,在较佳的实施例中,不使用LDA中的句子单元,而转化为计算从文档层次到句子层次。在某文档d中的句子t的语言模型p′(w|tp)由此可以定义如下:
p′(w|tp)=λ′pml(w|tp)+(1-λ′)plda (30)
因此,结合主题模型和最大拟然估计语言模型,在较佳实施例中使用的句子t对于q的相关性得分计算算式如下所示:
其中,p′(w|tp)是通过上述的任意一种改进的LDA模型和最大拟然估计语言模型计算得出。在此,通过算式(30)获取p′(w|tp)从而为句子标记得分。
消费者一般想要知道与其他产品相比,这一产品具有哪些特点。产品特点主题可以通过DuanLDA+和DuanLDA获得(S907)。对于每个产品p,ψp包括了一个产品特点主题。在ψp中具有排序靠前的单词表示这些单词更为接近产品特点主题而非其他主题。因此,那些排序靠前的单词可以认为是某个产品的特点描述单词。
对于一个不熟悉产品的功能的新手来说,功能的重要程度也是非常有用的信息。功能重要程度信息可以由改进的LDA模型生成(S908)。在DuanLDA和DuanLDA+中,不同的功能-参数配对具有功能交集。并且对于某功能f的功能重要程度可以通过学习后的吉布斯采样计算得出,具体如下所示:
而由于在SpecLDA中,功能和功能参数分离,所以功能的重要程度可以由下式表示:
p(f)越高表示功能f在评论中提及得越多。
将所述相关句子、功能重要程度信息以及产品特点描述单词加入到前述步骤(即S901)获得的产品的产品简介中(S909)。所述产品简介能够帮助用户更好的理解产品的功能参数。
本发明提供了一种依据用户评论生成产品简介的方法及其系统。所述产品简介可以提高购物体验。所述系统使用基于改进的LDA模型的新方法来学习在文档中的主题分布以及在主题中的单词分布。所述主题生成模型可以用于检索与产品的一个功能-参数配对相关的评论语句。所述主题生成模型还可以用于对功能重要程度进行排序并且提供产品特点单词。与现有技术相比,本发明能够通过提供具有额外信息展示的产品说明来提升用户购物体验。
在电子商务网站上也经常使用产品说明。但是,没有经验的消费者通常没有足够的背景知识来了解产品的所有功能,尤其是那些高级功能。为了向消费者提供有用的信息,本发明提供了一种能够结合当今网站上丰富的产品评论,自动分析产品说明的系统。具体的,本发明的具体实施例提供了一种新的LDA模型,它能够提供有用的信息,例如功能重要性程度、产品特点以及检索与产品说明相关的评论,向消费者展示其他消费者对于该产品或者其他不同产品的同一产品说明的评论。
应当指出的是,本发明所述的用于生成产品简介的方法及系统不仅限于应用在产品购买领域,还可以应用其他任何结合先验知识的说明类型(关键功能参数)的文本收集。
依据上述说明和本发明具体实施例,本领域普通技术人员不需要通过创造性劳动可以实现其他任何合适的具体实施方式。应当指出的是,本发明所述的具体实施例仅用于解释和说明,不用于限制本发明的权利要求保护范围。
Claims (18)
1.一种基于用户评论生成产品简介的方法,其特征在于,所述方法包括如下步骤:
获取若干个产品的用户评论和产品说明作为输入数据,其中每个产品分别与多个产品说明和用户评论对应,每个产品说明至少包括一个产品功能和与该功能相关联的功能参数;
通过在产品的用户评论之间建立联系来形成产品文档,每个产品文档与该产品相关联的用户评论对应;
应用主题模型对所述输入数据进行处理并且生成在产品文档中的主题分布和在主题中的单词分布,所述主题包括产品的说明;所述主题模型是一个挖掘在选出的产品文档中存在的主题的统计模型,每个产品文档中均包含有一个或者多个主题并且每个主题都会存在于一个或者多个产品文档,以及
基于所述主题模型向用户提供产品简介,所述产品简介包括一个或者多个与功能参数相关的语句、产品功能重要程度信息以及产品特点描述单词;
所述基于所述主题模型向用户提供产品简介的步骤还包括:
令f表示产品功能,Ni表示在文档i中的单词数量,s表示产品说明,z表示主题,
若获取先验知识时,没有将产品功能和功能参数分开,在获取主题模型的输出结果后,所述功能的重要程度具体表示如下:其中,N表示满足下标以及上标条件的单词数量,下标s表示主题sp,i,下标z表示主题zd,i,下标x表示转换子xp,i;
2.根据权利要求1所述的方法,其特征在于,所述应用主题模型的步骤具体包括:
获取包括在产品文档中已知的主题分布和主题中已知的单词分布的先验知识;
整合所述先验知识并且应用主题模型处理输入数据以生成在产品文档中的主题分布和在主题中的单词分布;并且
获取主题模型的输出结果,所述输出结果包括学习生成的在产品文档中的主题分布和在主题中的单词分布。
3.根据权利要求2所述的方法,其特征在于,
所述主题模型为三层贝叶斯概率分布模型;
所述在产品文档中的主题分布服从狄利克雷分布;
所述在主题中的单词分布服从狄利克雷分布。
4.根据权利要求2所述的方法,其特征在于,所述获取先验知识的步骤具体包括:
获取每个单词的类型,所述单词的类型具体为产品说明单词或者产品特点描述单词。
5.根据权利要求4所述的方法,其特征在于,
所述主题包括产品说明主题和用户评论主题;并且
所述先验知识的在产品文档中已知的主题分布具体包括在产品文档中已知的产品说明主题分布和在产品文档中已知的用户评论主题分布。
6.根据权利要求5所述的方法,其特征在于,所述获取先验知识的步骤还包括:
获取每个产品说明单词的类型,所述产品说明单词的类型具体为产品功能单词或者功能参数单词。
7.根据权利要求6所述的方法,其特征在于,所述应用主题模型步骤还包括:
将产品说明主题分为产品功能主题和功能参数主题;
获取在产品文档中已知的产品说明主题分布的先验知识,具体包括在产品文档中已知的产品功能主题分布和在产品文档中已知的功能参数主题分布;以及
整合所述先验知识并应用主题模型处理输入数据以生成在产品文档中的产品功能主题分布、在产品文档中的功能参数主题分布、在产品文档中的评论主题分布以及在主题中的单词分布。
8.根据权利要求4所述的方法,其特征在于,所述获取先验知识的步骤还包括:
引入先验分布大小控制子,依据主题的大小对先验分布进行归一化,所述先验分布具体为属于先验知识的,在主题中的单词分布。
10.根据权利要求2所述的方法,其特征在于,所述基于所述主题模型向用户提供产品简介的步骤具体包括:
应用即席查询检索系统生成与检索条件相关的语句,所述检索条件为产品的产品功能及与其相关联的功能参数的配对,其中
所述即席查询检索系统通过整合检索条件信息和主题模型输出结果,计算用户评论中的语句的相关程度。
11.根据权利要求1所述的方法,其特征在于,所述基于所述主题模型向用户提供产品简介的步骤进一步包括:
当用户将光标点击于产品功能参数框时,依据光标的位置,在悬浮框中展示相关的语句;
对产品功能重要程度信息进行排序,并在一个独立的,与产品功能相对应的列表中展示;以及
将产品特点描述单词在独立的一排中展示,其中,描述单词的字体大小及字体颜色与产品特点的特别程度相对应。
12.根据权利要求7所述的方法,其特征在于,令P表示产品,产品有M个,R表示产品评论,T表示评论语句,S表示分析后的产品说明,每个文档p中包含Np个单词w,θ表示文档中的主题分布,φ表示主题中的单词分布,f表示产品功能,u表示产品功能参数,
所述获取先验知识的步骤具体包括:
将产品功能变量f与f对应的可能的功能参数变量uf分离,并且引入功能参数主题ω以实现在产品功能主题φ中分离出功能参数主题;
当创建者书写产品的评论单词wp,i时,其首先使用基于λp的转换子xp,i选择单词关于产品功能主题还是产品特点主题,其中,λp由带对称向量γ的贝尔塔分布所描述;
若选择了产品功能主题,创建者从功能集合{f1,...,f|F|,f|F|+1,...,f|F|+|E|}中选择其中一个功能fp,i,其中{f1,...,f|F|}为来源于产品说明的功能集合,{f|F|+1,...,f|F|+|E|}为产品说明中没有出现而在评论中提及的,依据由带参数α和对称向量α′p的狄利克雷分布描述的θp形成的功能集合;
若功能fp,i属于产品说明的功能,创建者通过基于πf的转换子yp,i进一步选择单词为功能单词还是功能参数单词;其中,πf由带对称向量γy的贝尔塔分布所描述;
若创建者进一步依据ξp,f选择功能fp,i的功能参数单词uf,则结合选中的功能参数uf,依据ωf,u选择单词;其中,ξp,f由带常数τ和非对称先验知识τp,f的狄利克雷分布所描述;ωf,u由带常数ρ和非对称先验分布ρ’f,u的狄利克雷分布所描述;以及
对功能单词和功能参数单词的先验分布进行归一化处理;
13.一种基于用户评论生成产品简介的系统,其特征在于,所述系统包括:
预处理模块,用于获取若干个产品的用户评论和产品说明作为输入数据,其中每个产品分别与多个产品说明和用户评论对应,每个产品说明至少包括一个产品功能和与该功能相关联的功能参数;
所述预处理模块还用于通过在产品的用户评论之间建立联系来形成产品文档,每个产品文档与该产品相关联的用户评论对应;
主题模型生成模块,用于应用主题模型对所述输入数据进行处理并且生成在产品文档中的主题分布和在主题中的单词分布,所述主题包括产品的说明;所述主题模型是一个挖掘在选出的产品文档中存在的主题的统计模型,每个产品文档中均包含有一个或者多个主题并且每个主题都会存在于一个或者多个产品文档,以及
产品简介生成模块,用于基于所述主题模型向用户提供产品简介,所述产品简介包括一个或者多个与功能参数相关的语句、产品功能重要程度信息以及产品特点描述单词;
所述基于所述主题模型向用户提供产品简介的步骤还包括:
令f表示产品功能,Ni表示在文档i中的单词数量,s表示产品说明,z表示主题,
若获取先验知识时,没有将产品功能和功能参数分开,在获取主题模型的输出结果后,所述功能的重要程度具体表示如下:其中,N表示满足下标以及上标条件的单词数量,下标s表示主题sp,i,下标z表示主题zd,i,下标x表示转换子xp,i;
14.根据权利要求13所述的系统,其特征在于,所述主题模型生成模块的具体包括:
先验知识生成单元,用于获取包括在产品文档中已知的主题分布和主题中已知的单词分布的先验知识;
改进的LDA模型生成单元,用于整合所述先验知识并且应用主题模型处理输入数据以生成在产品文档中的主题分布和在主题中的单词分布;并且
获取主题模型的输出结果,所述输出结果包括学习生成的在产品文档中的主题分布和在主题中的单词分布。
15.根据权利要求14所述的系统,其特征在于,
所述主题模型为三层贝叶斯概率分布模型;
所述在产品文档中的主题分布服从狄利克雷分布;
所述在主题中的单词分布服从狄利克雷分布。
16.根据权利要求15所述的系统,其特征在于,所述先验知识生成单元具体用于:
获取每个单词的类型,所述单词的类型具体为产品说明单词或者产品特点描述单词。
17.根据权利要求16所述的系统,其特征在于,所述主题包括产品说明主题和用户评论主题;并且
所述先验知识的在产品文档中已知的主题分布具体包括在产品文档中已知的产品说明主题分布和在产品文档中已知的用户评论主题分布。
18.根据权利要求17所述的系统,其特征在于,所述先验知识生成单元用于:
获取每个产品说明单词的类型,所述产品说明单词的类型具体为产品功能单词或者功能参数单词。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/576,433 US9817904B2 (en) | 2014-12-19 | 2014-12-19 | Method and system for generating augmented product specifications |
US14/576,433 | 2014-12-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105139211A CN105139211A (zh) | 2015-12-09 |
CN105139211B true CN105139211B (zh) | 2021-06-22 |
Family
ID=54724547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510465911.6A Active CN105139211B (zh) | 2014-12-19 | 2015-07-30 | 产品简介生成方法及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9817904B2 (zh) |
CN (1) | CN105139211B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919997B (zh) * | 2015-12-28 | 2020-12-22 | 航天信息股份有限公司 | 一种基于lda的电子商务的用户消费预测方法 |
US11087880B1 (en) * | 2016-04-26 | 2021-08-10 | Express Scripts Strategic Development, Inc. | Machine model generation systems and methods |
CN107797982B (zh) * | 2016-08-31 | 2021-05-07 | 百度在线网络技术(北京)有限公司 | 用于识别文本类型的方法、装置和设备 |
JP6815899B2 (ja) * | 2017-03-02 | 2021-01-20 | 東京都公立大学法人 | 出力文生成装置、出力文生成方法および出力文生成プログラム |
US11676168B2 (en) * | 2018-01-29 | 2023-06-13 | Walmart Apollo, Llc | Identifying value conscious users |
CN110196742A (zh) * | 2018-02-27 | 2019-09-03 | 阿里巴巴集团控股有限公司 | 生成、展示数据对象信息的方法及装置 |
CN110555106A (zh) * | 2018-03-28 | 2019-12-10 | 蓝盾信息安全技术有限公司 | 一种基于种子词的半监督lda模型 |
CN108763258B (zh) * | 2018-04-03 | 2023-01-10 | 平安科技(深圳)有限公司 | 文档主题参数提取方法、产品推荐方法、设备及存储介质 |
CN108549624B (zh) * | 2018-04-18 | 2021-08-27 | 宁夏通信规划设计院(有限责任公司) | 通信工程设计预算和说明文本自动化生成系统和方法 |
US11379668B2 (en) * | 2018-07-12 | 2022-07-05 | Samsung Electronics Co., Ltd. | Topic models with sentiment priors based on distributed representations |
US11550999B2 (en) * | 2019-11-05 | 2023-01-10 | Paypal, Inc. | Data management using topic modeling |
CN111783403B (zh) * | 2020-06-11 | 2022-10-04 | 云账户技术(天津)有限公司 | 一种文档提供方法、设备及介质 |
CN116911280B (zh) * | 2023-09-12 | 2023-12-29 | 深圳联友科技有限公司 | 一种基于自然语言处理的评论分析报告生成方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120209751A1 (en) * | 2011-02-11 | 2012-08-16 | Fuji Xerox Co., Ltd. | Systems and methods of generating use-based product searching |
CN103365978A (zh) * | 2013-07-01 | 2013-10-23 | 浙江大学 | 基于lda主题模型的中医药数据挖掘方法 |
CN103399916A (zh) * | 2013-07-31 | 2013-11-20 | 清华大学 | 基于产品特征的互联网评论观点挖掘方法及系统 |
CN103577579A (zh) * | 2013-11-08 | 2014-02-12 | 南方电网科学研究院有限责任公司 | 基于用户潜在需求的资源推荐方法及系统 |
CN103606097A (zh) * | 2013-11-21 | 2014-02-26 | 复旦大学 | 一种基于可信度评价的产品信息推荐方法及系统 |
CN103870447A (zh) * | 2014-03-11 | 2014-06-18 | 北京优捷信达信息科技有限公司 | 一种基于隐含狄利克雷模型的关键词抽取方法 |
CN103914445A (zh) * | 2014-03-05 | 2014-07-09 | 中国人民解放军装甲兵工程学院 | 数据语义处理方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1192547A4 (en) * | 1999-03-15 | 2003-07-23 | Powerquest Corp | MANIPULATION OF COMPUTER CONTENT VOLUME SEGMENTS |
US7246110B1 (en) * | 2000-05-25 | 2007-07-17 | Cnet Networks, Inc. | Product feature and relation comparison system |
US8051080B2 (en) * | 2008-04-16 | 2011-11-01 | Yahoo! Inc. | Contextual ranking of keywords using click data |
US9443245B2 (en) * | 2009-09-29 | 2016-09-13 | Microsoft Technology Licensing, Llc | Opinion search engine |
JP5280386B2 (ja) * | 2010-02-12 | 2013-09-04 | 庸一郎 伊藤 | 認証システム並びに認証情報登録および照会方法 |
US8825648B2 (en) * | 2010-04-15 | 2014-09-02 | Microsoft Corporation | Mining multilingual topics |
WO2012001232A2 (en) * | 2010-06-30 | 2012-01-05 | Nokia Corporation | Method and apparatus for in-application purchasing |
US8769037B2 (en) * | 2010-11-30 | 2014-07-01 | International Business Machines Corporation | Managing tag clouds |
CN103020851B (zh) | 2013-01-10 | 2015-10-14 | 山大地纬软件股份有限公司 | 一种支持商品评论数据多维分析的度量计算方法 |
-
2014
- 2014-12-19 US US14/576,433 patent/US9817904B2/en active Active
-
2015
- 2015-07-30 CN CN201510465911.6A patent/CN105139211B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120209751A1 (en) * | 2011-02-11 | 2012-08-16 | Fuji Xerox Co., Ltd. | Systems and methods of generating use-based product searching |
CN103365978A (zh) * | 2013-07-01 | 2013-10-23 | 浙江大学 | 基于lda主题模型的中医药数据挖掘方法 |
CN103399916A (zh) * | 2013-07-31 | 2013-11-20 | 清华大学 | 基于产品特征的互联网评论观点挖掘方法及系统 |
CN103577579A (zh) * | 2013-11-08 | 2014-02-12 | 南方电网科学研究院有限责任公司 | 基于用户潜在需求的资源推荐方法及系统 |
CN103606097A (zh) * | 2013-11-21 | 2014-02-26 | 复旦大学 | 一种基于可信度评价的产品信息推荐方法及系统 |
CN103914445A (zh) * | 2014-03-05 | 2014-07-09 | 中国人民解放军装甲兵工程学院 | 数据语义处理方法 |
CN103870447A (zh) * | 2014-03-11 | 2014-06-18 | 北京优捷信达信息科技有限公司 | 一种基于隐含狄利克雷模型的关键词抽取方法 |
Non-Patent Citations (1)
Title |
---|
《A 基于潜在狄利特雷分布模型的网络评论产品特征抽取方法》;马柏樟 等;《计算机集成制造系统》;20140115;第20卷(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
US9817904B2 (en) | 2017-11-14 |
US20160179966A1 (en) | 2016-06-23 |
CN105139211A (zh) | 2015-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105139211B (zh) | 产品简介生成方法及系统 | |
Kumar et al. | Sentiment analysis of multimodal twitter data | |
Mukhtar et al. | Urdu sentiment analysis using supervised machine learning approach | |
da Silva et al. | Using unsupervised information to improve semi-supervised tweet sentiment classification | |
Tan et al. | Interpreting the public sentiment variations on twitter | |
Caicedo et al. | Multimodal representation, indexing, automated annotation and retrieval of image collections via non-negative matrix factorization | |
CN112966091B (zh) | 一种融合实体信息与热度的知识图谱推荐系统 | |
FR3102276A1 (fr) | Procedes et systemes pour résumer des document multiples en utilisant une approche d’apprentissage automatique | |
US20170046601A1 (en) | Systems and methods for visual sentiment analysis | |
CN105069103B (zh) | App搜索引擎利用用户评论的方法及系统 | |
US20110191336A1 (en) | Contextual image search | |
CN107066589B (zh) | 一种基于综合知识的实体语义和词频的排序方法及装置 | |
Chang et al. | Integrating a semantic-based retrieval agent into case-based reasoning systems: A case study of an online bookstore | |
JP6769140B2 (ja) | 学習素材のセグメントのランク付け | |
Noel et al. | Applicability of Latent Dirichlet Allocation to multi-disk search | |
CN103020712A (zh) | 一种海量微博数据的分布式分类装置及方法 | |
Wadikar et al. | Book recommendation platform using deep learning | |
Bitto et al. | Sentiment analysis from Bangladeshi food delivery startup based on user reviews using machine learning and deep learning | |
Grivolla et al. | A hybrid recommender combining user, item and interaction data | |
US20160188595A1 (en) | Semantic Network Establishing System and Establishing Method Thereof | |
Kharrat et al. | Recommendation system based contextual analysis of Facebook comment | |
Zhu et al. | Multimodal sparse linear integration for content-based item recommendation | |
Ren et al. | Resource recommendation algorithm based on text semantics and sentiment analysis | |
Fosset et al. | Docent: A content-based recommendation system to discover contemporary art | |
Ribeiro et al. | UA. PT Bioinformatics at ImageCLEF 2019: Lifelog Moment Retrieval based on Image Annotation and Natural Language Processing. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 516006 TCL science and technology building, No. 17, Huifeng Third Road, Zhongkai high tech Zone, Huizhou City, Guangdong Province Applicant after: TCL Technology Group Co.,Ltd. Address before: 516006 23rd floor, TCL science and technology building, 17 Huifeng 3rd road, Zhongkai hi tech Development Zone, Huizhou City, Guangdong Province Applicant before: TCL RESEARCH AMERICA Inc. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |