CN105069103A

CN105069103A - App搜索引擎利用用户评论的方法及系统

Info

Publication number: CN105069103A
Application number: CN201510483749.0A
Authority: CN
Inventors: 朴旲焄; 刘梦雯; 郭立帆
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2015-05-07
Filing date: 2015-08-03
Publication date: 2015-11-18
Anticipated expiration: 2035-08-03
Also published as: US10437894B2; CN105069103B; US20160328403A1

Abstract

本发明公开一种APP搜索引擎利用用户评论的方法及系统。其包括步骤：接收来自用户的APP搜索查询；基于接收到的APP搜索查询确定多个相关APP；从APP数据库中提取与所述多个相关APP关联的APP说明和用户评论。所述方法还包括步骤：预处理提取出来的所述APP说明和用户评论以生成文本语料库；并基于所述生成的文本语料库为所述多个相关APP建立基于主题语言模型。进一步的，所述方法还包括步骤：利用所述基于主题语言模型排序所述相关APP；以及将APP的排序清单提供给用户。

Description

APP搜索引擎利用用户评论的方法及系统

技术领域

本发明涉及信息技术和用户界面的技术领域，尤其涉及一种APP搜索引擎利用用户评论的方法及系统。

背景技术

现今，手机应用APP已经成为现代人们生活不可或缺的一部分。目前，美国用户平均每天在手机设备上花费约3小时(177分钟)，这比平均花费在看电视上的时间(168分钟)还要多。根据2013年的分析显示，80％在手机设备上花费的时间都在APP上(比如游戏、新闻、提高效率、实用和社交网络APP)，而仅20％的时间花费在手机网页(Web)上。其中在2014年花费在手机网页上的时间与之前持平，但花费在手机APP的时间持续增加。随着用户花费大量时间在APP上，用户不断地下载新的手机APP到手机上。同时，随着手机应用商店(如苹果iTunes、谷歌应用商店(GooglePlay)、微软手机应用商店(WindowsPhoneStore)和黑莓应用世界(BlackBerryAppWorld))的手机APP数量爆发性增长，手机应用商店的搜索功能就变得尤为重要。

在2014年7月，谷歌应用商店和苹果应用商店分别有约130万和120万个应用APP。由于APP的数量非常庞大，在没有查询和推荐功能的情况下用户寻找APP就异极其困难。比如，谷歌应用商店并没有列出所有的APP清单，而是仅仅列出推荐或流行的用，因为从一个很长的清单中找到一个需要的APP并没有多少意义。此外，从APP开发者的角度来看，如果APP商店不去推荐，新的或不太流行的APP将几乎不可能被用户发现。因此，APP的搜索引擎对于用户和开发者来说都是必要的。

本发明中的专业术语“APP”或“应用”指的是“为特定的任务或用途而设计的计算机程序”。换句话来说，APP是通过让用户完成特定任务的功能来定义的。事实上，83％的APP搜索都是通过APP的功能来进行的，而剩下的17％的是通过APP名称来完成搜索的。因此，我们的目标就是要基于用户指定的功能来找到所需的APP。具体地，指定一个描述功能的用户查询，期望的查询结果可以以APP的排序清单显示，其中排名第一的APP最有可能就是具有所需查询的功能的APP。比如，对于“订一张飞机票”的功能进行查询，用户期望搜索的结果能包括如“ExpediaHotels&Flights”和“Orbitz-Flights,Hotels,Cars”之类在APP清单中排名前十的APP，因为这些APP能满足用户需求。推荐系统通过向用户提供信息在人们生活中扮演了重要角色，这能给人们日常生活带来极大的便利。推荐系统通常分类为两大主要系统：协同过滤系统(collaborativefilteringsystem)和基于内容推荐系(content-basedrecommendationsystem)。协同过滤系统推荐有类似喜好的其他用户过去偏好的项目，而基于内容推荐系统通常推荐与用户过去偏好项目类似的项目。这些推荐系统与检索系统都紧密相关，因为它们都可以排序对象以满足用户需求。

尽管如此，检索系统不同于推荐系统主要是因为用户在检索系统中可明确地表达他的需求，而推荐系统是基于用户的个人资料提出建议项目而并不询问用户的需求。推荐系统可能对于用户更为方便，因为用户并不需要输入自己的需求，但是推荐系统建议的项目可能比检索系统的准确度差，因为推荐系统几乎不知道用户现在的需求。此外，在用户并没有个人资料或推荐系统并没有足够的业务数据时，推荐系统会遇到冷启动(coldstart)问题，而检索系统并不需要这样的数据。

本发明公开的方法和系统可针对地解决上述一个或多个以及其他的技术问题。

发明内容

本发明的发明目的在于提供一种APP搜索引擎利用用户评论的方法及系统，以解决上述现有技术存在的技术问题。为此，本发明采用以下技术方案：

本发明的一方面公开了一种APP搜索引擎利用用户评论的方法，所述方法包括步骤：接收来自用户的APP搜索查询；基于接收到的APP搜索查询确定多个相关APP；从APP数据库中提取与所述多个相关APP关联的APP说明和用户评论。所述方法还包括步骤：预处理提取出来的所述APP说明和用户评论以生成文本语料库；并基于所述生成的文本语料库为所述多个相关APP建立基于主题语言模型。进一步的，所述方法还包括步骤：利用所述基于主题语言模型排序所述相关APP；以及将APP的排序清单提供给用户。

本发明的另一方面还提供一种APP搜索引擎利用用户评论的系统，所述系统包括：接收模块，用于接收来自用户的APP搜索查询；以及提取模块，用于基于接收到的APP搜索查询从APP数据库中提取与APP名称关联的APP说明和用户评论。所述系统还包括：预处理模块，用于初步处理提取出来的APP说明和用户评论以生成文本语料库；以及语言模型建立模块，用于基于形成的文本语料库为APP建立基于主题语言模型。此外，所述系统还包括结果排序模块，用于利用所述基于主题语言模型排序APP清单并将APP排序清单提供给用户。

本发明提供的APP搜索引擎利用用户评论的方法及系统可利用用户的评论去发现APP的重要特征，同时还可以为APP开发者和用户之间建立起词汇的桥梁。特别地，本发明提供的方法和系统可通过基于主题语言模型合并APP说明和用户评论以生成APP的表示，同时还能去除用户评论中的噪音。此外，这个基于主题语言模型是无监管的和通用的，这样就可以应用于其他实体相关的非结构性的文本和非结构性文本关联的领域。

对于本领域的技术人员而言，本发明公开的内容结合说明书、权利要求书和附图是可以理解的。

附图说明

图1为本发明特定实施例中典型环境的示意图；

图2为本发明公开实施例的计算系统的示意图；

图3为本发明公开实施例的APP检索系统的示意图；

图4为本发明公开实施例的APP检索系统的APP搜索方案的示意图；

图5为本发明公开实施例的APP检索的过程的流程图；

图6为本发明公开实施例的APP潜狄利克雷分配的示意图；和

图7为本发明公开实施例的APP检索的过程的流程图。

具体实施例

请参见附图和本发明的详细实施例，其中附图中相同的附图标记指代相同或相似的部件。

图1为本发明实施例中环境100的示意图。如图所示，环境100包括移动终端102、服务器106、用户108和网络110。

所述移动终端102(也成为移动终端设备)可以为任何具有适当计算能力的用户移动终端，比如手持计算设备(平板)、智能手机、移动电话和任何用户端的移动计算设备。所述移动终端102可在任何适当的移动计算平台上应用。用户108可将所述移动终端102连接到网络110，所述移动终端102可向所述服务器106发送请求。所述移动终端102可从任何适当的资源获得信息，比如从本地存储设备、服务提供商的有线或无线网络或因特网获取信息。所述移动终端102可根据不同的计算环境实现不同应用的功能。比如，所述移动终端102可设置为可执行其内部存储的APP。

此外，所述服务器106可以为一个或更多用于提供特定网络服务功能(如搜索服务)的服务器计算机。所述服务器106可包括一个或更多用于执行并行计算机程序的处理器。所述服务器106存储可通过移动终端和应用软件(如APP检索系统)进行访问的数据(如APP名称、APP说明和用户评论)。

所述移动终端102和服务器106可通过通讯网络110相互通讯，所述网络110可以为有线网络、手机网络和/或卫星网络等。虽然图1中只显示一个移动终端102和服务器106，但实际上任何数量的移动终端和/或服务器都是可以的。

所述移动终端102和/或服务器106可在任何适当的计算电路平台运行。图2为可运行所述移动终端102和/或服务器106的计算系统的示意框图。

如图2所示，所述计算系统200包括处理器202、存储介质204、显示器206、通讯模块208、数据库210和外围设备212。其中特定的设备可以被省略，当然其他的设备也可以包含进来。

所述处理器202可以是任何一个或多个合适的处理器。进一步的，所述处理器202还包括用于多线或并行处理的多个核(core)。所述存储介质204包括如ROM、RAM和闪存模块之类的内存模块，或如CD-ROM和硬盘之类的大规模存储器。所述存储模块204可存储可执行各种操作的计算机程序，当所述处理器202运行计算机程序时执行各种操作。

进一步的，所述外围设备212包括各种传感器和其他输入输出(I/O)设备，比如键盘和鼠标。所述通讯模块208包括通过通讯网络建立网络连接的特定网络接口设备。所述数据库210包括一个或更多的数据库，这些数据库用于存储特定的数据(比如APP说明和用户评论)以及实现对所述存储数据的特定操作，比如APP的搜索。

所述移动终端102基于至少一个来自用户108的用户查询向所述服务器106发出请求，所述服务器106对接收到的请求做出响应。APP检索系统通过概率主题模型(probabilistictopicmodel)对用户评论和非结构性的产品信息(产品说明)进行模型化(model)，以获取APP的表示(representation)。图3为本发明公开实施例的APP检索系统300的示意图。

如图3所示，所述检索系统300包括接收模块310、提取模块320、预处理模块330、语言模型建立模块340、APP计分器350和结果排序模块360。其中特定的组件可以被省略，当然其他的组件也可以补充进来。进一步的，所述APP检索系统300的输入就是用户的APP的搜索查询302，而所述APP检索系统300的输出就是APP排序清单380。APP数据库370用于存储APP名称、与每一个APP名称关联的APP说明3702和用户评论3704。每一个模块都可以通过一个或更多的计算机系统进行处理。

所述接收模块310用于接收来自用户的APP搜索查询302。这个APP搜索查询可以是一个或更多的描述用户感兴趣APP类型的关键词，或者是一个用户感兴趣的APP的标题或说明中的部分词语的关键字。比如，用户查找汽车相关的APP时输入关键字“汽车”，这个关键字通过用户的移动设备发送至所述APP检索系统300。再比如说，用户查找与吃东西相关的APP时输入短语“查找餐馆”，这个关键字通过用户的移动设备发送至所述APP检索系统300。

所述提取模块320用于基于所述接收到的APP搜索查询302确定多个相关的APP，并从APP数据库370中提取与多个相关APP名称关联的APP的说明3702和用户评论3704。所述提取模块320可识别确定的与APP搜索查询潜在相关的APP的初始设置。

所述预处理模块330用于初步处理提取的多个相关APP说明和用户评论以生成文本语料库(textcorpus)。所述文本语料库的内容标准化(normalize)到规范(canonical)形式，所述文本语料库是一个庞大的结构化的一组文本(setoftexts)。所述文本语料库用于处理统计分析、检查事件或者在特定语言范围内验证语言规则。

所述语言模型建立模块340用于基于已生成的文本语料库为每一个所述多个相关APP建立基于主题语言模型。也就是说，所述语言模型建立模块340可以为每一个APP建立用于共同地表示(representations)APP说明d和用户评价r的单位语言模型(unigramlanguagemodel)。所述基于主题模型从用户评论和说明中共同地捕获主题，这样主题可以同时体现评价(用户)和说明(开发者)的词汇。这个模型可以过滤掉用户评价中的噪音(noise)。此外，这个模型是无监管的和通用的，这样就可以应用于其他实体相关的非结构性的文本和非结构性文本关联的领域。

所述APP计分器350用于给APP关联的主题指定的查询词打分，并从查询词的分数计算APP对于指定查询的分数。

所述结果排序模块360用于对相关APP清单进行排序并将APP的排序清单提供给用户，所述相关APP利用所述基于主题语言模型对所述接收到的APP搜索查询的相关度(如每个APP的计分对应于指定的查询)进行计分。基于APP的分数，所述结果排序模块360从APP初始设置中选择APP工作子集(workingsubset)。例如，所述结果排序模块360可以丢弃或移除不能达到分数阈值的APP。用户可以设置最终输出APP排序清单的APP的数量。比如，用户可以设置APP排序清单输出50个APP。这个排序清单可以格式化为可通过用户使用的手机设备进行查看的格式。

相比于其他的数据信息，所述APP数据库370存储的数据可更直接体现APP的功能或特征。比如，一组APP数据库包括APP的身份识别号码(ID)、APP名称、APP开发者、APP价格、来自一个或更多APP商店(如苹果iTunes、谷歌应用商店(GooglePlay)、微软手机应用商店(WindowsPhoneStore)和黑莓应用世界(BlackBerryAppWorld)的一个或更多的APP说明以及一个或更多从APP评论网站抓取的用户评论。

在实际操作中，所述APP检索系统300通过特定流程来确定程序或APP的清单。程序清单会通过网络以APP排序清单的形式提供给用户。本发明公开的APP检索系统可不考虑用户评论的数量而灵活地适应不同的方案。图4为本发明公开实施例的APP检索系统的APP检索方案的示意图。

如图4所示，开始，用户u使用移动设备输入APP搜索查询q并传送至APP检索系统300(步骤410)。用户u构思表示用户u检索内容的APP搜索查询q。基于从用户端接收到的APP搜索查询q，所述APP检索系统300从APP数据库中提取与相关APP关联的APP说明和用户评论(步骤420)。提取出来的APP说明和用户评论与所述APP的搜索查询q是关联的。APP搜索查询可以是用户感兴趣的用来描述APP类型的一个或更多的关键字，或者是用户感兴趣的APP标题或说明的部分的关键字。比如，用户要查找汽车相关的APP时输入关键字“汽车”，“汽车”就通过用户的移动设备发送至所述APP检索系统300。

所述APP检索系统300根据接收到的APP搜索查询q的相关度的APP的排序来确定APP的排序清单(步骤430)。所述APP检索系统300通过分析提取出来的APP说明和用户评论来搜索满足用户需求的相关APP。所述APP检索系统300根据所述APP搜索查询q的相关度的APP的排序建立一个相关APP清单，这个相关APP清单符合基于主题语言模型的概率排序规则(probabilityrankingprinciple)。具体地，用户指定M个APPA＝{a₁,...,a_M}。对于每一个APPa_i而言，都有一个非结构性的APP说明d_i和连接单个用户评论文件的用户评论r_i。每一个APP搜索查询q的APP清单都是基于APP说明和/或用户评论进行检索和输出，并按照相关度的概率进行APP排序。

用户接收所述APP检索系统300输出的APP排序清单(步骤440)。所述APP排序清单可格式化为通过用户移动设备可直接查看的格式。也就是说，这个APP排序清单被格式化并提供给用户设备，这样用户可以查看和浏览APP排序清单。当用户选择所述APP排序清单中的任何一个APP时，用户将会被带到这个APP关联的APP发布页面。

图5为本发明公开实施例的APP检索过程500的流程示意图。如图所示，在开始，基于接收到的来自用户的APP检索查询q，从APP数据库中提取与所述多个相关APP关联的APP说明和用户评论(步骤510)。确定与接收到的APP搜索查询潜在相关的APP的初始设置是可以被基于接收到的APP搜索查询识别的。所述APP数据库存储APP说明和用户评论。例如，一组APP数据库包括APP的ID、APP名称、APP开发者、APP价格、来自一个或更多APP商店(如苹果iTunes、谷歌应用商店(GooglePlay)、微软手机应用商店(WindowsPhoneStore)和黑莓应用商店(BlackBerryAppWorld))的一个或更多的APP说明以及一个或更多的用户评论。APP搜索查询q可以是用户感兴趣的用来描述APP类型的一个或更多的关键字，或者是用户感兴趣的APP标题或说明的部分的关键字。

预处理提取出来的所述APP说明和用户评论以生成文本语料库(步骤520)。所述文本语料库是一个庞大的和非结构性的一组文本，其包括说明d和合并的评论r。所述文本语料库用于处理统计分析、检查事件或者在特定语言范围内验证语言规则。所述文本语料库的内容标准化成规范的形式，词语被归类或映射(map)在一起。在本发明的一些实施例中，词语被归类在一起，比如单词“walk”、“walking”、“walked”和“walks”都可映射在一起因为它们都可以还原为一般形式(或词源/字根)单词“walk”。基于接收到的APP搜索查询，确定多个相关APP。

在查找与所述搜索查询q相关的APP时，用户评论就是非常有用的补充信息，特别是当APP说明太短或包含太多无用信息时。在查找APP时如果APP说明并没有包含足够线索，那么用户评论的文本就可以作为线索。

APP的说明和评论里的主题都被强调且使用了不同的词汇，这使得这两类数据很难合并。此外，用户评论经常包括不能强调实体特征的内容，比如用户评论中很大一部分是关于安装问题或关于所有APP的一般意见。任何不能强调实体特征的内容将被去除掉，因此这两类的数据需要统一在一起。

由于APP的特性，APP说明通常都写的是APP的特征，而APP开发者并不能很精确地知道用户会使用什么术语去描述这些特征。比如，APP说明可能包含短语“查找附近的餐馆”用来说明它的特征。如果用户需要进行特征搜索“我附近的食物”这个并没有包含任何APP说明里的通用术语时，这个APP将不会通过简单地关键字匹配方式被检索到。用户评论在这里作为APP开发者和用户之间的词汇桥梁而扮演重要角色，因为用户评论是用户来写的。如果这里有一个用户评论包括短语比如“我附近的食物”且其被检索系统索引到，这个APP将被检索到，尽管查询和说明之间并没有相同的通用术语。

要利用用户评论和APP说明，APP说明d和合并的用户评论r的表示(representations)就需要合并在一起。而基于主题语言模型就是为合并APP说明d和合并的用户评论r的表示而建立的(步骤530)。

通过线性插入APP说明的单位语言模型p(w|d)和用户评论的单位语言模型p(w|r)而建立的APP语言模型p(w|a)，其定义如下：

p(w|a)＝(1-μ)p(w|d)+μp(w|r)(1)

其中μ为p(w|a)内确定评论语言模型的比例的参数。

APP计分可采用查询喜好(QL，QueryLikelihood)计分函数，查询喜好通过文件说明d和查询q按如下方式计分：

\begin{matrix} s c o r e (q, d) = \underset{w &Element; q}{Π} p (w | d) \\ = \underset{w &Element; q}{Π} (1 - κ) p_{m l} (w | d) + κp (w | D) \end{matrix} - - - (2)

其中，D为一个文件语料库，pml(w|d)和p(w|D)都是通过最大喜好预测(MaximumLikelihoodEstimator,MLE)进行预测，其分别为和

p (w | D) = \frac{c (w, D)}{Σ_{w^{'}} c (w^{'}, D)} .

在公式(2)中，采用带有平滑参数κ的杰利内克-默瑟平滑技术(JelinekMercersmoothing)。p(w|d)和p(w|r)通过最大喜好预测MLE进行预测，并通过查询喜好QL进行平滑，而对于查询q和APPa的结果计分函数定义如下：

\begin{matrix} s c o r e (q, a) = \underset{w &Element; q}{Π} p (w | a) \\ = \underset{w &Element; q}{Π} [(1 - μ) p (w | d) + μ p (w | r)] \\ = \underset{w &Element; q}{Π} [(1 - μ) ((1 - κ_{d}) p_{m l} (w | d) + κ_{d} p (w | D)) \\ + μ ((1 - κ_{r}) p_{m l} (w | r) + κ_{r} p (w | R))] \end{matrix} - - - (3)

其中，p(w|R)为在任何用户评论R中的背景语音模型，κ_d和κ_r分别为APP说明和用户评论的平滑参数。

不同于APP说明，用户评论经常包含APP不相关的特征。许多用户在评论里留下如“好APP！”或“工作完美”之类并没有提供重要内容的短句。因此，为了去除所述用户评论中的噪音，需要为APP建立一个评论语言模型p(w|r)。为了去除用户评论中无用的词语，可建立作为APP开发者和用户之间词汇桥梁的主题模型，主题模型可以从文本语料库中训练得到。

所述主题模型是一种能从文本集合(textcollection)的文件中查找到潜在主题和其分布的概率模型，其中所述主题为在文件中频繁重叠出现的单词串(cluster)，也就是说，主题模型是频繁在文件中一起重叠出现的单词组。主题清单生成后，每一主题的概率就确立好了。主题或单词组合能由通用或更特定的单词组成。比如，主题“计算机编程”可包括单词“代码”、“测试”、“调试”和“汇编”。主题清单(或其他结构)生成后，主题的概率就确立好了。一般来说，APP说明和用户评论都由几个主题组成。比如，“旅行”APP(如Expedia、Tripadvisor和Travelocity等APP)可包括“汽车”、“航班”和“酒店”的主题。

在所述主题模型中，主题代表了相互联系的单词。因此，即使文件d没有包括一个特定单词w，如果文件d在包含足够多与单词w相同主题的单词，对于p(w|d)来说就足够了。比如，即使查找饭店的APP的说明里没有包括单词“餐馆”，但如果APP说明或用户评论里包含一个单词“饭店”，则这个APP依然可以被检索出来，因为这两个单词很可能具有同一个主题。

这两个主题模型也就是概率潜在语义分析模型(PLSA,ProbabilisticLatentSemanticAnalysis)和潜狄利克雷分配模型(LDA,LatentDirichletAllocation)。概率潜在语义分析模型PLSA是基于源自潜在类别模型(latentclassmodel)的混合分解(mixturedecomposition)。而潜狄利克雷分配模型LDA是一种发现潜在主题的主题生成模型。

下面以潜狄利克雷分配模型LDA为例详细说明。主题z由单词分布φ_z和文件d中的单词分布θ_d来代表。假设有K个主题以及M个文件，其中文件d包括N_d个单词，整个文件集合形成一个单词词典V。潜狄利克雷分配模型LDA通过从狄利克雷分布(Dirichletdistribution)得到单词分布θ_d＝{p(z|d)}_z _∈[1,K]和φ_z＝{p(w|z)}_w∈V以生成文件d。也就是说，当潜狄利克雷分配模型LDA生成文件d中的单词时，首先根据狄利克雷分布Dir(α)从文件d中获取主题混合θ_d，其中α是一个对称现有矢量(symmetricpriorvector)。然后，通过多项式分布(multinomialdistribution)θ_d选择一个主题z。接着，从多项式分布φ_z中选择一个单词w，所述单词w是根据狄利克雷分布Dir(β)获取的，其中β是一个对称现有矢量。

通过估算法对变量θ_d和φ_z进行预测以尽可能适配数据，因为准确预测所有可能的主题结构是不可行的。在估算算法中，文件充当线索在可能的主题结构中进行搜索，可以采用两种算法：变分法(variationalmethod)和减弱的吉布斯抽样法(collapsedGibbssampling)。这里选取减弱的吉布斯抽样法，因为其相比变分法更为简单和有更好的性能。

这里主题模型的作用和用户评论类似，因为两者都可提供词汇扩充。除了可以建立词汇的桥梁外，主题模型还可以去除用户评论中的噪音。其核心思路是通过分享两种不同类型的文本以及丢弃部分没有与APP说明共享主题的用户评论，同时模型化(model)APP说明和用户评论。比如，当用户写评论时，他会决定是写关于APP说明里的主题或者其他如安装问题的主题，而APP说明里的主题可预料到的是关于APP特征的。为了去除那些与APP特征不相关的主题，可建立两个不同的主题串(cluster)，即包括共享的主题和仅评论(review-only)主题，其细节说明请参见下述代码。

算法1：潜狄利克雷分配模型的生成过程代码

图6为本发明公开实施例的APP潜狄利克雷分配模型的示意图，上述算法1描述了其生成过程。图6和算法1为APP开发者通过规则的潜狄利克雷分配模型生成APP说明的典型流程。在APP的说明书写完成后，用户就完成了N_r长度APP的评论r的单词w_r,i。用户首先根据伯努利分布(Bernoullidistribution)ψ_a使用控制命令(Switch)x_r,i来选择是否要书写相关与说明共享的主题或其他偏离说明主题的主题，所述主题可通过对称元祖(symmetrictuple)δ从贝塔分布(Betadistribution)中获取。如果选择共享的主题(x_r,i＝0)，用户从评论r和θ_r的主题分布中指定一个主题z_r,I，所述主题分布是通过非对称矢量K·α^r·prior(α^d,z_d)从狄利克雷分布中获得的，其中K为全部主题的数量，α^r为对称矢量。prior(α^d,z_d)为说明d的主题已知生成的分布，其通过来预测，其中带有订阅和/或题名的N为满足订阅和/或题名(superscription)条件的单词的数量。例如，N_z,d为说明d中主题z分配的单词的数量，而N_d为说明d中单词的数量。然后，用户写出一个根据多项式单词分布φ_z选取的主题相关的单词w_r,i，所述单词w_r,i通过对称矢量β从狄利克雷分布中获取。另外，如果用户选择写出偏离说明主题(x_r,i＝1)相关的主题，用户根据多项式主题分布π_r来选择一个评论主题y_r,i，所述评论主题y_r,i从对称矢量τ中获取。然后，根据单词分布ω_y从对称矢量γ中获取选择的单词w_r,i。对APP说明和用户评论中所有的单词都重复进行上面的流程。需要说明的是，所有对称矢量的数值都是相同的(比如α＝{α,...,α})。

为了引导模型去学习用户评论中的主题，可能会用到APP说明的主题分配的已知的知识prior(α^d,z_d)。如果作者写了一个有关APP特征的评论，用户评论中的共享主题很可能与APP说明中的主题类似。例如，假如有一个关于查找附近餐馆的APP，用户评论很可能包括餐馆有关的主题而不是其他如财务或天气的主题。APP评论中的已知的知识以非对称已知分布(asymmetricpriordistribution)的形式传递给用户，这种分布用来抽样用户评论中的共享主题。也就是说，利用APP说明中的已知的知识，可当作是用户说明中的主题的概要，而作者就是根据概要来写用户评论的。

如下所示，请参见用于学习APPa的潜在变量z_d、z_r、x和y的减弱的吉布斯抽样公式。学习APP说明d中的第i个单词的主题z_d,i通过以下进行定义：

其中，W^d为所有APP说明中所有的单词，Z^d为所有说明中单词的所有的共享主题的分配，V为词汇的规模，K为所有共享主题的数量，带有订阅和/或题名的N为满足订阅和/或题名条件的单词的数量，“\d,i”为排除说明d中第i个数据。为了学习用户评论r中的第i个单词的共享主题z_r,i(x_r,i＝0)，吉布斯抽样公式可定义为：

其中，W^r为所有APP评论中的所有单词，Z^r为所有评论的所有共享主题的分配。

另外，为了学习用户评论r中第i个单词的仅评论的主题y_r,i(x_r,i＝1)，吉布斯抽样公式可定义为：

其中，Y^r为所有评论的单词的所有评论主题分配，T为所有仅评论主题的数量。

抽样过程为APP说明和评论的所有单词经过I次的重复循环。

为了检索APP搜索询问q相关的APP，可用到表示APP的文件。因此，每个APPa的单位语言模型p_lda(w|a)通过以下定义：

\begin{matrix} p_{l d a} (w | a) = Σ_{z = 1}^{K} p (w | z, W^{d}, {\hat{Z}}^{d}, β) p (z | a, {\hat{Z}}^{d}, {\hat{Z}}^{r}, α^{d}, α^{r}) \\ &Proportional; Σ_{z = 1}^{K} \frac{{\hat{N}}_{w | z} + β}{{\hat{N}}_{z} + V β} \frac{{\hat{N}}_{z | d} + {Kα}^{d} + {\hat{N}}_{z | r} + {Kα}^{r} \frac{{\hat{N}}_{z | d} + α^{d}}{N_{d} + {Kα}^{d}}}{N_{d} + {Kα}^{d} + Σ_{z} {\hat{N}}_{z | r} + {Kα}^{r}} \end{matrix} - - - (7)

其中，α和β为对称已知矢量，w为APP搜索查询中的特定单词，W^d为所有APP说明中所有单词，K为所有共享主题的总数量，带有订阅的为满足订阅条件的单词的预测数量，和分别为从APP潜狄利克雷分配(LDA)中预测的APP说明和用户评论的主题。

所述公式可以解释为潜狄利克雷分配的预测语言模型对APP说明和用户评论的统一化，其中没有分配到共享主题的单词都被去除掉。APP说明和清理后的用户评论为每一个APP形成一个单独统一的文件，同时统一的语言模型用于检索。

回到图5，在进行步骤530后，基于表示，在APP关联的主题中对指定的查询单词进行计分，然后通过查询单词的分数计算出指定查询的APP分数(步骤540)。所述APP分数表明了查询单词和APP之间的关联程度。例如，假如一个文件很可能包括一个主题(如Expedia应用的APP说明中的很多单词都是从“旅行”的主题中获取的)，这个主题有一个单词频繁出现(如“酒店”)，这样这个APP就强烈地与这个单词关联(比如，Expedia应用的“酒店”的关联分数就很大)。

将APP潜狄利克雷分配预测语言模型与ML预测语言模型进行线性插入，用于按照如下公式为搜索查询q和APPa定义计分函数：

\begin{matrix} s c o r e (q, a) = \underset{w &Element; q}{Π} p (w | a) \\ = \underset{w &Element; q}{Π} (1 - λ) p_{l d a} (w | a) + λ [(1 - k) p_{m l} (w | a) + k p (w | A)] \end{matrix} - - - (8)

其中，pml(w|a)是APPa的说明和清理后的用户评论的ML预测语言模型，其定义为：

\begin{matrix} p_{m l} (w | a) = p (w | a, W^{d}, W^{r}, \hat{X}) \\ &Proportional; \frac{N_{w | d} + N_{x = 0, w | r}}{N_{d} + N_{x = 0 | r}} \end{matrix} - - - (9)

p(w|A)通过所有APPA的说明和清理后的用户评论的ML预测(MLE)进行预测，其定义为：

\begin{matrix} p (w | A) = p (w | A, W^{d}, W^{r}, \hat{X}) \\ &Proportional; \frac{N_{w | D} + N_{x = 0, w | R}}{N_{D} + N_{x = 0 | R}} \end{matrix} - - - (10)

κ为ML预测语言模型之间的平滑参数，λ为潜狄利克雷分配预测语言模型和ML预测语言模块之间的平滑参数。

可使用多个马尔可夫链(Markovchain)，通过潜狄利克雷分配预测语言模型预测稳定的数值。可选地，在潜狄利克雷分配预测语言模型中采用三个马尔可夫链，因为每个三个马尔可夫链的100次吉布斯抽样都能显示稳定的性能。

进一步地，根据接收到的APP搜索查询的相关度对计分的APP清单进行排序(步骤550)。APP的分数可表明每个APP应用与APP搜索查询的预定内容之间的亲密程度。基于APP的分数，APP的工作设置可从APP的初始设置中选取。例如，那些没有达到阈值分数的APP可丢弃或移除。

对于相同指定的查询，具有最大查询APP分数的APP与接收的APP搜索查询之间有最强的相关度。因此，有最大查询APP分数的APP会在APP排序清单中排在第一位。具有最小查询APP分数的APP与接收的APP搜索查询之间有最弱的相关度。因此，有最小查询APP分数的APP会在APP排序清单中排在最末位。

最后，给用户提供排序的APP清单(步骤560)。用户可设置APP排序清单输出APP的数量，例如用户可在APP排序清单中设置50个APP。APP排序清单可格式化成可通过用户移动设备查看的格式。特别地，APP排序清单可格式化并提供给用户设备，这样用户可以查看和浏览APP排序清单。当用户选择所述APP排序清单中的任何一个APP时，用户将会被带到这个APP关联的APP发布页面。

本发明提供了一种将表示APP说明和用户评论的文件进行统一化的方法，以利用用户评论进行APP搜索。基于主题的模型可在APP说明和用户评论中找到共享的主题，以及在用户评论中找到仅评论主题。在将用户评论中去除仅评论主题后，将APP说明和清理后的用户评论的单位语言模型进行统一化，以生成所需的APP说明。进一步地，上述建议的主题模型可应用于任何带有噪音文本数据的实体相关的文本数据。

本发明公开的系统和方法还可以应用于其他具有显示装置的设备，如智能手机、平板、智能手表等。即，本发明公开的方法不仅可以应用于APP检索系统，还可以应用于其他系统的核心功能，如社交媒体系统、其他内容推荐系统、信息检索系统以及任何用户交互系统等。

图7为本发明实施例的APP检索过程的流程示意图。如图7所示，用户需要租一个公寓。开始，用户在自己智能手机安装浏览的APP搜索条内输入搜索查询“一个卧室出租”，在APP检索系统接收到这个用户输入的APP搜索查询(如“一个卧室出租”)后，基于接收到的APP搜索查询，APP检索系统从APP数据库中提取相关APP的APP说明和用户评论。APP检索系统预处理提取出来的APP说明和用户评论以生成文本语料库。

为结合APP的说明和合并的用户评论的表示以生成新的文本表示，APP检索系统建立了基于主题语言模型(潜狄利克雷分配模型)。即，为了检索用户查找的需求，APP的说明和合并的用户评论可应用于训练所述基于主题语言模型。进一步地，APP检索系统可以给APP关联的主题对于指定查询单词进行计分。假如有一个很有可能包括一个主题(如“Trulia”APP的说明里的许多单词都是从主题“房屋出租”中获取的)的文件，主题“房屋出租”中有一个单词“卧室”频繁出现，这样这个APP“Trulia”就强烈地与那个单词关联(如，对于APP“Trulia”单词“卧室”的关联分数就非常大)。类似地，主题“房屋出租”中单词“出租”频繁出现，这样APP的计分器可从查询单词(“卧室”和“出租”)的分数中计算指定的查询的APP的分数。

根据接收到的APP搜索查询与APP的相关度分数排序APP清单(如“Trulia”、“Zillow”、“Hotpads”和“Craigslist”APP)。最终，将通过执行上述模型得到的用户最可能感兴趣的APP排序清单提供给用户。当用户在APP排序清单中的选择“Trulia”APP时，用户将会被带到与“Trulia”APP关联的APP发布页面。或者，用户还要在APP检索系统中输入另一个搜素查询以开始另一个APP搜索操作。

本发明提供的方法和系统可利用用户的评论去发现APP的重要特征，同时还可以为APP开发者和用户之间建立起词汇的桥梁。特别地，本发明提供的方法和系统可通过基于主题语言模型合并APP说明和用户评论以生成APP的表示，同时还能去除用户评论中的噪音。此外，这个基于主题语言模型是无监管的和通用的，这样就可以应用于其他实体相关的非结构性的文本和非结构性文本关联的领域。例如，APP检索系统可以集成在智能手机中，这样有助于组织和分享关于如预订航班、预订餐馆、预约医生、选择电影、选择服务和商店、出租DVD和买书等的有价值的信息。

需要说明的是，本APP检索系统可包括上述说明相关的其他相关步骤。另外，对于本发明领域的技术人员而言，任何对于本发明实施例作出的其他应用、优化、变型、修改或等同变换相对于本发明所要的保护范围而言都是显而易见的。

Claims

1.一种APP搜索引擎利用用户评论的方法，其包括步骤：

接收来自用户的APP搜索查询；

基于接收到的APP搜索查询确定多个相关APP；

从APP数据库中提取与所述多个相关APP关联的APP说明和用户评论；

预处理提取出来的所述APP说明和用户评论以生成文本语料库；

基于所述生成的文本语料库为所述多个相关APP建立基于主题语言模型；

利用所述基于主题语言模型排序所述相关APP；以及

将APP的排序清单提供给用户。

2.如权利要求1所述的APP搜索引擎利用用户评论的方法，其中步骤将APP的排序清单提供给用户进一步包括步骤：将APP排序清单格式化为可通过用户使用的移动设备进行查看的格式。

3.如权利要求1所述的APP搜索引擎利用用户评论的方法，其中步骤预处理提取出来的所述APP说明和用户评论以生成文本语料库进一步包括步骤：将所述文本语料库的内容标准化到规范形式。

4.如权利要求1所述的APP搜索引擎利用用户评论的方法，其中步骤利用所述基于主题语言模型排序所述相关APP进一步包括步骤：

去除所述用户评论中的噪音；

在所述多个相关APP关联的主题中对指定的查询单词进行计分；

通过查询单词的分数计算出指定查询的APP分数；以及

根据接收到的APP搜索查询的相关度对计分的APP清单进行排序。

5.如权利要求4所述的APP搜索引擎利用用户评论的方法，其中所述APP分数用于表明查询单词和APP之间的关联程度。

6.如权利要求4所述的APP搜索引擎利用用户评论的方法，其中通过线性插入APP说明d和用户评论r的单位语言模型而建立的针对APPa的APP语言模型，其定义如下：

p(w|a)＝(1-μ)p(w|d)+μp(w|r)

其中，w为APP搜索查询中的特定单词，μ为p(w|a)内确定评论语言模型比例的参数。

7.如权利要求6所述的APP搜索引擎利用用户评论的方法，其中：假设文件d包括N_d个单词，整个文件集合组成单词词汇V，针对主题z的APPa的基于主题语言模型定义为：

\begin{matrix} p_{l d a} (w | a) = Σ_{z = 1}^{K} p (w | z, W^{d}, {\hat{Z}}^{d}, β) p (z | a, {\hat{Z}}^{d}, {\hat{Z}}^{r}, α^{d}, α^{r}) \\ &Proportional; Σ_{z = 1}^{K} \frac{{\hat{N}}_{w | z} + β}{{\hat{N}}_{z} + V β} \frac{{\hat{N}}_{z | d} + {Kα}^{d} + {\hat{N}}_{z | r} + {Kα}^{r} \frac{{\hat{N}}_{z | d} + α^{d}}{N_{d} + {Kα}^{d}}}{N_{d} + {Kα}^{d} + Σ_{z} {\hat{N}}_{z | r} + {Kα}^{r}} \end{matrix}

其中，α和β为对称已知矢量，w为APP搜索查询中的特定单词，W^d为所有APP说明中所有单词，K为所有共享主题的总数量，带有订阅的为满足订阅条件的单词的预测数量，和分别为从APP潜狄利克雷分配中预测的APP说明和用户评论的主题。

8.一种APP搜索引擎利用用户评论的系统，其包括：

接收模块，用于接收来自用户的APP搜索查询；

提取模块，用于基于接收到的APP搜索查询确定多个相关的APP，并从APP数据库中提取与所述多个相关APP关联的APP说明和用户评论；

预处理模块，用于初步处理提取出来的所述APP的APP说明和用户评论以生成文本语料库；

语言模型建立模块，用于基于形成的文本语料库为所述多个相关APP建立基于主题语言模型；以及

结果排序模块，用于利用所述基于主题语言模型排序相关APP清单并将APP排序清单提供给用户。

9.如权利要求8所述的APP搜索引擎利用用户评论的系统，其中APP排序清单格式化为可通过用户使用的移动设备进行查看的格式。

10.如权利要求8所述的APP搜索引擎利用用户评论的系统，其中所述预处理模块进一步地可将所述文本语料库的内容标准化到规范形式。

11.如权利要求8所述的APP搜索引擎利用用户评论的系统，还包括：APP计分器，用于在APP关联的主题中对指定的查询单词进行计分，并通过查询单词的分数计算出指定查询的APP分数。

12.如权利要求11所述的APP搜索引擎利用用户评论的系统，其中所述APP分数用于表明查询单词和APP之间的关联程度。

13.如权利要求11所述的APP搜索引擎利用用户评论的系统，其中通过线性插入APP说明d和用户评论r的单位语言模型而建立的APP语言模型，其定义如下：

p(w|a)＝(1-μ)p(w|d)+μp(w|r)

14.如权利要求13所述的APP搜索引擎利用用户评论的系统，其中：假设文件d包括N_d个单词，整个文件集合组成单词词汇V，主题z的APPa的基于主题语言模型定义为：

\begin{matrix} p_{l d a} (w | a) = Σ_{z = 1}^{K} p (w | z, W^{d}, {\hat{Z}}^{d}, β) p (z | a, {\hat{Z}}^{d}, {\hat{Z}}^{r}, α^{d}, α^{r}) \\ &Proportional; Σ_{z = 1}^{K} \frac{{\hat{N}}_{w | z} + β}{{\hat{N}}_{z} + V β} \frac{{\hat{N}}_{z | d} + {Kα}^{d} + {\hat{N}}_{z | r} + {Kα}^{r} \frac{{\hat{N}}_{z | d} + α^{d}}{N_{d} + {Kα}^{d}}}{N_{d} + {Kα}^{d} + Σ_{z} {\hat{N}}_{z | r} + {Kα}^{r}} \end{matrix}