CN107169821A - 大数据查询推荐方法及其系统 - Google Patents
大数据查询推荐方法及其系统 Download PDFInfo
- Publication number
- CN107169821A CN107169821A CN201710303512.9A CN201710303512A CN107169821A CN 107169821 A CN107169821 A CN 107169821A CN 201710303512 A CN201710303512 A CN 201710303512A CN 107169821 A CN107169821 A CN 107169821A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msubsup
- msup
- user
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种大数据查询推荐方法及其系统。其中,所述方法包括:通过用户查询请求的历史记录,构建用户查询反馈操作模型;输出与用户查询反馈操作对应的集合,所述集合的元素为权重最高的前K个主题词集合;根据所述主题词集合的权重,计算查询请求的主题词集合之间相似性的标准差;对所述历史记录中的用户查询请求的标准差进行聚类,形成若干个查询概念;获取用户查询请求并确定与所述用户查询请求匹配的所述查询概念;将匹配的查询概念的聚类中心以及与聚类中心距离最小的前K个查询推荐给用户。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种大数据查询推荐方法及其系统。
背景技术
大数据的分析和处理已经成为企业重要的IT能力。因为大数据的体量大、速度快、种类多,具有大量异构非结构化数据,使得大数据分析处理后的利用也存在巨大的困难。
传统数据分析的结果,可以很方便地通过查询这一服务得到利用,而在大数据的场景下,简单的查询目的会带来大量无关的结果,导致用户无法通过查询得到想要的结果。
造成上述大数据查询困难的主要原因在于用户很难精确的描述自己的查询目的,对于查询目的的限定或者陈述过于宽松,导致无法过滤出有效的查询结果。由于查询结果宽泛,导致用户在查询操作后依然要处理大量无关信息。因此,为了降低这些处理操作,和电子商务领域的平台商品推荐机制一样,在大数据的用户查询过程中,也可以使用推荐的方式,帮助用户快速筛选出有效的查询得到想要的结果。
常规的推荐系统,比如电子商务领域的商品推荐系统,会基于产品的内容或特性进行匹配和推荐。但由于大数据查询本身难以描述不具备实物商品的特性。因此,查询操作之间无进行商品匹配那样的对比。
虽然一些搜索引擎使用的查询推荐过程通常和时下流行的主题进行匹配,但大部分企业系统无法达到搜索引擎系统的运算能力,也无法得到除企业自身专注领域之外的数据,从而无法对流行主题进行提取。
企业的数据查询系统自身维护着大量查询日志(即查询的历史记录),用户在提交查询请求后,日志会记录对结果进行的反馈操作如点击、修改关键字等,如查询结果符合用户预期,则用户会采纳相应的资料。
相关的研究中,有的对比用户反馈操作正负性,但正负反馈的界定难以明确,且有些方法要配合相应的硬件设备,难以应用,也有的参照搜索引擎的做法,推测用户兴趣点,但搜索引擎的这一做法仅仅改善了用户对其界面的偏好和使用体验,并没有实现大数据查询过程中的有效推荐。
因此,现有技术还有待发展。
发明内容
鉴于上述现有技术的不足之处,本发明的目的在于提供大数据查询推荐方法及其系统,旨在解决现有技术中大数据查询过程中,推荐效果不佳的问题。
为了达到上述目的,本发明采取了以下技术方案:
一种大数据查询推荐方法,其中,所述方法包括:
通过用户查询请求的历史记录,构建用户查询反馈操作模型;
输出与用户查询反馈操作对应的集合,所述集合的元素为权重最高的前K 个主题词集合;
根据所述主题词集合的权重,计算查询请求的主题词集合之间相似性的标准差;
对所述历史记录中的用户查询请求的标准差进行聚类,形成若干个查询概念;
获取用户查询请求并确定与所述用户查询请求匹配的所述查询概念;
将匹配的查询概念的聚类中心以及与聚类中心距离最小的前K个查询推荐给用户。
所述的方法,其中,所述构建用户查询反馈操作模型,具体包括:
将用户查询反馈操作划分为若干个队列;
将一个队列中每次查询反馈操作相关的资料集组合为主题词集合;
计算主题词集合中的主题词在一个队列中对应的全部资料集中的权重;
输出与所述队列对应的集合及其权重。
所述的方法,其中,所述计算主题词集合中的主题词在一个队列中对应的全部资料集中的权重,具体包括:
基于词频统计,通过如下算式计算所述权重:
其中,为所述权重,为对应资料集的主题词的权重,为Qi所有子集构成的集合,Qi={f1,f2,...,fj,…}为一个队列,其中,fi为用户i 的第j次反馈操作。
所述的方法,其中,所述根据所述主题词集合的权重,计算查询请求的主题词集合之间相似性的标准差,具体包括:
通过计算主题词之间的相似性,获得两次查询请求对应的主题词集合之间相似性的标准差;
用所述标准差表示两次查询请求的相似性。
所述的方法,其中,所述计算主题词之间的相似性,具体包括:
通过如下算式计算所述主题词集合之间的相似性:
其中,和分别为第一和第二主题词集合,和分别为属于第一主题词集合的主题词和属于第二主题词集合的主题词的权重。
一种大数据查询推荐系统,其中,所述系统包括:
模型构建模块,用于通过用户查询请求的历史记录,构建用户查询反馈操作模型;以及输出与用户查询反馈操作对应的集合,所述集合的元素为权重最高的前K个主题词集合;
吻合度计算模块,用于根据所述主题词集合的权重,计算查询请求的主题词集合之间相似性的标准差;
匹配模块,用于对所述历史记录中的用户查询请求的标准差进行聚类,形成若干个查询概念;获取用户查询请求并确定与所述用户查询请求匹配的所述查询概念;将匹配的查询概念的聚类中心以及与聚类中心距离最小的前K个查询推荐给用户。
所述的系统,其中,所述模型构建模块具体用于:将用户查询反馈操作划分为若干个队列;将一个队列中每次查询反馈操作相关的资料集组合为主题词集合;计算主题词集合中的主题词在一个队列中对应的全部资料集中的权重;输出与所述队列对应的集合及其权重。
所述的系统,其中,所述模型构建模块具体用于:基于词频统计,通过如下算式计算所述权重:
其中,为所述权重,为对应资料集的主题词的权重,为Qi所有子集构成的集合,Qi={f1,f2,…,fj,…}为一个队列,其中,fi为用户i 的第j次反馈操作。
所述的系统,其中,所述吻合度计算模块具体用于:通过计算主题词之间的相似性,获得两次查询请求对应的主题词集合之间相似性的标准差;用所述标准差表示两次查询请求的相似性。
所述的系统,其中,所述模型构建模块具体用于:通过如下算式计算所述主题词集合之间的相似性:
其中,和分别为第一和第二主题词集合,和分别为属于第一主题词集合的主题词和属于第二主题词集合的主题词的权重。
有益效果:本发明提供的大数据查询推荐方法及其推荐系统,通过构建用户查询反馈操作模型,对非结构化的日志数据进行分析,并通过查询请求的相似性,有效的将相关的查询结果推荐给用户,克服了现有查询推荐方法难以区分用户正负反馈,无法进行查询间特性对比,导致无法有效进行查询推荐的弊端,对于解决查询海量数据过程中的查询推荐这样的复杂问题具有较好的效果。
附图说明
图1为本发明实施例提供的大数据查询推荐方法的方法流程图;
图2为本发明实施例提供的大数据查询推荐系统的功能框图。
具体实施方式
本发明提供一种大数据查询推荐方法及其推荐系统。为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,为本发明实施例提供的一种大数据查询推荐方法。所述方法包括如下步骤:
100:通过用户查询请求的历史记录,构建用户查询反馈操作模型。所述用户查询反馈操作模型(UQFL模型)是根据用户的查询历史学习获得的分析结果。该历史记录可以是用户查询日志的数据。
200:输出与用户查询反馈操作对应的集合,所述集合的元素为权重最高的前K个主题词集合。所述用户查询反馈操作模型的输出为一个包含了若干主题词及其权重的集合。
具体的,所述用户查询反馈操作模型的构建及计算分析过程如下:
首先,将用户查询反馈操作划分为若干个队列。设Qi={f1,f2,…,fj,…}表示包含了某个用户在一次查询过程中的多次反馈操作的队列。其中,fi为用户i 的第j次反馈操作。该队列的划分过程可以依据一段时间内同一个用户的反馈操作的时间先后进行升序排列。
然后,将其中每次查询反馈操作fi相关的资料集组合为一个主题词集合其中,为资料集的主题词。所述资料集指与用户查询结果的条目对应的资料内容的集合。
其次,可以基于词频统计的方式,计算主题词集合中的主题词在同一个用户的某次查询请求中,所有的反馈操作对应的全部资料集中的权重
更具体的,该权重通过算式(1)计算所述权重:
其中,为对应资料集的主题词的权重,为Qi所有子集构成的集合。而可以通过算式(2)计算获得:
其中,
在算式(2)中,docj为操作fi对应的资料集Dfi中的元素。Di为一次查询请求中所有反馈操作的资料集的总集,wfj为在docj中的词频。
经过上述分析计算后,对于查询请求日志的相关数据的分析输出结果为:与所述队列对应的集合W={W1,W2,...,Wi}及其权重,其中,所述集合的元素为权重最高的前K个主题词集合。
300:根据所述主题词集合的权重,计算查询请求的主题词集合之间相似性的标准差。推荐的过程可以依据多次查询请求之间的目的吻合度。在本实施例中,使用相似性计算的方法来表示两次查询请求之间目的的吻合程度或者相似性。
具体的,首先可以通过算式(3)计算两个主题词之间的相似性:
其中,和分别为第一和第二主题词集合,和分别为属于第一主题词集合的主题词和属于第二主题词集合的主题词的权重。
两次查询请求reqm,reqn的主题词集合间相似性的标准差Ddev(reqm,reqn),通过算式(4)进行计算:
其中,N(Wm)和N(Wn)为两次查询请求的UQFL模型输出的主题词集合的集合长度。
在算式(4)中,Ssimilar(Wm,Wn)为UQFL模型输出的两个主题词集合Wm和Wn之间的相似度。和分别为根据所述UQFL模型得到的Wm和Wn中的主题词和在各自查询操作过程上全部资料集中的权重。
400:对所述历史记录中的用户查询请求的标准差进行聚类,形成若干个查询概念。以上述查询请求之间的相似性Ddev(reqm,reqn)作为衡量查询请求距离的标准,可以对日志或者历史记录中的用户查询请求进行聚类。聚类具体可以采用例如层次聚类法等不确定聚类中心的方法完成。
获得聚类结果后,可以将各个簇作为一个查询概念T。在每个查询概念Ti下,均包含多次通过学习日志或者历史记录的查询请求得到的主题词集合Wtotal包括的,本概念下全部的主题词。通过对这些主题词的出现频率进行排序,可以获得排序好的主题词集合
500:获取用户查询请求并确定与所述用户查询请求匹配的所述查询概念。将新输入的用户查询请求的关键字与各个查询概念下的主题词集合进行匹配,可以选取关键字在主题词集合中排名最前的概念Tj作为匹配的查询概念。
600:将匹配的查询概念的聚类中心以及与聚类中心距离最小的前K个查询推荐给用户。亦即将选中的匹配查询概念的聚类中心reqcenter以及与聚类中心相似度Ddev(reqcenter,reqm)最小的前K个查询作为推荐结果,向用户推荐。
如图2所示,为本发明实施例提供的一种大数据查询推荐系统。所述系统包括:模型构建模块100,用于通过用户查询请求的历史记录,构建用户查询反馈操作模型;以及输出与用户查询反馈操作对应的集合,所述集合的元素为权重最高的前K个主题词集合;吻合度计算模块200,用于根据所述主题词集合的权重,计算查询请求的主题词集合之间相似性的标准差以及匹配模块300,用于对所述历史记录中的用户查询请求的标准差进行聚类,形成若干个查询概念;获取用户查询请求并确定与所述用户查询请求匹配的所述查询概念;将匹配的查询概念的聚类中心以及与聚类中心距离最小的前K个查询推荐给用户。
具体的,所述模型构建模块100具体用于:将用户查询反馈操作划分为若干个队列;将一个队列中每次查询反馈操作相关的资料集组合为主题词集合;计算主题词集合中的主题词在一个队列中对应的全部资料集中的权重;输出与所述队列对应的集合及其权重。
更具体的,所述模型构建模块具体用于:基于词频统计,通过如下算式计算所述权重:
其中,为所述权重,为对应资料集的主题词的权重,为Qi所有子集构成的集合,Qi={f1,f2,...,fj,...}为一个队列,其中,fi为用户i 的第j次反馈操作。
在一些实施例中,所述吻合度计算模块200具体用于:通过计算主题词之间的相似性,获得两次查询请求对应的主题词集合之间相似性的标准差;用所述标准差表示两次查询请求的相似性。
具体的,所述模型构建模块具体用于:通过如下算式计算所述主题词集合之间的相似性:
其中,和分别为第一和第二主题词集合,和分别为属于第一主题词集合的主题词和属于第二主题词集合的主题词的权重。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及本发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.一种大数据查询推荐方法,其特征在于,所述方法包括:
通过用户查询请求的历史记录,构建用户查询反馈操作模型;
输出与用户查询反馈操作对应的集合,所述集合的元素为权重最高的前K个主题词集合;
根据所述主题词集合的权重,计算查询请求的主题词集合之间相似性的标准差;
对所述历史记录中的用户查询请求的标准差进行聚类,形成若干个查询概念;
获取用户查询请求并确定与所述用户查询请求匹配的所述查询概念;
将匹配的查询概念的聚类中心以及与聚类中心距离最小的前K个查询推荐给用户。
2.根据权利要求1所述的方法,其特征在于,所述构建用户查询反馈操作模型,具体包括:
将用户查询反馈操作划分为若干个队列;
将一个队列中每次查询反馈操作相关的资料集组合为主题词集合;
计算主题词集合中的主题词在一个队列中对应的全部资料集中的权重;
输出与所述队列对应的集合及其权重。
3.根据权利要求2所述的方法,其特征在于,所述计算主题词集合中的主题词在一个队列中对应的全部资料集中的权重,具体包括:
基于词频统计,通过如下算式计算所述权重:
<mrow>
<mi>r</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>w</mi>
<mi>j</mi>
<mi>i</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msubsup>
<mi>Q</mi>
<mi>i</mi>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
</mrow>
</msubsup>
<mo>&Element;</mo>
<msub>
<mi>Q</mi>
<mi>i</mi>
</msub>
</mrow>
</munder>
<msub>
<mi>r</mi>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msubsup>
<mi>w</mi>
<mi>j</mi>
<mi>i</mi>
</msubsup>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msubsup>
<mi>Q</mi>
<mi>i</mi>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
</mrow>
</msubsup>
<mo>&Element;</mo>
<msub>
<mi>Q</mi>
<mi>i</mi>
</msub>
</mrow>
</munder>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msubsup>
<mi>w</mi>
<mi>k</mi>
<mi>i</mi>
</msubsup>
<mo>&Element;</mo>
<msubsup>
<mi>Q</mi>
<mi>i</mi>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
</mrow>
</msubsup>
</mrow>
</munder>
<msub>
<mi>r</mi>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msubsup>
<mi>w</mi>
<mi>k</mi>
<mi>i</mi>
</msubsup>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
其中,为所述权重,为对应资料集的主题词的权重,为Qi所有子集构成的集合,Qi={f1,f2,...,fj,...}为一个队列,其中,fi为用户i的第j次反馈操作。
4.根据权利要求1所述的方法,其特征在于,所述根据所述主题词集合的权重,计算查询请求的主题词集合之间相似性的标准差,具体包括:
通过计算主题词之间的相似性,获得两次查询请求对应的主题词集合之间相似性的标准差;
用所述标准差表示两次查询请求的相似性。
5.根据权利要求4所述的方法,其特征在于,所述计算主题词之间的相似性,具体包括:
通过如下算式计算所述主题词集合之间的相似性:
<mrow>
<msub>
<mi>S</mi>
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mi>i</mi>
<mi>l</mi>
<mi>a</mi>
<mi>r</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msup>
<mi>W</mi>
<mi>m</mi>
</msup>
<mo>,</mo>
<msup>
<mi>W</mi>
<mi>n</mi>
</msup>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mi>m</mi>
</msubsup>
<mo>&Element;</mo>
<msup>
<mi>W</mi>
<mi>m</mi>
</msup>
<mo>,</mo>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mi>n</mi>
</msubsup>
<mo>&Element;</mo>
<msup>
<mi>W</mi>
<mi>n</mi>
</msup>
</mrow>
</munder>
<mi>r</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mi>m</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<mi>r</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mi>n</mi>
</msubsup>
<mo>)</mo>
</mrow>
</mrow>
<msqrt>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mi>m</mi>
</msubsup>
<mo>&Element;</mo>
<msup>
<mi>W</mi>
<mi>m</mi>
</msup>
</mrow>
</munder>
<msup>
<mrow>
<mo>(</mo>
<mi>r</mi>
<mo>(</mo>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mi>m</mi>
</msubsup>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>&times;</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mi>m</mi>
</msubsup>
<mo>&Element;</mo>
<msup>
<mi>W</mi>
<mi>m</mi>
</msup>
</mrow>
</munder>
<msup>
<mrow>
<mo>(</mo>
<mi>r</mi>
<mo>(</mo>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mi>m</mi>
</msubsup>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
</msqrt>
</mfrac>
</mrow>
其中,和分别为第一和第二主题词集合,和分别为属于第一主题词集合的主题词和属于第二主题词集合的主题词的权重。
6.一种大数据查询推荐系统,其特征在于,所述系统包括:
模型构建模块,用于通过用户查询请求的历史记录,构建用户查询反馈操作模型;以及输出与用户查询反馈操作对应的集合,所述集合的元素为权重最高的前K个主题词集合;
吻合度计算模块,用于根据所述主题词集合的权重,计算查询请求的主题词集合之间相似性的标准差;
匹配模块,用于对所述历史记录中的用户查询请求的标准差进行聚类,形成若干个查询概念;获取用户查询请求并确定与所述用户查询请求匹配的所述查询概念;将匹配的查询概念的聚类中心以及与聚类中心距离最小的前K个查询推荐给用户。
7.根据权利要求6所述的系统,其特征在于,所述模型构建模块具体用于:将用户查询反馈操作划分为若干个队列;将一个队列中每次查询反馈操作相关的资料集组合为主题词集合;计算主题词集合中的主题词在一个队列中对应的全部资料集中的权重;输出与所述队列对应的集合及其权重。
8.根据权利要求7所述的系统,其特征在于,所述模型构建模块具体用于:基于词频统计,通过如下算式计算所述权重:
<mrow>
<mi>r</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>w</mi>
<mi>j</mi>
<mi>i</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msubsup>
<mi>Q</mi>
<mi>i</mi>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
</mrow>
</msubsup>
<mo>&Element;</mo>
<msub>
<mi>Q</mi>
<mi>i</mi>
</msub>
</mrow>
</munder>
<msub>
<mi>r</mi>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msubsup>
<mi>w</mi>
<mi>j</mi>
<mi>i</mi>
</msubsup>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msubsup>
<mi>Q</mi>
<mi>i</mi>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
</mrow>
</msubsup>
<mo>&Element;</mo>
<msub>
<mi>Q</mi>
<mi>i</mi>
</msub>
</mrow>
</munder>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msubsup>
<mi>w</mi>
<mi>k</mi>
<mi>i</mi>
</msubsup>
<mo>&Element;</mo>
<msubsup>
<mi>Q</mi>
<mi>i</mi>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
</mrow>
</msubsup>
</mrow>
</munder>
<msub>
<mi>r</mi>
<mrow>
<mi>s</mi>
<mi>u</mi>
<mi>b</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msubsup>
<mi>w</mi>
<mi>k</mi>
<mi>i</mi>
</msubsup>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
其中,为所述权重,为对应资料集的主题词的权重,为Qi所有子集构成的集合,Qi={f1,f2,...,fj,...}为一个队列,其中,fi为用户i的第j次反馈操作。
9.根据权利要求6所述的系统,其特征在于,所述吻合度计算模块具体用于:通过计算主题词之间的相似性,获得两次查询请求对应的主题词集合之间相似性的标准差;用所述标准差表示两次查询请求的相似性。
10.根据权利要求9所述的系统,其特征在于,所述模型构建模块具体用于:通过如下算式计算所述主题词集合之间的相似性:
<mrow>
<msub>
<mi>S</mi>
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mi>i</mi>
<mi>l</mi>
<mi>a</mi>
<mi>r</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msup>
<mi>W</mi>
<mi>m</mi>
</msup>
<mo>,</mo>
<msup>
<mi>W</mi>
<mi>n</mi>
</msup>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mi>m</mi>
</msubsup>
<mo>&Element;</mo>
<msup>
<mi>W</mi>
<mi>m</mi>
</msup>
<mo>,</mo>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mi>n</mi>
</msubsup>
<mo>&Element;</mo>
<msup>
<mi>W</mi>
<mi>n</mi>
</msup>
</mrow>
</munder>
<mi>r</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mi>m</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<mi>r</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mi>n</mi>
</msubsup>
<mo>)</mo>
</mrow>
</mrow>
<msqrt>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mi>m</mi>
</msubsup>
<mo>&Element;</mo>
<msup>
<mi>W</mi>
<mi>m</mi>
</msup>
</mrow>
</munder>
<msup>
<mrow>
<mo>(</mo>
<mi>r</mi>
<mo>(</mo>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mi>m</mi>
</msubsup>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>&times;</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mi>m</mi>
</msubsup>
<mo>&Element;</mo>
<msup>
<mi>W</mi>
<mi>m</mi>
</msup>
</mrow>
</munder>
<msup>
<mrow>
<mo>(</mo>
<mi>r</mi>
<mo>(</mo>
<msubsup>
<mi>w</mi>
<mi>i</mi>
<mi>m</mi>
</msubsup>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
</msqrt>
</mfrac>
</mrow>
其中,和分别为第一和第二主题词集合,和分别为属于第一主题词集合的主题词和属于第二主题词集合的主题词的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710303512.9A CN107169821B (zh) | 2017-05-02 | 2017-05-02 | 大数据查询推荐方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710303512.9A CN107169821B (zh) | 2017-05-02 | 2017-05-02 | 大数据查询推荐方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107169821A true CN107169821A (zh) | 2017-09-15 |
CN107169821B CN107169821B (zh) | 2020-12-15 |
Family
ID=59812965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710303512.9A Active CN107169821B (zh) | 2017-05-02 | 2017-05-02 | 大数据查询推荐方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107169821B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268617A (zh) * | 2018-01-05 | 2018-07-10 | 阿里巴巴集团控股有限公司 | 用户意图确定方法及装置 |
CN110020128A (zh) * | 2017-10-26 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种搜索结果排序方法及装置 |
CN111460248A (zh) * | 2019-01-19 | 2020-07-28 | 北京嘀嘀无限科技发展有限公司 | 用于线上到线下服务的系统和方法 |
US11501183B2 (en) | 2019-07-15 | 2022-11-15 | HCL Australia Services Pty. Ltd | Generating a recommendation associated with an extraction rule for big-data analysis |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080147635A1 (en) * | 2006-12-13 | 2008-06-19 | Il Im | System, apparatus and method for providing weight to information gathering engine according to situation of user and computer readable medium processing the method |
CN103729359A (zh) * | 2012-10-12 | 2014-04-16 | 阿里巴巴集团控股有限公司 | 一种推荐搜索词的方法及系统 |
CN105893611A (zh) * | 2016-04-27 | 2016-08-24 | 南京邮电大学 | 一种构建面向社交网络的兴趣主题语义网络的方法 |
CN106339502A (zh) * | 2016-09-18 | 2017-01-18 | 电子科技大学 | 一种基于用户行为数据分片聚类的建模推荐方法 |
CN106372090A (zh) * | 2015-07-23 | 2017-02-01 | 苏宁云商集团股份有限公司 | 一种查询聚类方法及装置 |
-
2017
- 2017-05-02 CN CN201710303512.9A patent/CN107169821B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080147635A1 (en) * | 2006-12-13 | 2008-06-19 | Il Im | System, apparatus and method for providing weight to information gathering engine according to situation of user and computer readable medium processing the method |
CN103729359A (zh) * | 2012-10-12 | 2014-04-16 | 阿里巴巴集团控股有限公司 | 一种推荐搜索词的方法及系统 |
CN106372090A (zh) * | 2015-07-23 | 2017-02-01 | 苏宁云商集团股份有限公司 | 一种查询聚类方法及装置 |
CN105893611A (zh) * | 2016-04-27 | 2016-08-24 | 南京邮电大学 | 一种构建面向社交网络的兴趣主题语义网络的方法 |
CN106339502A (zh) * | 2016-09-18 | 2017-01-18 | 电子科技大学 | 一种基于用户行为数据分片聚类的建模推荐方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020128A (zh) * | 2017-10-26 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种搜索结果排序方法及装置 |
CN110020128B (zh) * | 2017-10-26 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 一种搜索结果排序方法及装置 |
CN108268617A (zh) * | 2018-01-05 | 2018-07-10 | 阿里巴巴集团控股有限公司 | 用户意图确定方法及装置 |
CN111460248A (zh) * | 2019-01-19 | 2020-07-28 | 北京嘀嘀无限科技发展有限公司 | 用于线上到线下服务的系统和方法 |
CN111460248B (zh) * | 2019-01-19 | 2023-05-23 | 北京嘀嘀无限科技发展有限公司 | 用于线上到线下服务的系统和方法 |
US11501183B2 (en) | 2019-07-15 | 2022-11-15 | HCL Australia Services Pty. Ltd | Generating a recommendation associated with an extraction rule for big-data analysis |
Also Published As
Publication number | Publication date |
---|---|
CN107169821B (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11507551B2 (en) | Analytics based on scalable hierarchical categorization of web content | |
Wu et al. | Contextual bandits in a collaborative environment | |
US10038968B2 (en) | Branching mobile-device to system-namespace identifier mappings | |
CN105224699B (zh) | 一种新闻推荐方法及装置 | |
CN110674407B (zh) | 基于图卷积神经网络的混合推荐方法 | |
Wang et al. | TM-LDA: efficient online modeling of latent topic transitions in social media | |
CN108830416B (zh) | 基于用户行为的广告点击率预测方法 | |
US9251292B2 (en) | Search result ranking using query clustering | |
CN107169821A (zh) | 大数据查询推荐方法及其系统 | |
CN106649455A (zh) | 一种大数据开发的标准化系统归类、命令集系统 | |
CN109543840B (zh) | 一种基于多维分类强化学习的动态推荐系统设计方法 | |
KR101590976B1 (ko) | 협업 필터링 기반 추천 성능을 향상 시키기 위한 의미 클러스터 기반 매트릭스 지역화 방법 및 장치 | |
Singh et al. | Rewriting null e-commerce queries to recommend products | |
Kundu et al. | Formulation of a hybrid expertise retrieval system in community question answering services | |
CN109978020A (zh) | 一种基于多维特征的社交网络账号马甲身份辨识方法 | |
KR20220086932A (ko) | 소비자의 비정형 평가 정보를 이용한 소비자 니즈 분석 방법 및 장치 | |
US10474670B1 (en) | Category predictions with browse node probabilities | |
CN108932625A (zh) | 用户行为数据的分析方法、装置、介质和电子设备 | |
CN110442873A (zh) | 一种基于cbow模型的热点工单获取方法及装置 | |
Moreira et al. | Using rank aggregation for expert search in academic digital libraries | |
Cacheda et al. | Click through rate prediction for local search results | |
Sharma et al. | Predicting purchase probability of retail items using an ensemble learning approach and historical data | |
Antulov-Fantulin et al. | Ecml-pkdd 2011 discovery challenge overview | |
CN109062551A (zh) | 基于大数据开发命令集的开发框架 | |
Cui et al. | Personalized book recommendation based on ontology and collaborative filtering algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |