CN104699725B - 数据搜索处理方法及系统 - Google Patents
数据搜索处理方法及系统 Download PDFInfo
- Publication number
- CN104699725B CN104699725B CN201310674206.8A CN201310674206A CN104699725B CN 104699725 B CN104699725 B CN 104699725B CN 201310674206 A CN201310674206 A CN 201310674206A CN 104699725 B CN104699725 B CN 104699725B
- Authority
- CN
- China
- Prior art keywords
- data object
- query word
- search
- attribute
- operation information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种数据搜索处理方法及系统。该方法包括接收当前用户发出的搜索请求以获取所述搜索请求中包含的查询词;通过统计所述查询词对应的搜索结果中的数据对象上发生的历史操作信息,选取数据对象的一项属性作为指定属性生成所述查询词对应的历史操作信息涉及的数据对象在所述指定属性上的属性值的概率分布模型;由此可以利用所述概率分布模型,计算当前用户发出的搜索请求对应的搜索结果中的每一数据对象在指定属性上的属性值对应的概率以调整搜索结果中的数据对象的输出排序。从而改善数据搜索的展示处理,提高搜索到的数据对象排序展示的合理性以提供更准确的搜索结果,进而降低用户网络搜索访问的风险、提升搜索平台的安全性、可信度。
Description
技术领域
本申请涉及数据搜索领域,更具体地涉及一种数据搜索处理方法及系统。
背景技术
随着互联网基础设施不断完善和计算机网络技术的不断普及,在线网络搜索各类特定的数据信息逐渐成为普通网民最常用的一种方式。当数据量非常庞大时,用户可以在搜索引擎的用户界面上点击选择类目、或输入搜索查询词等,由搜索引擎迅速找到自己想要的数据对象。
在搜索引擎的用户界面上,用户输入关键词或者选择类目,搜索引擎会返回搜索到的包含一个或多个数据对象(搜索结果)的展示列表。通常,每个数据对象的展示信息中可以包括数据对象的一个或多个属性及其属性值以及其他参数等信息。当搜索引擎搜索到数据对象后,可以依据数据对象的各个属性及属性值,对数据对象进行排序和展示。例如:数据对象可以包括身份标识ID、图片、描述、标号等属性,以及及对应的内容,即属性值,如:ID的具体编号、具体的图片内容、描述的具体内容和字数、标号大小等。由此,搜索引擎可以根据图片多少、描述字数多少或者标号大小等对数据对象进行排序,并展示数据对象的图片、描述、标号。通常,在展示出来的数据对象一个或多个属性的属性值中,往往有一个或几个属性对用户的下一步的操作处理影响较大。比如,在期末考试成绩搜索引擎中,用户会对搜索到的某个学生的总成绩这一属性更关注。又比如,在商品搜索引擎中,用户往往会对搜索得到某个商品对象的价格给予较多的关注。当用户通过商品搜索引擎搜索得到商品对象的价格高低(属性值)超出了真实的价格范围时,用户很可能会对搜索结果产生质疑,从而放弃对搜索结果的操作。尤其当一个网络搜索平台中出现大量这样的搜索结果或者经常出现这样的搜索结果,可能引发用户对当前搜索平台的安全性、可信度等产生质疑等。尤其对于数据对象不是来自单一的、经过可信度和安全性验证的提供方提供给搜索平台的情形,则很可能给用户造成数据对象的不真实、非法、甚至网络数据的安全隐患(如提供虚假的属性值,引诱用户选择该数据对象而导致恶意程序的攻击)等问题。
另外,现有技术中,为解决数据对象的某些属性值的失真,有的网络搜索平台通过人工对属性值进行挖掘整理再展示给用户,但很难确定这种整理的合理性;有的网络搜索平台通过人工审核再展示给用户,但对于海量的数据,这种方式难度高且效率低。
发明内容
针对上述现有技术的缺陷,本申请提供改进后的一种数据搜索处理方法及系统,以解决改善数据搜索的展示处理,提高搜索到的数据对象排序展示的合理性以提供更准确的搜索结果,进而可以降低用户网络搜索访问的风险的问题,以及进一步解决提升搜索平台的安全性、可信度的问题。
根据本申请的一个方面,提供一种数据搜索处理方法,包括:接收当前用户发出的搜索请求以获取所述搜索请求中包含的查询词;统计所述查询词对应的搜索结果中的数据对象上发生的历史操作信息;选取所述数据对象的一项属性作为指定属性,生成所述查询词对应的历史操作信息涉及的数据对象在所述指定属性上的属性值的概率分布模型;利用所述概率分布模型,计算当前用户发出的搜索请求对应的搜索结果中的每一数据对象在指定属性上的属性值对应的概率;使用所述概率调整搜索结果中的数据对象的输出排序。
根据本申请的另一个方面,提供一种数据搜索处理系统,包括:搜索前端、日志收集器、数据分析平台、数据存储系统、搜索引擎;其中,搜索前端接收当前用户发出的搜索请求以获取所述搜索请求中包含的查询词,并转发当前用户发出的搜索请求给查询分析器;日志收集器,收集用户在查询词对应的搜索结果中的数据对象上的历史操作信息;数据分析平台,以数据对象的一项属性作为指定属性,利用存储的每一查询词对应的搜索结果中的数据对象上的历史操作信息,生成与该查询词对应的历史操作信息涉及的数据对象在该指定属性上的属性值的概率分布模型;搜索引擎,根据该当前用户发出的搜索请求执行对应获取的查询词的搜索,并利用该概率分布模型,计算该查询词的搜索结果中的每一数据对象在指定属性上的属性值对应的概率,并使用所述概率调整搜索结果中的数据对象的输出排序。
根据本申请的又一个方面,提供一种数据搜索处理方法,包括:收集用户在各查询词对应的搜索结果中的数据对象上的历史操作信息;以数据对象的一项属性作为指定属性,分别利用每一查询词对应的搜索结果中的数据对象上的历史操作信息建立所述数据对象在指定属性上的属性值的概率分布模型,并记录该查词与概率分布模型对应关系;接收当前用户发出的搜索请求,获取所述搜索请求中包含的查询词;根据记录的查询词与概率分布模型的对应关系,确定所述搜索请求中的查询词对应的概率分布模型;使用所确定的概率分布模型计算所述搜索请求对应的搜索结果中的每一数据对象在指定属性上的属性值对应的概率;使用至少所述概率调整所述搜索请求对应的搜索结果中的数据对象的排序。
本申请的方法及系统,对于能够搜索来自各种内容提供方的、非全部经过数据验证的网络搜索平台来说,可以有效降低用户访问到非法数据对象、受到恶意数据攻击的风险,还能保障搜索平台的安全性、可信度,进而获取用户对平台的信任感。通过分析海量用户的实际搜索行为,对每个搜索词下大部分合理的属性值进行数学建模,并在数据对象排序展示的环节把属性值的合理性作为参考,使得不合理(非法、恶意)的数据对象展示排前的机会大大减少。进一步地,使用户通过网络搜索平台提交搜索请求时,能自动获取当前搜索意图下的合理属性值作为参考,即搜索结果的展示考虑了数据对象的属性值的合理性,从而打压不合理的数据对象避免其被提供给用户,改善用户的搜索体验,促进搜索平台的良性发展。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为依据本申请的数据搜索处理方法的一实施例的流程图;
图2为依据本申请的方法中关于生成模型参数以及获得对应查询词的模型参数的一实施例的流程图;
图3为依据本申请的数据搜索处理系统的一实施例的结构图;以及
图4为依据本申请的方法中关于搜索引擎计算排序分的一个实施例示意图;
图5为依据本申请的数据搜索处理装置的一实施例的示意图。
具体实施方式
本申请的主要思想在于,通过分析在海量用户提交的海量的搜索请求中,每个提交的搜索请求所涉及的搜索词下的大部分/大多数用户,对依据该搜索词获得的搜索结果进行的实际操作行为,构建与查询词相对应的参考用的概率分布模型参数(概率分布模型中包括概率分布函数及模型参数等);将参考用的模型参数应用到当前用户的数据对象的搜索请求的搜索结果展示处理中,由于该模型参数对合理性做了考虑,使得搜索结果展示处理时,尽量将搜索到的更准确有效(符合搜索词目标)、更合理、少风险的一个或多个数据对象的结果,展示在前面、而排挤不合理有风险的数据对象的结果在前面的展示,以便改善展示处理,提高展示合理性,降低用户操作风险,提升搜索平台的搜索准确性、安全性和可信度,改善用户搜索体验,促进搜索平台良性发展。
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着互联网基础设施不断完善和计算机网络技术的不断普及,以在线网络购物的搜索技术为例,由于商品量非常庞大,用户需要通过用户界面(用户的搜索界面)、借助商品搜索引擎迅速找到自己想要的商品。在这样的界面上,用户输入关键词或者是选择类目,商品搜索引擎即会返回一个商品展示列表。通常商品展示列表展示的商品信息包括商品图片,商品描述,商品价格等条目。某些商品信息(条目)对用户的影响尤其重要,比如商品价格。一个远高于用户期望的商品价格可能使用户跳过该商品,并不再浏览该商品的详情页面,从而错过用户下单购买的机会。同样,一个远低于正常市场价的商品价格可能让用户对商品的真实性产生疑问。如果一个商品搜索平台出现大量的类似现象,可能引发用户对当前使用平台所售商品或安全性的质疑。尤其是独立于搜索平台外的第三方卖家,有可能故意设置不合理的商品价格,比如故意设置一个高价,以影响该商品在按价格排序时的排序;或者是卖家所售商品质量有问题(如仿货),其远低于市场价销售,其安全性不能保证、其质量不可靠,但也可能由于价低而排序靠前。还有一些特定的商品的搜索,比如某个具体款式的数码相机的市场价比较确定。但更多查询词对应的商品,如“手机”,“连衣裙”等查询词对应的商品,并没有一个固定的价格区间。对于这样的查询词,难以指定一个合理的价格区间来在搜索结果中排除具有不合理的价格设置的商品。因此,搜索平台若要保证平台安全可靠以降低用户购买到恶意商品的风险,获取用户对平台的信任,提高搜索效率(如自动挖掘每个查询下的合理价格范围)和展示处理效率(如利用这个价格范围来改善商品展示的顺序/排序),则需要改善商品搜索结果的展示处理。下面将以商品搜索为例说明本申请具体实现方式。
在本申请的实例中,用户使用的网络搜索平台提供商品搜索的用户界面并进行商品搜索。用户请求搜索的数据对象可以是商品。用户可以是通过电商网站搜索商品的买家。用户的搜索请求可以是用户在商品搜索的用户界面上通过输入关键词或选择类目来进行。数据对象的属性可以是诸如商品图片、商品描述以及商品价格等商品信息。展示处理,可以是对搜索到的数据对象依据其属性进行排序的处理,比如,将商品按照商品价格进行排序处理后以列表等方式展示。用户实际操作行为,可以是用户对搜索结果列表中的商品的选择(如:点击)操作。数据对象的提供者,可以是各个提供商品信息的卖家。
下面先对可能用到的技术术语做简要说明。
【名词解释】
Key-value系统,一种存储系统,存储的内容按照键(key)和值(value)存放,给定一个键,能迅速读取对应的值。
Map-reduce:一种简化并行运算的编程模型,是Google提供的通用的并行计算框架,方便在大规模集群上(比如上千台服务器)对海量数据(比如1T数据)做处理。
双高斯概率模型:混合高斯模型的一个特例,混合高斯模型假设数据的分布可能来自多个高斯分布,每个高斯分布的参数可以不同,并且每个高斯分布可以有不同的先验概率。
EM算法:Expectation-maximization算法的简称,针对一个统计模型,EM算法可以通过迭代计算找到最大化似然度的优化参数。
图1示出了依据本申请的数据搜索处理方法的一实施例的流程图。图3示出了实施图1的方法的一种数据搜索处理系统300的一个示例图。图1、图3的实施方式,仅仅是采用本申请的方法,用户通过搜索平台在海量数据对象中进行搜索的一种方式的例子,本申请的方法并不限于该实施例。
其中,数据搜索处理系统300包括:搜索前端310及搜索后端320。搜索前端310包括用户界面3100。搜索后端320包括查询分析器3201、日志收集器3204、搜索引擎3203、数据存储系统3202、分布式数据分析平台3205。
用户界面3100实现与用户之间交互,接收用户发出的搜索请求,并向用户输出搜索结果。其中,搜索前端可以将接收到的搜索请求,传送给搜索后端320中的搜索引擎3203。
搜索前端310的用户界面3100采集(获取)用户对搜索结果所进行的操作产生的数据,并将这些数据发送到搜索后端320的日志收集器3204。搜索前端310的用户界面3100还可以将用户发出的搜索请求传送给搜索后端320中的查询分析器3201,以便对搜索请求进行分析。
搜索引擎3203根据用户的搜索请求,执行搜索,并可以向搜索前端310输出搜索结果。日志收集器3204收集搜索前端310获取的用户对搜索结果的操作数据,并提供给分布式数据分析平台3205。
分布式数据分析平台3205对用户的历史操作信息,包括对历史操作信息中的数据对象的指定属性的属性值、查询词Q等进行分析处理,并生成对应查询词Q的搜索对象在指定属性上的概率分布模型,模型可以包括模型参数等。模型参数比如:均值参数、方差参数和先验概率等参数,并且,将模型存储到数据存储系统3202。如果不考虑数据存储系统3202的容量问题,该概率分布模型还可以包括对模型参数做概率计算的概率分布函数等。
查询分析器3201访问数据存储系统3202,并根据数据存储系统3202存储的模型参数对当前搜索请求进行分析,将分析后得到的信息返回搜索前端310。分析后的信息与搜索请求都可由搜索前端310提供给搜索引擎3203。
搜索引擎3203根据当前搜索请求获取索结果,并根据分析后的信息对搜索结果调整后提供给搜索前端310。搜索前端310向用户输出调整后的搜索结果。
系统300各个部分的具体处理方式将在下面方法的实施例的每个步骤中逐步描述。
在步骤S110,接收当前用户发出的搜索请求,获取所述搜索请求中包含的查询词。
该搜索请求中,包含查询词Q。该搜索请求是请求依据该查询词,搜索当前用户需要的对应该查询词的一个或多个数据对象。
具体地,当前用户发出的搜索请求经网络搜索平台的搜索前端310接收。比如:用户可以通过在用户的搜索界面的输入框中输入关键词、或者选择(如:点击)搜索界面上推荐的搜索词或类目,以请求搜索数据对象。该搜索请求由搜索前端310传送到网络搜索平台的搜索后端320。搜索请求中可以包含查询词Q,即前述输入的关键词或点击的类目等信息,随搜索请求传递到搜索后端320。
以网购商品为例:网购用户即买家,在商品搜索用户界面中,输入商品名称、或者选择已经列出的商品类目等,即由界面接收当前用户发出的商品搜索请求。该商品搜索请求中包含搜索商品用的查询词Q(如输入的商品名称、点击的商品类目等)。买家通过该商品搜索请求中的查询词Q,希望请求搜索到买家想要购买的一个或多个符合该查询词的商品即获得数据对象。
在步骤S120,根据获取的查询词,统计所述查询词对应的搜索结果中的数据对象上发生的历史操作信息,选取所述数据对象的一项属性作为指定属性,生成所述查询词对应的历史操作信息涉及的数据对象在所述指定属性上的属性值的概率分布模型。
由此,可以从对应一个或多个查询词的一个或多个概率分布模型中,获取该查询词对应的概率分布模型(模型参数)。
具体地,根据接收的当前用户发出的搜索请求,获取所述搜索请求中包含的查询词。比如,从搜索前端310将当前的搜索请求转送到查询分析器3201,将查询词提取出来。再根据该查询词,获得对应该查询词的数据对象在指定属性上的属性值的概率分布模型或概率分布模型参数。
一种方式,可以统计分析该查询词对应的搜索结果中的数据对象上发生的历史操作信息,选取所述数据对象的一项属性作为指定属性,生成所述查询词对应的历史操作信息涉及的数据对象在所述指定属性上的属性值的概率分布模型。由此,根据查询词获得了对应的概率分布模型/模型参数,并可以以键-值对方式存储(如:key-value存储关系),或更新以往的键-值对(查询词和模型),进而还可以直接使用该模型/模型参数。
另一种方式,以往该查询词搜索获得数据对象,则统计当时在数据对象上发生的操作信息,选取所述数据对象的一项属性作为指定属性,生成所述查询词对应的操作信息涉及的数据对象在所述指定属性上的属性值的概率分布模型,并存储。以备本次来到的该查询词,可以直接从存储的诸多对应各个查询词的各个模型中,找到当前搜索请求中的该查询词所对应的模型(或该模型参数)。当该查询词本次搜索的数据对象上发生了操作信息则更新对应的概率分布模型。进而,还可以按照查询词与概率分布模型以“键-值”对的对应关系记录,如:key-value存储关系。由当前查询词能确定当前搜索请求中的查询词对应的概率分布模型,比如,查询分析器3201以查询词为key找到与key对应存储在在线Key-value系统的value即模型(参数)。
例如:搜索前端310在获取用户的搜索请求后,可以先将该搜索请求转发到查询分析器3201。查询分析器3201对用户的搜索请求进行分析。该分析包括:根据该搜索请求的查询词(Q),从数据存储系统3202存储的一个或多个模型中,获取对应当前搜索请求中的该查询词(Q)对应的模型。所述模型可以包括模型参数,并可以以参数集合表示。
另外,查询分析器3201对用户的搜索请求进行的分析还可以包括:自动纠错、同义词改写及类目预测等。
自动纠错包括将搜索请求中拼写错误的查询词纠正为正确的查询词,比如将“诺基牙”纠错改正为“诺基亚”。
同义词改写包括将搜索请求的查询词使用另一同义词替代,如“nokia”改写成“诺基亚”中文。
类目预测包括预测查询词对应的数据对象所属的类目。比如用户输入“苹果”,有可能是水果里的苹果,也可能是苹果手机,两者分别属于“水果”和“手机”类目。通过类目预测处理可以得到查询词“苹果”对应的数据对象属于这两个类目的概率分别为0.5、0.5。
其中,数据存储系统3202可以采用Key-value系统3202,生成的各个模型存储在数据存储系统3202中。其中,使用用户在当前的搜索请求中的查询词所对应的搜索结果中的数据对象上的历史操作信息,生成或建立对应该查询词的概率分布模型。具体的,可以根据历史操作信息中的数据对象在指定属性上的属性值的统计分析,获得所述的模型或者说最优的模型参数。
以网购商品为例,买家可以通过输入商品名称、或者选择已经列出的商品类目等信息发起搜索请求。这里,搜索请求包含卖家输入的商品名称或者选择的商品类目等信息。所述搜索请求被转发到搜索系统320的查询分析器3201。查询分析器3201进行针对搜索请求的分析处理。该分析主要是为了获取当前搜索请求涉及的商品对应的价格模型(即得到对应该商品的价格模型参数)。
下面将参考图2中示出的,依据本申请的方法生成模型参数并获得对应当前查询词的模型的一实施例的流程图。以利用数据存储系统Key-value系统3202存储为例,模型(或模型参数/模型参数集合)生成后,将与查询词Q以“键-值”形式在key-value系统中存储。此处仅为一例子,本申请的模型参数获得方式不应被限于该例子。
根据历史日志,可以统计用户在各查询词所对应的搜索结果中的数据对象上的历史操作信息。对于某一查询词,其对应的搜索结果中的每个数据对象都包括一项或多项属性,可以选取一项属性作为指定属性。利用用户对数据对象的历史操作信息生成并存储该查询词对应的搜索结果中的数据对象在指定属性上的属性值的概率分布模型(即概率模型或属性模型)。所述概率分布模型包括预先选定的概率分布函数(比如高斯概率分布)及模型参数。该模型可以由其参数集合表示,如:包括方差m、均值σ、先验概率等的参数集合。
步骤S210中,收集用户在各查询词对应的搜索结果中的数据对象上的历史操作信息。
用户可以通过搜索请求中包含的查询词(Q),请求获取与该查询词关联的一个或多个数据对象。如果搜索到一个或多个数据对象,则将搜索到的数据对象作为搜索结果输出给发出搜索请求的用户。该用户可以对这些结果进行操作,操作包括选择某一数据对象等。获取这些操作所产生的操作信息,记录在日志中,随着日志的收集、存储,逐步将用户在该查询词对应的数据对象上的操作信息收集起来作为历史操作信息。其中,搜索到的数据对象包括有一项或多项属性,不同数据对象在某一属性中可能具有不同的属性值。比如,商品在价格属性上可能具有不同的价格数值(属性值)。
具体地,搜索引擎3203,可以根据用户的搜索请求中的查询词Q,执行用户需要的一个或多个数据对象的搜索处理。并将搜索到的对应该查询词的一个或多个数据对象作为搜索结果通过用户界面3100展示输出给该用户,比如,以列表形式进行展示,展示的每个数据对象包括一个或多个属性以及对应的属性值。如果该用户对某些数据对象感兴趣,比如希望对该数据对象进行更细节的了解,可以对这些结果执行操作,比如点击某数据对象以便浏览其更多的信息,则产生该查询词对应的数据对象上的用户的操作信息。操作信息至少包括:该数据对象对应的查询词Q、该数据对象在指定属性上的属性值。操作信息还可以包括用户ID、操作发生时间等。而用户的操作信息,可以被用户界面3100采集/获取,记录在日志中,并发送给搜索后端320的日志收集器3204。日志收集器3204收集这些操作信息,这些操作信息在后续处理中则作为历史操作信息。其中,日志及其记录的操作信息等,可以存储到分布式计算平台3205上。
以网购商品为例:搜索引擎3203根据商品搜索请求中的商品名称等,对卖家提供的各种商品进行搜索,以获取在商品名称中含有该查询词的一个或多个商品。搜索引擎3203将依据商品名称等,搜索出的各个卖家提供的对应的商品,反馈给请求搜索的买家。在这样的实施例中,数据对象为商品信息。所述数据对象包括商品的ID、商品图片、商品的描述及商品价格等属性值。搜索到的商品按照商品价格或销量排序,以列表形式展示给买家(比如加载到买家的浏览器端呈现,如图4所示)。用户如果对展示的所有商品中的某个商品感兴趣,点击该商品了解详情,由此,产生的点击数据,如:该商品所对应的查询词Q、商品价格(标号大小)、点击发生时间、该用户ID、商品ID等属性及其属性值,作为点击信息被用户界面3100采集,记录于日志中,日志收集器3204收集传送来的日志(点击信息)并存储。
步骤220中,选取数据对象的一项属性作为指定属性,利用每一查询词对应的搜索结果中的数据对象上的历史操作信息,生成与每一查询词对应的搜索结果中的数据对象在该指定属性上的属性值概率分布模型,并获得对应每一查询词的模型参数,并记录查询词及模型的对应关系。
首先,可以对步骤S210收集的用户的操作信息进行分析处理,根据所述操作信息建立模型。对用户的操作信息的分析处理可以是周期性的,即周期性分析处理:预先设定周期(预定周期),如周期为一个月,对该用户在该预定周期内累积存储的日志进行分析处理。进一步,该分析处理可以由分布式计算平台3205完成。
其中,分析处理包括对操作信息进行预处理。可以通过并行计算,如map-reduce,对日志中涉及的操作信息等这类与操作有关的数据(海量数据)进行分析,确定操作信息中的查询词Q,以及操作信息中涉及的数据对象在指定属性上的属性值。并且,将每个查询词Q与用户在该查询词下的操作信息涉及的数据对象在指定属性上的属性值进行汇聚,形成预定格式记录。预定格式可以为:查询词Q:属性值1、属性值2……。比如,由查询词Q搜索到N个数据对象,用户对所述N个数据对象中的M个数据对象产生了点击操作。其中,M个数据对象中,数据对象M1的指定属性的属性值为O1,数据对象M2的指定属性的属性值为O2,…数据对象Mm的指定属性的属性值为Om。N、M为大于等于0的整数,M小于等于N;Om表示属性值,m,n为自然数。通过map-reduce并行计算,可以确定操作信息中这些数据对象的指定属性的属性值O1,O2,…Om和查询词Q,进而,把查询词Q对应的属性值汇聚起来,以形成前述的预定格式的记录“Q:O1,O2,…Om”格式的记录(简称Q-O格式)。这样,可以将每个查询词Q对应的操作信息中的数据对象的指定属性的属性值进行汇聚。如形成属性值集合如{O1,O2,…Om},并优化属性值集合等。
然后,可以根据操作信息预处理后得到的预定格式的记录,比如数据对象的指定属性的属性值及查询词的Q-O格式记录,生成用户在每个查询词下的操作信息关联的数据对象在指定属性上的属性值的概率分布模型,即获得对应每个查询词的最优模型参数。可以通过模型拟合算法根据预定格式的记录,生成或建立该模型。生成的模型将以键值对的形式(key-value形式)存储到数据存储系统中。进一步,该模型生成或建立的处理可以由分布式计算平台3205完成。
比如,可以对Q-O中的每个查询词Q对应的数据对象的指定属性的属性值O的对数空间,做双高斯概率模型拟合,得到查询词Q相应的概率分布模型,也即可以在该双高斯概率模型拟合的过程中,利用EM算法针对模型进行迭代计算找到最大化似然度的模型参数。再以该查询词Q为关键词key,根据该查询词Q对应的历史操作信息拟合得到的模型参数为值value,将所有查询词Q各自对应的模型参数,按照键值对“key-value”的形式存储到在线Key-value系统里3202。由此,查询分析器3201就可以从Key-value系统3202中获取对应一查询词的模型参数使用。
以网购商品为例:分布式计算平台对过去一个月累积的用户点击的商品的价格做分析处理,选取双高斯概率模型对所述商品的价格进行拟合,得到价格模型,即获得对应查询词的价格模型参数。具体地,分布式平台从累积一个月的日志中,找出商品点击价格(即,找出操作/点击数据对象的“标号”属性对应的数据),进行分析处理获得Q-O格式的记录,再生成价格模型获得模型参数。下面将以双高斯概率拟合算法为例,说明进行分析处理以及获取最优价格模型参数的处理流程。此处的实现流程仅为举例,本申请不限于此例的处理流程。
第一,对累积的日志中的数据做预处理如:(1)~(3)。
(1)可以在map-reduce并行计算框架下,聚合同一查询词Q的日志。先把每个查询词Q所对应的点击价格,汇聚在一起,形成以下格式记录,即用户使用查询词Q搜索到N个商品,有M个商品被点击,商品的价格属性中,具体这M个被点击的商品的价格与查询词对应记录如下:
查询词Q:价格1,价格2,价格3,……(即“Q-O”格式的记录),比如:
“连衣裙”:100,120,111,150,180,230(2)获得某查询词Q的商品点击价格集合,确定对查询词Q进行价格模型计算。
根据过去一个月日志的内容可知,由该Q-O格式的记录,可以汇聚出某查询词Q下所有用户点击过的商品价格集合为S={p1,p2,p3,…pN},p代表价格,N为自然数。用|S|表示集合S的大小,这个例子中,|S|=N。当N小于一定阈值时,即小于一个预先设置的阈值时,可以设计为不对查询词Q计算价格模型,即数量少,不必专门计算其价格模型。例如,在实际应用中,该阈值可以取100,则如果N小于100,不对查询词Q计算价格模型,若N大于100,则对该查询词Q计算价格模型。
(3)进行价格过滤值计算,并由过滤值过滤最低价格和最高价格部分,得到新的点击价格集合:
为进行过滤后的新的点击价格集合,pi表示新的集合中,由集合S中过滤掉了5%的最高价格和5%的最低价格这类噪音数据后,剩余的点击价格元素,i为小于等于N的自然数。过滤方式得到以降低数据噪音。其中:
(3-1)计算低价过滤阈值Pl,用来过滤一定范围的最低价,比如5%的最低价,可以按照实际情形的经验而预先设定。参见计算公式①。
依据经验预先设定过滤掉的百分比,由于高斯分布的重心在中间区域,可以剔除分布边缘的不合理的数据,这样,模型能更好的捕捉到大部分用户点击的合理价格数据。
Pl=maxargx|{pi|pi≥x and pi∈S}|≥0.95*|S|……①
其中,该公式表示,找到一个最大的数值x,使得在原始集合S里,大于等于这个值x的样本pi的个数占总个数的比例不低于95%。Pl为低价过滤阈值,pi为原始集合S中的某个价格样本,x为一临时参量。该公式对应的是原始样本分布中低价位5%的阈值。例:原始点击价格的集合S是{1,2,3,4,5,6,7,8,9,10},S个数有10个。如果需要找个阈值,使得大于等于这个阈值的样本的个数占比不少于6个(也就是原始样本的60%),这个阈值可以有多个,即4、3、2、1。阈值取4,大于等于4的样本个数是6,符合条件,阈值取3,大于等于3的样本个数是7,也符合条件,等等。最后可以确定,符合条件的最大的阈值,则Pl=4。
(3-2)计算高价过滤阈值Ph,用来过滤一定范围的最高价,例如,5%的最高价,可以根据经验预先设定。参见计算公式②:
Ph=minargx|{pi|pi≤x and pi∈S}|≥0.95*|S|……②
其中,与(3-2)类似,该公式表示,找到一个最小的数值x,使得在原始集合S里,小于等于这个值x的样本pi的个数占总个数的比例不低于95%。Ph为低价过滤阈值,pi为原始集合S中的某个样本,x为一临时参量。该公式对应的是原始样本分布中高价位5%的阈值。
(3-3)由Pl、Ph,从原始样本集合S中将符合条件的样本pi形成新的点击价格集合:
第二,根据预处理得到的集合进行双高斯拟合运算。
(4)先对新的点击价格集合里所有样本pi做如下log变化如公式③,以便得到新的样本集合D={x1,x2,…,xN}:
xi=log(pi+1)……③
pi是过滤后的样本集合中的样本,xi为新的样本集合D中的样本,称新样本,过滤后的样本集合的个数即集合大小其中,i、N为自然数,且i小于等于N。
(5)然后,对该过滤后的点击价格集合中,每个查询词Q下的各个价格元素pi,在对数空间上做双高斯概率模型拟合,可以得到查询词Q相应的模型参数。比如,为便于计算,在log得到的新的集合D上做双高斯拟合。具体地,可以先假设该样本集合{x1,x2,…,xN},来自独立采样并一致符合如下概率分布,参见公式④
p(x|π,m1,σ1,m2,σ2)=π*G(x|m1,σ1)+(1-π)*G(x|m2,σ2)……④
其中,公式④中的函数G为高斯概率分布函数:
这个概率模型由两个高斯成分组成,第一个高斯成分的均值为m1,方差为σ1,先验概率为π,第二个高斯成分的均值和方差分别为m2和σ2。任意一个高斯分布都有两个参数,一个是均值m,一个是方差σ。m1,σ1是第一个高斯分布的均值参数和方差参数,m2,σ2是第二个高斯分布的均值参数和方差参数。其中,π是第一个高斯分布的先验概率,(1-π)是第二个高斯分布的先验概率。两个先验概率分别介于0到1之间,并且两个先验概率之和必须为1。这些参数都可以通过模型训练等从样本数据中求得。这个例子中,采用{π,m1,σ1,m2,σ2}表示双高斯概率模型的参数。
其中,p()是一个概率分布函数,例:p(x)=1/N,随机变量x取值范围限于{1,2,3…N},即x服从某种概率分布,有N种取值的可能,且在每个值上的取值概率是均等的1/N。例如,本申请的网购搜索展示例子中,该随机变量x是指点击价格。
给定一个样本数据集合,可求解双高斯分布的参数。在本申请的例子中,可以从样本集合D中求解双高斯分布参数。双高斯拟合即是要找到这样一组最优参数,使得数据的似然度(likelihood)最大化。数据的似然度定义如下,参见公式⑤。为方便计算还可以计算似然度的log对数,即log-likelihood,参见公式⑥。
…⑤…⑥
计算最优参数,例如,还可以采用著名的Expectation-Maximization(EM)[1][3]迭代算法,计算最优参数值。
(a)初始化模型参数:
π,m1,σ1,m2,σ2
其中π可以初始化为0.5,即在没有任何先验知识的情况下,假设两个高斯分布是等概率的。m1和m2可以从样本D中随机选择两个值,σ1,σ2可以分别初始化为1。并计算当前模型参数对应的log-likelihood,即公式⑥中似然度的log对数,为表述方便,也称为loss:
loss=log(L(D|π,m1,σ1,m2,σ2))
(b)循环执行以下两步计算,即E步骤和M步骤:
E步骤:计算每个样本在两个高斯成分上的权重,具体计算公式⑦为:
For i=1,2,...,N。N为自然数,表示集合D的大小|D|=N,i为对样本的遍历,每一步迭代都要遍历所有样本。
M步骤:为每个高斯成分计算新的模型参数和先验概率参数,即
这里同理其中,N为训练样本集合D的大小,N1+N2=N,且wi1+wi2=1。结果为介于0到1的数,表示第一个高斯成分的先验概率,同理是第二个高斯成分的先验概率。由于wi1,wi2算出来都不是整数,因而N1和N2是小于等于N的数值,且不一定为整数。
再计算出的新模型参数对应的log-
likelihood:
然后,再计算
Δ=|loss-lossnew|
前后两次迭代计算即loss和lossnew两次,每次都是在一个现有参数值的情况下计算得到一个新的参数值(以及对应的log-likelihood)。再把新计算的参数值当做现有值,再迭代计算下一个新的参数值,直到紧挨两步的参数值对应的log-likehood差值Δ很小时停止,否则,就将新的模型参数
赋值给{π,m1,σ1,m2,σ2},并重新回到E步骤。
在得到的损失差Δ小于给定阈值(预设阈值)或者迭代次数达到指定上限值时,迭代完毕。并将最后一次迭代得到的模型参数赋值给最终模型参数
迭代终止时得到的最终模型参数为即为查询词Q相应的模型参数。
(6)此后,可以对每个查询词Q的相应的模型(价格模型)参数,采用查询词Q为键key,模型为值value,存储到到在线key-value系统(“键-值”对系统)里。即查询词Q为键key,价格模型(参数集合)为值value为key存储。
在步骤S130,利用获取的概率分布模型,计算当前用户发送的搜索请求对应的搜索结果中的每一数据对象在指定属性上的属性值对应的概率。
其中,指定属性可以是数据对象的一项属性,在本申请的搜索结果的排序计算中,被设置为数据对象的一个维度(特征),而计算得到的对应的属性值的概率即为一数据对象在该维度上的特征值f。下面将在排序步骤S140中具体说明利用增设的维度上的特征值f的排序展示的处理。可以参见图4所示本申请的方法中涉及的搜索引擎搜索结果输出处理的一个实施例的示意图。该处理仅为一例子,本申请不限于该例子。
首先,将获得的当前用户发送的搜索请求中查询词对应的概率分布模型返回并与当前的搜索请求结合,执行搜索,以获得搜索结果。
具体如,在步骤120中,查询分析器3201从在线的Key-Value系统中获取了当前搜索请求中涉及的查询词Q所对应的模型(即获得了该查询词Q对应的模型参数)。查询分析器3201就将这些信息,一起返回给用户网络搜索平台的搜索前端310。这里,可以不必将查询分析信息输出给用户(即无需输出显示到搜索前端310的搜索用户界面3100),而是返回到前端与暂存的搜索请求相结合(如:结合其中的查询词Q),激活或者触发(促使)搜索引擎3203进行搜索,即二者结合后,向搜索引擎3203提交查询,以便进行条件搜索。搜索请求从搜索前端310发送给搜索系统320,一方面转发到查询分析器3201进行分析以获得分析后的信息(模型、模型参数等);一方面还会继续将这些信息进行如图2所示的累积、计算和分析,以便准备更新key-value系统中的内容。比如,当当前的搜索请求被响应获得数据对象提供给用户后,用户若对数据对象发生操作则新的操作信息将被采集、收集、运算,更新模型参数,留待下次搜索时使用;同时,还会暂存原始的搜索请求在搜索前端310,等待查询分析器3201的返回的分析后的信息,以便将暂存的原始搜索请求(查询词Q)与得到的对应该查询词Q的模型、参数等进行结合,并提交给搜索引擎3203,执行请求的搜索。搜索引擎3203根据搜索请求中的查询词Q,执行搜索,并获得相应的一个或多个数据对象,作为待处理的搜索结果返回。
一个优选的搜索处理方式,具体地,搜索引擎3203会维护一个文档索引的形式。文档索引类似一本书籍后面附带的单词索引,对每个单词,给出了包含了这个单词的文档(d)的ID列表,能按照某个单词快速找到其对应的文档集合,如一个或多个数据对象的集合(商品的集合)。直接查询文档索引就能得到候选文档集合。由此,本申请中,对给定查询Q,搜索引擎3203可以先通过文档索引方式获取查询词Q下的候选文档集,即一个或多个数据对象的集合。确定的该集合可以作为待处理输出的搜索结果。
以网购商品为例:搜索系统320的查询分析器3201将搜索请求中的要查找的商品Q对应的价格模型(参数)等信息,返回到搜索前端310,搜索前端310将搜索请求和模型参数等提交给搜索引擎3203。执行对该商品Q对应的商品的搜索,并返回待处理的搜索结果。比如,搜索引擎3203维护的一个商品索引对给定商品名称Q,获取查询Q下的候选商品集合。
然后,使用所确定的概率分布模型,计算当前用户发送的搜索请求所对应的搜索结果中的每一数据对象在指定属性上的属性值对应的概率。
承上述优选的处理方式,具体地,搜索引擎3203会对该候选文档集的每个文档d(或者说:数据对象、商品)计算多个维度(特征)的特征值),如特征提取器1取特征值f1、特征提取器2取特征值f2、……、特征提取器n提取特征值fn。每个维度(特征)是根据需要在搜索平台预先设定的,用于进行搜索结果输出展示处理,如输出排序处理以按处理后的顺序进行展示。而每个维度特征值都可以当做是一个和查询词Q和文档(数据对象)d相关的函数映射。即
fi=fi(Q,d)
使用找到的该查询词Q在数据对象指定属性上的概率分布模型(即该模型参数),针对由查询词Q搜索到的每个数据对象d的指定属性上的属性值进行计算。该指定属性可以作为新增的影响待输出(候选)的一个或多个数据对象d输出展示顺序的维度。根据每个数据对象d的该属性上的属性值以及该模型参数,可以通过函数得到属性值概率即该维度的特征值,如通过对应模型参数的概率分布函数计算得到。
以网购商品为例:将商品的价格这一属性作为新增的处理待输出的搜索到的各个商品的维度(特征)。每个商品在价格这一维度上都有价格数值即属性值。利用与商品搜索的关键词Q对应的模型中各个模型参数,进行计算,如公式⑧,得到特征值fprice。
…⑧
其中x表示当前商品d的价格,表示查询Q对应的双高斯价格模型参数。
在步骤S140,使用所述概率调整搜索结果中的数据对象的排序。可以使用至少所述概率调整当前用户的搜索请求对应的搜索结果中的数据对象的排序,进而按照该排序输出展示搜索结果中的数据对象。
经过搜索引擎3203搜索并返回的待处理的搜索结果中,通过模型参数与每个数据对象的指定属性上的属性值结合计算,获得了每个数据对象在该指定属性上的属性值的概率(参见步骤S130),则可以利用该概率进行排序处理(如:排序分运算),从而获得每个数据对象的排序分值S(score),再以该分值大小排序输出显示数据对象的先后次序。如通过搜索前端310的用户界面3100输出展示搜索结果给用户。而当用户对搜索结果中的数据对象进行操作,则可以由步骤S210中的采集操作,收集其当前搜索操作信息,并由步骤S220中的模型生成操作,更新当前查询词的概率分布模型,以待下次使用。
由此,可以基于查询词Q及其以往的模型参数,进一步对搜索结果输出处理实现调整或者说影响/改进,即影响输出的优先次序或结果显示的先后。在一定程度上,决定了更符合用户期望的某些结果能够优先排在前面输出给用户。可以由搜索引擎3203在输出结果处理过程中,调整其搜索结果排序逻辑而实现。
其中,调整搜索结果排序的逻辑可以根据排序分计算实现。同样参见图4。搜索结果排序逻辑可以采用例如公式⑦,将提取的多种维度特征(f1、f2、……fn)线性加权,得到一个数据对象在一个查询词Q下的排序分S(score),即分值。其中,n为自然数,α1,α2,…αn为每个特征对应的权重。
S=S(Q,d)=α1*f1+α2*f2+......+αn*fn…⑦
分值S为最终排序分,而f1,f2,…fn,分别为该查询词Q对应的数据对象的不同维度(特征)上的特征值,维度可以由搜索平台根据需要预先指定或设定,具有相应的特征值,如步骤S130所述指定属性(即维度特征)上的属性值概率(即特征值)。而特征对应的权重α1,α2,…αn,可以根据查询词Q、搜索平台等实际情形进行预先设置或获取,例如,通过线上A/Btest[2]得到。特征即维度都是由搜索平台根据需要预先设定的,具有相应的特征值(如指定属性上的属性值的概率)。
以网络商品搜索显示为例:查询词Q由多个单词组成,第1维特征可以是查询词Q在商品的文字描述里出现的次数,第2维特征可以是查询商品文字描述的长度,第3维特征可以是查询商品所属的类别和查询词所属类别的匹配程度,等等。
根据当前搜索请求中的查询词Q搜索的数据对象,按照其指定属性而调整搜索结果输出排序,即可以在搜索结果的排序环节(逻辑)中增加一种特征即由该指定属性作为一个新的维度特征,并获得与之相关的权重等,以影响排序分值,S=S(Q,d)=α1*f1+α2*f2+……+αn*fn+αnew*fnew,其中αnew和fnew分别是新增的特征权重和新增的特征,搜索结果的排序效果会因为新增的特征而改变。
以网购商品为例:搜索引擎的搜索逻辑完成根据价格模型参数,对根据商品名称Q搜索到的商品排序以显示输出给用户。该逻辑参见公式⑦。对候选集合的每个商品计算(即特征提取器获取)多个维度的特征值,然后把多个特征值线性加权,得到最终的排序分S。其中,f1,f2,…fn分别为该商品不同维度上特征值,α1,α2,…αn分别为对应的特征权重。商品的特征例如:销量,商品卖家的信誉度,查询Q和商品文字描述的文字相关度。并且,若要根据商品价格改变输出结果展示效果,则在搜索排序环节新增一种特征,即商品价格(指定的一属性作为维度特征),该特征的计算方式见公式⑧,即每个商品价格多少(属性值)的概率fnew=fprice作为特征值。商品价格特征对应的权重αnew通过线上A/Btest[2]得到。计算出每个商品的排序分S。
本申请还提供了一种数据搜索处理装置,如图5给出的该装置的一实施例示意图。在该装置500中,包括:
接收单元510,接收当前用户发出的搜索请求。具体如步骤S110的处理。
分析单元520,从接收单元510转发来的当前搜索请求,基于搜索请求中的查询词模型生成单元540生成的对应该查询词的概率分布模型中,获取该概率分布模型,并提供给搜索单元530。具体如步骤S120的处理。分析单元520包括:获取单元5203,从当前的搜索请求中获取查询词,具体如步骤S1201;确定单元5204,根据获取的查询词,找到对应存储的概率分布模型并提供给搜索单元530,具体如步骤S1202。
搜索单元530,根据来自分析单元520的模型和接收单元510的搜索请求,执行搜索,返回待处理的搜索结果,利用模型计算搜索结果中每个数据对象的指定属性上的属性值概率。具体如步骤S130。
输出单元540,根据该概率调整搜索结果的输出排序,以调整后计算的输出顺序将结果输出给用户。具体如步骤S140。
收集单元550,将通过搜索请求搜索到的一个或多个数据对象作为搜索结果展示输出给发出该请求的用户,用户会对数据对象进行操作,收集记录了根据用户对搜索结果的操作所产生的操作信息的日志,并且,存储收集到的一个或多个日志。具体如步骤S210。
模型生成单元560,周期性分析处理存储的日志,根据日志中涉及的历史操作信息,生成对应查询词的概率分布模型(模型参数集合),确定最优参数,与查询词对应地通过预定形式存储。具体如步骤S220。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (11)
1.一种数据搜索处理方法,其特征在于,包括:
接收当前用户发出的搜索请求以获取所述搜索请求中包含的查询词;
统计所述查询词对应的搜索结果中的数据对象上发生的历史操作信息;
选取所述数据对象的一项属性作为指定属性,根据所述历史操作信息中的查询词对应的数据对象在所述指定属性上的属性值,生成所述查询词对应的历史操作信息涉及的数据对象在所述指定属性上的属性值的概率分布模型;
利用所述概率分布模型,计算当前用户发出的搜索请求对应的搜索结果中的每一数据对象在指定属性上的属性值对应的概率;
使用所述概率调整搜索结果中的数据对象的输出排序。
2.根据权利要求1所述的方法,其特征在于,选取所述数据对象的一项属性作为指定属性,根据所述历史操作信息中的查询词对应的数据对象在所述指定属性上的属性值,生成所述查询词对应的历史操作信息涉及的数据对象在所述指定属性上的属性值的概率分布模型,包括:
周期性地对收集的所述历史操作信息,进行预处理,确定历史操作信息中的查询词以及对应的数据对象的指定属性上的属性值,并形成查询词与该查询词相应的历史操作信息涉及的数据对象在该指定属性上的属性值的预定格式记录;
根据预定格式记录中的属性值,利用概率分布模型拟合算法,生成与预定格式记录中的属性值概率分布模型,并以键值对方式存储该查询词和所述概率分布模型的对应关系。
3.根据权利要求1-2之一所述的方法,其特征在于,使用所述概率调整搜索结果中的数据对象的输出排序,包括:
以每个数据对象的所述概率作为排序逻辑的分值计算中的特征值,计算每个数据对象的排序分值,将搜索结果中的数据对象按照排序分值所指示的先后次序,显示输出到当前发出搜索请求的用户。
4.根据权利要求1所述的方法,其特征在于,所述历史操作信息包括用户操作涉及的数据对象对应的查询词及该数据对象在指定属性上的属性值。
5.根据权利要求4所述的方法,其特征在于,所述概率分布模型为双高斯概率模型,所述生成所述查询词对应的历史操作信息涉及的数据对象在所述指定属性上的属性值的概率分布模型包括:利用所述查询词对应的历史操作信息对所述概率分布模型进行拟合,确定所述概率分布模型的模型参数。
6.一种数据搜索处理系统,其特征在于,包括:搜索前端、日志收集器、数据分析平台、数据存储系统、搜索引擎;其中,
搜索前端接收当前用户发出的搜索请求以获取所述搜索请求中包含的查询词,并转发当前用户发出的搜索请求给查询分析器;
日志收集器,收集用户在查询词对应的搜索结果中的数据对象上的历史操作信息;
数据分析平台,以数据对象的一项属性作为指定属性,利用存储的每一查询词对应的搜索结果中的数据对象上的历史操作信息中,所述查询词对应的数据对象在所述指定属性上的属性值,生成与该查询词对应的历史操作信息涉及的数据对象在该指定属性上的属性值的概率分布模型;
搜索引擎,根据该当前用户发出的搜索请求执行对应获取的查询词的搜索,并利用该概率分布模型,计算该查询词的搜索结果中的每一数据对象在指定属性上的属性值对应的概率,并使用所述概率调整搜索结果中的数据对象的输出排序。
7.根据权利要求6所述的系统,其特征在于,数据分析平台还包括:
周期性地对收集的所述历史操作信息,进行预处理,确定历史操作信息中的查询词以及对应的数据对象的指定属性上的属性值,并形成查询词与相应的所有该指定属性上的属性值的预定格式记录;
根据预定格式记录中的属性值,利用概率分布模型拟合算法,生成与预定格式记录中的查询词对应的概率分布模型,并以键值对方式存储查询词和对应的概率分布模型。
8.根据权利要求6-7任一所述的系统,其特征在于,搜索引擎还包括:
以每个数据对象的所述概率作为排序逻辑的分值计算中的特征值,计算每个数据对象的排序分值,将搜索结果中的数据对象按照排序分值所指示的先后次序,通过搜索前端的用户界面,显示输出给当前发出搜索请求的用户。
9.根据权利要求6所述的系统,其特征在于,所述历史操作信息包括用户操作涉及的数据对象对应的查询词及该数据对象在指定属性上的属性值。
10.根据权利要求9所述的系统,其特征在于,所述概率分布模型为双高斯概率模型,所述生成所述查询词对应的历史操作信息涉及的数据对象在所述指定属性上的属性值的概率分布模型包括:利用所述查询词对应的历史操作信息对所述概率分布模型进行拟合,确定所述概率分布模型的模型参数。
11.一种数据搜索处理方法,其特征在于,包括:
收集用户在各查询词对应的搜索结果中的数据对象上的历史操作信息;
以数据对象的一项属性作为指定属性,分别利用每一查询词对应的搜索结果中的数据对象上的历史操作信息建立所述数据对象在指定属性上的属性值的概率分布模型,并记录该查询 词与概率分布模型对应关系;
接收当前用户发出的搜索请求,获取所述搜索请求中包含的查询词;
根据记录的查询词与概率分布模型的对应关系,确定所述搜索请求中的查询词对应的概率分布模型;
使用所确定的概率分布模型计算所述搜索请求对应的搜索结果中的每一数据对象在指定属性上的属性值对应的概率;
使用至少所述概率调整所述搜索请求对应的搜索结果中的数据对象的排序。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310674206.8A CN104699725B (zh) | 2013-12-10 | 2013-12-10 | 数据搜索处理方法及系统 |
TW103110116A TW201523302A (zh) | 2013-12-10 | 2014-03-18 | 資料搜尋處理方法及系統 |
PCT/US2014/069335 WO2015089065A1 (en) | 2013-12-10 | 2014-12-09 | Data search processing |
US14/564,959 US20150161139A1 (en) | 2013-12-10 | 2014-12-09 | Data search processing |
HK15107286.1A HK1206833A1 (zh) | 2013-12-10 | 2015-07-30 | 數據搜索處理方法及系統 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310674206.8A CN104699725B (zh) | 2013-12-10 | 2013-12-10 | 数据搜索处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104699725A CN104699725A (zh) | 2015-06-10 |
CN104699725B true CN104699725B (zh) | 2018-10-09 |
Family
ID=53271362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310674206.8A Active CN104699725B (zh) | 2013-12-10 | 2013-12-10 | 数据搜索处理方法及系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20150161139A1 (zh) |
CN (1) | CN104699725B (zh) |
HK (1) | HK1206833A1 (zh) |
TW (1) | TW201523302A (zh) |
WO (1) | WO2015089065A1 (zh) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6912528B2 (en) * | 2000-01-18 | 2005-06-28 | Gregg S. Homer | Rechargeable media distribution and play system |
US9626445B2 (en) * | 2015-06-12 | 2017-04-18 | Bublup, Inc. | Search results modulator |
US10878492B2 (en) | 2015-05-08 | 2020-12-29 | Teachers Insurance & Annuity Association Of America | Providing search-directed user interface for online banking applications |
TWI567577B (zh) * | 2015-11-05 | 2017-01-21 | 英業達股份有限公司 | 解決方案搜尋系統之操作方法及解決方案搜尋系統 |
RU2632148C2 (ru) | 2015-12-28 | 2017-10-02 | Общество С Ограниченной Ответственностью "Яндекс" | Система и способ ранжирования результатов поиска |
CN105787075A (zh) * | 2016-03-02 | 2016-07-20 | 百度在线网络技术(北京)有限公司 | 一种基于数据挖掘的事件预测方法和装置 |
CN107229640A (zh) * | 2016-03-24 | 2017-10-03 | 阿里巴巴集团控股有限公司 | 相似度处理方法、对象筛选方法和装置 |
CN110020101B (zh) * | 2017-08-25 | 2023-09-12 | 淘宝(中国)软件有限公司 | 实时搜索场景的还原方法、装置和系统 |
CN110020211B (zh) * | 2017-10-23 | 2021-08-17 | 北京京东尚科信息技术有限公司 | 用户属性影响力的评估方法和装置 |
CN109814936A (zh) * | 2017-11-20 | 2019-05-28 | 广东欧珀移动通信有限公司 | 应用程序预测模型建立、预加载方法、装置、介质及终端 |
CN110020157A (zh) * | 2017-12-08 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 数据处理方法、系统、计算机系统及存储介质 |
CN110110267A (zh) * | 2018-01-25 | 2019-08-09 | 北京京东尚科信息技术有限公司 | 提取对象特征、搜索对象的方法和装置 |
US11074243B2 (en) * | 2018-03-14 | 2021-07-27 | Microsoft Technology Licensing, Llc | Applying dynamic default values to fields in data objects |
CN110703968A (zh) * | 2018-07-09 | 2020-01-17 | 北京搜狗科技发展有限公司 | 一种搜索方法及相关装置 |
CN109191572B (zh) * | 2018-07-27 | 2022-05-06 | 中国地质大学(武汉) | 一种基于真值发现的三维地质模型寻优方法 |
US11023509B1 (en) * | 2018-12-19 | 2021-06-01 | Soundhound, Inc. | Systems and methods for granularizing compound natural language queries |
CN109857773B (zh) * | 2018-12-21 | 2022-03-01 | 厦门市美亚柏科信息股份有限公司 | 一种自动分析服务号码的方法和装置 |
CN111435514B (zh) * | 2019-01-15 | 2024-04-09 | 北京京东尚科信息技术有限公司 | 特征计算方法和装置、排序方法和设备、存储介质 |
CN110309110A (zh) * | 2019-05-24 | 2019-10-08 | 深圳壹账通智能科技有限公司 | 一种大数据日志监控方法及装置、存储介质和计算机设备 |
CN110377830B (zh) * | 2019-07-25 | 2022-03-29 | 拉扎斯网络科技(上海)有限公司 | 检索方法、装置、可读存储介质和电子设备 |
CN112700296B (zh) * | 2019-10-23 | 2022-05-27 | 阿里巴巴集团控股有限公司 | 业务对象搜索/属性确定方法、装置、系统及设备 |
CN110955814A (zh) * | 2019-10-29 | 2020-04-03 | 哈尔滨师范大学 | 一种大数据智能搜索方法 |
US11263260B2 (en) * | 2020-03-31 | 2022-03-01 | Snap Inc. | Searching and ranking modifiable videos in multimedia messaging application |
CN112148838B (zh) * | 2020-09-23 | 2024-04-19 | 北京中电普华信息技术有限公司 | 一种业务源对象提取方法与装置 |
US11947440B2 (en) * | 2020-11-10 | 2024-04-02 | Salesforce, Inc. | Management of search features via declarative metadata |
US11488223B1 (en) * | 2021-03-30 | 2022-11-01 | Amazon Technologies, Inc. | Modification of user interface based on dynamically-ranked product attributes |
CN114647636B (zh) * | 2022-05-13 | 2022-08-12 | 杭银消费金融股份有限公司 | 大数据异常检测方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6006218A (en) * | 1997-02-28 | 1999-12-21 | Microsoft | Methods and apparatus for retrieving and/or processing retrieved information as a function of a user's estimated knowledge |
CN101256596A (zh) * | 2008-03-28 | 2008-09-03 | 北京搜狗科技发展有限公司 | 一种站内导航的方法及系统 |
CN102622417A (zh) * | 2012-02-20 | 2012-08-01 | 北京搜狗信息服务有限公司 | 对信息记录进行排序的方法和装置 |
CN103034718A (zh) * | 2012-12-12 | 2013-04-10 | 北京博雅立方科技有限公司 | 一种目标数据排序方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US234972A (en) * | 1880-11-30 | William ennis | ||
US88562A (en) * | 1869-04-06 | Improvement in neck-yokes | ||
US7363308B2 (en) * | 2000-12-28 | 2008-04-22 | Fair Isaac Corporation | System and method for obtaining keyword descriptions of records from a large database |
US7577655B2 (en) * | 2003-09-16 | 2009-08-18 | Google Inc. | Systems and methods for improving the ranking of news articles |
US7689585B2 (en) * | 2004-04-15 | 2010-03-30 | Microsoft Corporation | Reinforced clustering of multi-type data objects for search term suggestion |
EP2359276A4 (en) * | 2008-12-01 | 2013-01-23 | Topsy Labs Inc | ORDERING AND SELECTION OF UNITS PER CALCULATED REPUTATION OR INFLUENCES |
-
2013
- 2013-12-10 CN CN201310674206.8A patent/CN104699725B/zh active Active
-
2014
- 2014-03-18 TW TW103110116A patent/TW201523302A/zh unknown
- 2014-12-09 US US14/564,959 patent/US20150161139A1/en not_active Abandoned
- 2014-12-09 WO PCT/US2014/069335 patent/WO2015089065A1/en active Application Filing
-
2015
- 2015-07-30 HK HK15107286.1A patent/HK1206833A1/zh unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6006218A (en) * | 1997-02-28 | 1999-12-21 | Microsoft | Methods and apparatus for retrieving and/or processing retrieved information as a function of a user's estimated knowledge |
CN101256596A (zh) * | 2008-03-28 | 2008-09-03 | 北京搜狗科技发展有限公司 | 一种站内导航的方法及系统 |
CN102622417A (zh) * | 2012-02-20 | 2012-08-01 | 北京搜狗信息服务有限公司 | 对信息记录进行排序的方法和装置 |
CN103034718A (zh) * | 2012-12-12 | 2013-04-10 | 北京博雅立方科技有限公司 | 一种目标数据排序方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
HK1206833A1 (zh) | 2016-01-15 |
WO2015089065A1 (en) | 2015-06-18 |
US20150161139A1 (en) | 2015-06-11 |
CN104699725A (zh) | 2015-06-10 |
TW201523302A (zh) | 2015-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104699725B (zh) | 数据搜索处理方法及系统 | |
US11710054B2 (en) | Information recommendation method, apparatus, and server based on user data in an online forum | |
US11354584B2 (en) | Systems and methods for trend aware self-correcting entity relationship extraction | |
CN102722481B (zh) | 一种用户收藏夹数据的处理方法及搜索方法 | |
WO2017121251A1 (zh) | 一种信息推送方法及装置 | |
JP5860456B2 (ja) | 検索語重み付けの決定および利用 | |
US10049139B2 (en) | Diversity within search results | |
JP5693746B2 (ja) | 製品情報のランク付け | |
TWI512653B (zh) | Information providing method and apparatus, method and apparatus for determining the degree of comprehensive relevance | |
CN107563757B (zh) | 数据风险识别的方法及装置 | |
CN102236851B (zh) | 基于用户赋权的多维信用体系实时计算的方法及系统 | |
TW201812689A (zh) | 惡意地址/惡意訂單的識別系統、方法及裝置 | |
WO2019149145A1 (zh) | 投诉举报类别的排序方法和装置 | |
CN109816482B (zh) | 电商平台的知识图谱构建方法、装置、设备及存储介质 | |
CN110473040B (zh) | 一种产品推荐方法及装置,电子设备 | |
CN110197404B (zh) | 可降低流行度偏差的个性化长尾商品推荐方法和系统 | |
CN103064852A (zh) | 网站统计信息处理方法及系统 | |
US20200151656A1 (en) | Information operation | |
US20230053063A1 (en) | Statistics-aware sub-graph query engine | |
Zhang et al. | The approaches to contextual transaction trust computation in e‐Commerce environments | |
CN109426998A (zh) | 信息推送方法和装置 | |
US9779142B2 (en) | Methods and systems to estimate query responses based on data set sketches | |
CN115587875A (zh) | 基于均衡感知注意力网络的纺织品电商推荐方法及装置 | |
CN115391677A (zh) | 基于负样本的协同推荐方法、装置、终端及可读存储介质 | |
CN104077366B (zh) | 一种在网络设备中用于确定特征信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1206833 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |