CN104778176A - 一种数据搜索处理方法及装置 - Google Patents
一种数据搜索处理方法及装置 Download PDFInfo
- Publication number
- CN104778176A CN104778176A CN201410014308.1A CN201410014308A CN104778176A CN 104778176 A CN104778176 A CN 104778176A CN 201410014308 A CN201410014308 A CN 201410014308A CN 104778176 A CN104778176 A CN 104778176A
- Authority
- CN
- China
- Prior art keywords
- search
- characteristic
- intention type
- data
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种数据搜索处理方法及装置,该方法包括:根据历史搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据,进行机器学习模型的训练,建立意图类型预测模型;根据用户当前搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据使用所述的意图类型预测模型确定用户当前搜索行为的意图类型;以及根据确定的意图类型,调整与数据搜索处理结果相关的排序因子的权重。根据本申请,能够借助近期行为特征数据、查询词的特征数据和用户个人特征数据,分析各特征数据与最终搜索意图之间的关系,能更准确地对用户的意图类型进行确定,并用该意图来指导搜索结果的排序。
Description
技术领域
本申请涉及互联网搜索处理领域,更具体地涉及一种数据搜索处理方法及装置。
背景技术
在搜索过程中,用户通常通过在查询框内输入查询词来表达需求。大多数情况下,由于用户最初在进行搜索时并未确定搜索目标的品类,因此,通常会先输入一个品类比较宽泛的查询词。之后,随着在搜索结果页看到大量的搜索结果,用户会进一步地从搜索结果的名称或者搜索结果的详情页的描述中获取信息,并根据这些信息来修改或者补充上一个查询词,以进行下一次搜索。例如,当用户输入的查询词序列是“外套->外套韩版->棉衣->棉衣加厚->羽绒服->羽绒服长款->羽绒服长款大毛领->羽绒服长款修身大毛领”时,用户的意图可能是希望通过搜索找到一件满意的冬装上衣,也可能是看看最近网上有没有什么新款或者优惠。此时,如果能了解用户的意图(购买或浏览),可以对搜索结果进行适当调整。比如,对于意图是“购买”的用户,可以展示更多的销量高、满意度高的商品;对于意图是“浏览”的用户,可以展示更多的用户可能感兴趣的商品(新品或者偏好商品)。然而,在搜索过程中,是否会发生购买是一种隐藏状态,系统能够观察到的只有用户的各种操作行为,其是否具有购买某一商品的意图很难获知。现有搜索技术中,采用查询词意图来判断用户意图类型,这是一种很直接的方式。这种方式利用历史数据中查询词所引导的后续行为以及各查询词在浏览网站期间(Session)出现的位置等信息对查询词的意图类型(如前例:购买意图)进行建模,然后离线计算出每个查询词的意图类型结果,形成静态词表。之后,在线实时判断用户行为意图时,加载该静态词表通过关键词查询即可。这种判断用户行为意图类型的方法无须借助实时分析系统,实现方式简单。
但是,由于各查询词的意图类型结果是在离线状态下计算出来的,没有考虑到对该查询词进行本次搜索动作的上下文(搜索前的其他行为信息),只考虑当前的查询词本身,这种方式所导致的结果是,相同的查询词所对应的意图类型是相同的。因此,这种方案不能体现出不同用户之间、同一用户在不同搜索上下文的情况下使用相同查询词的意图类型差异,导致对意图类型的预测不准确,进而导致提供给对应用户的数据搜索结果效率低、准确性差,搜索结果的排序不够人性化,降低了用户的搜索体验。
发明内容
本申请的主要目的在于,针对上述缺陷,提供数据搜索处理技术,以区分搜索过程中不同用户、同一用户在不同搜索上下文的情况下使用相同查询词的意图类型差异,从而更准确地确定用户意图,提升搜索结果准确性的问题。
根据本申请的第一方面,提供了一种数据搜索处理方法,其特征在于,包括:根据历史搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据,进行机器学习模型的训练,建立意图类型预测模型;根据用户当前搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据使用意图类型预测模型确定用户当前搜索行为的意图类型;以及根据确定的意图类型,调整与数据搜索处理结果相关的排序因子的权重。
根据本申请的第二方面,提供了一种数据搜索处理装置,其特征在于,包括:模型训练模块,用于根据历史搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据,进行机器学习模型的训练,建立意图类型预测模型;意图类型确定模块,用于根据用户当前搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据使用意图类型预测模型确定用户当前搜索行为的意图类型;以及调整模块,用于根据确定的意图类型,调整与数据搜索处理结果相关的排序因子的权重。
与现有技术相比,根据本申请的技术方案,能够在用户发生搜索操作时,结合用户的长期行为习惯以及近期行为等因素,比如:结合用户当前搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据等因素,更准确地对用户当前搜索的意图类型进行预测,从而避免在现有技术中不能体现出不同用户、同一用户在不同搜索上下文的情况下使用相同查询词的意图类型的差异而导致的对意图类型确定不准确等缺陷,进而使数据搜索结果的排序更加人性化,以提高用户的搜索体验。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请一个实施例的数据搜索处理方法的流程图;
图2是根据本申请的更详细实施例的数据搜索处理方法的流程图;以及
图3是根据本申请一个实施例的数据搜索处理装置的框图。
具体实施方式
本申请的主要思想在于,通过结合用户在当前搜索行为发生的时间点的近期行为特征数据、查询词的特征数据和用户个人特征数据来确定用户当前搜索行为的意图类型,并且根据确定的意图类型来调整与数据搜索处理结果相关的排序因子的权重。本方案借助近期行为特征数据、查询词的特征数据和用户个人特征数据,分析各特征数据与最终搜索意图之间的关系,能更准确地对用户的意图类型进行确定,并用该意图来指导搜索结果的排序,提供更准确的结果,使得搜索过程更个性化、人性化。
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为描述本申请的方案,下面将以数据搜索处理量巨大的且易理解的购物网络搜索为例,进行具体说明。
为了方便下文描述,先介绍部分术语解释。
用户意图:用户行为的目的。例如,在商品搜索中,从是否需要购买的角度定义分为购买和浏览(比如看看是否有优惠商品、了解时下最新潮流趋势等)。
对象详情页:介绍搜索到的数据对象的详细内容的页面,即展示每个数据对象具体内容的页面,内容为一系列的文本信息、图片信息和交互按钮等。
行为日志:用户在网站上的各种操作都会被记录下来作为用户的行为日志,比如:搜索、商品点击、浏览品类下的对象、查看搜索结果、在对象详情页上的操作(例如:购买/收藏/好评/中评/差评)以及这些行为的发生时间,等等。
浏览网站时间窗(Session):用户在浏览一个网站时,从进入网站到关闭网站所经过的这段时间。
转化率:评价搜索系统的一种基准指标。例如,在电子商务中,成交转化率就是评价购物搜索系统的一种基准指标,成交转化率=去重成交用户数/去重搜索用户数。
查询词意图:隐藏在输入查询词之后的用户行为的目的即用户意图,其可以通过用查询词的文本特征、统计特征和用户行为特征等特征数据建模,并在线下预测得到。
离散性属性:按照类别取值的属性,比如性别:男、女。
连续性属性:按照数值取值的属性,比如身高:160、165、167。
搜索的近期行为数据:该次搜索之前的预设的一段时间的行为数据。
如果该次搜索是发生在过去的时间内,称为历史搜索,对应的近期行为数据称为历史搜索的近期行为数据;如果该次搜索正在发生,称为实时搜索,对应的近期行为数据称为当前(实时)搜索的近期行为数据。
历史搜索的近期行为数据:在过去的特定时间段内的行为记录中,在该次历史搜索之前较近的一段时间内的行为数据。例如,在过去1天到过去30天内的历史行为记录数据中,该次历史搜索行为之前半小时内的行为数据被称为该次历史搜索的近期行为数据。
历史搜索的近期行为特征数据:根据历史搜索的近期行为数据得到的特征数据(例如下面表1中所示的特征数据),该类特征是相对该次历史搜索来定义的。
当前(实时)搜索的近期行为数据:在当前正在发生的搜索行为之前较近的一段时间内的行为数据。例如,当前时刻正在发生的搜索行为之前半小时到当前时刻之间的行为数据被称为当前(实时)搜索的近期行为数据。
当前(实时)搜索的近期行为特征数据:根据当前(实时)搜索的近期行为数据得到的特征数据,相对当前搜索计算的特征。
查询词的历史统计特征数据:通过对历史数据的统计分析得到的与查询词相关的特征数据。
查询词的特征数据:包括查询词的历史统计特征、以及查询词与近期搜索过的查询词的关系特征。
用户个人特征数据:与用户相关的特征数据,例如,用户等级、用户性别等。
下面,以购物网络搜索为例,对每次搜索的持续时间和每个商品点击的停留时间等行为概念进行说明。
其中,每次搜索的持续时间可以用该次搜索与其下一次搜索之间的时间间隔表示;每个商品点击的停留时间可以用该次商品点击与其下一次对不同商品的商品点击或搜索之间的时间间隔表示;详情页点击的停留时间可以用最后一次详情页点击与该商品的商品点击之间的时间间隔表示。商品点击可以是搜索结果页的商品点击、广告商品点击、购物车或者收藏夹内商品的点击或导购网站商品的商品点击等。这样,可以将行为特征数据的计算扩展到单纯搜索以外的范畴,从而更有效地利用用户行为。
参考图1,图1是根据本申请一个实施例的数据搜索处理方法100的流程图。如图1所示,方法100开始于步骤101。
在步骤101,根据历史搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据,进行机器学习模型的训练,建立意图类型预测模型。
该意图类型预测模型的训练,具体可以以某一个类型的意图为目标,根据前述三类特征数据进行。三类特征数据,即搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据。
如前面名词解释中所述,历史搜索的近期行为数据是指在过去的特定时间段内的行为记录中,针对每次搜索,在其发生之前较近的一段时间内的行为数据。例如,在过去1天到过去30天内的历史行为记录数据中,每次搜索行为之前半小时内的行为数据。历史搜索的近期行为特征数据是指根据历史搜索近期行为数据得到的特征数据。以用户网络购物的过程为例:可以提取过去一个月内的搜索行为记录,其中,每次搜索行为之前半小时内的行为数据作为该次搜索的近期行为数据,经过计算,得到每次历史搜索的近期行为特征数据。搜索的近期行为特征主要包括如表1所示的特征:
表1:
查询词的特征数据,是根据过去较长一段时间(历史远期行为记录数据,如过去半年或一年内)统计出来的关于该查询词的历史使用情况的相关数据。如:该查询词涉及的数据对象(例如商品)所属的分类、用户通过该查询词搜索得到数据对象后对数据对象的行为统计、及该查询词与用户上一次使用的查询词之间的文本相关性等。
所述查询词与近期搜索行为使用过的查询词的关系特征包括:查询词近期是否被用户在搜索中使用过,该查询词与用户上一次搜索使用的查询词的文本关系,与用户上一次搜索使用的查询词涉及的数据对象所属的类目和/或行业的相关性。
以用户网络购物的查询词搜索为例:与当前搜索用户使用的查询词的特征数据可以包括如表2所示的特征:前三个为统计特征,后三个为关系特征。
表2:
用户个人特征数据,是与用户个人信息相关的各种数据。以网络购物的用户为例:与用户个人信息相关的用户个人特征数据可以包括用户发生了指定行为的时间在用户有操作行为的时间中的比重、用户性别和/或用户账户的等级等,比如表3所示的特征数据:
表3:
可以对上述表1、表2和表3中的特征数据进行离散化处理,并将处理后的数据作为每次搜索所产生样本的样本特征,将每次搜索与下一次搜索之间是否有购买作为样本目标(负例表示未购买,正例表示有购买),进行模型训练。
以用户网络购物搜索为例,对用户来说,若存在两类意图,即一类是“购买”、一类是“浏览”。如果某次搜索开始到下次搜索之前,用户行为数据中的“成交”代表用户发生了购买行为,用户在该次搜索中的意图为“购买”,将该次搜索及对应的用户行为数据作为“购买”的正例样本。如果某次搜索开始到下次搜索之前,用户未发生购买的行为,则用户在该次搜索中的意图不是“购买”而是“浏览”,可以将该次搜索及对应的用户行为数据作为“购买”的负例样本。优选地,基于逻辑回归模型对这些样本进行意图类型预测模型训练,可以确定意图类型预测模型,即,得到模型参数即各特征的权重。
至此,完成了模型训练的过程。该模型训练的过程通过线下用户行为记录模拟线上用户行为操作,获取各类特征数据,并且通过模型训练,获取各特征权重。
在步骤102,根据用户当前搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据使用所述意图类型预测模型,确定用户当前搜索行为的意图类型。
具体而言,在经过步骤101,离线获得各特征的权重(即确定所述意图类型预测模型)后,可以通过计算当前搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据,在线计算用户实时搜索行为的意图的类型。上述三部分特征数据的具体计算方式与步骤101中离线计算待训练的三部分特征数据的方法类似。
通过对得到的当前搜索(即实时的搜索行为)的近期行为特征数据、查询词的特征数据和用户个人特征数据进行与步骤101相同的离散化处理,可以得到上述特征的取值。
将各特征的取值代入所述意图类型预测模型,将根据所述意图类型预测模型得到的计算结果与预设值的比较,以确定意图类型。
在步骤103,根据确定的意图类型,调整与数据搜索处理结果相关的排序因子的权重。
具体而言,使用确定的用户当前搜索行为的意图类型调整依据当前查询词进行搜索的处理结果的排序。意图类型确定后,可以根据意图类型调整与数据搜索处理结果相关的排序因子的权重,从而对依据查询词搜索到的结果进行排序计算,调整相应的搜索结果输出次序。
本申请的方法通过离线模拟计算历史搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据,进行机器学习模型的训练,建立意图类型预测模型,在线计算当前搜索的近期行为特征数据,并且与查询词的特征数据和用户个人特征数据相结合,基于训练确定的意图类型预测模型,确定当前搜索的意图类型,从而调整与数据搜索处理结果相关的排序因子的权重。该方法100相对于现有技术,考虑了搜索之前的近期行为对本次搜索的影响,并且同时结合查询词的特征数据和用户个人特征数据等因素,对用户的意图类型进行预测更准确,数据搜索处理结果的顺序更人性化。
图2是根据本申请的更详细实施例的数据搜索处理方法的流程图。如图2所示,方法200开始于步骤201。
首先,在步骤201,滤除干扰样本。
具体而言,这个过程属于训练数据的预处理。在这个过程中,由于从例如日志文件所获取的历史行为记录,可能包括不同类型用户的一段时间内的历史行为数据,而为了统计分析与所需类型的用户行为特征数据,可以对获取的日志数据进行过滤,排除掉不需要的用户类型的行为数据即干扰样本,从而使训练样本中仅包含需要的用户类型的行为特征数据。
例如,在网购领域,存在卖家和买家,卖家的行为与买家差异较大,会造成干扰,所以可以去掉卖家的搜索样本数据。
之后,进入步骤202,滤除搜索发生时刻到之前指定时间内行为数量小于指定阈值的样本。
在模型训练的过程中,需要大量的样本进行模型训练。每个用户的每次搜索行为会产生一个样本,该样本中包含了由三部分特征数据(搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据)组成的样本特征和一个样本目标。如图1中步骤101中所描述的,这三部分特征数据分别为:搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据。其中,搜索的近期行为特征数据是以每次搜索之前一段时间内的行为为计算基础的,为了使训练出来的模型更加准确地反映出用户在相邻两次搜索之间的行为特征,可以滤除掉当前搜索发生时刻到之前指定时间内行为数量小于指定阈值的样本,以提高样本的质量和模型训练的质量。
根据本申请的一个实施例,可以滤除当前搜索发生时刻到之前指定时间内行为数量小于等于10个行为的样本。
需要指出的是,由于当前搜索发生时刻到之前指定时间内的行为数量较少时,样本中的特征数据的取值变动将会较大,此时可以使用现有技术的查询词意图来确定用户的类型意图。
在步骤203,对历史搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据进行离散化处理。
经过步骤201和步骤202,对待训练样本进行预处理后,可以对预处理后所得到的训练样本进行离散化处理。具体来说,首先,对离散性属性的取值进行不重复的编号。例如,以用户网络购物搜索为例,离散性数据,性别:男/女,可以将“男”编号为1,“女”编号为2。对连续性数据可以先进行离散化处理,即按照等样本个数分段,然后对每个取值进行不重复的编号。例如,在对上例中的性别进行编号后,当需要对取值范围是0-100的连续性数据进行编号时,可以先按照等样本个数分成四段,例如分段结果为1-10,10-30,30-60,60-100;再进行编号,数据取值为10则编号为3,取值为70则编号为6,这里是在性别的编号基础上累加。以此类推,完成对所有属性的取值的编号处理。
连续属性离散化的原因是:某属性的取值可能与目标有不同的函数关系,而离散化之后得到的子取值范围和目标有相同的函数关系的可能性更高,即连续性数据整体上可能非线性,但在局部上线性的可能性更高。以促销为例,某件商品,买一件200元,买两件或三件商品每件180元,买四件及四件以上每件150元。可见,数量与总价的关系是非线性的,但在局部上是线性的。(逻辑回归算法是线性函数的变换,在整体上可能非线性,局部线性的可能性更高。)
例如,用户在网上购物过程中,以购买作为目标(例如,对发生了“购买”的用户行为样本对应的目标值设为“1”,对未发生“购买”的用户行为样本对应的目标值设为“0”),样本经过上述离散化处理和编号处理之后得到的样本集合大致如下表4所示:
表4:
在上述样本集合中,每行代表一个样本;每行的第一列是目标值(0或1),从第二列起为特征集合,并且每个特征的特征值已经转换成编号(每个样本的每个特征取值只会对应一个编号),这里仅显示出部分样本的部分特征,省略若干行和若干列。在特征集合中,可以根据每个特征的多个特征值的取值范围和编号范围不重复(离散化)的原则,对每列特征值在离散范围内进行编号。其中,第一个特征对应第二列,在0-4范围内编号;第二个特征对应第三列,在5-9范围内编号;第三个特征对应第四列,在10-11范围内编号;第四个特征对应第五列,在12-19内编号;第五个特征对应第六列,在20-89范围内编号。离散化的过程要保证任意两个特征的编号范围不重复,即每列数据的范围都是没有交集的。
之后,进入步骤204,基于上述经过离散化处理的样本数据,进行机器学习模型的训练。
例如,将以上样本集合作为输入,设定相关参数,在分布式计算平台利用logistic regression(逻辑回归)模型进行训练,确定意图类型预测模型,该模型的输出格式如下表5所示(第一列是特征编号,第二列是特征权重):
表5:
至此,便得到了意图类型预测模型,即得到了各特征权重。
在步骤205,对当前搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据组合形成的待预测样本进行离散化处理。
该步骤属于线上处理步骤,其中,对当前搜索的近期行为特征数据进行计算、查询词特征数据和用户个人特征数据的获取以及对其进行离散化处理与步骤203中训练样本的生成过程相同。在此不再赘述。
之后,进入步骤206,基于上述经过离散化处理后所得到的待预测样本特征,查询相应的特征权重。具体来说,每个经过离散化的样本会对应一系列的特征编号,可以从模型文件中查询每个特征的权重。
在步骤207,根据查询到的特征权重计算得出意图类型为第一类型的概率。
具体而言,可以将查询到的权重求和(作为“z”)之后再进行逻辑变换,如公式(1),得到的数值即为样本为正例(第一类型)的概率。
在步骤208,对步骤207中得到的概率是否大于或等于预设值进行判断。当该概率大于或等于预设值时,进入步骤209。反之,进入步骤210。其中,预设值可以在0到1之间任意设定。
在步骤209,确定意图类型为第一类型。例如,用户在网络购物过程中,当预设值为0.5时,如果该概率大于或等于0.5,可以将用户的意图类型确定为购买。
在步骤210,确定意图类型为第二类型。例如,用户在网络购物过程中,当预设值为0.5时,如果该概率小于0.5,可以将用户的意图类型确定为浏览。
在步骤211,当确定意图类型为第一类型时,增加对应意图类型的与转化率相关联的排序因子的权重,从而调整搜索结果的输出次序。
例如,前述网络购物搜索例子中,当确定用户的意图类型为购买时,可以在原有基础上,增加与成交转化率相关联的排序因子的取值,从而调整搜索结果的输出次序。例如,将与成交转化率相关联的排序因子权重取值从1调整为2。
在步骤212,当确定意图类型为第二类型时,增加对应意图类型的与扩展多样性相关联的排序因子的权重,从而调整搜索结果的输出次序。
例如,上例中,当确定用户的意图类型为浏览时,可以在原有基础上,增加与扩展多样性相关联的排序因子权重的取值,从而调整搜索结果的输出次序。例如,将与扩展多样性相关联的排序因子权重的取值从1调整为2。
下面以网络购物中搜索查询词序列“外套->外套韩版->棉衣->羽绒服->羽绒服”为例,说明意图预测模型训练和在线意图类型预测过程。
表6为用户在过去一段时间内进行网络购物过程中的行为特征数据。在表6中,行为类型、查询词、商品标题、商品类目可以从日志文件中得到;成交转化率的特征值可以根据例如过去30天内的行为数据统计和计算得到(成交转化率=去重购买用户数/去重搜索用户数);Ctr(点击率)、second_ctr(虚拟点击率)、查询词个数、叶子类目是根据当前搜索之前例如半小时内的行为计算得到;用户性别可以从用户列表中查询得到。
表6:
上述行为记录中一共有5条“搜索”记录,因此,可以生成5条样本。由于每两次搜索之间都没有成交,所以所有样本的目标都是未成交(用0表示,下表7第一列);样本特征的计算参考前面的表格说明。
表7:
对每一列对应的特征值进行离散化,区间个数由人工定义(例如,性别有2种:男、女、未知,所以有三个取值),区间根据样本个数均分来划分,得到的区间及编号内容如下表8。
表8:
接下来,根据离散化后的信息对原始训练样本进行处理,得到的数据为最后的训练数据(样本),如下表9所示:
表9:
将上表中的样本作为输入,经过模型训练之后得到的模型大致如下表10:
表10:
特征编号 | 权重 |
0 | 0.4 |
1 | 0.6 |
2 | 0.7 |
3 | -0.3 |
4 | 0 |
5 | 0 |
6 | -0.2 |
7 | -0.1 |
8 | -0.03 |
9 | -0.0009 |
10 | 0.1 |
11 | 0 |
12 | 0 |
13 | -0.45 |
14 | -0.55 |
15 | -0.65 |
16 | -0.7 |
17 | 0 |
18 | 0 |
19 | 0 |
20 | 0 |
21 | 0 |
22 | 0 |
23 | -0.45 |
24 | -0.48 |
25 | -0.49 |
26 | 0 |
27 | -0.3 |
28 | 0 |
到此为止,模型的训练过程结束,下面说明如何利用训练得到的模型进行在线意图类型预测。
之后,通过实时日志收集系统可以获取用户最近的行为记录,如下表11所示:
表11:
其中,对于第二次搜索,即,当前最后一次搜索,是否会成交是未知的。这时,启动预测逻辑计算成交概率。计算的原始样本如表12:
表12:
离散化之后的样本为表13:
表13:
查寻模型文件计算成交概率,出现特征值编号:(2)+(7)+(9)+(14)+(24)+(28),对应权重之和:(0.7)+(-0.1)+(-0.0009)+(-0.55)+(-0.48)+(0)=-0.4309,用公式1计算成交概率:1/(1+exp(-(-0.4309))=1/(1+1.53864167809559)=0.3939
假设设定阈值为0.5,大于或等于该阈值时意图类型为购买,小于该阈值时意图类型为浏览。因此,本次搜索预测的成交概率0.3939小于0.5,判定本次搜索的意图类型为浏览。
确定意图类型后,可以影响本次搜索结果的排序。通常情况下,排序结果是通过对一些排序因子的线性加权而得到的。其中,排序因子中可以包括与成交转化相关的因子(factor1)和与丰富性相关的因子(factor2)等各种因子,计算公式为w1*factor1+w2*factor2+……(w是权重,factor是因子得分)。假设w1=1、w2=1,当判定搜索的意图类型是浏览时,增大丰富性排序因子,例如可以将w2由1改成2;当意图类型是购买时,增大转化率因子,例如可以将w1由1改成2。(为了举例方便用比较少的行为来表示)
至此,描述了根据本申请的更详细实施例的数据搜索处理方法200的流程图。该方法200通过对待训练数据进行预处理,滤除了不需要的样本数据,并且,对方法100中的步骤进行详细说明。相对于方法100,方法200提供了更详细的实施方式,并且可以通过对待训练数据进行预处理,更准确地获得意图类型预测模型,从而提供更准确的数据搜索处理结果的输出次序。
图3是根据本申请一个实施例的数据搜索处理装置300的框图。
如图3所示,装置300可以包括模型训练模块301,用于根据历史搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据,进行机器学习模型的训练,建立意图类型预测模型,具体如步骤101的处理;意图类型确定模块302,用于根据用户当前搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据使用所述的意图类型预测模型确定用户当前搜索行为的意图类型。具体如步骤102的处理;以及调整模块303,用于根据确定的意图类型,调整与数据搜索处理结果相关的排序因子的权重,具体如步骤103的处理。
根据本申请的一个实施例,所述模型训练模块301可以包括:历史数据离散化子模块,用于对历史搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据进行离散化处理,具体如步骤203的处理;模型训练子模块,用于基于上述经过离散化处理的历史搜索近的期行为特征数据、查询词的特征数据和用户个人特征数据,进行机器学习模型的训练,具体如步骤204的处理。
根据本申请的一个实施例,模型训练模块301还可以包括:第一滤除子模块,用于干扰样本,具体如步骤201的处理;以及第二滤除子模块,用于滤除搜索发生时刻到之前指定时间内行为数量小于指定阈值的样本,具体如步骤202的处理。
根据本申请的一个实施例,所述意图类型确定模块302可以包括:当前数据离散化子模块,用于对用户当前搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据进行离散化处理,具体如步骤205的处理;特征权重查询子模块,用于基于上述经过离散化处理后的用户当前搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据,查询相应的特征权重,具体如步骤206的处理;以及意图类型确定子模块,用于根据查询到的特征权重,确定用户当前搜索行为的意图类型,具体如步骤207~步骤210。
根据本申请的一个实施例,所述意图类型确定子模块(未示出)可以包括:概率计算子模块,用于根据查询到的特征权重计算得出意图类型为第一类型的概率,具体如步骤207;类型确定子模块,用于判断得出的概率,具体如步骤208,当得出的概率大于或等于预设值时确定意图类型为第一类型,具体如步骤209,以及当得出的概率小于预设值时确定意图类型为第二类型,具体如步骤210。
根据本申请的一个实施例,所述调整模块303可以包括:排序因子调整子模块,用于根据意图类型,增加对应意图类型的与转化率相关联的排序因子的权重,或者增加对应意图类型的与扩展多样性相关联的排序因子的权重,以对依据查询词搜索到的结果进行排序计算,调整结果的输出次序,具体如步骤211、212。
由于本实施例的装置所实现的功能基本相应于前述图1所示的方法实施例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (12)
1.一种数据搜索处理方法,其特征在于,包括:
根据历史搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据,进行机器学习模型的训练,建立意图类型预测模型;
根据用户当前搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据使用所述的意图类型预测模型确定用户当前搜索行为的意图类型;以及
根据确定的意图类型,调整与数据搜索处理结果相关的排序因子的权重。
2.根据权利要求1所述的方法,其特征在于,根据历史搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据,进行机器学习模型的训练,建立意图类型预测模型,包括:
对历史搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据进行离散化处理;
基于上述经过离散化处理的历史搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据,进行机器学习模型的训练。
3.根据权利要求2所述的方法,其特征在于,在对历史搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据进行离散化处理的步骤之前,包括:
滤除干扰样本;以及
滤除搜索发生时刻到之前指定时间内行为数量小于指定阈值的样本。
4.根据权利要求1-3之一所述的方法,其特征在于,根据用户当前搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据,确定用户当前搜索行为的意图类型,包括:
对用户当前搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据进行离散化处理;
基于上述经过离散化处理后的用户当前搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据,查询相应的特征权重;以及
对查询到的特征权重计算,确定用户当前搜索行为的意图类型。
5.根据权利要求4所述的方法,其特征在于,根据查询到的特征权重,确定用户当前搜索行为的意图类型,进一步包括:
根据查询到的特征权重计算得出意图类型为第一类型的概率;
当得出的概率大于或等于预设值时,确定意图类型为第一类型,以及当得出的概率小于预设值时,确定意图类型为第二类型。
6.根据权利要求1-5之一所述的方法,其特征在于,根据确定的意图类型,调整与数据搜索处理结果相关的排序因子的权重,包括:
根据意图类型,增加对应意图类型的与转化率相关联的排序因子的权重或者增加对应意图类型的与扩展多样性相关联的排序因子的权重,以对依据查询词搜索到的结果进行排序计算,调整结果的输出次序。
7.一种数据搜索处理装置,其特征在于,包括:
模型训练模块,用于根据历史搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据,进行机器学习模型的训练,建立意图类型预测模型;
意图类型确定模块,用于根据用户当前搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据使用所述的意图类型预测模型确定用户当前搜索行为的意图类型;以及
调整模块,用于根据确定的意图类型,调整与数据搜索处理结果相关的排序因子的权重。
8.根据权利要求7所述的装置,其特征在于,所述模型训练模块包括:
历史数据离散化子模块,用于对历史搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据进行离散化处理;
模型训练子模块,用于基于上述经过离散化处理的历史搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据,进行机器学习模型的训练。
9.根据权利要求8所述的装置,其特征在于,模型训练模块还包括:
第一滤除子模块,用于滤除干扰样本;以及
第二滤除子模块,用于滤除搜索发生时刻到之前指定时间内行为数量小于指定阈值的样本。
10.根据权利要求7-9之一所述的装置,其特征在于,所述意图类型确定模块包括:
当前数据离散化子模块,用于对用户当前搜索近期行为特征数据、查询词的特征数据和用户个人特征数据进行离散化处理;
特征权重查询子模块,用于基于上述经过离散化处理后的用户当前搜索的近期行为特征数据、查询词的特征数据和用户个人特征数据,查询相应的特征权重;以及
意图类型确定子模块,用于根据查询到的特征权重,确定用户当前搜索行为的意图类型。
11.根据权利要求10所述的装置,其特征在于,所述意图类型确定子模块包括:
概率计算子模块,用于根据查询到的特征权重计算得出意图类型为第一类型的概率;
类型确定子模块,用于当得出的概率大于或等于预设值时,确定意图类型为第一类型,以及当得出的概率小于预设值时,确定意图类型为第二类型。
12.根据权利要求7-11之一所述的装置,其特征在于,所述调整模块包括:
排序因子调整子模块,用于根据意图类型,增加对应意图类型的与转化率相关联的排序因子的权重,或者增加对应意图类型的与扩展多样性相关联的排序因子的权重,以对依据查询词搜索到的结果进行排序计算,调整结果的输出次序。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410014308.1A CN104778176A (zh) | 2014-01-13 | 2014-01-13 | 一种数据搜索处理方法及装置 |
HK15108315.4A HK1207710A1 (zh) | 2014-01-13 | 2015-08-27 | 種數據搜索處理方法及裝置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410014308.1A CN104778176A (zh) | 2014-01-13 | 2014-01-13 | 一种数据搜索处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104778176A true CN104778176A (zh) | 2015-07-15 |
Family
ID=53619645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410014308.1A Pending CN104778176A (zh) | 2014-01-13 | 2014-01-13 | 一种数据搜索处理方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104778176A (zh) |
HK (1) | HK1207710A1 (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105302879A (zh) * | 2015-10-12 | 2016-02-03 | 百度在线网络技术(北京)有限公司 | 用于确定用户需求的方法与装置 |
CN106657008A (zh) * | 2016-11-21 | 2017-05-10 | 北海高创电子信息孵化器有限公司 | 一种用户上网行为研究方法 |
CN106776757A (zh) * | 2016-11-15 | 2017-05-31 | 中国银行股份有限公司 | 用户完成网银操作的指示方法及装置 |
CN106780273A (zh) * | 2016-12-30 | 2017-05-31 | 中国民航信息网络股份有限公司 | 旅客航班需求分析方法和系统 |
CN106874411A (zh) * | 2017-01-22 | 2017-06-20 | 网易(杭州)网络有限公司 | 一种表格的搜索方法及搜索平台 |
WO2017118333A1 (zh) * | 2016-01-08 | 2017-07-13 | 阿里巴巴集团控股有限公司 | 一种基于数据驱动预测用户问题的方法及装置 |
CN107066518A (zh) * | 2017-02-08 | 2017-08-18 | 阿里巴巴集团控股有限公司 | 数据处理方法及系统 |
CN107291840A (zh) * | 2017-05-31 | 2017-10-24 | 北京奇艺世纪科技有限公司 | 一种用户属性预测模型构建方法和装置 |
CN107341238A (zh) * | 2017-07-04 | 2017-11-10 | 北京京东尚科信息技术有限公司 | 数据处理方法及系统 |
CN107423298A (zh) * | 2016-05-24 | 2017-12-01 | 北京百度网讯科技有限公司 | 一种搜索方法和装置 |
CN107622409A (zh) * | 2016-07-15 | 2018-01-23 | 北京车慧互动广告有限公司 | 购车能力的预测方法和预测装置 |
CN107862027A (zh) * | 2017-10-31 | 2018-03-30 | 北京小度信息科技有限公司 | 检索意图识别方法、装置、电子设备及可读存储介质 |
WO2018059016A1 (zh) * | 2016-09-27 | 2018-04-05 | 第四范式(北京)技术有限公司 | 针对机器学习的特征处理方法及特征处理系统 |
CN107886243A (zh) * | 2017-11-10 | 2018-04-06 | 阿里巴巴集团控股有限公司 | 风险识别模型构建和风险识别方法、装置及设备 |
CN108009877A (zh) * | 2017-11-24 | 2018-05-08 | 阿里巴巴集团控股有限公司 | 信息挖掘方法及装置 |
CN108596434A (zh) * | 2018-03-23 | 2018-09-28 | 卫盈联信息技术(深圳)有限公司 | 欺诈检测和风险评估方法、系统、设备及存储介质 |
CN109196492A (zh) * | 2016-04-05 | 2019-01-11 | 谷歌有限责任公司 | 移动设备上搜索查询重写 |
CN109787881A (zh) * | 2018-12-26 | 2019-05-21 | 广州灵聚信息科技有限公司 | 一种具有预测功能的对话方法和装置 |
CN109858633A (zh) * | 2019-02-22 | 2019-06-07 | 中国工商银行股份有限公司 | 一种特征信息识别方法及系统 |
CN110020128A (zh) * | 2017-10-26 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种搜索结果排序方法及装置 |
CN110555096A (zh) * | 2018-06-01 | 2019-12-10 | 深圳狗尾草智能科技有限公司 | 用户意图识别方法、系统、终端及介质 |
CN110659943A (zh) * | 2019-09-27 | 2020-01-07 | 上海淇玥信息技术有限公司 | 基于用户结构特征调整投放渠道的方法、装置和电子设备 |
CN111159552A (zh) * | 2019-12-30 | 2020-05-15 | 北京每日优鲜电子商务有限公司 | 商品搜索方法、装置、服务器和存储介质 |
CN111324805A (zh) * | 2018-12-13 | 2020-06-23 | 北京搜狗科技发展有限公司 | 查询意图确定方法及装置、搜索方法及搜索引擎 |
CN111783452A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 模型训练方法、信息处理方法、装置、设备及存储介质 |
CN112328891A (zh) * | 2020-11-24 | 2021-02-05 | 北京百度网讯科技有限公司 | 训练搜索模型的方法、搜索目标对象的方法及其装置 |
CN112534422A (zh) * | 2018-08-22 | 2021-03-19 | 深圳市欢太科技有限公司 | 一种图像处理方法、装置以及计算机存储介质 |
CN113343028A (zh) * | 2021-05-31 | 2021-09-03 | 北京达佳互联信息技术有限公司 | 意图确定模型的训练方法和装置 |
CN113761139A (zh) * | 2020-08-10 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种意图预判的方法和装置 |
TWI771284B (zh) * | 2017-01-23 | 2022-07-21 | 香港商阿里巴巴集團服務有限公司 | 基於資料驅動預測使用者問題的方法及裝置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083334B (zh) * | 2018-01-25 | 2023-06-20 | 百融至信(北京)科技有限公司 | 模型上线的方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101216825A (zh) * | 2007-12-29 | 2008-07-09 | 朱廷劭 | 标引关键词提取/预测方法、在线广告推荐方法和装置 |
CN102314438A (zh) * | 2010-06-30 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 根据用户浏览的场景切换应用场景模式的方法及设备 |
CN102456054A (zh) * | 2010-10-28 | 2012-05-16 | 腾讯科技(深圳)有限公司 | 一种搜索方法及系统 |
US20120124037A1 (en) * | 2010-11-17 | 2012-05-17 | Electronics And Telecommunications Research Institute | Multimedia data searching method and apparatus and pattern recognition method |
CN102779193A (zh) * | 2012-07-16 | 2012-11-14 | 哈尔滨工业大学 | 自适应个性化信息检索系统及方法 |
CN103218719A (zh) * | 2012-01-19 | 2013-07-24 | 阿里巴巴集团控股有限公司 | 一种电子商务网站导航方法及系统 |
CN103412882A (zh) * | 2013-07-18 | 2013-11-27 | 百度在线网络技术(北京)有限公司 | 一种识别消费意图的方法及装置 |
-
2014
- 2014-01-13 CN CN201410014308.1A patent/CN104778176A/zh active Pending
-
2015
- 2015-08-27 HK HK15108315.4A patent/HK1207710A1/zh unknown
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101216825A (zh) * | 2007-12-29 | 2008-07-09 | 朱廷劭 | 标引关键词提取/预测方法、在线广告推荐方法和装置 |
CN102314438A (zh) * | 2010-06-30 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 根据用户浏览的场景切换应用场景模式的方法及设备 |
CN102456054A (zh) * | 2010-10-28 | 2012-05-16 | 腾讯科技(深圳)有限公司 | 一种搜索方法及系统 |
US20120124037A1 (en) * | 2010-11-17 | 2012-05-17 | Electronics And Telecommunications Research Institute | Multimedia data searching method and apparatus and pattern recognition method |
CN103218719A (zh) * | 2012-01-19 | 2013-07-24 | 阿里巴巴集团控股有限公司 | 一种电子商务网站导航方法及系统 |
CN102779193A (zh) * | 2012-07-16 | 2012-11-14 | 哈尔滨工业大学 | 自适应个性化信息检索系统及方法 |
CN103412882A (zh) * | 2013-07-18 | 2013-11-27 | 百度在线网络技术(北京)有限公司 | 一种识别消费意图的方法及装置 |
Cited By (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105302879B (zh) * | 2015-10-12 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 用于确定用户需求的方法与装置 |
CN105302879A (zh) * | 2015-10-12 | 2016-02-03 | 百度在线网络技术(北京)有限公司 | 用于确定用户需求的方法与装置 |
US11481698B2 (en) | 2016-01-08 | 2022-10-25 | Alibaba Group Holding Limited | Data-driven method and apparatus for handling user inquiries using collected data |
WO2017118333A1 (zh) * | 2016-01-08 | 2017-07-13 | 阿里巴巴集团控股有限公司 | 一种基于数据驱动预测用户问题的方法及装置 |
US11928617B2 (en) | 2016-01-08 | 2024-03-12 | Alibaba Group Holding Limited | Data-driven method and apparatus for handling user inquiries using collected data |
CN109196492A (zh) * | 2016-04-05 | 2019-01-11 | 谷歌有限责任公司 | 移动设备上搜索查询重写 |
CN107423298A (zh) * | 2016-05-24 | 2017-12-01 | 北京百度网讯科技有限公司 | 一种搜索方法和装置 |
CN107622409B (zh) * | 2016-07-15 | 2020-05-15 | 北京车慧科技有限公司 | 购车能力的预测方法和预测装置 |
CN107622409A (zh) * | 2016-07-15 | 2018-01-23 | 北京车慧互动广告有限公司 | 购车能力的预测方法和预测装置 |
US11416768B2 (en) | 2016-09-27 | 2022-08-16 | The Fourth Paradigm (Beijing) Tech Co Ltd | Feature processing method and feature processing system for machine learning |
WO2018059016A1 (zh) * | 2016-09-27 | 2018-04-05 | 第四范式(北京)技术有限公司 | 针对机器学习的特征处理方法及特征处理系统 |
CN106776757B (zh) * | 2016-11-15 | 2020-03-27 | 中国银行股份有限公司 | 用户完成网银操作的指示方法及装置 |
CN106776757A (zh) * | 2016-11-15 | 2017-05-31 | 中国银行股份有限公司 | 用户完成网银操作的指示方法及装置 |
CN106657008A (zh) * | 2016-11-21 | 2017-05-10 | 北海高创电子信息孵化器有限公司 | 一种用户上网行为研究方法 |
CN106780273A (zh) * | 2016-12-30 | 2017-05-31 | 中国民航信息网络股份有限公司 | 旅客航班需求分析方法和系统 |
CN106874411B (zh) * | 2017-01-22 | 2019-10-15 | 网易(杭州)网络有限公司 | 一种表格的搜索方法及搜索平台 |
CN106874411A (zh) * | 2017-01-22 | 2017-06-20 | 网易(杭州)网络有限公司 | 一种表格的搜索方法及搜索平台 |
TWI771284B (zh) * | 2017-01-23 | 2022-07-21 | 香港商阿里巴巴集團服務有限公司 | 基於資料驅動預測使用者問題的方法及裝置 |
CN107066518A (zh) * | 2017-02-08 | 2017-08-18 | 阿里巴巴集团控股有限公司 | 数据处理方法及系统 |
CN107066518B (zh) * | 2017-02-08 | 2021-01-08 | 创新先进技术有限公司 | 数据处理方法及系统 |
CN107291840A (zh) * | 2017-05-31 | 2017-10-24 | 北京奇艺世纪科技有限公司 | 一种用户属性预测模型构建方法和装置 |
CN107291840B (zh) * | 2017-05-31 | 2020-01-21 | 北京奇艺世纪科技有限公司 | 一种用户属性预测模型构建方法和装置 |
CN107341238A (zh) * | 2017-07-04 | 2017-11-10 | 北京京东尚科信息技术有限公司 | 数据处理方法及系统 |
CN107341238B (zh) * | 2017-07-04 | 2020-12-22 | 北京京东尚科信息技术有限公司 | 数据处理方法及系统 |
CN110020128B (zh) * | 2017-10-26 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 一种搜索结果排序方法及装置 |
CN110020128A (zh) * | 2017-10-26 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种搜索结果排序方法及装置 |
CN107862027A (zh) * | 2017-10-31 | 2018-03-30 | 北京小度信息科技有限公司 | 检索意图识别方法、装置、电子设备及可读存储介质 |
CN107862027B (zh) * | 2017-10-31 | 2019-03-12 | 北京小度信息科技有限公司 | 检索意图识别方法、装置、电子设备及可读存储介质 |
CN107886243A (zh) * | 2017-11-10 | 2018-04-06 | 阿里巴巴集团控股有限公司 | 风险识别模型构建和风险识别方法、装置及设备 |
US10977739B2 (en) | 2017-11-10 | 2021-04-13 | Advanced New Technologies Co., Ltd. | Risk identification model building and risk identification |
CN108009877A (zh) * | 2017-11-24 | 2018-05-08 | 阿里巴巴集团控股有限公司 | 信息挖掘方法及装置 |
CN108009877B (zh) * | 2017-11-24 | 2021-10-15 | 创新先进技术有限公司 | 信息挖掘方法及装置 |
CN108596434A (zh) * | 2018-03-23 | 2018-09-28 | 卫盈联信息技术(深圳)有限公司 | 欺诈检测和风险评估方法、系统、设备及存储介质 |
CN110555096A (zh) * | 2018-06-01 | 2019-12-10 | 深圳狗尾草智能科技有限公司 | 用户意图识别方法、系统、终端及介质 |
CN112534422A (zh) * | 2018-08-22 | 2021-03-19 | 深圳市欢太科技有限公司 | 一种图像处理方法、装置以及计算机存储介质 |
CN111324805A (zh) * | 2018-12-13 | 2020-06-23 | 北京搜狗科技发展有限公司 | 查询意图确定方法及装置、搜索方法及搜索引擎 |
CN111324805B (zh) * | 2018-12-13 | 2024-02-13 | 北京搜狗科技发展有限公司 | 查询意图确定方法及装置、搜索方法及搜索引擎 |
CN109787881A (zh) * | 2018-12-26 | 2019-05-21 | 广州灵聚信息科技有限公司 | 一种具有预测功能的对话方法和装置 |
CN109858633A (zh) * | 2019-02-22 | 2019-06-07 | 中国工商银行股份有限公司 | 一种特征信息识别方法及系统 |
CN110659943B (zh) * | 2019-09-27 | 2023-03-31 | 上海淇玥信息技术有限公司 | 基于用户结构特征调整投放渠道的方法、装置和电子设备 |
CN110659943A (zh) * | 2019-09-27 | 2020-01-07 | 上海淇玥信息技术有限公司 | 基于用户结构特征调整投放渠道的方法、装置和电子设备 |
CN111159552A (zh) * | 2019-12-30 | 2020-05-15 | 北京每日优鲜电子商务有限公司 | 商品搜索方法、装置、服务器和存储介质 |
CN111783452A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 模型训练方法、信息处理方法、装置、设备及存储介质 |
CN111783452B (zh) * | 2020-06-30 | 2024-04-02 | 北京百度网讯科技有限公司 | 模型训练方法、信息处理方法、装置、设备及存储介质 |
CN113761139A (zh) * | 2020-08-10 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种意图预判的方法和装置 |
CN112328891A (zh) * | 2020-11-24 | 2021-02-05 | 北京百度网讯科技有限公司 | 训练搜索模型的方法、搜索目标对象的方法及其装置 |
CN113343028A (zh) * | 2021-05-31 | 2021-09-03 | 北京达佳互联信息技术有限公司 | 意图确定模型的训练方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
HK1207710A1 (zh) | 2016-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104778176A (zh) | 一种数据搜索处理方法及装置 | |
CN103020164B (zh) | 一种基于多语义分析和个性化排序的语义检索方法 | |
US11100178B2 (en) | Method and device for pushing information | |
CN104268292B (zh) | 画像系统的标签词库更新方法 | |
US20130339350A1 (en) | Ranking Search Results Based on Click Through Rates | |
CN104679771A (zh) | 一种个性化数据搜索方法和装置 | |
CN104866474A (zh) | 个性化数据搜索方法及装置 | |
CN104036038A (zh) | 新闻推荐方法和系统 | |
CN105183733A (zh) | 一种文本信息的匹配、业务对象的推送方法和装置 | |
CN105354183A (zh) | 一种家电产品互联网评论的分析方法、装置及系统 | |
CN104679743A (zh) | 一种确定用户的偏好模式的方法及装置 | |
CN109800350A (zh) | 一种个性化新闻推荐方法及系统、存储介质 | |
CN106504011A (zh) | 一种业务对象的展示方法和装置 | |
CN103473354A (zh) | 基于电子商务平台的保险推荐系统框架及保险推荐方法 | |
CN102902806A (zh) | 一种利用搜索引擎进行查询扩展的方法及系统 | |
CN103425687A (zh) | 一种基于关键词的检索方法和系统 | |
CN104951441A (zh) | 一种对对象进行排序的方法及装置 | |
CN103310003A (zh) | 一种基于点击日志的新广告点击率预测方法及系统 | |
CN104391883B (zh) | 一种基于迁移学习的在线广告受众排序方法 | |
CN105096152A (zh) | 一种基于商品热度的操作执行方法及装置 | |
CN104462336A (zh) | 信息推送方法和装置 | |
CN102156747B (zh) | 一种引入社会化标签的协作过滤评分预测方法及装置 | |
CN103177036A (zh) | 一种标签自动提取方法和系统 | |
CN102637179B (zh) | 词项加权函数确定及基于该函数进行搜索的方法及装置 | |
CN101706812A (zh) | 一种文档的检索方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1207710 Country of ref document: HK |
|
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150715 |
|
RJ01 | Rejection of invention patent application after publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: WD Ref document number: 1207710 Country of ref document: HK |