CN103646070A - 搜索引擎的数据处理方法及装置 - Google Patents

搜索引擎的数据处理方法及装置 Download PDF

Info

Publication number
CN103646070A
CN103646070A CN201310659121.2A CN201310659121A CN103646070A CN 103646070 A CN103646070 A CN 103646070A CN 201310659121 A CN201310659121 A CN 201310659121A CN 103646070 A CN103646070 A CN 103646070A
Authority
CN
China
Prior art keywords
user
search results
search
value
searching preferences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310659121.2A
Other languages
English (en)
Inventor
王学蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qunar Software Technology Co Ltd
Original Assignee
Beijing Qunar Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qunar Software Technology Co Ltd filed Critical Beijing Qunar Software Technology Co Ltd
Priority to CN201310659121.2A priority Critical patent/CN103646070A/zh
Publication of CN103646070A publication Critical patent/CN103646070A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/048Indexing scheme relating to G06F3/048
    • G06F2203/04808Several contacts: gestures triggering a specific function, e.g. scrolling, zooming, right-click, when the user establishes several contacts with the surface simultaneously; e.g. using several fingers or a combination of fingers and pen

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种搜索引擎的数据处理方法及装置。其中,该方法包括:获取历史用户使用搜索引擎的日志记录,其中,日志记录包括:用户行为数据、搜索对象属性数据以及搜索结果的特征数据;根据用户行为数据和搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值;将用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理,得到用户的搜索偏好与所有搜索结果的匹配度;提取所有搜索结果的匹配度中满足预定条件匹配度,获取历史用户的搜索结果。通过本发明,能够实现提高搜索引擎的搜索效率,提高搜索结果准确度的效果。

Description

搜索引擎的数据处理方法及装置
技术领域
本发明涉及计算机搜索引擎领域,具体而言,涉及一种搜索引擎的数据处理方法及装置。
背景技术
现有技术提供的搜索引擎需要用户输入搜索词,搜索引擎在获取搜索词之后,会根据搜索词和文档相关度得到文档排序。该搜索引擎的排序必须基于用户的输入搜索词来进行搜索,当用户没有明确目标时是不能精确的给出搜索词的,此时系统无法生成排序列表。
在上述搜索词不明确,或者没有匹配文档的情况下,可以通过人工编目的排行榜来获取搜索结果,具体的,可以通过人工在后台设置文档的线上排序。这种人工编目的排行榜需要人工维护线上排序,耗时耗力,且人工维护搜索结果具有个人因素在里边,搜索结果不准确,且当搜索对象的数目达到一定程度,人工无法维护。
目前针对相关技术的在搜索引擎无法获知搜索词时,通过人工维护后台导致搜索效率低、搜索结果不准确的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术的在搜索引擎无法获知搜索词时,通过人工维护后台导致搜索效率低、搜索结果不准确的问题,目前尚未提出有效的解决方案,为此,本发明的主要目的在于提供一种搜索引擎的数据处理方法及装置,以解决上述问题。
为了实现上述目的,根据本发明的一个方面,提供了一种搜索引擎的数据处理方法,该方法包括:获取历史用户使用搜索引擎的日志记录,其中,日志记录包括:用户行为数据、搜索对象属性数据以及搜索结果的特征数据;根据用户行为数据和搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值;将用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理,得到用户的搜索偏好与所有搜索结果的匹配度;提取所有搜索结果的匹配度中满足预定条件匹配度,获取历史用户的搜索结果。
为了实现上述目的,根据本发明的另一方面,提供了一种搜索引擎的数据处理装置,该装置包括:获取模块,用于获取历史用户使用搜索引擎的日志记录,其中,日志记录包括:用户行为数据、搜索对象属性数据以及搜索结果的特征数据;处理模块,用于根据用户行为数据和搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值;匹配模块,用于将用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理,得到用户的搜索偏好与所有搜索结果的匹配度;提取模块,用于提取所有搜索结果的匹配度中满足预定条件匹配度,获取历史用户的搜索结果。
通过本发明,采用获取历史用户使用搜索引擎的日志记录,其中,日志记录包括:用户行为数据、搜索对象属性数据以及搜索结果的特征数据;根据用户行为数据和搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值;将用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理,得到用户的搜索偏好与所有搜索结果的匹配度;提取所有搜索结果的匹配度中满足预定条件匹配度,获取历史用户的搜索结果,解决了相关现有技术的在搜索引擎无法获知搜索词时,通过人工维护后台导致搜索效率低、搜索结果不准确的问题,进而实现提高搜索引擎的搜索效率,提高搜索结果准确度的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的搜索引擎的数据处理方法的流程示意图;
图2是根据本发明实施例的搜索引擎的数据处理方法的详细流程示意图;
图3是根据本发明实施例的搜索引擎的数据处理装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
本申请利用机器学习和数据挖掘技术来实现,在无法获取当前登录用户的搜索目标时,也可以直接在搜索引擎中显示搜索结果。
本申请涉及到的机器学习(Machine Learning)是本申请的核心技术,是指研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,机器学习主要使用归纳、综合而不是演绎。
数据挖掘Data Mining是一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。
而本申请的方案最后要将计算得到的搜索结果进行排序Ranking,排序大多应用在电子商务中,为了销售更多的商品和让消费者更容易找到他想找到的商品,需要在商品展现时给商品安排展现的顺序。
下面就本申请利用上述技术的方案进行详细描述。
实施例一:
在其最基本的配置中,图1是根据本发明实施例的搜索引擎的数据处理方法的流程示意图;图2是根据本发明实施例的搜索引擎的数据处理方法的详细流程示意图。
如图1和2所示,该方法可以包括如下步骤:
步骤S10,获取历史用户使用搜索引擎的日志记录,其中,日志记录包括:用户行为数据、搜索对象属性数据以及搜索结果的特征数据。
步骤S30,根据用户行为数据和搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值。
步骤S50,将用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理,得到用户的搜索偏好与所有搜索结果的匹配度。
步骤S70,提取所有搜索结果的匹配度中满足预定条件匹配度,获取历史用户的搜索结果。
本申请上述实施例中,主要利用了机器学习来获取后台系统中已经保存的日志记录,该日志记录保存了历史用户使用搜索引擎进行搜索操作的用户行为数据,以及相应的搜索对象的属性数据和搜索结果的特征数据,通过对日志记录中上述数据进行分析,可以获知历史用户的搜索结果来学习该种类型的用户的搜索排序结果,从而在相同类型的用户使用搜索引擎时,可以无需获知搜索词,系统便可以提供相应的搜索结果,从而解决了相关现有技术的在搜索引擎无法获知搜索词时,通过人工维护后台导致搜索效率低、搜索结果不准确的问题,进而实现提高搜索引擎的搜索效率,提高搜索结果准确度的效果。
具体的,本申请上述实施例的日志记录可以是历史用户使用搜索引擎之后,生成的历史日志记录;搜索对象可以是历史用户通过搜索引擎所要搜索的产品;搜索结果可以是指历史用户使用搜索引擎对搜索对象进行搜索而生成的搜索对象。上述实施例根据历史行为数据分析历史用户对搜索对象的搜索结果,历史行为数据log可以包含用户的各类行为数据,比如浏览,点击等,每条记录log通过标记&来分割各类行为发生时的快照,比如&source=首页&departure=北京等。
以用户通过搜索引擎对产品进行的各种操作行为,得到相关搜索结果为例,系统后台收集到的用户日志记录可以是用于在预定时间段内记录的行为数据,例如可以是:浏览,点击,购买等;搜索对象的属性数据(例如产品的属性数据)可以包括搜索对象的特征,比如标题,价格等。
本申请上述实施例中,在步骤S10获取历史用户使用搜索引擎的日志记录之前,还可以包括如下实施步骤:
步骤S101,读取当前登录用户的特征信息。
步骤S102,使用当前登录用户的特征信息在数据库中进行查询,得到与当前登录用户具有相同特征信息的历史登陆用户;其中,历史登陆用户的历史日志记录作为日志记录。
本申请上述步骤S10-步骤S70实现了根据历史信息进行机器学习,得到了一类用户的搜索结果,并将结果保存在数据库中。上述步骤S101和步骤S102实现了当前用户登录之后,按照自身的特征信息进行匹配,得到与自身有着相同或相似特征信息的历史用户,并使用历史用户的日志记录作为当前登录用户得到搜索结果的样本,从而进一步使用历史登陆用户的历史日志记录进行处理,得到最终的搜索结果。该结果可以如本申请提供的方案需要进行排序,当然也可以直接将搜索结果反馈给当前登录用户。
本申请上述实施例中,步骤S30根据用户行为数据和搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值可以通过如下方式实现:
通过如下公式计算得到用户的搜索偏好值Q:Q=Ax+By,其中,x为用户行为数据,y为搜索对象属性数据,A、B为常数;其中,在用户行为数据包括多个行为参数xi,搜索对象属性数据包括多个属性参数yi的情况下,Q=Ax1+Ax2+Axi+……+By1+By2+Byi+……,i为自然数。
具体的,仍旧以用户通过搜索引擎对产品进行的各种操作行为,得到相关搜索结果为例,上述实施例实现了根据用户行为数据和产品属性数据计算用户偏好,计算公式可以为线性回归,例如:Q=Ax1+Ax2+By1,Q为用户的搜索偏好值,x1,x2,y1为用户行为数据和产品属性数据,比如x1为用户行为数据中的浏览团品次数,x2为用户行为数据中的点击团品次数,y1为产品属性数据中的产品价格因素。
优选地,本申请上述实施例中,在步骤S30根据用户行为数据和搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值之后,还可以包括如下步骤:
步骤S401,通过单个用户的偏好值与所有用户的总体偏好值的总体平均值进行求除的结果对用户的搜索偏好值进行修正处理,生成搜索偏好值的可信度。具体的,由于用户的搜索偏好值为数据稀疏,即用户偏好可能比较分散,因此,该步骤可以计算搜索偏好的可信度,可信度根据"单个用户的偏好值与所有用户的总体偏好值的总体平均值进行求除"的方案计算。
步骤S402,判断搜索偏好值的可信度是否小于等于可信度阈值,其中,在搜索偏好值的可信度小于等于可信度阈值的情况下,进入步骤S403,在搜索偏好值的可信度大于可信度阈值的情况下,进入步骤S404。
步骤S403,根据用户行为数据进行聚类处理,并根据聚类结果返回执行线形回归计算,生成修正后的搜索偏好值。
具体的,上述步骤S402可以确定搜索偏好值的可信度的可行程度,比如可以规定可信度阈值为0.8,当可信度小于阈值时,确定搜索偏好值的可信度不高,因此需要通过步骤S403来对用户聚类,用户聚类根据用户行为数据,例如用户所属城市和用户对相同产品的相似行为,具体的可以将浏览产品和点击产品等相似行为聚成一类,聚类可以采用k-means聚类方法。
步骤S404,保存当前的搜索偏好值。
本申请上述实施例中,步骤S50将用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理,得到用户的搜索偏好与所有搜索结果的匹配度可以包括如下实施步骤:
步骤S501,获取每个搜索结果的特征数据对应的文本向量。
步骤S502,获取用户的搜索偏好值对应的数据向量。
步骤S503,将每个搜索结果的特征数据对应的文本向量分别与搜索偏好值对应的数据向量进行余弦计算,得到每个文本向量与数据向量之间的距离值。
步骤S504,保存距离值,得到用户的搜索偏好与所有搜索结果的匹配度。
具体的,仍旧以用户通过搜索引擎对产品进行的各种操作行为,得到相关搜索结果为例,搜索到的产品本身的可以包括如下属性:目的地,类别,产品描述等,上述实施例实现了,可以通过文本匹配计算产品和偏好的匹配度,比如把产品本身的属性作为一个文本向量,偏好等作为一个向量,计算两个向量的匹配程度,例如用cosin计算两个向量的距离来计算匹配程度。
本申请上述实施例中,在得到用户的搜索偏好与所有搜索结果的匹配度之前,可以根据搜索结果的类型对搜索结果的特征数据进行聚类处理,得到修正后的搜索结果的偏好。
具体的,在得到用户的搜索偏好与所有搜索结果的匹配度之前,进行聚类处理是为了得到更加精确的搜索结果的偏好程度。仍旧以用户通过搜索引擎对产品进行的各种操作行为,得到相关搜索结果为例,上述方案可以在将产品按照类别进行分类之后,使用k-means聚类方法,也可以进一步进行人工审核,来实现通过用户对产品的偏好聚类计算,得到用户对每个类别(比如周边,国内等)的搜索结果的偏好。
优选地,本申请上述实施例中,在步骤S10获取历史用户使用搜索引擎的日志记录之后,还可以包括如下实施步骤:对日志记录中的用户行为数据、搜索对象属性数据以及搜索结果的特征数据进行以下任意一种或多种处理方式:归一处理、去噪处理、筛选处理。
具体的,系统可以对收集到的日志记录log进行去除噪声和筛选处理(例如错误日志的处理),同时可以合并各个行为,并整合成排序需要的格式,比如departure^A(Ctrl+A)arrive^A pv个数^A click个数等。
由于上述各个方案中,针对排序计算过程中要注意数据的处理,因此需要进行归一处理,比如对浏览数据,要做一些变换(归一化等),这样才能和不同量级(pv千万级,click百万级)的数据,如order可比。
优选地,本申请上述实施例中,在步骤S70提取所有搜索结果的匹配度中满足预定条件匹配度,获取历史用户的搜索结果之后,还可以实施如下步骤:按照匹配度对所有的搜索结果进行排序,得到每个搜索结果的排序结果;在搜索引擎中按照排序结果显示每个搜索结果。
具体的,上述方案中利用了排序算法得出历史用户的搜索结果的排序。这种方案实现了利用历史用户明确性的搜索对象和用户行为的特征,通过以前的行为等因素综合给出一个适合用户的排序,从而能够更好地为用户提供产品的搜索结果。
由上可知,本申请上述实施例一提供方案通过分析用户的历史数据,具体的,可以分析跟用户有相同特征的用户的历史数据,以及搜索对象(例如产品)的特征进行稀疏数据等处理,从而结合用户的搜索和特征,产品特征给出产品排序结果。该实施例使用机器运算,节省人工,由于使用机器自动运算,因此搜索结果公平,不掺杂个人的因素,而且计算速度快,可通过调整可信度所满足的范围值来实时调整排序结果及其排序,达到更好搜索结果和拥护搜索体验。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例二:
在描述本发明的各实施例的进一步细节之前,将参考图1来描述可用于实现本发明的原理的一个合适的计算体系结构。在以下描述中,除非另外指明,否则将参考由一个或多个计算机执行的动作和操作的符号表示来描述本发明的各实施例。由此,可以理解,有时被称为计算机执行的这类动作和操作包括计算机的处理单元对以结构化形式表示数据的电信号的操纵。这一操纵转换了数据或在计算机的存储器系统中的位置上维护它,这以本领域的技术人员都理解的方式重配置或改变了计算机的操作。维护数据的数据结构是具有数据的格式所定义的特定属性的存储器的物理位置。然而,尽管在上述上下文中描述本发明,但它并不意味着限制性的,如本领域的技术人员所理解的,后文所描述的动作和操作的各方面也可用硬件来实现。
转向附图,其中相同的参考标号指代相同的元素,本发明的原理被示为在一个合适的计算环境中实现。以下描述基于的本发明的实施例,并且不应认为是关于此处未明确描述的替换实施例而限制本发明。
图3示出了本申请实施例的搜索引擎的数据处理装置的结构示意图。出于描述的目的,所绘的体系结构仅为合适环境的一个示例,并非对本发明的使用范围或功能提出任何局限。也不应将该计算系统解释为对图3所示的任一组件或其组合具有任何依赖或需求。
本发明的原理可以使用其它通用或专用计算或通信环境或配置来操作。适用于本发明的众所周知的计算系统、环境和配置的示例包括但不限于,个人计算机、服务器,多处理器系统、基于微处理的系统、小型机、大型计算机、以及包括任一上述系统或设备的分布式计算环境。
如图3所示,该搜索引擎的数据处理装置可以包括:一获取模块101、一处理模块103、一匹配模块105和一提取模块107。
其中,获取模块101,用于获取历史用户使用搜索引擎的日志记录,其中,日志记录包括:用户行为数据、搜索对象属性数据以及搜索结果的特征数据。
处理模块103,用于根据用户行为数据和搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值。
匹配模块105,用于将用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理,得到用户的搜索偏好与所有搜索结果的匹配度。
提取模块107,用于提取所有搜索结果的匹配度中满足预定条件匹配度,获取历史用户的搜索结果。
本申请上述实施例中,主要利用了机器学习来获取后台系统中已经保存的日志记录,该日志记录保存了历史用户使用搜索引擎进行搜索操作的用户行为数据,以及相应的搜索对象的属性数据和搜索结果的特征数据,通过对日志记录中上述数据进行分析,可以获知历史用户的搜索结果来学习该种类型的用户的搜索排序结果,从而在相同类型的用户使用搜索引擎时,可以无需获知搜索词,系统便可以提供相应的搜索结果,从而解决了相关现有技术的在搜索引擎无法获知搜索词时,通过人工维护后台导致搜索效率低、搜索结果不准确的问题,进而实现提高搜索引擎的搜索效率,提高搜索结果准确度的效果。
具体的,本申请上述实施例的日志记录可以是历史用户使用搜索引擎之后,生成的历史日志记录;搜索对象可以是历史用户通过搜索引擎所要搜索的产品;搜索结果可以是指历史用户使用搜索引擎对搜索对象进行搜索而生成的搜索对象。上述实施例根据历史行为数据分析历史用户对搜索对象的搜索结果,历史行为数据log可以包含用户的各类行为数据,比如浏览,点击等,每条记录log通过标记&来分割各类行为发生时的快照,比如&source=首页&departure=北京等。
以用户通过搜索引擎对产品进行的各种操作行为,得到相关搜索结果为例,系统后台收集到的用户日志记录可以是用于在预定时间段内记录的行为数据,例如可以是:浏览,点击,购买等;搜索对象的属性数据(例如产品的属性数据)可以包括搜索对象的特征,比如标题,价格等。
优选地,上述实施例中的装置还可以包括:读取模块,用于读取当前登录用户的特征信息;查询模块,用于使用当前登录用户的特征信息在数据库中进行查询,得到与当前登录用户具有相同特征信息的历史登陆用户,其中,历史登陆用户的历史日志记录作为日志记录。
本申请上述获取模块101、处理模块103、匹配模块105和提取模块107实现了根据历史信息进行机器学习,得到了一类用户的搜索结果,并将结果保存在数据库中。上述读取模块和查询模块实现了当前用户登录之后,按照自身的特征信息进行匹配,得到与自身有着相同或相似特征信息的历史用户,并使用历史用户的日志记录作为当前登录用户得到搜索结果的样本,从而进一步使用历史登陆用户的历史日志记录进行处理,得到最终的搜索结果。该结果可以如本申请提供的方案需要进行排序,当然也可以直接将搜索结果反馈给当前登录用户。
优选地,上述实施例中,处理模块103可以包括:
计算模块,用于通过如下公式计算得到用户的搜索偏好值Q:Q=Ax+By,其中,x为用户行为数据,y为搜索对象属性数据,A、B为常数;其中,在用户行为数据包括多个行为参数xi,搜索对象属性数据包括多个属性参数yi的情况下,Q=Ax1+Ax2+Axi+……+By1+By2+Byi+……,i为自然数。
具体的,仍旧以用户通过搜索引擎对产品进行的各种操作行为,得到相关搜索结果为例,上述实施例实现了根据用户行为数据和产品属性数据计算用户偏好,计算公式可以为线性回归,例如:Q=Ax1+Ax2+By1,Q为用户的搜索偏好值,x1,x2,y1为用户行为数据和产品属性数据,比如x1为用户行为数据中的浏览团品次数,x2为用户行为数据中的点击团品次数,y1为产品属性数据中的产品价格因素。
优选地,上述实施例的装置还可以包括:修正模块,用于通过单个用户的偏好值与所有用户的总体偏好值的总体平均值进行求除的结果对用户的搜索偏好值进行修正处理,生成搜索偏好值的可信度;判断模块,用于判断搜索偏好值的可信度是否小于等于可信度阈值;第一聚类模块,用于在搜索偏好值的可信度小于等于可信度阈值的情况下,根据用户行为数据进行聚类处理,并根据聚类结果返回执行线形回归计算,生成修正后的搜索偏好值;第一保存模块,用于在搜索偏好值的可信度大于可信度阈值的情况下,保存当前的搜索偏好值。
具体的,上述判断模块可以确定搜索偏好值的可信度的可行程度,比如可以规定可信度阈值为0.8,当可信度小于阈值时,确定搜索偏好值的可信度不高,因此需要通过第一聚类模块来对用户聚类,用户聚类根据用户行为数据,例如用户所属城市和用户对相同产品的相似行为,具体的可以将浏览产品和点击产品等相似行为聚成一类,聚类可以采用k-means聚类方法。
优选地,上述实施例中,匹配模块105可以包括:第一子获取模块,用于获取每个搜索结果的特征数据对应的文本向量;第二子获取模块,用于获取用户的搜索偏好值对应的数据向量;余弦计算模块,用于将每个搜索结果的特征数据对应的文本向量分别与搜索偏好值对应的数据向量进行余弦计算,得到每个文本向量与数据向量之间的距离值;第二保存模块,用于保存距离值,得到用户的搜索偏好与所有搜索结果的匹配度。
具体的,仍旧以用户通过搜索引擎对产品进行的各种操作行为,得到相关搜索结果为例,搜索到的产品本身的可以包括如下属性:目的地,类别,产品描述等,上述实施例实现了,可以通过文本匹配计算产品和偏好的匹配度,比如把产品本身的属性作为一个文本向量,偏好等作为一个向量,计算两个向量的匹配程度,例如用cosin计算两个向量的距离来计算匹配程度。
本申请上述实施例中,在得到用户的搜索偏好与所有搜索结果的匹配度之前,可以根据搜索结果的类型对搜索结果的特征数据进行聚类处理,得到修正后的搜索结果的偏好。
具体的,在得到用户的搜索偏好与所有搜索结果的匹配度之前,进行聚类处理是为了得到更加精确的搜索结果的偏好程度。仍旧以用户通过搜索引擎对产品进行的各种操作行为,得到相关搜索结果为例,上述方案可以在将产品按照类别进行分类之后,使用k-means聚类方法,也可以进一步进行人工审核,来实现通过用户对产品的偏好聚类计算,得到用户对每个类别(比如周边,国内等)的搜索结果的偏好。
优选地,上述实施例中的装置还可以包括:第二聚类模块,用于根据搜索结果的类型对搜索结果的特征数据进行聚类处理,得到修正后的搜索结果的偏好。
优选地,上述实施例中的装置还可以包括:优化处理模块,用于对日志记录中的用户行为数据、搜索对象属性数据以及搜索结果的特征数据进行以下任意一种或多种处理方式:归一处理、去噪处理、筛选处理;排序模块,用于按照匹配度对所有的搜索结果进行排序,得到每个搜索结果的排序结果;显示模块,用于在搜索引擎中按照排序结果显示每个搜索结果。
由上可知,本申请上述实施例一提供方案通过分析用户的历史数据,具体的,可以分析跟用户有相同特征的用户的历史数据,以及搜索对象(例如产品)的特征进行稀疏数据等处理,从而结合用户的搜索和特征,产品特征给出产品排序结果。该实施例使用机器运算,节省人工,由于使用机器自动运算,因此搜索结果公平,不掺杂个人的因素,而且计算速度快,可通过调整可信度所满足的范围值来实时调整排序结果及其排序,达到更好搜索结果和拥护搜索体验。
从以上的描述中,可以看出,本发明实现了如下技术效果:本申请通过获知历史用户的搜索结果来学习该种类型的用户的搜索排序结果,从而在相同类型的用户使用搜索引擎时,可以无需获知搜索词,系统便可以提供相应的搜索结果,从而解决了相关现有技术的在搜索引擎无法获知搜索词时,通过人工维护后台导致搜索效率低、搜索结果不准确的问题,进而实现提高搜索引擎的搜索效率,提高搜索结果准确度的效果。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种搜索引擎的数据处理方法,其特征在于,包括:
获取历史用户使用搜索引擎的日志记录,其中,所述日志记录包括:用户行为数据、搜索对象属性数据以及搜索结果的特征数据;
根据所述用户行为数据和所述搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值;
将所述用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理,得到所述用户的搜索偏好与所有搜索结果的匹配度;
提取所有搜索结果的匹配度中满足预定条件匹配度,获取所述历史用户的搜索结果。
2.根据权利要求1所述的方法,其特征在于,根据所述用户行为数据和所述搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值的步骤包括:
通过如下公式计算得到所述用户的搜索偏好值Q:Q=Ax+By,其中,x为所述用户行为数据,y为所述搜索对象属性数据,A、B为常数;
其中,在所述用户行为数据包括多个行为参数xi,所述搜索对象属性数据包括多个属性参数yi的情况下,Q=Ax1+Ax2+Axi+……+By1+By2+Byi+……,i为自然数。
3.根据权利要求1或2所述的方法,其特征在于,在根据所述用户行为数据和所述搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值之后,所述方法还包括:
通过单个用户的偏好值与所有用户的总体偏好值的总体平均值进行求除的结果对所述用户的搜索偏好值进行修正处理,生成所述搜索偏好值的可信度;
判断所述搜索偏好值的可信度是否小于等于可信度阈值;其中,
在所述搜索偏好值的可信度小于等于可信度阈值的情况下,根据所述用户行为数据进行聚类处理,并根据聚类结果返回执行线形回归计算,生成修正后的搜索偏好值;
在所述搜索偏好值的可信度大于可信度阈值的情况下,保存当前的搜索偏好值。
4.根据权利要求1所述的方法,其特征在于,将所述用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理,得到所述用户的搜索偏好与所有搜索结果的匹配度的步骤包括:
获取所述每个搜索结果的特征数据对应的文本向量;
获取所述用户的搜索偏好值对应的数据向量;
将所述每个搜索结果的特征数据对应的文本向量分别与所述搜索偏好值对应的数据向量进行余弦计算,得到每个文本向量与所述数据向量之间的距离值;
保存所述距离值,得到所述用户的搜索偏好与所有搜索结果的匹配度。
5.根据权利要求4所述的方法,其特征在于,在得到所述用户的搜索偏好与所有搜索结果的匹配度之前,所述方法还包括:
根据所述搜索结果的类型对所述搜索结果的特征数据进行聚类处理,得到修正后的所述搜索结果的偏好。
6.根据权利要求1所述的方法,其特征在于,在获取历史用户使用搜索引擎的日志记录之前,所述方法还包括:
读取当前登录用户的特征信息;
使用所述当前登录用户的特征信息在数据库中进行查询,得到与当前登录用户具有相同特征信息的历史登陆用户;
其中,将所述历史登陆用户的历史日志记录作为所述日志记录。
7.根据权利要求6所述的方法,其特征在于,在提取所有搜索结果的匹配度中满足预定条件匹配度,获取所述历史用户的搜索结果之后,所述方法还包括:
按照所述匹配度对所有的搜索结果进行排序,得到所述每个搜索结果的排序结果;
在搜索引擎中按照所述排序结果显示每个搜索结果。
8.根据权利要求1所述的方法,其特征在于,在获取所述日志记录之后,所述方法还包括:对所述日志记录中的用户行为数据、搜索对象属性数据以及搜索结果的特征数据进行以下任意一种或多种处理方式:归一处理、去噪处理、筛选处理。
9.一种搜索引擎的数据处理装置,其特征在于,包括:
获取模块,用于获取历史用户使用搜索引擎的日志记录,其中,所述日志记录包括:用户行为数据、搜索对象属性数据以及搜索结果的特征数据;
处理模块,用于根据所述用户行为数据和所述搜索对象属性数据进行线性回归计算,生成用户的搜索偏好值;
匹配模块,用于将所述用户的搜索偏好值与每个搜索结果的特征数据进行匹配处理,得到所述用户的搜索偏好与所有搜索结果的匹配度;
提取模块,用于提取所有搜索结果的匹配度中满足预定条件匹配度,获取所述历史用户的搜索结果。
10.根据权利要求9所述的装置,其特征在于,所述处理模块包括:
计算模块,用于通过如下公式计算得到所述用户的搜索偏好值Q:Q=Ax+By,其中,x为所述用户行为数据,y为所述搜索对象属性数据,A、B为常数;
其中,在所述用户行为数据包括多个行为参数xi,所述搜索对象属性数据包括多个属性参数yi的情况下,Q=Ax1+Ax2+Axi+……+By1+By2+Byi+……,i为自然数。
11.根据权利要求9或10所述的装置,其特征在于,所述装置还包括:
修正模块,用于通过单个用户的偏好值与所有用户的总体偏好值的总体平均值进行求除的结果对所述用户的搜索偏好值进行修正处理,生成所述搜索偏好值的可信度;
判断模块,用于判断所述搜索偏好值的可信度是否小于等于可信度阈值;
第一聚类模块,用于在所述搜索偏好值的可信度小于等于可信度阈值的情况下,根据所述用户行为数据进行聚类处理,并根据聚类结果返回执行线形回归计算,生成修正后的搜索偏好值;
第一保存模块,用于在所述搜索偏好值的可信度大于可信度阈值的情况下,保存当前的搜索偏好值。
12.根据权利要求9所述的装置,其特征在于,匹配模块包括:
第一子获取模块,用于获取所述每个搜索结果的特征数据对应的文本向量;
第二子获取模块,用于获取所述用户的搜索偏好值对应的数据向量;
余弦计算模块,用于将所述每个搜索结果的特征数据对应的文本向量分别与所述搜索偏好值对应的数据向量进行余弦计算,得到每个文本向量与所述数据向量之间的距离值;
第二保存模块,用于保存所述距离值,得到所述用户的搜索偏好与所有搜索结果的匹配度。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
第二聚类模块,用于根据所述搜索结果的类型对所述搜索结果的特征数据进行聚类处理,得到修正后的所述搜索结果的偏好。
14.根据权利要求9所述的装置,其特征在于,所述装置还包括:
读取模块,用于读取当前登录用户的特征信息;
查询模块,用于使用所述当前登录用户的特征信息在数据库中进行查询,得到与当前登录用户具有相同特征信息的历史登陆用户,其中,所述历史登陆用户的历史日志记录作为所述日志记录。
15.根据权利要求14所述的装置,其特征在于,所述装置还包括:
优化处理模块,用于对所述日志记录中的用户行为数据、搜索对象属性数据以及搜索结果的特征数据进行以下任意一种或多种处理方式:归一处理、去噪处理、筛选处理;
排序模块,用于按照所述匹配度对所有的搜索结果进行排序,得到所述每个搜索结果的排序结果;
显示模块,用于在搜索引擎中按照所述排序结果显示每个搜索结果。
CN201310659121.2A 2013-12-06 2013-12-06 搜索引擎的数据处理方法及装置 Pending CN103646070A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310659121.2A CN103646070A (zh) 2013-12-06 2013-12-06 搜索引擎的数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310659121.2A CN103646070A (zh) 2013-12-06 2013-12-06 搜索引擎的数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN103646070A true CN103646070A (zh) 2014-03-19

Family

ID=50251284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310659121.2A Pending CN103646070A (zh) 2013-12-06 2013-12-06 搜索引擎的数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN103646070A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045920A (zh) * 2015-08-25 2015-11-11 百度在线网络技术(北京)有限公司 搜索方法和装置
CN105069077A (zh) * 2015-07-31 2015-11-18 百度在线网络技术(北京)有限公司 搜索方法及装置
CN105224551A (zh) * 2014-05-30 2016-01-06 林淑贞 文章自动筛选系统
CN105574030A (zh) * 2014-10-16 2016-05-11 腾讯科技(深圳)有限公司 一种信息搜索方法及装置
CN105915691A (zh) * 2016-04-19 2016-08-31 乐视控股(北京)有限公司 一种电话号码推荐方法及其装置
CN105975506A (zh) * 2016-04-28 2016-09-28 百度在线网络技术(北京)有限公司 一种服务搜索方法和装置
CN106844720A (zh) * 2017-02-09 2017-06-13 郑州云海信息技术有限公司 一种搜索数据处理的方法以及装置
CN107169837A (zh) * 2017-05-19 2017-09-15 北京京东尚科信息技术有限公司 用于辅助搜索的方法、装置、电子设备及计算机可读介质
CN107239572A (zh) * 2017-06-28 2017-10-10 郑州云海信息技术有限公司 一种存储管理软件的数据缓存方法及装置
CN107341187A (zh) * 2017-06-07 2017-11-10 努比亚技术有限公司 搜索处理方法、装置、设备和计算机存储介质
CN107346316A (zh) * 2016-05-06 2017-11-14 北京搜狗科技发展有限公司 一种搜索方法、装置及电子设备
CN107924403A (zh) * 2015-09-28 2018-04-17 谷歌有限责任公司 查询组成系统
WO2018187949A1 (zh) * 2017-04-12 2018-10-18 邹霞 机器学习模型的透视分析方法
CN110856003A (zh) * 2019-10-17 2020-02-28 网易(杭州)网络有限公司 直播列表的推送方法、装置、电子设备及存储介质
CN113806483A (zh) * 2021-09-17 2021-12-17 北京百度网讯科技有限公司 数据处理方法、装置、电子设备及计算机程序产品

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224551A (zh) * 2014-05-30 2016-01-06 林淑贞 文章自动筛选系统
CN105574030A (zh) * 2014-10-16 2016-05-11 腾讯科技(深圳)有限公司 一种信息搜索方法及装置
CN105574030B (zh) * 2014-10-16 2019-07-12 腾讯科技(深圳)有限公司 一种信息搜索方法及装置
CN105069077A (zh) * 2015-07-31 2015-11-18 百度在线网络技术(北京)有限公司 搜索方法及装置
CN105045920A (zh) * 2015-08-25 2015-11-11 百度在线网络技术(北京)有限公司 搜索方法和装置
US11625392B2 (en) 2015-09-28 2023-04-11 Google Llc Query composition system
CN107924403A (zh) * 2015-09-28 2018-04-17 谷歌有限责任公司 查询组成系统
CN105915691A (zh) * 2016-04-19 2016-08-31 乐视控股(北京)有限公司 一种电话号码推荐方法及其装置
CN105975506A (zh) * 2016-04-28 2016-09-28 百度在线网络技术(北京)有限公司 一种服务搜索方法和装置
CN107346316A (zh) * 2016-05-06 2017-11-14 北京搜狗科技发展有限公司 一种搜索方法、装置及电子设备
CN106844720A (zh) * 2017-02-09 2017-06-13 郑州云海信息技术有限公司 一种搜索数据处理的方法以及装置
WO2018187949A1 (zh) * 2017-04-12 2018-10-18 邹霞 机器学习模型的透视分析方法
CN107169837A (zh) * 2017-05-19 2017-09-15 北京京东尚科信息技术有限公司 用于辅助搜索的方法、装置、电子设备及计算机可读介质
CN107169837B (zh) * 2017-05-19 2021-10-01 北京京东尚科信息技术有限公司 用于辅助搜索的方法、装置、电子设备及计算机可读介质
CN107341187A (zh) * 2017-06-07 2017-11-10 努比亚技术有限公司 搜索处理方法、装置、设备和计算机存储介质
CN107341187B (zh) * 2017-06-07 2021-08-10 努比亚技术有限公司 搜索处理方法、装置、设备和计算机存储介质
CN107239572A (zh) * 2017-06-28 2017-10-10 郑州云海信息技术有限公司 一种存储管理软件的数据缓存方法及装置
CN110856003A (zh) * 2019-10-17 2020-02-28 网易(杭州)网络有限公司 直播列表的推送方法、装置、电子设备及存储介质
CN113806483A (zh) * 2021-09-17 2021-12-17 北京百度网讯科技有限公司 数据处理方法、装置、电子设备及计算机程序产品
CN113806483B (zh) * 2021-09-17 2023-09-05 北京百度网讯科技有限公司 数据处理方法、装置、电子设备及计算机程序产品

Similar Documents

Publication Publication Date Title
CN103646070A (zh) 搜索引擎的数据处理方法及装置
CN107424043B (zh) 一种产品推荐方法及装置,电子设备
CN107862022B (zh) 文化资源推荐系统
US10936906B2 (en) Training data acquisition method and device, server and storage medium
US8442863B2 (en) Real-time-ready behavioral targeting in a large-scale advertisement system
CN110674407B (zh) 基于图卷积神经网络的混合推荐方法
CN107016026B (zh) 一种用户标签确定、信息推送方法和设备
CN107784010B (zh) 一种用于确定新闻主题的热度信息的方法与设备
CN106251174A (zh) 信息推荐方法及装置
US20200026759A1 (en) Artificial intelligence engine for generating semantic directions for websites for automated entity targeting to mapped identities
CN104298679A (zh) 应用业务推荐方法及装置
JP6428795B2 (ja) モデル生成方法、単語重み付け方法、モデル生成装置、単語重み付け装置、デバイス、コンピュータプログラム及びコンピュータ記憶媒体
CN111667022A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN107704485A (zh) 一种职位推荐方法及计算设备
WO2008106668A1 (en) User query mining for advertising matching
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN103593425A (zh) 基于偏好的智能检索方法及系统
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
KR102249466B1 (ko) 인공지능 추천 모델을 사용하여 추천 정보를 제공하는 데이터 카탈로그 제공 방법 및 시스템
CN110795613B (zh) 商品搜索方法、装置、系统及电子设备
JP2020512651A (ja) 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体
Zubiaga et al. Content-based clustering for tag cloud visualization
CN110309234A (zh) 一种基于知识图谱的客户持仓预警方法、装置及存储介质
CN114490923A (zh) 相似文本匹配模型的训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140319

RJ01 Rejection of invention patent application after publication