CN106844720A - 一种搜索数据处理的方法以及装置 - Google Patents
一种搜索数据处理的方法以及装置 Download PDFInfo
- Publication number
- CN106844720A CN106844720A CN201710071046.6A CN201710071046A CN106844720A CN 106844720 A CN106844720 A CN 106844720A CN 201710071046 A CN201710071046 A CN 201710071046A CN 106844720 A CN106844720 A CN 106844720A
- Authority
- CN
- China
- Prior art keywords
- user behavior
- data
- user
- analysis model
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种搜索数据处理的方法,通过获取多个搜索引擎用户的用户行为数据;根据用户行为数据,建立用户行为分析模型,用户行为分析模型包含用户搜索历史数据与用户行为的对应关系;基于用户行为分析模型以及分布式计算框架,对用户行为数据进行并行处理,得出相应用户行为模式分析结果。运用分布式计算框架对用户行为数据进行数据处理,即高速并行地对大量的用户行为数据进行运算,可以更快地得出处理结果,进而提高数据处理效率。可见,本申请基于分布式处理搜索数据,提高了搜索数据的处理效率,进而提高了引擎优化的效率。此外,本发明还公开了一种搜索数据处理的装置,与上述方法具有一一对应的优点。
Description
技术领域
本发明涉及大数据分析领域,特别是涉及一种搜索数据处理的方法以及装置。
背景技术
随着互联网技术的飞速发展,互联网已经应用于各行各业,使得搜索引擎也应用于各行各业,搜索已经成了日常生活、工作、学习的一部分。
在利用搜索引擎搜索时,由于用户基数较大等原因,可能会产生极其庞大的数据。为了从海量的搜索数据中挖掘出有用的信息,需要对搜索数据进行处理。但是,由于搜索数据的特性,例如,数据规模庞杂、数据流转速度快、数据类型多样化以及价值密度低等特点,依靠传统数据库或者是传统数据处理方式来存储以及运算这些搜索数据,会使得处理效率极低。而对用户搜索数据处理得出的结果可以用于对引擎进行优化,运用传统的数据方式来处理搜索数据会使得引擎优化的效率较低。
如何提高搜索数据的处理效率,进而提高引擎优化效率是本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种搜索数据处理的方法,目的在于解决现有技术中搜索数据的处理效率较低进而导致引擎优化效率较低的问题。
为解决上述技术问题,本发明提供一种搜索数据处理的方法,该方法包括:
获取多个搜索引擎用户的用户行为数据;
根据所述用户行为数据,建立用户行为分析模型,所述用户行为分析模型包含用户搜索历史数据与用户行为的对应关系;
基于所述用户行为分析模型以及分布式计算框架,对用户行为数据进行并行处理,得出相应用户行为模式分析结果。
可选地,在所述基于所述用户行为分析模型以及分布式计算框架,对用户行为数据进行并行处理,得出相应用户行为模式分析结果之后还包括:
根据所述用户行为模式分析结果,对搜索引擎进行相应优化操作。
可选地,所述获取多个搜索引擎用户的用户行为数据包括:
从存储有所述用户行为数据的分布式存储系统中,并行读取用户日志数据,获取所述用户行为数据。
可选地,所述根据所述用户行为数据,建立用户行为分析模型包括:
提取所述用户行为数据的维度指标;
对所述维度指标进行分析,建立所述用户行为分析模型。
可选地,在所述根据所述用户行为模式分析结果,对搜索引擎进行相应优化操作之后还包括:
获取当前用户的历史搜索数据,根据所述用户行为分析模型,向用户推荐与所述历史搜索数据相关联的个性化信息。
此外,本发明还提供了一种搜索数据处理的装置,该装置包括:
获取模块,用于获取多个搜索引擎用户的用户行为数据;
模型建立模块,用于根据所述用户行为数据,建立用户行为分析模型,所述用户行为分析模型包括用户搜索历史数据与用户行为的对应关系;
分布式处理模块,用于基于所述用户行为分析模型以及分布式计算框架,对用户行为数据进行并行处理,得出相应用户行为模式分析结果。
可选地,还包括:
优化模块,用于根据所述用户行为模式分析结果,对搜索引擎进行相应优化操作。
可选地,所述获取模块包括:
读取单元,用于从存储有所述用户行为数据的分布式存储系统中,并行读取用户日志数据,获取所述用户行为数据。
可选地,所述模型建立模块包括:
提取单元,用于提取所述用户行为数据的维度指标;
分析建立单元,用于对所述维度指标进行分析,建立所述用户行为分析模型。
可选地,还包括:
个性化推荐模块,用于获取当前用户的历史搜索数据,根据所述用户行为分析模型,向用户推荐与所述历史搜索数据相关联的个性化信息。
本发明所提供的一种搜索数据处理的方法,通过获取多个搜索引擎用户的用户行为数据;根据用户行为数据,建立用户行为分析模型,用户行为分析模型包含用户搜索历史数据与用户行为的对应关系;基于用户行为分析模型以及分布式计算框架,对用户行为数据进行并行处理,得出相应用户行为模式分析结果。运用分布式计算框架对用户行为数据进行数据处理,即高速并行地对大量的用户行为数据进行运算,可以更快地得出处理结果,进而提高数据处理效率。可见,本申请基于分布式处理搜索数据,提高了搜索数据的处理效率,进而提高了引擎优化的效率。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的搜索数据处理方法的一种具体实施方式的流程示意图;
图2为本发明实施例提供的搜索数据处理装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,图1为本发明实施例所提供的搜索数据处理方法的一种具体实施方式的流程示意图,该方法包括以下步骤:
步骤101:获取多个搜索引擎用户的用户行为数据;
具体地,可以从存储有用户行为数据的存储介质中读取到所需的用户,例如,从搜索引擎厂商的数据库中直接读取所需的用户数据。
可以理解的是,上述多个搜索引擎用户可以是指大量使用某个搜索引擎的用户,这些用户在搜索引擎上注册有相应的用户账号,即该用户是搜索引擎的注册用户。当然,搜索引擎用户也可以是指非注册用户。
而用户行为数据可以是包括用户的基本信息、浏览记录以及搜索记录等等内容,其可以具体表现为用户日志数据,即可以通过读取数据库中的用户日志数据,以获取上述用户行为数据。
由于所需读取的用户行为数据的规模较大,为了提高读取的效率,可以预先将数据分布式存储于多个不同的服务器中,这样在读取时可以同时从多个服务器中读取所需的数据,即并行地读取所需的用户行为数据。
作为一种具体实施方式,并行读取的过程可以具体为:从存储有所述用户行为数据的分布式存储系统中,并行读取用户日志数据,获取所述用户行为数据。
将用户行为数据进行分布式存储,以并行地读取所需的数据,即可以保证数据访问的时效性,也可以满足一定容错性的数据存储功能,还可以提高了数据读取速率,进而间接地提高了搜索数据的处理效率。
显而易见地,并行读取所需数据只是一种优选的实施方式,使用其它方式读取数据并不影响本发明实施例的实现。
步骤102:根据所述用户行为数据,建立用户行为分析模型,所述用户行为分析模型包含用户搜索历史数据与用户行为的对应关系;
需要说明的是,由于用户行为数据中可以包括由用户的搜索记录以及浏览记录。根据用户行为数据建立的用户行为分析模型,其模型内包含有相应的对应关系,该对应关系可以为用户搜索历史数据与用户行为之间的关系。上述的用户搜索历史数据可以是指上述的搜索记录。
具体地,可以对所获取的用户行为数据进行不同维度提取,根据所提取的维度指标建立相应的模型。
作为一种具体实施方式,模型的建立的过程可以具体为:提取所述用户行为数据的维度指标;对所述维度指标进行分析,建立所述用户行为分析模型。
数据模型的建立可以为后续的用户行为分析以及简化运算提供了可能。
显而易见地,基于用户行为数据建立相应的数据模型,是利用数据挖掘技术实现的,而数据挖掘为本领域技术人员所熟知的技术,在此不再赘述。
步骤103:基于所述用户行为分析模型以及分布式计算框架,对用户行为数据进行并行处理,得出相应用户行为模式分析结果。
具体地,利用上述用户行为分析模型内所包含的对应关系,以及相应地分布式计算框架算法,对数据进行并行处理,即并行地对用户行为数据的不同维度进行分析挖掘,以得出最终的分析结果。
上述用户行为模式分析结果可以是指用户行为规律,用户行为规律可以是指用户行为共性。从大量的用户行为数据中,利用设定的数据模型,剥离出搜索引擎用户的行为共性。
找出用户行为共性后,可以利用得出的分析结果对搜索引擎进行优化,以更快更好地匹配满足用户的需求。
作为一种具体实施方式,得出相应用户行为模式分析结果后,还可以包括:根据所述用户行为模式分析结果,对搜索引擎进行相应优化操作。
可以理解的是,根据从大量用户行为数据中得出的用户行为共性,对搜索引擎进行优化,以使搜索引擎可以在用户搜索时,搜索引擎可以以高效率以及高准确率来满足用户的需求。
除了可以利用所得出的用户行为模式分析结果对搜索引擎进行优化之外,还可以利用上述用户行为模式分析结果来向搜索引擎用户推荐个性化内容,以迎合不同用户的不同需求。
作为一种具体实施方式,其个性化推荐过程可以具体为:获取当前用户的历史搜索数据,根据所述用户行为分析模型,向用户推荐与所述历史搜索数据相关联的个性化信息。
需要说明的是,上述当前用户可以是指搜索引擎的注册用户,也可以是指搜索引擎的非注册用户。上述历史搜索数据可以是指当前用户的浏览时所留下的记录,用户的浏览痕迹一般存储于相应的用户日志中。
基于用户的历史搜索数据,以及建立的用户行为分析模型,以得出当前用户的兴趣偏好。然后可以根据用户的兴趣偏好,向用户推送一些个性化的信息内容。
对用户行为数据进行分析,以向用户推送个性化内容,可以使得用户的使用体验较高。
本发明实施例所提供的搜索数据处理的方法,运用分布式计算框架对用户行为数据进行数据处理,即高速并行地对大量的用户行为数据进行运算,可以更快地得出处理结果,进而提高数据处理效率。可见,该方法基于分布式处理搜索数据,提高了搜索数据的处理效率,进而提高了引擎优化的效率。
下面对本发明实施例提供的搜索数据处理装置进行介绍,下文描述的搜索数据处理装置与上文描述的搜索数据处理方法可相互对应参照。
图2为本发明实施例提供的搜索数据处理装置的结构框图,参照图2搜索数据处理装置可以包括:
获取模块201,用于获取多个搜索引擎用户的用户行为数据;
模型建立模块202,用于根据所述用户行为数据,建立用户行为分析模型,所述用户行为分析模型包括用户搜索历史数据与用户行为的对应关系;
分布式处理模块203,用于基于所述用户行为分析模型以及分布式计算框架,对用户行为数据进行并行处理,得出相应用户行为模式分析结果。
可选地,还包括:
优化模块,用于根据所述用户行为模式分析结果,对搜索引擎进行相应优化操作。
可选地,所述获取模块包括:
读取单元,用于从存储有所述用户行为数据的分布式存储系统中,并行读取用户日志数据,获取所述用户行为数据。
可选地,所述模型建立模块包括:
提取单元,用于提取所述用户行为数据的维度指标;
分析建立单元,用于对所述维度指标进行分析,建立所述用户行为分析模型。
可选地,还包括:
个性化推荐模块,用于获取当前用户的历史搜索数据,根据所述用户行为分析模型,向用户推荐与所述历史搜索数据相关联的个性化信息。
本发明实施例所提供的搜索数据处理的装置,运用分布式计算框架对用户行为数据进行数据处理,即高速并行地对大量的用户行为数据进行运算,可以更快地得出处理结果,进而提高数据处理效率。可见,该装置基于分布式处理搜索数据,提高了搜索数据的处理效率,进而提高了引擎优化的效率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种搜索数据处理的方法以及装置进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (10)
1.一种搜索数据处理的方法,其特征在于,包括:
获取多个搜索引擎用户的用户行为数据;
根据所述用户行为数据,建立用户行为分析模型,所述用户行为分析模型包含用户搜索历史数据与用户行为的对应关系;
基于所述用户行为分析模型以及分布式计算框架,对用户行为数据进行并行处理,得出相应用户行为模式分析结果。
2.如权利要求1所述的方法,其特征在于,在所述基于所述用户行为分析模型以及分布式计算框架,对用户行为数据进行并行处理,得出相应用户行为模式分析结果之后还包括:
根据所述用户行为模式分析结果,对搜索引擎进行相应优化操作。
3.如权利要求1或2所述的方法,其特征在于,所述获取多个搜索引擎用户的用户行为数据包括:
从存储有所述用户行为数据的分布式存储系统中,并行读取用户日志数据,获取所述用户行为数据。
4.如权利要求3所述的方法,其特征在于,所述根据所述用户行为数据,建立用户行为分析模型包括:
提取所述用户行为数据的维度指标;
对所述维度指标进行分析,建立所述用户行为分析模型。
5.如权利要求2所述的方法,其特征在于,在所述根据所述用户行为模式分析结果,对搜索引擎进行相应优化操作之后还包括:
获取当前用户的历史搜索数据,根据所述用户行为分析模型,向用户推荐与所述历史搜索数据相关联的个性化信息。
6.一种搜索数据处理的装置,其特征在于,包括:
获取模块,用于获取多个搜索引擎用户的用户行为数据;
模型建立模块,用于根据所述用户行为数据,建立用户行为分析模型,所述用户行为分析模型包括用户搜索历史数据与用户行为的对应关系;
分布式处理模块,用于基于所述用户行为分析模型以及分布式计算框架,对用户行为数据进行并行处理,得出相应用户行为模式分析结果。
7.如权利要求6所述的装置,其特征在于,还包括:
优化模块,用于根据所述用户行为模式分析结果,对搜索引擎进行相应优化操作。
8.如权利要求6或7所述的装置,其特征在于,所述获取模块包括:
读取单元,用于从存储有所述用户行为数据的分布式存储系统中,并行读取用户日志数据,获取所述用户行为数据。
9.如权利要求8所述的装置,其特征在于,所述模型建立模块包括:
提取单元,用于提取所述用户行为数据的维度指标;
分析建立单元,用于对所述维度指标进行分析,建立所述用户行为分析模型。
10.如权利要求6所述的装置,其特征在于,还包括:
个性化推荐模块,用于获取当前用户的历史搜索数据,根据所述用户行为分析模型,向用户推荐与所述历史搜索数据相关联的个性化信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710071046.6A CN106844720A (zh) | 2017-02-09 | 2017-02-09 | 一种搜索数据处理的方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710071046.6A CN106844720A (zh) | 2017-02-09 | 2017-02-09 | 一种搜索数据处理的方法以及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106844720A true CN106844720A (zh) | 2017-06-13 |
Family
ID=59122386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710071046.6A Pending CN106844720A (zh) | 2017-02-09 | 2017-02-09 | 一种搜索数据处理的方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106844720A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009215A (zh) * | 2017-11-17 | 2018-05-08 | 山东师范大学 | 一种搜索结果页用户行为模式测评方法、装置及系统 |
CN109558463A (zh) * | 2018-11-15 | 2019-04-02 | 广东港鑫科技有限公司 | 一种智能报表的数据处理方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110191319A1 (en) * | 2010-02-01 | 2011-08-04 | Alibaba Group Holding Limited | Search query processing |
CN103646070A (zh) * | 2013-12-06 | 2014-03-19 | 北京趣拿软件科技有限公司 | 搜索引擎的数据处理方法及装置 |
CN104317877A (zh) * | 2014-10-21 | 2015-01-28 | 上海交通大学 | 一种基于分布式计算的网络用户行为数据实时处理方法 |
CN106202482A (zh) * | 2016-07-18 | 2016-12-07 | 浪潮(北京)电子信息产业有限公司 | 一种基于用户行为分析的网站优化方法及系统 |
-
2017
- 2017-02-09 CN CN201710071046.6A patent/CN106844720A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110191319A1 (en) * | 2010-02-01 | 2011-08-04 | Alibaba Group Holding Limited | Search query processing |
CN103646070A (zh) * | 2013-12-06 | 2014-03-19 | 北京趣拿软件科技有限公司 | 搜索引擎的数据处理方法及装置 |
CN104317877A (zh) * | 2014-10-21 | 2015-01-28 | 上海交通大学 | 一种基于分布式计算的网络用户行为数据实时处理方法 |
CN106202482A (zh) * | 2016-07-18 | 2016-12-07 | 浪潮(北京)电子信息产业有限公司 | 一种基于用户行为分析的网站优化方法及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009215A (zh) * | 2017-11-17 | 2018-05-08 | 山东师范大学 | 一种搜索结果页用户行为模式测评方法、装置及系统 |
CN109558463A (zh) * | 2018-11-15 | 2019-04-02 | 广东港鑫科技有限公司 | 一种智能报表的数据处理方法、装置及存储介质 |
CN109558463B (zh) * | 2018-11-15 | 2023-01-03 | 广东港鑫科技有限公司 | 一种智能报表的数据处理方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107704503A (zh) | 用户关键词提取装置、方法及计算机可读存储介质 | |
WO2018050022A1 (zh) | 应用程序的推荐方法及服务器 | |
CN107818344A (zh) | 用户行为进行分类和预测的方法和系统 | |
CN104598518B (zh) | 一种内容的推送方法和装置 | |
CN110765770A (zh) | 一种合同自动生成方法及装置 | |
CN107679082A (zh) | 问答搜索方法、装置以及电子设备 | |
CN107704512A (zh) | 基于社交数据的金融产品推荐方法、电子装置及介质 | |
CN109299258A (zh) | 一种舆情事件检测方法、装置及设备 | |
CN106970912A (zh) | 中文语句相似度计算方法、计算装置以及计算机存储介质 | |
CN103530429B (zh) | 一种网页正文抽取的方法 | |
CN106951571A (zh) | 一种给应用标注标签的方法和装置 | |
CN107358247A (zh) | 一种确定流失用户的方法及装置 | |
CN103810162A (zh) | 推荐网络信息的方法和系统 | |
CN105930507A (zh) | 一种获得用户的Web浏览兴趣的方法及装置 | |
CN103838754A (zh) | 信息搜索装置及方法 | |
CN109214417A (zh) | 用户意图的挖掘方法及装置、计算机设备及可读介质 | |
CN109583472A (zh) | 一种web日志用户识别方法和系统 | |
CN110134844A (zh) | 细分领域舆情监控方法、装置、计算机设备及存储介质 | |
CN108090041A (zh) | 一种广告创意的生成方法及装置 | |
CN107086925B (zh) | 一种基于深度学习的互联网流量大数据分析方法 | |
CN107357794A (zh) | 优化键值数据库的数据存储结构的方法和装置 | |
CN106844720A (zh) | 一种搜索数据处理的方法以及装置 | |
CN110363206A (zh) | 数据对象的聚类、数据处理及数据识别方法 | |
CN107169011A (zh) | 基于人工智能的网页原创性识别方法、装置及存储介质 | |
CN107273546A (zh) | 仿冒应用检测方法以及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170613 |
|
RJ01 | Rejection of invention patent application after publication |