一种用于移动互联网的兴趣点搜索方法和系统
技术领域
本发明公开了一种用于移动互联网的兴趣点搜索方法和系统,涉及移动互联网技术领域。
背景技术
随着移动互联网和智能手机的发展,越来越多的用户通过智能手机搜索自己感兴趣的新闻、资讯、商品等内容。现有的移动互联网搜索兴趣点分析方法,主要是在搜索网站根据账号、IP、Cookie等方式区分用户,然后根据用户搜索关键字分析出用户兴趣点来实现个性化搜索结果的推荐。此类方法可以统计某个搜索网站的用户搜索兴趣点,但存在以下问题:
(1)目前搜索网站众多,除谷歌、百度、360、搜狗等综合搜索以外,还有购物、旅游、留学、房产、人才等领域的专业搜索网站,仅仅分析某个网站的搜索记录,无法得到用户完整的兴趣点,分析覆盖率不高。
(2)根据账号、IP、Cookie等手段区分用户的方法具有局限性,很多用户没有登录搜索网站账号的习惯,而且在移动互联网的环境下,用户的智能手机经常在WIFI和3G之间切换,IP也经常变化。现有的方法不能准确地区分用户兴趣点,分析准确率不高,给用户体验造成困扰。
发明内容
本发明所要解决的技术问题是:为解决现有移动互联网搜索兴趣点分析方法准确率和覆盖率较低的问题,本发明提出一种移动互联网搜索兴趣点分析系统和方法。本发明通过DPI系统采集用户移动互联网流量,并基于DPI技术对用户流量进行分析,根据搜索特征数据库,提取用户搜索URL,首先通过关键字分类法确定用户搜索兴趣点,如不成功再采用网页分类法确定用户搜索兴趣点。
本发明从基础网络入手,通过组合两种分析方法,更加准确分析用户移动互联网搜索兴趣点,提高移动互联网搜索兴趣点分析的覆盖率。
本发明为解决上述技术问题采用以下技术方案:
一种用于移动互联网的兴趣点搜索方法,包括如下步骤:
步骤A、建立搜索特征数据库,所述搜索特征数据库包括具有URL特征、匹配方式、搜索变量字段的数据记录;
步骤B、建立搜索分类数据库,所述搜索分类数据库包括具有序号、搜索分类、编码字段的数据记录;
步骤C、从DPI系统采集用户访问移动互联网HTTP访问日志;
步骤D、根据搜索特征数据库,从用户访问移动互联网HTTP访问日志中提取用户搜索URL地址;
步骤E、采用搜索关键字分类法分析用户搜索URL地址,获取用户搜索兴趣点;
如果成功,则搜索结束;
如果失败,则继续采用网页分类法分析用户搜索URL地址,直至获取用户搜索兴趣点。
作为本发明的进一步优选方案,所述步骤E中通过关键字分类法确定用户搜索兴趣点,包括以下步骤:
步骤E01、根据用户搜索URL,在搜索特征数据库进行URL特征匹配比较,确定搜索变量,提取搜索变量值;
步骤E02、解析用户搜索变量值获取用户输入的搜索关键字;
步骤E03、依据搜索关键字与搜索兴趣点的映射表进行搜索匹配,若匹配成功则依据匹配结果直接获得用户兴趣点;否则,对搜索关键字进行分词、切词处理,提取有效词;
步骤E04、依据有效词计算搜索关键字与搜索分类的训练文本相似度,取相似度值最大的分类为用户搜索兴趣点;
步骤E05、更新搜索关键字与搜索兴趣点的映射表。
作为本发明的进一步优选方案,所述步骤E中通过网页分类法确定用户搜索兴趣点,包括以下步骤:
步骤E11、提取用户在搜索动作完成后时间T内的前N条搜索结果访问记录;
步骤E12、根据访问URL,抓取N个网页的访问内容;
步骤E13、对网页进行分词、切词处理,获取网页的文本特征向量;
步骤E14、依据获取网页的文本特征向量,计算与搜索分类的训练文本相似度;
步骤E15、将训练文本相似度按类别累加,相似度值最大的类别确定为用户搜索兴趣点。
作为本发明的进一步优选方案,步骤E04中,所述依据有效词计算搜索关键字与搜索分类的训练文本相似度的方法为,
其中,y(s,ci)是关键字与搜索分类训练文本相似度,sim(s,ci)是相似度函数,s为从有效词中提取搜索关键字的特征向量,ci为搜索第i个分类的训练文本特征向量。
作为本发明的进一步优选方案,步骤E14中,
所述依据获取网页的文本特征向量,计算与搜索分类的训练文本相似度的方法为,
其中,y(Pi,cj)是搜索后访问网页与搜索分类训练文本相似度,sim(Pi,cj)是搜索后相似度函数,pi是第i个网页的文本特征向量,cj是搜索分类的第j个特征向量。
本发明还公开了一种用于移动互联网的兴趣点搜索系统,包括:
数据采集模块:从DPI系统采集用户访问移动互联网HTTP日志数据;
搜索特征数据库:包括具有URL特征、匹配方式、所属分类、搜索变量字段的数据记录;
数据预处理模块:接收来自数据采集模块获得的移动互联网HTTP日志数据,根据搜索特征数据库,从移动互联网HTTP日志数据中提取用户搜索URL;
搜索关键字分类单元:依据来自数据预处理模块的用户搜索URL地址,分析确定用户搜索兴趣点,若成功,则输出搜索兴趣点;否则启动网页分类单元;
网页分类单元:接收来自搜索关键字分类单元的启动指令,采用网页分类法分析用户搜索URL地址,直至获取用户搜索兴趣点。
作为本发明的进一步优选方案,所述搜索关键字分类单元包括,搜索关键字提取模块、搜索关键字分词模块、关键字相似度计算模块;
其中,搜索关键字提取模块解析用户搜索变量值获取用户输入的搜索关键字;
搜索关键字分词模块对经搜索关键字提取模块提取的搜索关键字进行分词、切词处理,以提取有效词;
关键字相似度计算模块依据搜索关键字分词模块提取的有效词计算搜索关键字与搜索分类的训练文本相似度,取相似度值最大的分类为用户搜索兴趣点。
作为本发明的进一步优选方案,所述网页分类单元包括,网页爬虫模块、网页分词模块,网页相似度计算模块;
其中,网页爬虫模块从移动互联网HTTP日志数据中提取用户在搜索动作完成后时间T内的前N条搜索结果访问URL,依据访问URL,抓取N个网页的访问内容;
网页分词模块对抓取的N个网页访问内容进行分词处理,获取网页的文本特征向量;
网页相似度计算模块依据获取网页的文本特征向量,计算与搜索分类的训练文本相似度,将训练文本相似度按类别累加,相似度值最大的类别确定为用户搜索兴趣点。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明从基础网络入手,通过组合两种分析方法,更加准确分析用户移动互联网搜索兴趣点,提高移动互联网搜索兴趣点分析的准确率和覆盖率,为产品营销和提升用户体验提供有力的数据支撑。本发明与现有技术相比,显著的优点有如下几点:
1、提升用户移动互联网搜索兴趣点分析的准确率
本发明基于DPI技术对用户流量进行分析,结合关键字分类法、网页分类法等方法,最终得到用户移动互联网搜索兴趣点,可以准确定位到用户手机号码,大大提高了搜索兴趣点分析的准确率。
2、提升用户移动互联网搜索兴趣点分析的覆盖率
本发明可以覆盖移动互联网上所有搜索网站,只要用户通过手机上网进行搜索,就能进行分析,大大提高了分析的覆盖率。
附图说明
图1是本发明一种用于移动互联网的兴趣点搜索方法的主流程图;
图2是本发明一种用于移动互联网的兴趣点搜索方法中通过关键字分类法获取用户兴趣点的流程图;
图3是本发明一种用于移动互联网的兴趣点搜索方法中通过网页分类法获取用户兴趣点的流程图;
图4是本发明一种用于移动互联网的兴趣点搜索系统结构示意图;
图5是本发明一种用于移动互联网的兴趣点搜索系统中搜索关键字分类单元的结构示意图;
图6是本发明一种用于移动互联网的兴趣点搜索系统中网页分类单元的结构示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明提出一种移动互联网搜索兴趣点分析系统和方法。具体说明如下:
(一)本发明实现的主流程
如图1所示,为本发明分析用户兴趣点的主流程示意图,包括以下步骤:
步骤A、从DPI系统采集用户访问移动互联网HTTP日志;
步骤B、根据搜索特征数据库,提取用户搜索URL;
步骤C、采用关键字分类法确定用户搜索兴趣点;
步骤D、如果成功,则流程结束;如果不存在,转步骤E;
步骤E、采用网页分类法确定用户搜索兴趣点。
(二)关键字分类法
如图2所示,为本发明通过关键字分类法获取用户兴趣点的的流程图,包括以下步骤:
步骤A、根据与搜索特征数据库匹配的搜索引擎的搜索变量,提取搜索变量值;
步骤B、对搜索变量值进行解析,获取用户输入的搜索关键字;
步骤C、在搜索关键字与搜索兴趣点的映射表中检索,判断是否可以直接根据搜索关键字确定用户搜索兴趣点;
步骤D、如果可以,则直接获得用户兴趣点,流程结束;否则,转步骤E;
步骤E、对搜索关键字进行分词、切词,获取有效词;
步骤F、计算与搜索分类的训练文本相似度,取相似度值最大的分类为用户搜索兴趣点;
步骤G、更新搜索关键字与搜索兴趣点的映射表。
(三)网页分类法
如图3所示,为本发明通过网页分类法获取用户兴趣点的的流程图,包括以下步骤:
步骤A、提取用户在搜索动作完成后时间T内的前N条搜索结果访问记录;
步骤B、根据访问URL,抓取N个网页的访问内容;
步骤C、对网页进行分词、切词,获取网页的文本特征向量;
步骤D、计算与搜索分类的训练文本相似度;
步骤E、相似度按类别累加,相似度值最大的类别确定为用户搜索兴趣点。
(四)搜索分类模型
表1
根据用户经常搜索的内容,将搜索分类划分为新闻、音乐、视频等23类,具体见表1。
(五)相似度的计算
1、搜索关键字与搜索分类训练文本相似度的计算
对搜索关键字进行分词、切词后,获得搜索关键字的有效词,计算搜索关键字与搜索分类训练文本相似度,取相似度值最大的类别为用户搜索兴趣点。
其中,y(s,ci)是关键字与搜索分类训练文本相似度,sim(s,ci)是相似度函数,s为从有效词中提取搜索关键字的特征向量,ci为搜索第i个分类的训练文本特征向量。
2、搜索后访问网页与搜索分类训练文本相似度的计算
提取用户在搜索动作完成后时间T内的前N条搜索结果访问记录;根据访问URL,抓取N个网页的访问内容;对网页进行分词、切词,获取每个网页的文本特征向量;计算网页特征向量与搜索分类特征向量的相似度其中,y(Pi,cj)是搜索后访问网页与搜索分类训练文本相似度,sim(Pi,cj)是搜索后相似度函数,pi是第i个网页的文本特征向量,cj是搜索分类的第j个特征向量;按照搜索分类进行相似度值累加,取相似度值最大的类别为用户搜索兴趣点。
如图4所示,为移动互联网搜索兴趣点分析系统和方法一实施例的结构示意图。在本实施例中,包括:数据采集单元、搜索关键字处理单元、搜索兴趣点确定单元和管理单元。
1、数据采集单元
包括:数据采集模块、数据预处理模块、网页爬虫模块。
数据采集模块:负责从DPI系统采集用户访问移动互联网HTTP日志数据。
建立搜索特征数据库:包括URL特征、匹配方式、搜索变量等;URL特征如“baike.baidu.com/”、“m.yicha.cn/”;匹配方式例如“左匹配(右*)”、“左右匹配”;搜索变量例如“word”、“key”。
建立搜索分类库,该数据库包括具有序号、搜索分类、编码等字段的数据记录;
数据预处理模块:根据搜索特征数据库,提取用户搜索URL;
网页爬虫模块:从移动互联网HTTP日志中提取用户在搜索动作完成后时间T(例如,180秒)内的前N条(例如,10条)搜索结果访问URL(搜索结果访问的URL与普通URL存在不同特征,例如,通过百度搜索新浪的URL为http://www.baidu.com/link?url=kWMSGJqjJ4zBBpC8yDF8xDh8vibiBl2fFSoEbodPKdr5,而实际新浪的网址为http://www.sina.com.cn),根据访问URL,抓取N个网页的访问内容,进行分词、切词处理,获取网页的文本特征向量。
2、搜索关键字处理单元
包括:搜索关键字提取模块、搜索关键字分词模块和搜索关键字更新模块,如图5所示。
搜索关键字提取模块:根据用户搜索URL,提取用户搜索变量值;对搜索变量值进行解析(通常根据UTF-8或GBK解码),提取搜索关键字。例如:搜索URL为http://m.baidu.com/s?from=2001a&bd_page_type=1&word=%E5%8C%BB%E9%99%A2%E8%AF%95%E7%94%A8%E6%9C%9F%E5%B7%A5%E4%BD%9C%E5%9F%BA%E6%9C%AC%E6%83%85%E5%86%B5,提取的搜索变量值为:
%E5%8C%BB%E9%99%A2%E8%AF%95%E7%94%A8%E6%9C%9F%E5%B7%A5%E4%BD%9C%E5%9F%BA%E6%9C%AC%E6%83%85%E5%86%B5,解析后为“医院试用期工作基本情况”。
搜索关键字分词模块:对搜索的关键字进行分词、切词,提取有效词。
搜索关键字更新模块:根据确定的搜索关键字对应的搜索兴趣点,更新搜索关键字与搜索兴趣点映射表。
3、搜索兴趣点确定单元
包括:相似度计算模块和搜索兴趣点确定模块,如图6所示。
相似度计算模块:包括计算搜索关键字与搜索分类训练文本相似度、搜索后访问网页与搜索分类训练文本相似度,具体参见第五部分“相似度的计算”。
搜索兴趣点确定模块:根据计算的相似度,取相似度值最大的分类为用户搜索兴趣点。
4、管理单元
包括:搜索特征维护模块、文本分词库维护模块和搜索分类训练文本维护模块。
搜索特征维护模块:负责包括公共搜索引擎和专业搜索引擎的特征维护,具体特征包括:URL特征、匹配方式、搜索变量等,例如:URL特征为http://mp3.baidu.com/,其匹配方式为左匹配(即http://mp3.baidu.com/*),搜索变量为word或wd。
文本分词库维护模块:负责有效词条、无效词条的维护管理,有效词条例如:篮球、短评,无效词条例如:更多、几乎。
搜索分类训练文本维护模块:维护已知分类的训练文本,按照分类存储在不同的文件目录中。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。