CN103714120B - 一种从用户url访问记录中提取用户兴趣话题的系统 - Google Patents

一种从用户url访问记录中提取用户兴趣话题的系统 Download PDF

Info

Publication number
CN103714120B
CN103714120B CN201310643379.3A CN201310643379A CN103714120B CN 103714120 B CN103714120 B CN 103714120B CN 201310643379 A CN201310643379 A CN 201310643379A CN 103714120 B CN103714120 B CN 103714120B
Authority
CN
China
Prior art keywords
user
topic
search word
search
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310643379.3A
Other languages
English (en)
Other versions
CN103714120A (zh
Inventor
刘臻
彭正超
徐锡荣
杨愉存
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI HEGUANG INFORMATION TECHNOLOGY Co Ltd
Original Assignee
SHANGHAI HEGUANG INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI HEGUANG INFORMATION TECHNOLOGY Co Ltd filed Critical SHANGHAI HEGUANG INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310643379.3A priority Critical patent/CN103714120B/zh
Publication of CN103714120A publication Critical patent/CN103714120A/zh
Application granted granted Critical
Publication of CN103714120B publication Critical patent/CN103714120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

一种从用户url访问记录中提取用户兴趣话题的系统,所述系统包括搜索词获取模块、数据过滤和整理模块、用户兴趣话题和话题搜索词提取模块、用户搜索词预测模块、搜索网址数据库、用户‑话题数据库和话题‑搜索词数据库,其基于用户‑搜索词列表数据,得到用户对所有兴趣话题中的搜索词的权重,确定用户可能会喜欢的搜索词。本系统将用户、话题与搜索词相互关联,针对性强、个性化程度高、用户体验好。

Description

一种从用户url访问记录中提取用户兴趣话题的系统
技术领域
本发明涉及一种从用户url访问记录中提取用户兴趣话题的系统。
背景技术
现有的搜索词预测,大多是基于对多数人的搜索行为和习惯进行统计分析或数据挖掘,得到的是大多数人的搜索偏好,其预测的结论立足于大数据,预测结果准确度高,能得出用户的一般行为。
但同时,现有的搜索词预测缺乏一定的灵活性,用户得到的是与其他用户相同的预测结果,个性化程度低,用户体验差。
发明内容
为解决上述问题,本发明提供了一种从用户url访问记录中提取用户兴趣话题的系统,所述系统包括搜索词获取模块、数据过滤和整理模块、用户兴趣话题和话题搜索词提取模块、用户搜索词预测模块、搜索网址数据库、用户-话题数据库和话题-搜索词数据库,
其中,搜索网址数据库保存网址数据,包括已知的搜索引擎的域名、名称、搜索词在url中的字段位置、收录日期、上次更新日期以及本条目被匹配次数;搜索词获取模块包括搜索词识别子模块,搜索词识别子模块根据搜索网址数据库中的已有数据,识别出用户访问的用户url访问记录中的搜索词并进行提取;数据过滤和整理模块对识别到的用户搜索词进行数据预处理,得到并输出用户-搜索词列表数据;用户兴趣话题和话题搜索词提取模块根据数据过滤和整理模块输出的用户-搜索词列表数据提取用户感兴趣的话题以及属于同一话题的搜索词列表数据,提取的结果分别保存到用户-话题数据库和话题-搜索词数据库中,并计算用户在兴趣话题上的权重和此话题内的所有搜索词的占比权重;用户搜索词预测模块将用户在兴趣话题上的权重乘以此话题内的所有搜索词的占比权重,得到用户对所有兴趣话题中的搜索词的权重,然后,将用户对搜索词的权重按照大小排序,取排名靠前的搜索词作为用户可能会喜欢的搜索词。
特别的,搜索词识别子模块首先从用户url访问记录中取出网址记录,根据标准网址格式解析将其解析成多级域名和多级目录两部分;然后,在搜索网址数据库中检索域名,如正确识别,就得到此域名下搜索词字段位置,进而在多级目录中将该搜索词字段对应的搜索词取出,得到用户访问url中的搜索词内容,并保存。
进一步,搜索词获取模块还包括搜索网址数据库更新子模块,其用于维护网址数据库,包括增加新的搜索网址和去除无效的搜索网址子模块,若在搜索网址数据库中没有正确识别出用户访问的用户url访问记录中的搜索词,则将此url网页地址计入匹配失败日志文件;搜索网址数据库更新子模块定期扫描匹配失败日志文件,判断失败网址是否为满足OpenSearch标准的搜索网址,若满足,则将其将此网页的名称、多级域名、搜索词在url网页地址的字段位置、收录日期信息作为一条新纪录自动加入搜索网址数据库;定期检索搜索词网址数据库中的匹配次数和修改次数两列,将匹配次数为0以及修改次数为0的记录去除。
此外,本系统还包括用户编号与搜索词编号还原模块,数据过滤和整理模块还输出用户列表数据和搜索词列表数据,其中,用户-搜索词列表数据包括三列,分别是用户id编号,搜索词id编号和搜索频次,用户列表数据为两列,分别是用户代号IMSI和用户id编号,搜索词列表数据包括两列,分别是搜索词和搜索词id编号,用户编号与搜索词编号还原模块将用户列表数据和搜索词列表数据中的用户id编号和搜索词id编号还原为用户号IMSI和搜索词。
其中,用户兴趣话题和话题搜索词提取模块首先根据数据过滤和整理模块输出的用户-搜索词列表数据,构建一个m行n列的用户-搜索词矩阵V,其中m,n分别为用户的数量和搜索词数量;矩阵V的每一行表示一个用户的搜索记录,行中的数值为用户对搜索词的搜索频次,对于用户未搜索的关键词,用数值0填充,然后,采用非负矩阵分解的方法将用户-搜索词矩阵V分解为两个非负矩阵W和H的乘积,分解用户-搜索词矩阵的方法是求取最优的wia和hbj,使得求解后的最小二乘差值与原矩阵V最小,即求解以下带有约束项的优化目标函数,得到最优的wia和hbj
满足0<a≤r,0<b≤r,r<<m,r<<n,
最后,W和H分别为m*r和r*n的矩阵,r是用于控制提取的话题个数的参数,W表示用户-话题矩阵,H表示话题-搜索词矩阵,W的每一行表示用户对于给定的r个话题的兴趣程度,即用户在兴趣话题上的权重,H的每一行表示话题中搜索词所占的重要性,即此话题内的这一搜索词的占比权重。
此外,本系统还包括用户兴趣更新模块,其利用过滤和整理模块处理输出的用户-搜索词列表数据更新用户的兴趣话题,对系统中已有记录用户,更新用户兴趣话题;对于不存在记录的用户,直接利用新数据计算得到的话题作为用户的兴趣话题。
其中,用户-话题更新模块的更新方法如下:对于系统中出现的新用户,将其搜索记录构建为一个长度为n的向量u,n是系统已识别的搜索词数量,向量的每个维度的数值用新用户搜索对于词汇的频次来表示,对于用户没有搜索的词汇,用0进行填充,利用非负最小二乘法求解方程
HTx=u,
其中,HT为话题-搜索词矩阵的转置,每一列表示一个话题下的高频关键词的权重,求解得到的长度为r的向量x就是用户对r个兴趣话题的权重;对于系统已有的用户,将其新产生的搜索记录视作一个新用户产生的记录,然后对其使用上述针对新用户的兴趣话题提取方法对其提取话题得到长度为r的话题向量unew,然后用一个更新参数α对用户的兴趣话题进行更新,
另外,话题搜索词更新模块利用数据过滤和整理模块处理输出的用户-搜索词列表数据来更新话题-搜索词数据库,首先利用新数据计算新的话题,然后将计算结果与原有话题进行比较,并进行合并和更新。
其中,话题-搜索词更新模块更新话题的方法包括:定期积累一定量的用户-搜索词数据后,进行一次非负的矩阵分解,分解得到Wnew和Hnew矩阵,Hnew为新的话题-搜索词矩阵,矩阵大小为mnew*rnew,原有的话题-搜索词矩阵为Hold,对Hnew中的每一个话题hnew,计算其与原有Hold中的每一个话题hold的余弦相似度:
如果相似度大于给定的阈值t,就将其认定为属于同一个话题,将其合并为一个话题;如果相似度小于给定阈值t,那么将其为一个新话题加入到原有的话题-搜索词矩阵中,合并的方式用如下公式计算:
附图说明
图1为本发明的从用户url访问记录中提取用户兴趣话题系统的系统结构图;
图2为本发明的从用户url访问记录中提取用户兴趣话题系统中的搜索词获取模块的工作流程图;
图3为应用本发明的从用户url访问记录中提取用户兴趣话题系统的搜索词获取示例图;
图4为本发明的从用户url访问记录中提取用户兴趣话题系统中的搜索词过滤和整理模块的工作流程图;
图5为应用本发明的从用户url访问记录中提取用户兴趣话题系统的用户-话题和话题-搜索词提取示例图;
图6为应用本发明的从用户url访问记录中提取用户兴趣话题系统的用户-话题更新示例图;
图7为应用本发明的从用户url访问记录中提取用户兴趣话题系统的更新话题搜索词示例图;
图8为应用本发明的从用户url访问记录中提取用户兴趣话题系统的用户可能感兴趣搜索词预测示例图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
图1为本发明的从用户url访问记录中提取用户兴趣话题系统的系统结构图,如图所示,所述系统包括搜索词获取模块、数据过滤和整理模块、用户兴趣话题和话题搜索词提取模块、用户兴趣更新模块、话题搜索词更新模块、用户搜索词预测模块、搜索网址数据库、用户-话题数据库和话题-搜索词数据库。
1.搜索词获取模块
搜索词获取模块从用户url访问记录中识别出用户的搜索词,包括搜索词识别子模块、搜索网址数据库更新子模块,用户url访问记录中记录有用户访问的网页地址数据。搜索网址数据库保存的数据包括已知的搜索引擎的域名、名称、搜索词在url中的字段位置、收录日期、上次更新日期以及本条目被匹配次数等。搜索词识别子模块根据搜索网址数据库中的已有数据,识别出用户访问的用户url访问记录中的搜索词并进行提取。搜索网址数据库更新子模块负责维护网址数据库,包括增加新的搜索网址和去除无效的搜索网址。
搜索词获取模块的处理流程如图2所示。首先,从用户url访问记录中取出网址记录,根据标准网址格式解析将其解析成多级域名和多级目录两部分;然后,在搜索网址数据库中检索域名,如正确识别,就得到此域名下搜索词字段位置,进而在多级目录中将该搜索词字段对应的搜索词取出,得到用户访问url中的搜索词内容,并保存;若在搜索网址数据库中没有正确识别,则将此url网页地址计入匹配失败日志文件;搜索网址数据库更新子模块定期扫描匹配失败日志文件,判断失败网址是否为满足OpenSearch标准的搜索网址,若满足,则将其将此网页的名称、多级域名、搜索词在url网页地址的字段位置、收录日期等信息作为一条新纪录自动加入搜索网址数据库;定期检索搜索词网址数据库中的匹配次数和修改次数两列,将匹配次数为0以及修改次数为0的记录去除。
如图3所示的用户url访问记录,通过搜索词获取模块提取到的信息是在“手机百度”搜索了“智能手机”这一关键词。具体的搜索词识别过程为:首先,将此url解析为多级域名:m.baidu.com和多级目录:/ssid=0/from=0/bd_page_type=1/uid=1F15D3AA08F0E0070304875B3894CB89/pu=sz@224_220,ta@middle___3_537,usm@6/baiduid=F5569797655A5378853CFA12C8350833/s?ref=www_colorful&sa=tb&prest=111041&rn=10&st=111041&tn=webmain&uc_param_str=upssntdnvelami&word=智能手机&su=搜索;然后,根据多级域名m.baidu.com查询搜索网址数据库,得到此用户在“手机百度”搜索引擎上发起了一次搜索,且搜索词内容在“word”字段中;最后将多级目录中“word”对应字段内容“智能手机”提取并作为用户搜索词保存。
若上一步在搜索网址数据库中查询时失败,那么此url地址将被保存到匹配失败日志,搜索词数据库更新模块扫描到这条记录后,如果通过网页分析发现此url满足OpenSearch标准,则将此搜索网址“m.baidu.com”、网页名称“手机百度”、搜索词对应的字段名称“word”等内容作为一条记录加入搜索网址数据库。
2.数据过滤和整理模块
数据过滤和整理模块对识别到的用户搜索词进行数据预处理,去除无效乱码数据;过滤搜索量过小的词汇,包括乱码及无意义词汇去除模块和搜索词频次统计模块。数据过滤和整理的流程如图4所示。
乱码及无意义词汇去除模块识识别出搜索词汇中的乱码词汇、无意义词汇,包括分割符号、百分号等,进而将识别到的词汇从搜索词数据中去除。
搜索频次统计模块负责统计已有的搜索词访问频次和访问人次,并将小于给定阈值的搜索词去除。
数据过滤和整理模块还包括用户及搜索词编号模块,对用户-搜索词数据中的用户和搜索词分别进行编号。
数据过滤和整理模块输出用户-搜索词列表数据、用户列表数据和搜索词列表数据。用户-搜索词列表数据包括三列,分别是用户id编号,搜索词id编号和搜索频次;用户列表数据为两列,分别是用户代号(IMSI)和用户id编号;搜索词列表数据包括两列,分别是搜索词和搜索词id编号。
3.用户-话题和话题-搜索词提取模块
用户兴趣话题和话题搜索词提取模块根据数据过滤和整理模块输出的用户-搜索词记录列表数据提取用户感兴趣的话题以及属于同一话题的搜索词列表数据,话题数目可以根据需求由事先给定的参数确定,参数的值即为提取出的话题数目。提取的结果分别保存到用户-话题数据库和话题-搜索词数据库中,计算用户在兴趣话题上的权重和此话题内的所有搜索词的占比权重。
具体实现的步骤为:
首先,根据数据过滤和整理模块输出的用户-搜索词列表数据,构建一个m行n列的用户-搜索词矩阵V,其中m,n分别为用户的数量和搜索词数量;矩阵V的每一行表示一个用户的搜索记录,行中的数值为用户对搜索词的搜索频次,对于用户未搜索的关键词,用数值0填充。
然后,采用非负矩阵分解的方法将用户-搜索词矩阵V分解为两个非负矩阵W和H的乘积。分解用户-搜索词矩阵的方法是求取最优的wia和hbj,使得求解后的最小二乘差值与原矩阵V最小,即求解以下带有约束项的优化目标函数,得到最优的wia和hbj
满足0<a≤r,0<b≤r,r<<m,r<<n
最后,W和H分别为m*r和r*n的矩阵,r是用于控制提取的话题个数的参数,W表示用户-话题矩阵,H表示话题-搜索词矩阵。W的每一行表示用户对于给定的r个话题的兴趣程度,数值越大表示用户对这一话题兴趣越大,即用户在兴趣话题上的权重越大;H的每一行表示话题中搜索词所占的重要性,数值越大表示这一搜索词在本话题中的重要性越大,即此话题内的这一搜索词的占比权重越大。
图5是用户-话题和话题-搜索词提取的一个示例,边上的数字代表搜索的次数或权重。用户A和B分别搜索了一系列搜索词,根据这些关键词提取到两个话题,每个话题分别包含一些搜索词。如图5所示,用户的搜索词被转换成了用户对话题的权重和每个话题下搜索词的权重,完成对于刻画用户行为,提取用户兴趣的功能。
4.用户-话题更新模块
用户兴趣更新模块利用用户新的url访问记录经数据过滤和整理模块处理输出的用户-搜索词列表数据更新用户的兴趣话题,对系统中已有记录用户,更新用户兴趣话题;对于不存在记录的用户,直接利用新数据计算得到的话题作为用户的兴趣话题。
用户-话题更新模块包括实时更新模块和定期更新模块。实时更新模块负责将已有用户产生的新数据进行计算,并实时的更新到用户话题中,调整用户在各个话题下的权重。
定期更新模块负责将一段时间内积累的数据进行统一计算,更新新用户的兴趣话题到用户-话题数据库中。
更新用户话题的方法如下:
对于系统中出现的新用户,将其搜索记录构建为一个长度为n的向量u,n是系统已识别的搜索词数量,向量的每个维度的数值用新用户搜索对于词汇的频次,对于用户没有搜索的词汇,用0进行填充。
利用非负最小二乘法求解方程
HT xu
其中,HT为话题-搜索词矩阵的转置,每一列表示一个话题下的高频关键词的权重。求解得到的长度为r的向量x就是用户对r个兴趣话题的权重。
对于系统已有的用户,将其新产生的搜索记录视作一个新用户产生的记录,然后对其使用上述针对新用户的兴趣话题提取方法对其提取话题得到长度为r的话题向量unew,然后用一个更新参数α对用户的兴趣话题进行更新:
具体的,如果用户之前对话题i的权重为0,新纪录里面出现了话题i的权重,那么直接将用户对话题i的权重设置为新纪录的权重;如果用户之前对话题i的权重为那么以α的比例将新纪录更新到用户的兴趣话题中。
图6是用户-话题更新的示例,用户C是一个新用户,其搜索了三个关键词,经过计算得出用户的三个关键词同属一个话题3,于是得到这个新用户的话题权重。经过如图7所示的话题合并步骤后,得到新用户对合并后的话题权重。
5.话题-搜索词更新模块
话题搜索词更新模块利用用户新的url访问记录经数据过滤和整理模块处理输出的用户-搜索词列表数据来更新话题-搜索词数据库。首先利用新数据计算新的话题,然后将计算结果与原有话题进行比较,并进行合并和更新。
话题-搜索词更新模块包括实时更新和定期更新模块。实时更新模块负责将用户对已有关键词的搜索记录进行计算,并实时更新到话题-关键词数据中。定期更新模块将积累的用户对新词汇的搜索记录进行计算,发现新的搜索词话题,然后将新话题合并或更新到原有话题中。
本发明所采用的上更新话题的方法包括:定期积累一定量的用户-搜索词数据后,进行一次非负的矩阵分解,分解得到Wnew和Hnew矩阵,Hnew为新的话题-搜索词矩阵,矩阵大小为mnew*rnew
原有的话题-搜索词矩阵为Hold,对Hnew中的每一个话题hnew(一行),计算其与原有Hold中的每一个话题hold的余弦相似度:
如果相似度大于给定的阈值t,就将其认定为属于同一个话题,将其合并为一个话题;如果相似度小于给定阈值t,那么将其为一个新话题加入到原有的话题-搜索词矩阵中。
合并的方式用如下公式计算:
具体的,如果话题中已有搜索词i,那么以β为比例将新话题中词搜索词的权重加入到原来的话题中;如果搜索词i没有在原有话题中出现过,那么直接将其加入到原有话题中更新话题下的搜索词。
图7是话题2和话题3合并的一个示例,首先,将新话题按照中的三个新关键词按照权重和相似度相乘,然后判断“连衣裙”这一搜索词已经存在,按照比例合并,其他两个搜索词不存在,直接加入到话题2中。
6.用户搜索词预测模块
用户搜索词预测模块将用户在兴趣话题上的权重乘以此话题内的所有搜索词的占比权重,得到用户对所有兴趣话题中的搜索词的权重;然后,将用户对搜索词的权重按照大小排序,取排名靠前的搜索词作为用户可能会喜欢的搜索词。
用户搜索词预测的示例如图8所示,从用户-话题和话题-搜索词数据库中得到用户对话题2的权重和话题2下包含的搜索词权重,去除掉用户已经搜索过的词汇,得到用户可能会喜欢的搜索词两个预测结果。
7.用户编号与搜索词编号还原模块
以上步骤都只用到了用户-搜索词列表数据,因此得到的用户兴趣话题、用户搜索词预测、话题内高频搜索词结果都是用用户id和搜索词id表示的。
为了实现结果的直观可视化,本发明的从用户url访问记录中提取用户兴趣话题系统的系统还可以包括用户编号与搜索词编号还原模块,其结合用户列表和搜索词列表最终结果中的用户编号和搜索词编号还原为用户代码(IMSI)和搜索词的格式。
综上,本发明的从用户用户url访问记录中提取用户兴趣话题系统通过分析用户的网页访问日志,从中提取出用户的搜索词,然后对搜索词数据进行过滤,去除无意义乱码以及访问量过小的词汇,在此基础上,提取用户兴趣话题和话题搜索词并且依据新数据动态更新用户兴趣话题和话题搜索词数据库,此外,还可以进行用户可能感兴趣的搜索词预测。
以上已对本发明创造的较佳实施例进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明创造精神的前提下还可作出种种的等同的变型或替换,这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

Claims (9)

1.一种从用户url访问记录中提取用户兴趣话题的系统,所述系统包括搜索词获取模块、数据过滤和整理模块、用户兴趣话题和话题搜索词提取模块、用户搜索词预测模块、搜索网址数据库、用户-话题数据库和话题-搜索词数据库,其特征在于:
搜索网址数据库,保存网址数据,包括已知的搜索引擎的域名、名称、搜索词在url中的字段位置、收录日期、上次更新日期以及本条目被匹配次数;
搜索词获取模块,包括搜索词识别子模块,搜索词识别子模块根据搜索网址数据库中的已有数据,识别出用户访问的用户url访问记录中的搜索词并进行提取;
数据过滤和整理模块,对识别到的用户搜索词进行数据预处理,得到并输出用户-搜索词列表数据;
用户兴趣话题和话题搜索词提取模块,根据数据过滤和整理模块输出的用户-搜索词列表数据提取用户感兴趣的话题以及属于同一话题的搜索词列表数据,提取的结果分别保存到用户-话题数据库和话题-搜索词数据库中,并计算用户在兴趣话题上的权重和此话题内的所有搜索词的占比权重;
用户搜索词预测模块,其将用户在兴趣话题上的权重乘以此话题内的所有搜索词的占比权重,得到用户对所有兴趣话题中的搜索词的权重,然后,将用户对搜索词的权重按照大小排序,取排名靠前的搜索词作为用户可能会喜欢的搜索词。
2.如权利要求1所述的系统,其特征在于:搜索词识别子模块首先从用户url访问记录中取出网址记录,根据标准网址格式解析将其解析成多级域名和多级目录两部分;然后,在搜索网址数据库中检索域名,如正确识别,就得到此域名下搜索词字段位置,进而在多级目录中将该搜索词字段对应的搜索词取出,得到用户访问url中的搜索词内容,并保存。
3.如权利要求2所述的系统,其特征在于:搜索词获取模块还包括搜索网址数据库更新子模块,其用于维护搜索网址数据库,包括增加新的搜索网址和去除无效的搜索网址子模块,
若在搜索网址数据库中没有正确识别出用户访问的用户url访问记录中的搜索词,则将此url网页地址计入匹配失败日志文件;搜索网址数据库更新子模块定期扫描匹配失败日志文件,判断失败网址是否为满足OpenSearch标准的搜索网址,若满足,则将此网页的名称、多级域名、搜索词在url网页地址的字段位置、收录日期信息作为一条新纪录自动加入搜索网址数据库;定期检索搜索词网址数据库中的匹配次数和修改次数两列,将匹配次数为0以及修改次数为0的记录去除。
4.如权利要求1所述的系统,其特征在于:
本系统还包括用户编号与搜索词编号还原模块,
数据过滤和整理模块还输出用户列表数据和搜索词列表数据,其中
用户-搜索词列表数据包括三列,分别是用户id编号,搜索词id编号和搜索频次,
用户列表数据为两列,分别是用户代号和用户id编号,
搜索词列表数据包括两列,分别是搜索词和搜索词id编号,
用户编号与搜索词编号还原模块将用户列表数据和搜索词列表数据中的用户id编号和搜索词id编号分别还原为用户代号和搜索词。
5.如权利要求1所述的系统,其特征在于:用户兴趣话题和话题搜索词提取模块首先根据数据过滤和整理模块输出的用户-搜索词列表数据,构建一个m行n列的用户-搜索词矩阵V,其中m,n分别为用户的数量和搜索词数量;矩阵V的每一行表示一个用户的搜索记录,行中的数值为用户对搜索词的搜索频次,对于用户未搜索的关键词,用数值0填充,
然后,采用非负矩阵分解的方法将用户-搜索词矩阵V分解为两个非负矩阵W和H的乘积,分解用户-搜索词矩阵的方法是求取最优的wia和hbj,使得求解后的最小二乘差值与原矩阵V最小,即求解以下带有约束项的优化目标函数,得到最优的wia和hbj
arg min w i a &GreaterEqual; 0 , h b j &GreaterEqual; 0 &Sigma; i = 1 m &Sigma; j = 1 n ( v i j - w i a h b j ) 2
满足0<a≤r,0<b≤r,r<<m,r<<n,
最后,W和H分别为m*r和r*n的矩阵,r是用于控制提取的话题个数的参数,W表示用户-话题矩阵,H表示话题-搜索词矩阵,W的每一行表示用户对于给定的r个话题的兴趣程度,即用户在兴趣话题上的权重,H的每一行表示话题中搜索词所占的重要性,即此话题内的这一搜索词的占比权重。
6.如权利要求1所述的系统,其特征在于:本系统还包括用户兴趣更新模块,其利用过滤和整理模块处理输出的用户-搜索词列表数据更新用户的兴趣话题,对系统中已有记录用户,更新用户兴趣话题;对于不存在记录的用户,直接利用新数据计算得到的话题作为用户的兴趣话题。
7.如权利要求6所述的系统,其特征在于:用户-话题更新模块的更新方法如下:
对于系统中出现的新用户,将其搜索记录构建为一个长度为n的向量u,n是系统已识别的搜索词数量,向量的每个维度的数值用新用户搜索对于词汇的频次来表示,对于用户没有搜索的词汇,用0进行填充,
利用非负最小二乘法求解方程
HTx=u,
其中,HT为话题-搜索词矩阵的转置,每一列表示一个话题下的高频关键词的权重,求解得到的长度为r的向量x就是用户对r个兴趣话题的权重;
对于系统已有的用户,将其新产生的搜索记录视作一个新用户产生的记录,然后对其使用上述针对系统中出现的新用户的方法提取话题得到长度为r的话题向量unew,然后用一个更新参数α对用户的兴趣话题进行更新,
u i = ( 1 - &alpha; ) u old i + &alpha;u new i i f u old i &NotEqual; 0 u new i i f u old i = 0 ,
其中ui为话题i的话题向量,unewi为话题i的新提取的话题向量,uoldi为话题i的已有的话题向量,α为权重值。
8.如权利要求1所述的系统,其特征在于:话题搜索词更新模块利用数据过滤和整理模块处理输出的用户-搜索词列表数据来更新话题-搜索词数据库,首先利用新数据计算新的话题,然后将计算结果与原有话题进行比较,并进行合并和更新。
9.如权利要求1所述的系统,其特征在于:话题-搜索词更新模块更新话题的方法包括:
定期积累一定量的用户-搜索词数据后,进行一次非负的矩阵分解,分解得到Wnew和Hnew矩阵,Hnew为新的话题-搜索词矩阵,矩阵大小为mnew*rnew
原有的话题-搜索词矩阵为Hold,对Hnew中的每一个话题行向量hnew,计算其与原有话题-搜索词矩阵Hold中的每一个话题行向量hold的余弦相似度:
S i m ( h o l d , h n e w ) = < h n e w , h o l d > | | h o l d | | | | h n e w | | ,
如果相似度大于给定的阈值t,就将其认定为属于同一个话题,将其合并为一个话题;如果相似度小于给定阈值t,那么将其为一个新话题加入到原有的话题-搜索词矩阵中,
合并的方式用如下公式计算:
h i = ( 1 - &beta; ) h old i + &beta;h new i i f h old i &NotEqual; 0 h new i i f h old i = 0 ,
其中hi为搜索词i的向量,hnewi为搜索词i的新的向量,holdi为搜索词i的已有向量,β为权重值。
CN201310643379.3A 2013-12-03 2013-12-03 一种从用户url访问记录中提取用户兴趣话题的系统 Active CN103714120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310643379.3A CN103714120B (zh) 2013-12-03 2013-12-03 一种从用户url访问记录中提取用户兴趣话题的系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310643379.3A CN103714120B (zh) 2013-12-03 2013-12-03 一种从用户url访问记录中提取用户兴趣话题的系统

Publications (2)

Publication Number Publication Date
CN103714120A CN103714120A (zh) 2014-04-09
CN103714120B true CN103714120B (zh) 2017-06-23

Family

ID=50407095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310643379.3A Active CN103714120B (zh) 2013-12-03 2013-12-03 一种从用户url访问记录中提取用户兴趣话题的系统

Country Status (1)

Country Link
CN (1) CN103714120B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914550B (zh) * 2014-04-11 2017-08-18 百度在线网络技术(北京)有限公司 展现推荐内容的方法和装置
CN104866909A (zh) * 2015-04-29 2015-08-26 国网智能电网研究院 一种机票预定功能url整理方法和系统
CN106202312B (zh) * 2016-07-01 2019-10-18 天翼智慧家庭科技有限公司 一种用于移动互联网的兴趣点搜索方法和系统
CN106383857A (zh) * 2016-08-31 2017-02-08 锐捷网络股份有限公司 一种信息处理方法及电子设备
CN108804429A (zh) * 2017-04-26 2018-11-13 广东原昇信息科技有限公司 一种基于深度学习的访客搜索行为特征提取方法
CN107818334A (zh) * 2017-09-29 2018-03-20 北京邮电大学 一种移动互联网用户访问模式表征和聚类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853308A (zh) * 2010-06-11 2010-10-06 中兴通讯股份有限公司 一种个性化元搜索的方法及其应用终端
CN102831199A (zh) * 2012-08-07 2012-12-19 北京奇虎科技有限公司 建立兴趣模型的方法及装置
CN103218410A (zh) * 2013-03-26 2013-07-24 亿赞普(北京)科技有限公司 互联网事件分析方法与装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853308A (zh) * 2010-06-11 2010-10-06 中兴通讯股份有限公司 一种个性化元搜索的方法及其应用终端
CN102831199A (zh) * 2012-08-07 2012-12-19 北京奇虎科技有限公司 建立兴趣模型的方法及装置
CN103218410A (zh) * 2013-03-26 2013-07-24 亿赞普(北京)科技有限公司 互联网事件分析方法与装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于网页浏览的用户兴趣度研究;许国迎等;《上海理工大学学报》;20131015;第35卷(第5期);第420-424页 *

Also Published As

Publication number Publication date
CN103714120A (zh) 2014-04-09

Similar Documents

Publication Publication Date Title
CN103714120B (zh) 一种从用户url访问记录中提取用户兴趣话题的系统
CN106250513B (zh) 一种基于事件建模的事件个性化分类方法及系统
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN102831234B (zh) 基于新闻内容和主题特征的个性化新闻推荐装置和方法
CN106874292B (zh) 话题处理方法及装置
CN103955505B (zh) 一种基于微博的事件实时监测方法及系统
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
CN107220295A (zh) 一种人民矛盾调解案例搜索和调解策略推荐方法
CN104281702B (zh) 基于电力关键词分词的数据检索方法及装置
CN104077407B (zh) 一种智能数据搜索系统及方法
CN105159932B (zh) 一种数据检索引擎和排序系统和方法
CN107818138A (zh) 一种案件法律条例推荐方法及系统
JP5092165B2 (ja) データ構築方法とシステム
CN103744928B (zh) 一种基于历史访问记录的网络视频分类方法
CN106815307A (zh) 公共文化知识图谱平台及其使用办法
CN105095187A (zh) 一种搜索意图识别方法及装置
CN104484431B (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN109033284A (zh) 基于知识图谱的电力信息运维系统数据库构建方法
CN102169496A (zh) 基于锚文本分析的领域术语自动生成方法
CN105787121B (zh) 一种基于多故事线的微博事件摘要提取方法
CN105378730A (zh) 社交媒体分析与输出
CN101894351A (zh) 基于多智能Agent的旅游多媒体信息个性化服务系统
CN112559684A (zh) 一种关键词提取及信息检索方法
CN106570140B (zh) 确定信息热点的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant