CN106599147A - 一种浏览器浏览记录的管理方法及装置 - Google Patents
一种浏览器浏览记录的管理方法及装置 Download PDFInfo
- Publication number
- CN106599147A CN106599147A CN201611111194.8A CN201611111194A CN106599147A CN 106599147 A CN106599147 A CN 106599147A CN 201611111194 A CN201611111194 A CN 201611111194A CN 106599147 A CN106599147 A CN 106599147A
- Authority
- CN
- China
- Prior art keywords
- browse
- record
- themes
- user
- sample set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种浏览器浏览记录的管理方法,用于解决现有技术中浏览器用户在浏览记录中查询信息时,不仅操作繁琐,而且查询效率低的问题。该方法包括:获取用户的浏览记录并对其进行分类得到样本集合;分别对各样本集合进行相关性分析生成相应的分类组合,该分类组合包含所述样本集合中浏览记录对应的特征向量;根据各分类组合中词语出现的频率确定分类组合对应的浏览主题,并使该浏览主题关联到分类组合对应的浏览记录;以及根据用户查询时输入的关键词查找与该关键词匹配的浏览主题,并将查找到的与浏览主题关联的浏览记录呈现给用户。本发明同时公开了一种浏览器浏览记录的管理装置。
Description
技术领域
本发明涉及通信及计算机技术领域,尤其涉及一种即时通讯浏览记录的管理方法及装置。
背景技术
随着互联网技术的不断发展和普及,越来越多的用户不仅采用浏览器软件在网络中与其他用户进行交流,还可以将浏览器软件作为用户向其他用户咨询工作或学习中遇到问题的工具,同时,用户间的浏览记录伴随着用户间的交流在浏览器系统中保存下来,为用户以后查找自己关注的信息提供了资料。
例如:当用户A向用户B对一个问题进行了咨询,用户B返回了问题的答案,当用户C就同一个问题咨询用户A或用户B时,用户A需要查看与用户B的浏览记录中的相关信息,或者用户B需要查看与用户A的浏览记录中的相关信息时,用户A或用户B都需要在浏览记录中人工查找相关记录,当浏览记录较多或用户A与用户C咨询问题的时间间隔较长时,采用现有技术的方法,不仅增加了人工查找的工作量,而且查找效率较低。
如果用户A就同一问题对多个用户进行了咨询,当用户A希望从与多个用户的浏览记录中查询信息时,采用现有技术的方法,如用户使用的浏览器系统提供浏览记录查看功能的浏览器系统时,用户A 只能人工对多个用户的浏览记录逐一查看,找到自己关心的信息。即使用户A使用其它一些提供了用户浏览记录的数据导入/导出功能的浏览器系统,用户A也需要将多个用户的浏览记录数据先进行导出,然后在导出数据中进行查询,用户A还可根据自己关心的信息的关键词在导出数据中进行查询,但采用关键词的方式也只能定位到包含该关键词的语段,该语段不一定与用户关心的信息相关,也不能实现用户在浏览记录中有效查找信息。
发明内容
本发明提供一种即时通讯浏览记录的管理方法及装置,用以解决现有技术中存在的即时通讯用户在浏览记录中查询信息时,不仅操作繁琐,而且查询效率低的问题。
本发明提供以下技术方案:
一种浏览器浏览记录的管理方法,包括如下步骤:
获取用户的浏览记录并对其进行分类得到样本集合;
分别对各样本集合进行相关性分析生成相应的分类组合,该分类组合包含所述样本集合中浏览记录对应的特征向量;
根据各分类组合中词语出现的频率确定分类组合对应的浏览主题,并使该浏览主题关联到分类组合对应的浏览记录;以及
根据用户查询时输入的关键词查找与该关键词匹配的浏览主题,并将查找到的与浏览主题关联的浏览记录呈现给用户。
其中,生成浏览主题后进一步分析浏览主题之间的相关性,并将相关性大于预定阈值的浏览主题合并为同一个浏览主题,使合并后的浏览主题与被合并的所有浏览主题所对应的浏览记录关联。
按不同的浏览用户对浏览记录进行分类生成样本集合。
较佳的,根据所述样本集合中浏览记录的间隔时间,进一步将一个样本集合划分为多个不同的样本集合。
对样本集合进行相关性分析生成分类组合包括步骤:
生成样本集合中每条浏览记录对应的特征向量;
分析各特征向量与其他特征向量的相关性;
根据所述相关性对特征向量进行分类生成分类组合。
其中,对每条浏览记录进行分词处理,删除该浏览记录中无实际意义的词语并合并剩余词语中的同义词生成该浏览记录对应的特征向量。
根据组成所述特征向量的各词在其特征向量中的权重计算各特征向量的相关性。
根据分类组合中出现频率大于预定阈值的词语确定该分类组合的浏览主题。
一种浏览器浏览记录的管理装置,包括:
用于存储用户浏览记录的单元;
用于对所述浏览记录进行分类生成样本集合的单元;
用于对所述样本集合进行相关性分析生成相应的分类组合的单元;
用于确定所述分类组合对应的浏览主题,并使该浏览主题关联到分类组合对应的浏览记录的单元;以及
用于根据用户查询时输入的关键词查找与该关键词匹配的浏览主题,并将查找到的与浏览主题关联的浏览记录呈现给用户的单元。
较佳的,所述装置还包括:
用于分析浏览主题之间的相关性,并将相关性大于预定阈值的浏览主题合并为同一个浏览主题,以及将合并后的浏览主题与被合并的所有浏览主题所对应的浏览记录关联的单元。
本发明有益效果如下:
本发明对用户浏览记录进行分类生成样本集合后,分别对各样本集合进行相关性分析生成相应的分类组合并确定出分类组合对应的浏览主题,以及将浏览主题关联到分类组合对应的浏览记录。采用本发明后,当用户需要从浏览记录中查询信息时,用户只需输入关键词,系统将自动查找与该关键词匹配的浏览主题,并将查找到的浏览主题所关联的浏览记录呈现给用户,不仅避免了用户手工查询信息时的繁琐操作,而且提高了查询效率。
具体实施方式
为了解决现有技术中,即时通讯用户在浏览记录中查询信息时,不仅操作繁琐,而且查询效率低的问题,本实施例中对用户浏览记录进行分类生成样本集合,分别对各样本集合进行相关性分析生成相应的分类组合并确定出分类组合对应的浏览主题,并将浏览主题关联到分类组合对应的浏览记录,以及根据用户输入的关键词查找与该关键词匹配的浏览主题,并将查找到的浏览主题所关联的浏览记录呈现给用户。
本实施例中用户浏览记录的管理装置包括:存储单元、分类单元、分析单元、浏览主题单元、合并单元和查询单元。
存储单元用于保存用户的浏览记录和浏览主题。分类单元用于获取浏览记录并对浏览记录进行分类得到样本集合。分析单元用于对样本集合进行相关性分析,生成样本集合的分类组合。浏览主题单元用于确定样本集合分类组合的浏览主题,并使该浏览主题关联到分类组合对应的浏览记录。合并单元105用于分析浏览主题之间的相关性,并将相关性大于预定阈值的浏览主题合并为同一个浏览主题,以及将合并后的浏览主题关联到被合并的所有浏览主题对应的浏览记录。查询单元用于接收用户在浏览记录中查询信息时输入的关键词和查找与该关键词匹配的浏览主题,并将查找到的浏览主题所关联的浏览记录呈现给用户。
本实施例中用户浏览记录管理方法,包括:
步骤201、获取用户的浏览记录并对该浏览记录进行分类得到样本集合。
步骤202、对生成的样本集合进行相关性分析生成相应的分类组合。
步骤203、根据各分类组合中词语出现的频率确定分类组合对应的浏览主题,并使该浏览主题关联到分类组合对应的浏览记录。
步骤204、分析浏览主题之间的相关性,并将相关性大于预定阈值的浏览主题合并为同一个浏览主题,使合并后的浏览主题关联到被合并的所有浏览主题对应的浏览记录。
步骤205、当用户在浏览记录中查询信息时,根据用户查询时输入的关键词查找与该关键词匹配的浏览主题,并将查找到的浏览主题所关联的浏览记录呈现给用户。
在步骤201中,对浏览记录进行分类的处理过程如下:
步骤301、判断浏览记录是否已经过分类处理,如果已经过分类处理,则不对其进行处理;否则,执行步骤302。
步骤302、对没有经过分类处理的浏览记录根据不同的用户对浏览记录进行分类。
步骤303、将同一样本集合根据该样本集合中的浏览记录的间隔时间进行划分,进一步划分为不同的样本集合,浏览记录的间隔时间根据实际应用,可设为一星期等。
经过步骤303处理生成的样本集合TS为进行相关性分析的样本集合。
通过计算,获得各特征向量间的相关系数,根据该相关系数,将与每一个特征向量最相关的K个特征向量分别组合为一个集合,K的取值可根据实际应用进行确定。
步骤404、将各浏览记录对应的特征向量划分到分类C中的不同类中生成分类组合。
分类C为样本集合TS中各浏览记录对应的特征向量组成的集合。
方法一:当分类C为空时,则采用如下方式生成分类C中的一个向量集合c,然后将c添加到分类C中,
对每个样本集合TS进行上述处理后生成分类组合及该分类组合对应的浏览主题,将生成的浏览主题进行相关性分析时,将浏览主题作为KNN算法的一个样本集合,计算该集合中每一个浏览主题中各词在该浏览主题中的权重,根据权重,利用步骤403中的公式,计算出各浏览主题的相关系数,将相关系数大于设定阈值的浏览主题进行合并。
呈现浏览记录给用户时,根据不同的浏览用户将浏览记录进行排列,也可以根据浏览主题中浏览记录的权重顺序排列。
以上实施例中采用了算法对样本集合进行相关性分析,但本发明不仅限于采用算法对样本集合进行分析。对浏览记录进行相关性分析的方法还可以应用向量机算法、神经网络算法以及贝叶斯算法等基于向量空间的训练算法和分类方法。例如采用贝叶斯算法时,计算各浏览记录对应特征向量中每个词出现在某个浏览中的概率,然后根据贝叶斯公式计算出特征向量属于某个浏览的概率,将其加入到概率最大的浏览中。
采用本发明,当用户在浏览记录中查询用户关心的信息时,用户只需要输入关键词,系统将自动查询与关键词匹配的浏览主题,并将与该浏览主题关联的浏览记录呈现给用户,不仅避免了用户手工查询信息时的繁琐操作,而且提高了查询效率。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
Claims (10)
1.一种浏览器浏览记录的管理方法,其特征在于,包括如下步骤:
获取用户的浏览记录并对其进行分类得到样本集合;
分别对各样本集合进行相关性分析生成相应的分类组合,该分类组合包含所述样本集合中浏览记录对应的特征向量;
根据各分类组合中词语出现的频率确定分类组合对应的浏览主题,并使该浏览主题关联到分类组合对应的浏览记录;以及
根据用户查询时输入的关键词查找与该关键词匹配的浏览主题,并将查找到的与浏览主题关联的浏览记录呈现给用户。
2.如权利要求1所述的方法,其特征在于,生成浏览主题后进一步分析浏览主题之间的相关性,并将相关性大于预定阈值的浏览主题合并为同一个浏览主题,使合并后的浏览主题与被合并的所有浏览主题所对应的浏览记录关联。
3.如权利要求1或2所述的方法,其特征在于,按不同的浏览用户对浏览记录进行分类生成样本集合。
4.如权利要求3所述的方法,其特征在于,根据所述样本集合中浏览记录的间隔时间,进一步将一个样本集合划分为多个不同的样本集合。
5.如权利要求1所述的方法,其特征在于,对样本集合进行相关性分析生成分类组合包括步骤:
生成样本集合中每条浏览记录对应的特征向量;
分析各特征向量与其他特征向量的相关性;
根据所述相关性对特征向量进行分类生成分类组合。
6.如权利要求5所述的方法,其特征在于,对每条浏览记录进行分词处理,删除该浏览记录中无实际意义的词语并合并剩余词语中的同义词生成该浏览记录对应的特征向量。
7.如权利要求6所述的方法,其特征在于,根据组成所述特征向量的各词在其特征向量中的权重计算各特征向量的相关性。
8.如权利要求5所述的方法,其特征在于,根据分类组合中出现频率大于预定阈值的词语确定该分类组合的浏览主题。
9.一种浏览器浏览记录的管理装置,其特征在于,包括:
用于存储用户浏览记录的单元;
用于对所述浏览记录进行分类生成样本集合的单元;
用于对所述样本集合进行相关性分析生成相应的分类组合的单元;
用于确定所述分类组合对应的浏览主题,并使该浏览主题关联到分类组合对应的浏览记录的单元;以及
用于根据用户查询时输入的关键词查找与该关键词匹配的浏览主题,并将查找到的与浏览主题关联的浏览记录呈现给用户的单元。
10.如权利要求9所述的装置,其特征在于,还包括:
用于分析浏览主题之间的相关性,并将相关性大于预定阈值的浏览主题合并为同一个浏览主题,以及将合并后的浏览主题与被合并的所有浏览主题所对应的浏览记录关联的单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611111194.8A CN106599147A (zh) | 2016-12-06 | 2016-12-06 | 一种浏览器浏览记录的管理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611111194.8A CN106599147A (zh) | 2016-12-06 | 2016-12-06 | 一种浏览器浏览记录的管理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106599147A true CN106599147A (zh) | 2017-04-26 |
Family
ID=58596067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611111194.8A Pending CN106599147A (zh) | 2016-12-06 | 2016-12-06 | 一种浏览器浏览记录的管理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106599147A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446338A (zh) * | 2018-02-28 | 2018-08-24 | 维沃移动通信有限公司 | 一种保存浏览记录的方法及终端 |
CN113595886A (zh) * | 2021-07-29 | 2021-11-02 | 北京达佳互联信息技术有限公司 | 即时通讯消息的处理方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101119326A (zh) * | 2006-08-04 | 2008-02-06 | 腾讯科技(深圳)有限公司 | 一种即时通信会话记录的管理方法及装置 |
CN103577489A (zh) * | 2012-08-08 | 2014-02-12 | 百度在线网络技术(北京)有限公司 | 一种网页浏览历史查询方法及装置 |
CN104199874A (zh) * | 2014-08-20 | 2014-12-10 | 哈尔滨工程大学 | 一种基于用户浏览行为的网页推荐方法 |
CN104216967A (zh) * | 2014-08-22 | 2014-12-17 | 北京金山安全软件有限公司 | 历史浏览记录的管理方法、装置和移动终端 |
-
2016
- 2016-12-06 CN CN201611111194.8A patent/CN106599147A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101119326A (zh) * | 2006-08-04 | 2008-02-06 | 腾讯科技(深圳)有限公司 | 一种即时通信会话记录的管理方法及装置 |
CN103577489A (zh) * | 2012-08-08 | 2014-02-12 | 百度在线网络技术(北京)有限公司 | 一种网页浏览历史查询方法及装置 |
CN104199874A (zh) * | 2014-08-20 | 2014-12-10 | 哈尔滨工程大学 | 一种基于用户浏览行为的网页推荐方法 |
CN104216967A (zh) * | 2014-08-22 | 2014-12-17 | 北京金山安全软件有限公司 | 历史浏览记录的管理方法、装置和移动终端 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446338A (zh) * | 2018-02-28 | 2018-08-24 | 维沃移动通信有限公司 | 一种保存浏览记录的方法及终端 |
CN113595886A (zh) * | 2021-07-29 | 2021-11-02 | 北京达佳互联信息技术有限公司 | 即时通讯消息的处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107391687B (zh) | 一种面向地方志网站的混合推荐系统 | |
CN101119326B (zh) | 一种即时通信会话记录的管理方法及装置 | |
US7912816B2 (en) | Adaptive archive data management | |
CN108154395B (zh) | 一种基于大数据的客户网络行为画像方法 | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
WO2018028443A1 (zh) | 数据处理方法、设备及系统 | |
US7720721B1 (en) | Method and system for analyzing user interaction to identify documents associated with dissimilar items that may contain synonyms | |
CN104077407B (zh) | 一种智能数据搜索系统及方法 | |
CN107077486A (zh) | 情感评价系统和方法 | |
WO2013149220A1 (en) | Centralized tracking of user interest information from distributed information sources | |
Amami et al. | A graph based approach to scientific paper recommendation | |
Huang et al. | Kb-enabled query recommendation for long-tail queries | |
CN102968417A (zh) | 一种应用于计算机网络中的搜索方法和系统 | |
CN106326259A (zh) | 搜索引擎中商品标签的构建方法、系统及搜索方法和系统 | |
CN107533638A (zh) | 利用标签正确性概率来注释视频 | |
Selvakumar et al. | Enhanced K-means clustering algorithm for evolving user groups | |
CN106599147A (zh) | 一种浏览器浏览记录的管理方法及装置 | |
Deshmukh et al. | Classifying news headlines for providing user centered e-newspaper using SVM | |
Luo et al. | LightGBM using Enhanced and De-biased Item Representation for Better Session-based Fashion Recommender Systems | |
CN111797221B (zh) | 类似案件推荐方法及装置 | |
Rana et al. | Analysis of web mining technology and their impact on semantic web | |
Nguyen et al. | Pagerank-based approach on ranking social events: a case study with flickr | |
TWI605351B (zh) | Query method, system and device based on vertical search | |
Munilatha et al. | A study on issues and techniques of web mining | |
Ha et al. | Utilizing indirect associations in multimedia semantic retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170426 |