CN107451216A - 标签的粒度属性识别方法及装置 - Google Patents

标签的粒度属性识别方法及装置 Download PDF

Info

Publication number
CN107451216A
CN107451216A CN201710581113.9A CN201710581113A CN107451216A CN 107451216 A CN107451216 A CN 107451216A CN 201710581113 A CN201710581113 A CN 201710581113A CN 107451216 A CN107451216 A CN 107451216A
Authority
CN
China
Prior art keywords
label
granularity
tag library
user
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710581113.9A
Other languages
English (en)
Inventor
晋彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Special Road Mdt Infotech Ltd
Original Assignee
Guangzhou Special Road Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Special Road Mdt Infotech Ltd filed Critical Guangzhou Special Road Mdt Infotech Ltd
Priority to CN201710581113.9A priority Critical patent/CN107451216A/zh
Publication of CN107451216A publication Critical patent/CN107451216A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种标签的粒度属性识别方法及装置,通过收集若干个标签生成标签库,根据所述标签库中的全部标签建立结构化的标签树,根据所述标签树对所述标签库中的每一标签进行粒度划分,再识别所述标签库中每一标签在大量文章中的特征,实时收集用户的行为日志,根据所述标签库中每一标签在大量文章中的特征,对所述行为日志指向的资讯进行标签抽取生成标签集,然后根据所述标签库中每一所标签的粒度属性,获得所述用户的标签集中每一标签的粒度属性,能有效解决现有推荐系统缺少对文章的粒度分析,能为用户推荐更符合用户阅读层级的资讯。

Description

标签的粒度属性识别方法及装置
技术领域
本发明涉及计算机领域,尤其涉及一种标签的粒度属性识别及装置。
背景技术
随着互联网的迅猛发展,每天有大量网页在互联网上更新或者发布。对于广大用户来说在大量的信息中想找到自己满意的信息已经是越来越困难,从而导致了“信息过量”与“信息饥饿”的矛盾现象。为解决这一问题,提出了个性化信息服务,这是一种智能信息服务方式。可以根据用户的信息需求和个性化模式,主动搜寻相关信息,并且利用在线智能推荐服务或者推送技术,准确的将用户所需的信息传送到相应的用户。在个性化服务技术中,应用较成功的是协同过滤方法。该方法是指用户根据自身的需求,通过和其他用户进行合作,形成一定的协作规则,或利用多个信息使用者的倾向性来预测单个用户的兴趣,然后根据具有相同兴趣爱好的用户对信息进行评价,从而得到推荐结果。由于Web日志中记录了大量的用户行为信息,利用Web日志可以为个性化服务提供重要的数据支持。另外,在用户兴趣度量方面,目前存在的从访问日志文件中提取用户的访问模式进行推荐的方法,没有考虑到用户访问页面的时间特性。另一方面,现有的推荐系统缺少对文章的粒度分析,从而不能为用户推荐符合用户精准需求的资讯。
发明内容
本发明实施例的目的是提供一种标签的粒度属性识别方法及装置,能有效解决现有推荐系统缺少对文章的粒度分析,能为用户推荐更符合用户阅读层级的资讯。
为实现上述目的,本发明实施例提供了一种标签的粒度属性识别方法,包括步骤:
收集若干个标签生成标签库,根据所述标签库中的全部标签建立结构化的标签树,根据所述标签树对所述标签库中的每一标签进行粒度划分;
识别所述标签库中每一标签在大量文章中的特征,实时收集用户的行为日志,根据所述标签库中每一标签在大量文章中的特征,对所述行为日志指向的资讯进行标签抽取生成标签集;
根据所述标签库中每一所标签的粒度属性,获得所述用户的标签集中每一标签的粒度属性。
与现有技术相比,本发明公开的标签的粒度属性识别方法通过收集若干个标签生成标签库,根据所述标签库中的全部标签建立结构化的标签树,根据所述标签树对所述标签库中的每一标签进行粒度划分,再识别所述标签库中每一标签在大量文章中的特征,实时收集用户的行为日志,根据所述标签库中每一标签在大量文章中的特征,对所述行为日志指向的资讯进行标签抽取生成标签集,然后根据所述标签库中每一所标签的粒度属性,获得所述用户的标签集中每一标签的粒度属性,能有效解决现有推荐系统缺少对文章的粒度分析,能为用户推荐更符合用户阅读层级的资讯。
作为上述方案的改进,所述标签的粒度属性识别方法还包括步骤:
根据获取到的用户的标签集中每一标签的粒度属性,向用户推荐相应粒度属性的文章。
作为上述方案的改进,所述根据所述标签树对所述标签库中的每一标签进行粒度划分具体为:
通过LDA模型对所述标签库中的每一标签进行粒度划分。
本发明实施例还提供了一种标签的粒度属性识别装置,包括:
标签库生成模块,用于收集若干个标签生成标签库,根据所述标签库中的全部标签建立结构化的标签树,根据所述标签树对所述标签库中的每一标签进行粒度划分;
标签集生成模块,用于识别所述标签库中每一标签在大量文章中的特征,实时收集用户的行为日志,根据所述标签库中每一标签在大量文章中的特征,对所述行为日志指向的资讯进行标签抽取生成标签集;
粒度属性获取模块,用于根据所述标签库中每一所标签的粒度属性,获得所述用户的标签集中每一标签的粒度属性。
与现有技术相比,本发明公开的标签的粒度属性识别装置通过标签库生成模块收集若干个标签生成标签库,根据所述标签库中的全部标签建立结构化的标签树,根据所述标签树对所述标签库中的每一标签进行粒度划分,再通过标签集生成模块识别所述标签库中每一标签在大量文章中的特征,实时收集用户的行为日志,然后通过粒度属性获取模块根据所述标签库中每一标签在大量文章中的特征,对所述行为日志指向的资讯进行标签抽取生成标签集,然后根据所述标签库中每一所标签的粒度属性,获得所述用户的标签集中每一标签的粒度属性,能有效解决现有推荐系统缺少对文章的粒度分析,能为用户推荐更符合用户阅读层级的资讯。
作为上述方案的改进,所述标签库生成模块进一步用于通过LDA模型对所述标签库中的每一标签进行粒度划分。
作为上述方案的改进,所述标签的粒度属性识别装置还包括推荐模块,用于根据获取到的用户的标签集中每一标签的粒度属性,向用户推荐相应粒度属性的文章。
附图说明
图1是本发明实施例1中一种标签的粒度属性识别方法的流程示意图。
图2是本发明实施例2中一种标签的粒度属性识别方法的流程示意图。
图3是本发明实施例3中一种标签的粒度属性识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明实施例1提供的一种标签的粒度属性识别方法的流程示意图,包括步骤:
S1、收集若干个标签生成标签库,根据所述标签库中的全部标签建立结构化的标签树,根据所述标签树对所述标签库中的每一标签进行粒度划分;
其中,该步骤中通过LDA模型对所述标签库中的每一标签进行粒度划分。
S2、识别所述标签库中每一标签在大量文章中的特征,实时收集用户的行为日志,根据所述标签库中每一标签在大量文章中的特征,对所述行为日志指向的资讯进行标签抽取生成标签集;
S3、根据所述标签库中每一所标签的粒度属性,获得所述用户的标签集中每一标签的粒度属性。
具体实施时,收集若干个标签生成标签库,根据所述标签库中的全部标签建立结构化的标签树,根据所述标签树对所述标签库中的每一标签进行粒度划分,再识别所述标签库中每一标签在大量文章中的特征,实时收集用户的行为日志,根据所述标签库中每一标签在大量文章中的特征,对所述行为日志指向的资讯进行标签抽取生成标签集,然后根据所述标签库中每一所标签的粒度属性,获得所述用户的标签集中每一标签的粒度属性,能有效解决现有推荐系统缺少对文章的粒度分析,能实现标签的自动化抽取和不同粒度的标签划分,从而为用户推荐更符合用户阅读层级的资讯。
在一优选实施例中,如图2所示,在实施例1的基础上,还包括步骤
S4、根据获取到的用户的标签集中每一标签的粒度属性,向用户推荐相应粒度属性的文章。
通过上述步骤,可根据用户行为,推荐不同粒度属性的文章,提高推荐精准度。
参见图3,是本发明实施例3提供的一种标签的粒度属性识别装置的结构示意图,包括:
标签库生成模块101,用于收集若干个标签生成标签库,根据所述标签库中的全部标签建立结构化的标签树,根据所述标签树对所述标签库中的每一标签进行粒度划分;
标签集生成模块102,用于识别所述标签库中每一标签在大量文章中的特征,实时收集用户的行为日志,根据所述标签库中每一标签在大量文章中的特征,对所述行为日志指向的资讯进行标签抽取生成标签集;
粒度属性获取模块103,用于根据所述标签库中每一所标签的粒度属性,获得所述用户的标签集中每一标签的粒度属性。
具体实施时,通过标签库生成模块101收集若干个标签生成标签库,根据所述标签库中的全部标签建立结构化的标签树,根据所述标签树对所述标签库中的每一标签进行粒度划分,再通过标签集生成模块102识别所述标签库中每一标签在大量文章中的特征,实时收集用户的行为日志,然后通过粒度属性获取模块根据所述标签库中每一标签在大量文章中的特征,对所述行为日志指向的资讯进行标签抽取生成标签集,然后通过粒度属性获取模块103根据所述标签库中每一所标签的粒度属性,获得所述用户的标签集中每一标签的粒度属性,能有效解决现有推荐系统缺少对文章的粒度分析,能为用户推荐更符合用户阅读层级的资讯。
优选地,所述标签库生成模块进一步用于通过LDA模型对所述标签库中的每一标签进行粒度划分。
所述标签的粒度属性识别装置100还包括推荐模块,用于根据获取到的用户的标签集中每一标签的粒度属性,向用户推荐相应粒度属性的文章。
综上,本发明实施例提供了一种标签的粒度属性识别方法及装置,通过收集若干个标签生成标签库,根据所述标签库中的全部标签建立结构化的标签树,根据所述标签树对所述标签库中的每一标签进行粒度划分,再识别所述标签库中每一标签在大量文章中的特征,实时收集用户的行为日志,根据所述标签库中每一标签在大量文章中的特征,对所述行为日志指向的资讯进行标签抽取生成标签集,然后根据所述标签库中每一所标签的粒度属性,获得所述用户的标签集中每一标签的粒度属性,能有效解决现有推荐系统缺少对文章的粒度分析,能为用户推荐更符合用户阅读层级的资讯。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (6)

1.一种标签的粒度属性识别方法,其特征在于,包括步骤:
收集若干个标签生成标签库,根据所述标签库中的全部标签建立结构化的标签树,根据所述标签树对所述标签库中的每一标签进行粒度划分;
识别所述标签库中每一标签在大量文章中的特征,实时收集用户的行为日志,根据所述标签库中每一标签在大量文章中的特征,对所述行为日志指向的资讯进行标签抽取生成标签集;
根据所述标签库中每一所标签的粒度属性,获得所述用户的标签集中每一标签的粒度属性。
2.如权利要求1所述的标签的粒度属性识别方法,其特征在于,所述标签的粒度属性识别方法还包括步骤:
根据获取到的用户的标签集中每一标签的粒度属性,向用户推荐相应粒度属性的文章。
3.如权利要求1所述的标签的粒度属性识别方法,其特征在于,所述根据所述标签树对所述标签库中的每一标签进行粒度划分具体为:
通过LDA模型对所述标签库中的每一标签进行粒度划分。
4.一种标签的粒度属性识别装置,其特征在于,包括:
标签库生成模块,用于收集若干个标签生成标签库,根据所述标签库中的全部标签建立结构化的标签树,根据所述标签树对所述标签库中的每一标签进行粒度划分;
标签集生成模块,用于识别所述标签库中每一标签在大量文章中的特征,实时收集用户的行为日志,根据所述标签库中每一标签在大量文章中的特征,对所述行为日志指向的资讯进行标签抽取生成标签集;
粒度属性获取模块,用于根据所述标签库中每一所标签的粒度属性,获得所述用户的标签集中每一标签的粒度属性。
5.如权利要求4所述标签的粒度属性识别装置,其特征在于,所述标签库生成模块进一步用于通过LDA模型对所述标签库中的每一标签进行粒度划分。
6.如权利要求4所述标签的粒度属性识别装置,其特征在于,所述标签的粒度属性识别装置还包括推荐模块,用于根据获取到的用户的标签集中每一标签的粒度属性,向用户推荐相应粒度属性的文章。
CN201710581113.9A 2017-07-17 2017-07-17 标签的粒度属性识别方法及装置 Pending CN107451216A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710581113.9A CN107451216A (zh) 2017-07-17 2017-07-17 标签的粒度属性识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710581113.9A CN107451216A (zh) 2017-07-17 2017-07-17 标签的粒度属性识别方法及装置

Publications (1)

Publication Number Publication Date
CN107451216A true CN107451216A (zh) 2017-12-08

Family

ID=60487274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710581113.9A Pending CN107451216A (zh) 2017-07-17 2017-07-17 标签的粒度属性识别方法及装置

Country Status (1)

Country Link
CN (1) CN107451216A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897871A (zh) * 2018-06-29 2018-11-27 北京百度网讯科技有限公司 文档推荐方法、装置、设备及计算机可读介质
CN109933731A (zh) * 2019-03-18 2019-06-25 苏州亿歌网络科技有限公司 一种好友推荐方法、装置、设备及存储介质
CN111177369A (zh) * 2019-11-19 2020-05-19 厦门二五八网络科技集团股份有限公司 一种文章自动标签分类的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867016A (zh) * 2012-07-18 2013-01-09 北京开心人信息技术有限公司 一种基于标签的社交网络用户兴趣挖掘方法与装置
CN103116588A (zh) * 2011-11-17 2013-05-22 腾讯科技(深圳)有限公司 一种个性化推荐方法及系统
CN103870512A (zh) * 2012-12-18 2014-06-18 腾讯科技(深圳)有限公司 一种生成用户兴趣标签的方法及装置
CN106055617A (zh) * 2016-05-26 2016-10-26 乐视控股(北京)有限公司 一种数据推送方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116588A (zh) * 2011-11-17 2013-05-22 腾讯科技(深圳)有限公司 一种个性化推荐方法及系统
CN102867016A (zh) * 2012-07-18 2013-01-09 北京开心人信息技术有限公司 一种基于标签的社交网络用户兴趣挖掘方法与装置
CN103870512A (zh) * 2012-12-18 2014-06-18 腾讯科技(深圳)有限公司 一种生成用户兴趣标签的方法及装置
CN106055617A (zh) * 2016-05-26 2016-10-26 乐视控股(北京)有限公司 一种数据推送方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897871A (zh) * 2018-06-29 2018-11-27 北京百度网讯科技有限公司 文档推荐方法、装置、设备及计算机可读介质
CN108897871B (zh) * 2018-06-29 2020-10-30 北京百度网讯科技有限公司 文档推荐方法、装置、设备及计算机可读介质
CN109933731A (zh) * 2019-03-18 2019-06-25 苏州亿歌网络科技有限公司 一种好友推荐方法、装置、设备及存储介质
CN111177369A (zh) * 2019-11-19 2020-05-19 厦门二五八网络科技集团股份有限公司 一种文章自动标签分类的方法及装置

Similar Documents

Publication Publication Date Title
CN104239331B (zh) 一种用于实现评论搜索引擎排序的方法和装置
RU2700191C1 (ru) Способ и устройство выявления сходства
CN104317827B (zh) 一种商品的图片导航方法
CN105787049B (zh) 一种基于多源信息融合分析的网络视频热点事件发现方法
CN108629633A (zh) 一种基于大数据建立用户画像的方法及系统
CN107908606A (zh) 基于不同信息源自动生成报表的方法和系统
CN105574216A (zh) 基于概率模型和用户行为分析的个性化推荐方法、系统
CN101853299A (zh) 一种基于感性认知的图像检索结果排序方法
CN107341245A (zh) 数据处理方法、装置及服务器
CN102867016A (zh) 一种基于标签的社交网络用户兴趣挖掘方法与装置
CN103049440A (zh) 一种相关文章的推荐处理方法和处理系统
CN102254043A (zh) 一种基于语义映射的服装图像检索方法
CN107833082A (zh) 一种商品图片的推荐方法和装置
CN103970891B (zh) 一种基于情境的用户兴趣信息查询方法
CN108897778A (zh) 一种基于多源大数据分析的图像标注方法
CN107451216A (zh) 标签的粒度属性识别方法及装置
CN107436930A (zh) 资讯推荐方法及装置
Shi et al. The exploration of artificial intelligence application in fashion trend forecasting
CN104111939A (zh) 一种图书推荐方法和装置
CN104142952B (zh) 报表展示方法和装置
CN105138552A (zh) 一种挖掘在线销售数据的时尚趋势分析系统
CN111369294A (zh) 软件造价估算方法及装置
CN103389981B (zh) 网络标签自动识别方法及其系统
CN105183806A (zh) 一种不同平台间识别同一用户的方法与系统
CN106649264A (zh) 一种基于篇章信息的中文水果品种信息抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171208

RJ01 Rejection of invention patent application after publication