CN107506398B - 一种为图书添加标签属性的方法 - Google Patents

一种为图书添加标签属性的方法 Download PDF

Info

Publication number
CN107506398B
CN107506398B CN201710651211.5A CN201710651211A CN107506398B CN 107506398 B CN107506398 B CN 107506398B CN 201710651211 A CN201710651211 A CN 201710651211A CN 107506398 B CN107506398 B CN 107506398B
Authority
CN
China
Prior art keywords
label
preference
book
labels
books
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710651211.5A
Other languages
English (en)
Other versions
CN107506398A (zh
Inventor
彭刚
王超芸
曹颖杰
李曲
应文佳
符俊涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinxun Digital Technology Hangzhou Co ltd
Original Assignee
Hangzhou Dongxin Beiyou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dongxin Beiyou Information Technology Co Ltd filed Critical Hangzhou Dongxin Beiyou Information Technology Co Ltd
Priority to CN201710651211.5A priority Critical patent/CN107506398B/zh
Publication of CN107506398A publication Critical patent/CN107506398A/zh
Application granted granted Critical
Publication of CN107506398B publication Critical patent/CN107506398B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种为图书添加标签属性的方法,包括有:步骤一、挑选一定数量的用户作为样本用户,并提取每个样本用户的历史阅读图书记录,然后从样本用户的历史阅读图书所包含的通用标签中挑选多个标签来分别为每个样本用户构成一个偏好标签集,所有样本用户的偏好标签集构成用户偏好标签集群;步骤二、提取未添加标签图书的所有阅读用户,然后从用户偏好标签集群中寻找所有阅读用户对应的偏好标签集,最后从所有阅读用户的偏好标签集中挑选多个标签作为所述未添加标签图书的标签属性。本发明属于数据业务领域,能自动为图书添加符合其内容的标签属性。

Description

一种为图书添加标签属性的方法
技术领域
本发明涉及一种为图书添加标签属性的方法,属于数据业务领域。
背景技术
为了便于用户从图书平台上的海量图书中快速了解、并挑选自己偏好的图书,通常采用标签来描述每本图书的主题内容。为了给每本图书添加符合其内容的标签属性,当前主要依靠图书编辑来人工为图书添加标签属性。这样,在基于标签的图书推荐过程中,经常会遇到图书标签稀少或者缺失的情况。
因此,如何能自动为图书添加符合其内容的标签属性,已成为技术人员急需解决的技术问题,目前还未发现有效的技术解决方案。
发明内容
有鉴于此,本发明的目的是提供一种为图书添加标签属性的方法,能自动为图书添加符合其内容的标签属性。
为了达到上述目的,本发明提供了一种为图书添加标签属性的方法,包括有
步骤一、挑选一定数量的用户作为样本用户,并提取每个样本用户的历史阅读图书记录,然后从样本用户的历史阅读图书所包含的通用标签中挑选多个标签来分别为每个样本用户构成一个偏好标签集,所有样本用户的偏好标签集构成用户偏好标签集群;
步骤二、提取未添加标签图书的所有阅读用户,然后从用户偏好标签集群中寻找所有阅读用户对应的偏好标签集,最后从所有阅读用户的偏好标签集中挑选多个标签作为所述未添加标签图书的标签属性。
与现有技术相比,本发明的有益效果是:本发明通过用户行为来提取用户的偏好标签,当某本图书的大量阅读用户同时具备某个偏好标签时,也就意味着该本图书应具有同样的标签属性,从而实现标签从有标签图书到无标签图书之间的传递。
附图说明
图1是本发明一种为图书添加标签属性的方法的流程图。
图2是步骤一的具体操作流程图。
图3是步骤二的具体操作流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
如图1所示,本发明一种为图书添加标签属性的方法,包括有:
步骤一、挑选一定数量的用户作为样本用户,并提取每个样本用户的历史阅读图书记录,然后从样本用户的历史阅读图书所包含的通用标签中挑选多个标签来分别为每个样本用户构成一个偏好标签集,所有样本用户的偏好标签集构成用户偏好标签集群;
步骤二、提取未添加标签图书的所有阅读用户,然后从用户偏好标签集群中寻找所有阅读用户对应的偏好标签集,最后从所有阅读用户的偏好标签集中挑选多个标签作为所述未添加标签图书的标签属性。
如图2所示,步骤一还可以进一步包括有:
步骤11、从所有样本用户的历史阅读图书中挑选出包含有通用标签的阅读图书,所述通用标签是图书编辑人工为图书所添加的标签属性,然后计算所有样本用户的阅读图书包含的每个通用标签对于其所属图书的重要值:TFIDF(Li,Bj)=TF(Bj)×IDF(Li),其中,TFIDF(Li,Bj)是标签Li对于其所属图书Bj的重要值,TF(Bj)是标签Li的词频,IDF(Li)是标签Li的逆向文件频率,并对所有通用标签对于其所属图书的重要值进行归一化处理;
步骤11中,只有对包含通用标签的图书具有一定深度阅读量的用户,才能根据其历史阅读行为,较准确的从所阅读图书的通用标签中挑选出偏好标签,因此,本发明可以根据用户对包含通用标签的图书的深度阅读量来挑选具有代表性的样本用户,例如:深度阅读包含通用标签的图书量大于或等于5本、且少于1000本,进一步的说,TF(Bj)的计算公式如下:
Figure BDA0001368095280000031
其中,num_L(Bj)是图书Bj包含的通用标签总数;IDF(Li)的计算公式如下:
Figure BDA0001368095280000032
其中,num_total_L是图书平台上包含通用标签的图书总数,num_B(Li)是图书平台上包含标签Li的图书总数;
步骤12、计算所有样本用户对其阅读图书包含的每个通用标签的偏好值:
Figure BDA0001368095280000033
其中,TAG(Li,Uz)是用户Uz对其阅读图书所包含的标签Li的偏好值,TFIDF(Li,Bj)是标签Li对于其所属图书Bj的重要值,Jz是用户Uz阅读过的、且包含有标签Li的图书总数,
Figure BDA0001368095280000034
是标签Li对于用户Uz阅读过的所有图书的重要值之和,Qz是用户Uz阅读过的包含有通用标签的图书总数,然后从每个样本用户对其阅读图书包含的所有通用标签的偏好值中挑选出最大的前若干个偏好值,将最大的前若干个偏好值对应的标签构成每个样本用户的偏好标签集。
步骤二中,本发明除了考虑每个偏好标签的出现频率,还可以根据用户对标签的偏好程度来选择标签,从而能为每本未添加标签属性的图书添加最符合其内容的标签属性。如图3所示,步骤二还可以进一步包括有:
步骤21、获取未添加标签图书的所有阅读用户,为所述未添加标签图书新建一个图书标签集,然后从所有阅读用户的偏好标签集中逐一提取每个偏好标签;
步骤22,计算所提取的偏好标签的出现频率:
Figure BDA0001368095280000041
其中,freq(Lp)是标签Lp的出现频率,num(Lp)是偏好标签集包含标签Lp的阅读用户总数,num_L是所有阅读用户的偏好标签集中的标签总数;
步骤23、判断所提取的偏好标签的出现频率是否大于预设值?如果是,则将所提取的偏好标签写入图书标签集中,然后继续下一步;如果否,则转向步骤25;例如,预设值可以是20%;
步骤24、计算所提取的偏好标签的用户偏好平均值:
Figure BDA0001368095280000042
其中,prefer(Lp)是标签Lp的用户偏好平均值,Ux是偏好标签集包含标签Lp的阅读用户,
Figure BDA0001368095280000043
是偏好标签集包含标签Lp的所有阅读用户对标签Lp的偏好值之和,TAG(Lp,Ux)是用户Ux对标签Lp的偏好值;
步骤25、判断所有阅读用户的偏好标签集中是否还有未提取的偏好标签?如果是,则继续提取下一个未提取的偏好标签,然后转向步骤22;如果否,则继续下一步;
步骤26、从图书标签集的所有标签中,挑选出其用户偏好平均值最大的前若干个标签,并将其他未挑选的标签从图书标签集中删除;
步骤27、将图书标签集中的所有标签添加为所述未添加标签图书的标签属性。
本发明采用已有标签的图书作为测试集进行试验,根据实验证明,图书的原有标签都保留在本发明计算所获得的标签集中,因而充分说明,通过实施本发明方法,能为图书自动添加符合其实际内容的标签属性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (3)

1.一种为图书添加标签属性的方法,其特征在于,包括有:
步骤一、挑选一定数量的用户作为样本用户,并提取每个样本用户的历史阅读图书记录,然后从样本用户的历史阅读图书所包含的通用标签中挑选多个标签来分别为每个样本用户构成一个偏好标签集,所有样本用户的偏好标签集构成用户偏好标签集群,所述通用标签是图书编辑人工为图书所添加的标签属性;
步骤二、提取未添加标签的图书的所有阅读用户,然后从用户偏好标签集群中寻找所有阅读用户对应的偏好标签集,最后从所有阅读用户的偏好标签集中挑选多个标签作为所述未添加标签的图书的标签属性,
步骤二进一步包括有:
步骤21、获取未添加标签的图书的所有阅读用户,为所述未添加标签的图书新建一个图书标签集,然后从所有阅读用户的偏好标签集中逐一提取每个偏好标签;
步骤22,计算所提取的偏好标签的出现频率:
Figure FDA0002262534540000011
其中,freq(Lp)是标签Lp的出现频率,num(Lp)是偏好标签集包含标签Lp的阅读用户总数,num_L是所有阅读用户的偏好标签集中的标签总数;
步骤23、判断所提取的偏好标签的出现频率是否大于预设值,如果是,则将所提取的偏好标签写入图书标签集中,然后继续下一步;如果否,则转向步骤25;
步骤24、计算所提取的偏好标签的用户偏好平均值:
Figure FDA0002262534540000012
其中,prefer(Lp)是标签Lp的用户偏好平均值,Ux是偏好标签集包含标签Lp的阅读用户,
Figure FDA0002262534540000013
是偏好标签集包含标签Lp的所有阅读用户对标签Lp的偏好值之和,TAG(Lp,Ux)是用户Ux对标签Lp的偏好值;
步骤25、判断所有阅读用户的偏好标签集中是否还有未提取的偏好标签,如果是,则继续提取下一个未提取的偏好标签,然后转向步骤22;如果否,则继续下一步;
步骤26、从图书标签集的所有标签中,挑选出其用户偏好平均值最大的前若干个标签,并将其他未挑选的标签从图书标签集中删除;
步骤27、将图书标签集中的所有标签添加为所述未添加标签的图书的标签属性。
2.根据权利要求1所述的方法,其特征在于,步骤一进一步包括有:
步骤11、从所有样本用户的历史阅读图书中挑选出包含有通用标签的阅读图书,然后计算所有样本用户的阅读图书包含的每个通用标签对于其所属图书的重要值:TFIDF(Li,Bj)=TF(Bj)×IDF(Li),其中,TFIDF(Li,Bj)是标签Li对于其所属图书Bj的重要值,TF(Bj)是标签Li的词频,IDF(Li)是标签Li的逆向文件频率,并对所有通用标签对于其所属图书的重要值进行归一化处理;
步骤12、计算所有样本用户对其阅读图书包含的每个通用标签的偏好值:
Figure FDA0002262534540000021
其中,TAG(Li,Uz)是用户Uz对其阅读图书所包含的标签Li的偏好值,TFIDF(Li,Bj)是标签Li对于其所属图书Bj的重要值,Jz是用户Uz阅读过的、且包含有标签Li的图书总数,
Figure FDA0002262534540000022
是标签Li对于用户Uz阅读过的所有图书的重要值之和,Qz是用户Uz阅读过的包含有通用标签的图书总数,然后从每个样本用户对其阅读图书包含的所有通用标签的偏好值中挑选出最大的前若干个偏好值,将最大的前若干个偏好值对应的标签构成每个样本用户的偏好标签集。
3.根据权利要求2所述的方法,其特征在于,TF(Bj)的计算公式如下:
其中,num_L(Bj)是图书Bj包含的通用标签总数;IDF(Li)的计算公式如下:
Figure FDA0002262534540000024
其中,num_total_L是图书平台上包含通用标签的图书总数,num_B(Li)是图书平台上包含标签Li的图书总数。
CN201710651211.5A 2017-08-02 2017-08-02 一种为图书添加标签属性的方法 Active CN107506398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710651211.5A CN107506398B (zh) 2017-08-02 2017-08-02 一种为图书添加标签属性的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710651211.5A CN107506398B (zh) 2017-08-02 2017-08-02 一种为图书添加标签属性的方法

Publications (2)

Publication Number Publication Date
CN107506398A CN107506398A (zh) 2017-12-22
CN107506398B true CN107506398B (zh) 2020-01-24

Family

ID=60690362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710651211.5A Active CN107506398B (zh) 2017-08-02 2017-08-02 一种为图书添加标签属性的方法

Country Status (1)

Country Link
CN (1) CN107506398B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595599A (zh) * 2018-04-19 2018-09-28 广州优视网络科技有限公司 应用标签生成方法、装置、存储介质和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902744A (zh) * 2012-09-17 2013-01-30 杭州东信北邮信息技术有限公司 一种图书推荐方法
CN103793419A (zh) * 2012-10-31 2014-05-14 深圳市世纪光速信息技术有限公司 信息推送的方法和装置
CN106651519A (zh) * 2016-12-23 2017-05-10 广州赛宝认证中心服务有限公司 基于标签信息的个性化推荐方法和系统
CN106951571A (zh) * 2017-04-10 2017-07-14 广州优视网络科技有限公司 一种给应用标注标签的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090172026A1 (en) * 2007-12-31 2009-07-02 International Business Machines Corporation Personalized information filter based on social tags

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902744A (zh) * 2012-09-17 2013-01-30 杭州东信北邮信息技术有限公司 一种图书推荐方法
CN103793419A (zh) * 2012-10-31 2014-05-14 深圳市世纪光速信息技术有限公司 信息推送的方法和装置
CN106651519A (zh) * 2016-12-23 2017-05-10 广州赛宝认证中心服务有限公司 基于标签信息的个性化推荐方法和系统
CN106951571A (zh) * 2017-04-10 2017-07-14 广州优视网络科技有限公司 一种给应用标注标签的方法和装置

Also Published As

Publication number Publication date
CN107506398A (zh) 2017-12-22

Similar Documents

Publication Publication Date Title
CN107437215B (zh) 一种基于标签的图书推荐方法
CN106250513B (zh) 一种基于事件建模的事件个性化分类方法及系统
CN102880687B (zh) 基于标签技术的个人交互数据检索方法及其系统
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
KR20110115542A (ko) 향상된 개체 발췌에 기초하여 메시지 및 대화 간의 의미 유사성을 계산하는 방법
CN106897285B (zh) 数据要素抽取分析系统及数据要素抽取分析方法
CN103605651A (zh) 一种基于olap多维分析的数据处理展现方法
US20140214824A1 (en) Method, device and computer storage medium for adding information of friends
US20140379719A1 (en) System and method for tagging and searching documents
CN112560468B (zh) 气象预警文本处理方法、相关装置及计算机程序产品
CN104537341A (zh) 人脸图片信息获取方法和装置
CN107832440B (zh) 一种数据挖掘方法、装置、服务器及计算机可读存储介质
CN113239295A (zh) 搜索方法、装置、电子设备以及存储介质
CN107506398B (zh) 一种为图书添加标签属性的方法
EP3564833B1 (en) Method and device for identifying main picture in web page
CN107943912A (zh) 一种响应式资源目录数据可视化管理方法、终端及装置
CN104240107A (zh) 社群数据筛选系统及其方法
CN110941952A (zh) 一种完善审计分析模型的方法及装置
CN106933797B (zh) 目标信息的生成方法及装置
CN112632266B (zh) 数据写入方法、装置、计算机设备及可读存储介质
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
CN113407678A (zh) 知识图谱构建方法、装置和设备
CN104951869A (zh) 一种基于工作流的舆情监控方法及装置
CN104184780B (zh) 一种业务的推送方法和系统
CN106598936B (zh) 字母词的提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 310013 4th floor, No.398 Wensan Road, Xihu District, Hangzhou City, Zhejiang Province

Patentee after: Xinxun Digital Technology (Hangzhou) Co.,Ltd.

Address before: 310013 4th floor, No.398 Wensan Road, Xihu District, Hangzhou City, Zhejiang Province

Patentee before: EB Information Technology Ltd.

CP01 Change in the name or title of a patent holder