CN113886517B - 基于阅读时长的关键词加权方法、系统、设备及介质 - Google Patents

基于阅读时长的关键词加权方法、系统、设备及介质 Download PDF

Info

Publication number
CN113886517B
CN113886517B CN202111491993.3A CN202111491993A CN113886517B CN 113886517 B CN113886517 B CN 113886517B CN 202111491993 A CN202111491993 A CN 202111491993A CN 113886517 B CN113886517 B CN 113886517B
Authority
CN
China
Prior art keywords
reading
preset
text
duration
target label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111491993.3A
Other languages
English (en)
Other versions
CN113886517A (zh
Inventor
赵鹏
李尚锦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huoli Tianhui Technology Co ltd
Original Assignee
Shenzhen Huoli Tianhui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huoli Tianhui Technology Co ltd filed Critical Shenzhen Huoli Tianhui Technology Co ltd
Priority to CN202111491993.3A priority Critical patent/CN113886517B/zh
Publication of CN113886517A publication Critical patent/CN113886517A/zh
Application granted granted Critical
Publication of CN113886517B publication Critical patent/CN113886517B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于阅读时长的关键词加权方法、系统、计算机设备及存储介质,其方法包括:提取预设文本下的预设标题,并将预设标题作为目标标签;获取用户阅读预设标题下文本内容的阅读时长;根据预设标题所在预设文本中的前后位置,对阅读时长进行修正,得到修正后的阅读时长;以修正后的阅读时长作为目标标签下文本内容的权重值。本发明的技术方案根据用户阅读时长对文本中的关键词进行加权,以提升该文本的优先推送程度。

Description

基于阅读时长的关键词加权方法、系统、设备及介质
技术领域
本发明涉及信息处理领域,尤其涉及一种基于阅读时长的关键词加权方法、系统、计算机设备及存储介质。
背景技术
在大数据时代,根据用户喜好而推送相应的内容已是目前APP应用的一种常规操作。例如,在通过计算机程序分析一篇旅游攻略时,攻略内容一般包含多种子主题例如当前行程下多目的地的吃、住、行、游等;攻略的关键词可以用于对用户偏好进行分类标签,但不能简单地根据文章文本判断关键词的重要度,进而使得该攻略在同类相似文章中脱颖而出,便于推送给其他需要该攻略的用户。
因此,提取关键词是非常重要的一步。然而,目前的提取算法还比较粗糙,如专利申请号为CN106777139A所述的技术方案,其解决的技术问题主要是如何定位用户所感兴趣的关键词,而在该阶段之后,仍然缺乏对关键词的进一步筛选,以便准确提炼各文本的重要性程度并置于优选推送的位置。
发明内容
为克服上述技术问题,本发明提供一种基于阅读时长的关键词加权方法、系统、计算机设备及存储介质,根据用户阅读时长对文本中的关键词进行加权,以提升该文本的优先推送程度。
一种基于阅读时长的关键词加权方法,包括:
提取预设文本下的预设标题,并将预设标题作为目标标签;
获取用户阅读预设标题下文本内容的阅读时长;
根据预设标题所在预设文本中的前后位置,对阅读时长进行修正,得到修正后的阅读时长;
以修正后的阅读时长作为目标标签下文本内容的权重值。
一种基于阅读时长的关键词加权系统,用于执行如上述的基于阅读时长的关键词加权方法,并包括通过网络相连的前端APP和后端服务器:其中,
前端APP,用于提取预设文本下的预设标题,并将预设标题作为目标标签;获取用户阅读预设标题下文本内容的阅读时长;
后端服务器,用于根据预设标题所在预设文本中的前后位置,对阅读时长进行修正,得到修正后的阅读时长;以修正后的阅读时长作为目标标签下文本内容的权重值。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于阅读时长的关键词加权方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于阅读时长的关键词加权方法的步骤。
上述基于阅读时长的关键词加权方法、系统、计算机设备及存储介质,以预设文本下的预设标题作为目标标签,该目标标签即作为提升该预设文本优选推荐程度的关键词;同时,以用户阅读该目标标签所对应文本内容的时长作为关键词加权的重要输入,以预设标题出现在预设文本中的前后位置作为修正阅读时长的重要因子,可以更加准确地确定关键词所对应的权重,进而做到准确提升文本的优先推荐度,使其能在同类相似文章中脱颖而出。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中基于阅读时长的关键词加权方法的主要流程图;
图2是本发明一实施例中基于阅读时长的关键词加权系统的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在一实施例中,如图1所示,提供一种基于阅读时长的关键词加权方法,并包括如下步骤:
S1:提取预设文本下的预设标题,并将预设标题作为目标标签。
其中,预设文本是供用户阅读的文字,如HTML文件等。预设标题是文本所包含的文字内容。以HTML文件为例,预设标题是HTML文件中的标签字段所包含的文字内容,如<h2>标题。目标标签即是提升预设文本优选推荐程度的关键词。
在以web形式展示给用户的文本中,通常将文本内容划分为多个标题下的字内容。例如,一篇旅游攻略一般由一系列的旅游景点构成,每个景点作为<h2>标题,在这些标题下会详细记录这个景点的吃喝玩乐等情况。因此,标题及其所包括的文本内容是提取关键词的主要数据来源。
具体地,移动终端的APP程序通过解析HTML文件,以获取该文件下的标题名称,如<h2>标题下对应的文字“美食”作为目标标签。
S2:获取用户阅读预设标题下文本内容的阅读时长。
具体地,APP可以通过用户滚动显示文本内容的控件的时间确定用户阅读该段文本内容的时长。例如,APP通过获取scrollview控件显示的初始时间和刷新时间,并以两者之间的差值作为阅读预设标题下文本内容的阅读时长。
S3:根据预设标题所在预设文本中的前后位置,对阅读时长进行修正,得到修正后的阅读时长。
由于标题在预设文本中的位置是有前后顺序的,这将影响用户的阅读时间分配,即,越靠前的标题一般会阅读时间越长,越靠后的标题所花费的阅读时间越短。因此,需要对阅读时长进行修正,以更加准确评估用户阅读每个标题下文本内容所花费的时间。
具体地,先为预设标题所在预设文本中的前后位置分别设置对应的预设衰减系数;然后将阅读时长乘以衰减系数,即可得到修正后的阅读时长。其中,衰减系数设为exp(-1/j),exp代表以e为底的指数函数,j代表预设标题在预设文本中的位置排序,j越小代表位置越靠前,j越大代表位置越靠后。
S4:以修正后的阅读时长作为目标标签下文本内容的权重值。
修正后的阅读时长即作为目标标签下文本内容的权重值,然后将目标标签及与该目标标签对应的权重值添加到预设关键词集合中,以便于后续统计关键词所代表的预设文本的总体权重。
在本实施例中,根据预设标题所在预设文本中的前后位置对阅读时长进行修正,更加准确的评估了代表文本关键词所占的权重,是在现有技术的基础上对关键词提取技术的进一步拓展。
进一步地,在一实施例中,移动终端的APP可以获取多个用户阅读同一预设文本内预设标题下文本内容的阅读时长,同时,在上述步骤S3之后,并且在步骤S4之前,还包括如下步骤:
根据用户数量,将修正后的阅读时长进行归一化处理,得到修正后的阅读时长。
其中,归一化是指将每个用户的阅读时长映射到(0,1)的区间。即,由于不同用户的阅读速度不同,对同一段文本内容所花费的阅读时长差距比较大,因此,归一化可以进一步优化阅读时长的准确性。
具体地,将每个用户的阅读时长除以所有用户阅读该文本内容所花费时长之和,即可得到每个用户归一化后的阅读时长。
进一步地,在一实施例中,对上述归一化处理后的阅读时长作进行方差去噪,以消除数据统计的偏差,可以更进一步优化阅读时长的准确性。
为便于说明,以预设文本为一HTML文件的旅游攻略为例,本基于阅读时长的关键词加权方法包括如下步骤:
1)APP解析某网站的旅游攻略HTML文件,以HTML文件中<h2>标题下的文本内容提取出来,并作为目标标签。设text[j]表示该HTML文件中第j个<h2>标签(对应第j个景点)中的文本,其中,M为<h2>标题的总数,0<j<=M;
2)APP收集记录每个读者阅读每个<h2>标题下的内容的耗时,若某个读者没有完整阅读完攻略,则本次阅读记录不参与收集计算。设t[i,j]表示第i个读者读text[j]的时长,共计有N个读者,0<i<=N;
3)设衰减系数为exp(-1/j),则t[i,j]=t[i,j]*exp(-1/j),其中,i表示第i个读者,0<j<=M;
4)对text[j]做归一化处理,设sum(t[i,j])为所有用户读取文本内容所花费的时间之和;则t[i,j]=t[i,j]/sum(t[i,j]),其中i表示第i个读者,0<j<=M,即,把读者i读text[j]的时长归一化到(0,1)的区间;
5)根据方差去除噪音数据。计算t[i,j]的均值和标准差,其中0<i<=N,j表示景点j。对n个读者读景点j的时长计算均值和标准差,分别记为E和S。取t[i,j]的值在[E-S,E+S]区间的作为合格值。这个区间之外的被认为偏离标准差太大的噪音数据,舍去不用;
6)计算text[j]的权重,即计算t[i,j]的均值,其中,0<i<=N。t[i,j]表示根据上一步骤去除噪音数据后的合格数据,K为text[j]的合格条数,0<K<=N。W[j]=sum(t[i,j])/K。W[j]即text[j]的权重;
7)这样就求出了一个旅游攻略中每个<h2>标题的权重W[j],把每个<h2>标题中的景点名称作为旅游攻略的标签,其权重为W[j];
8)将W[j]的权重叠加到关键词集合中。
在一实施例中,如图2所示,提供一种基于阅读时长的关键词加权系统,用于执行如上述的基于阅读时长的关键词加权方法,并包括通过网络相连的前端APP和后端服务器:其中,
前端APP,用于提取预设文本下的预设标题,并将预设标题作为目标标签;获取用户阅读预设标题下文本内容的阅读时长;
后端服务器,用于根据预设标题所在预设文本中的前后位置,对阅读时长进行修正,得到修正后的阅读时长;以修正后的阅读时长作为目标标签下文本内容的权重值。
在本实施例中,基于阅读时长的关键词加权系统是与本基于阅读时长的关键词加权方法对应的硬件设备,此处不再赘述其功能。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中基于阅读时长的关键词加权方法的步骤,例如图1所示的步骤S1至步骤S4。
在一实施例中,提供一计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中基于阅读时长的关键词加权方法。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于阅读时长的关键词加权方法,其特征在于,包括:
提取预设文本下的预设标题,并将所述预设标题作为目标标签;
获取用户阅读所述预设标题下文本内容的阅读时长;
根据所述预设标题所在所述预设文本中的前后位置,对所述阅读时长进行修正,得到修正后的阅读时长;
以所述修正后的阅读时长作为所述目标标签下文本内容的权重值;
将所述目标标签及与所述目标标签对应的权重值添加到预设关键词集合中;
所述根据所述预设标题所在所述预设文本中的前后位置,对所述阅读时长进行修正,得到修正后的阅读时长,包括:
所述预设标题所在所述预设文本中的前后位置分别对应预设衰减系数;
将所述阅读时长乘以所述衰减系数,得到修正后的阅读时长;
其中,所述预设衰减系数设为exp(-1/j),exp代表以e为底的指数函数,j代表预设标题在预设文本中的位置排序,j越小代表位置越靠前,j越大代表位置越靠后。
2.如权利要求1所述的基于阅读时长的关键词加权方法,其特征在于,所述获取用户阅读所述预设标题下文本内容的阅读时长,包括:
获取多个用户阅读所述预设标题下文本内容的阅读时长;
在所述对所述阅读时长进行修正之后,并在所述以所述 修正后的阅读时长作为所述目标标签下文本内容的权重值之前,所述基于阅读时长的关键词加权方法,还包括:
根据用户数量,将修正后的阅读时长进行归一化处理,得到修正后的阅读时长。
3.如权利要求2所述的基于阅读时长的关键词加权方法,其特征在于,在所述将修正后的阅读时长进行归一化处理之后,并且在以修正后的阅读时长作为所述目标标签下文本内容的权重值之前,所述基于阅读时长的关键词加权方法,还包括:
对归一化处理后的阅读时长进行方差去噪,得到修正后的阅读时长。
4.如权利要求3所述的基于阅读时长的关键词加权方法,其特征在于,所述以所述修正后的阅读时长作为所述目标标签下文本内容的权重值,包括:
计算所述修正后的阅读时长的平均值,并以所述平均值作为所述目标标签下文本内容的权重值。
5.如权利要求4所述的基于阅读时长的关键词加权方法,其特征在于,在所述以所述平均值作为所述目标标签下文本内容的权重值之后,所述基于阅读时长的关键词加权方法,还包括:
将所述目标标签及与该目标标签对应的权重值添加到预设关键词集合中。
6.如权利要求1至5任一项所述的基于阅读时长的关键词加权方法,其特征在于,所述预设文本为HTML文件。
7.一种基于阅读时长的关键词加权系统,其特征在于,用于执行如权利要求1至6任一项所述的基于阅读时长的关键词加权方法,并包括通过网络相连的前端APP和后端服务器,其中,
所述前端APP,用于提取预设文本下的预设标题,并将所述预设标题作为目标标签;获取用户阅读所述预设标题下文本内容的阅读时长;
所述后端服务器,用于根据所述预设标题所在所述预设文本中的前后位置,对所述阅读时长进行修正,得到修正后的阅读时长;以所述修正后的阅读时长作为所述目标标签下文本内容的权重值;将所述目标标签及与所述目标标签对应的权重值添加到预设关键词集合中。
8.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述基于阅读时长的关键词加权方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于阅读时长的关键词加权方法的步骤。
CN202111491993.3A 2021-12-08 2021-12-08 基于阅读时长的关键词加权方法、系统、设备及介质 Active CN113886517B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111491993.3A CN113886517B (zh) 2021-12-08 2021-12-08 基于阅读时长的关键词加权方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111491993.3A CN113886517B (zh) 2021-12-08 2021-12-08 基于阅读时长的关键词加权方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN113886517A CN113886517A (zh) 2022-01-04
CN113886517B true CN113886517B (zh) 2022-08-19

Family

ID=79016588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111491993.3A Active CN113886517B (zh) 2021-12-08 2021-12-08 基于阅读时长的关键词加权方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN113886517B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959469A (zh) * 2018-05-11 2018-12-07 中国平安人寿保险股份有限公司 阅读管理方法、装置、计算机设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2015010582A (es) * 2013-02-15 2017-01-11 Voxy Inc Sistemas y metodos de aprendizaje de idiomas.
US20170140051A1 (en) * 2015-11-16 2017-05-18 Facebook, Inc. Ranking and Filtering Comments Based on Labelling
US10719204B2 (en) * 2016-01-10 2020-07-21 Apple Inc. Document selection and display based on detected viewer preferences
CN108334588B (zh) * 2018-01-29 2021-03-23 北京搜狐新媒体信息技术有限公司 一种用户标签构建方法及装置
CN111666486B (zh) * 2019-03-07 2023-10-03 腾讯科技(深圳)有限公司 热度值获取方法及装置
CN110807313A (zh) * 2019-10-15 2020-02-18 腾讯科技(深圳)有限公司 预估文本阅读时间的方法、装置、电子设备及存储介质
KR102158352B1 (ko) * 2020-03-27 2020-09-21 (주)케이엔랩 정책정보 문서의 요지 정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959469A (zh) * 2018-05-11 2018-12-07 中国平安人寿保险股份有限公司 阅读管理方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN113886517A (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
CN109791559B (zh) 促进图像作为搜索查询的使用
CN110110577B (zh) 识别菜名的方法及装置、存储介质、电子装置
US20040215715A1 (en) System and method for non-invasive collection of data
CN103988202A (zh) 基于索引和搜索的图像吸引力
CN105589852B (zh) 一种信息推荐的方法和装置
CN111861605B (zh) 业务对象推荐方法
US8290925B1 (en) Locating product references in content pages
CN112182391A (zh) 一种用户画像方法与装置
CN106776609A (zh) 网站转载数量的统计方法及装置
CN113743455A (zh) 目标检索方法、装置、电子设备及存储介质
CN113779381A (zh) 资源推荐方法、装置、电子设备和存储介质
CN108280102B (zh) 上网行为记录方法、装置及用户终端
JP2008310626A (ja) 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体
CN115661302A (zh) 一种视频编辑方法、装置、设备及存储介质
CN114090891A (zh) 个性化内容推荐方法、装置、设备及存储介质
WO2019227705A1 (zh) 图片录入方法、服务器及计算机存储介质
CN113886517B (zh) 基于阅读时长的关键词加权方法、系统、设备及介质
CN110851708A (zh) 负样本的抽取方法、装置、计算机设备和存储介质
CN115544214A (zh) 一种事件处理方法、设备及计算机可读存储介质
CN107169065B (zh) 一种特定内容的去除方法和装置
CN111414074A (zh) 屏幕浏览数据处理方法、装置、介质及电子设备
CN112700291B (zh) 一种广告位的内容推荐方法、装置、存储介质及电子设备
CN115525161A (zh) 词条获取方法、装置及电子设备
CN107426338A (zh) 一种资讯管理方法及系统
CN111476028A (zh) 一种汉语短语识别方法、系统、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant