CN113886517B - 基于阅读时长的关键词加权方法、系统、设备及介质 - Google Patents
基于阅读时长的关键词加权方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN113886517B CN113886517B CN202111491993.3A CN202111491993A CN113886517B CN 113886517 B CN113886517 B CN 113886517B CN 202111491993 A CN202111491993 A CN 202111491993A CN 113886517 B CN113886517 B CN 113886517B
- Authority
- CN
- China
- Prior art keywords
- reading
- preset
- text
- duration
- target label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000004590 computer program Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于阅读时长的关键词加权方法、系统、计算机设备及存储介质,其方法包括:提取预设文本下的预设标题,并将预设标题作为目标标签;获取用户阅读预设标题下文本内容的阅读时长;根据预设标题所在预设文本中的前后位置,对阅读时长进行修正,得到修正后的阅读时长;以修正后的阅读时长作为目标标签下文本内容的权重值。本发明的技术方案根据用户阅读时长对文本中的关键词进行加权,以提升该文本的优先推送程度。
Description
技术领域
本发明涉及信息处理领域,尤其涉及一种基于阅读时长的关键词加权方法、系统、计算机设备及存储介质。
背景技术
在大数据时代,根据用户喜好而推送相应的内容已是目前APP应用的一种常规操作。例如,在通过计算机程序分析一篇旅游攻略时,攻略内容一般包含多种子主题例如当前行程下多目的地的吃、住、行、游等;攻略的关键词可以用于对用户偏好进行分类标签,但不能简单地根据文章文本判断关键词的重要度,进而使得该攻略在同类相似文章中脱颖而出,便于推送给其他需要该攻略的用户。
因此,提取关键词是非常重要的一步。然而,目前的提取算法还比较粗糙,如专利申请号为CN106777139A所述的技术方案,其解决的技术问题主要是如何定位用户所感兴趣的关键词,而在该阶段之后,仍然缺乏对关键词的进一步筛选,以便准确提炼各文本的重要性程度并置于优选推送的位置。
发明内容
为克服上述技术问题,本发明提供一种基于阅读时长的关键词加权方法、系统、计算机设备及存储介质,根据用户阅读时长对文本中的关键词进行加权,以提升该文本的优先推送程度。
一种基于阅读时长的关键词加权方法,包括:
提取预设文本下的预设标题,并将预设标题作为目标标签;
获取用户阅读预设标题下文本内容的阅读时长;
根据预设标题所在预设文本中的前后位置,对阅读时长进行修正,得到修正后的阅读时长;
以修正后的阅读时长作为目标标签下文本内容的权重值。
一种基于阅读时长的关键词加权系统,用于执行如上述的基于阅读时长的关键词加权方法,并包括通过网络相连的前端APP和后端服务器:其中,
前端APP,用于提取预设文本下的预设标题,并将预设标题作为目标标签;获取用户阅读预设标题下文本内容的阅读时长;
后端服务器,用于根据预设标题所在预设文本中的前后位置,对阅读时长进行修正,得到修正后的阅读时长;以修正后的阅读时长作为目标标签下文本内容的权重值。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于阅读时长的关键词加权方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于阅读时长的关键词加权方法的步骤。
上述基于阅读时长的关键词加权方法、系统、计算机设备及存储介质,以预设文本下的预设标题作为目标标签,该目标标签即作为提升该预设文本优选推荐程度的关键词;同时,以用户阅读该目标标签所对应文本内容的时长作为关键词加权的重要输入,以预设标题出现在预设文本中的前后位置作为修正阅读时长的重要因子,可以更加准确地确定关键词所对应的权重,进而做到准确提升文本的优先推荐度,使其能在同类相似文章中脱颖而出。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中基于阅读时长的关键词加权方法的主要流程图;
图2是本发明一实施例中基于阅读时长的关键词加权系统的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在一实施例中,如图1所示,提供一种基于阅读时长的关键词加权方法,并包括如下步骤:
S1:提取预设文本下的预设标题,并将预设标题作为目标标签。
其中,预设文本是供用户阅读的文字,如HTML文件等。预设标题是文本所包含的文字内容。以HTML文件为例,预设标题是HTML文件中的标签字段所包含的文字内容,如<h2>标题。目标标签即是提升预设文本优选推荐程度的关键词。
在以web形式展示给用户的文本中,通常将文本内容划分为多个标题下的字内容。例如,一篇旅游攻略一般由一系列的旅游景点构成,每个景点作为<h2>标题,在这些标题下会详细记录这个景点的吃喝玩乐等情况。因此,标题及其所包括的文本内容是提取关键词的主要数据来源。
具体地,移动终端的APP程序通过解析HTML文件,以获取该文件下的标题名称,如<h2>标题下对应的文字“美食”作为目标标签。
S2:获取用户阅读预设标题下文本内容的阅读时长。
具体地,APP可以通过用户滚动显示文本内容的控件的时间确定用户阅读该段文本内容的时长。例如,APP通过获取scrollview控件显示的初始时间和刷新时间,并以两者之间的差值作为阅读预设标题下文本内容的阅读时长。
S3:根据预设标题所在预设文本中的前后位置,对阅读时长进行修正,得到修正后的阅读时长。
由于标题在预设文本中的位置是有前后顺序的,这将影响用户的阅读时间分配,即,越靠前的标题一般会阅读时间越长,越靠后的标题所花费的阅读时间越短。因此,需要对阅读时长进行修正,以更加准确评估用户阅读每个标题下文本内容所花费的时间。
具体地,先为预设标题所在预设文本中的前后位置分别设置对应的预设衰减系数;然后将阅读时长乘以衰减系数,即可得到修正后的阅读时长。其中,衰减系数设为exp(-1/j),exp代表以e为底的指数函数,j代表预设标题在预设文本中的位置排序,j越小代表位置越靠前,j越大代表位置越靠后。
S4:以修正后的阅读时长作为目标标签下文本内容的权重值。
修正后的阅读时长即作为目标标签下文本内容的权重值,然后将目标标签及与该目标标签对应的权重值添加到预设关键词集合中,以便于后续统计关键词所代表的预设文本的总体权重。
在本实施例中,根据预设标题所在预设文本中的前后位置对阅读时长进行修正,更加准确的评估了代表文本关键词所占的权重,是在现有技术的基础上对关键词提取技术的进一步拓展。
进一步地,在一实施例中,移动终端的APP可以获取多个用户阅读同一预设文本内预设标题下文本内容的阅读时长,同时,在上述步骤S3之后,并且在步骤S4之前,还包括如下步骤:
根据用户数量,将修正后的阅读时长进行归一化处理,得到修正后的阅读时长。
其中,归一化是指将每个用户的阅读时长映射到(0,1)的区间。即,由于不同用户的阅读速度不同,对同一段文本内容所花费的阅读时长差距比较大,因此,归一化可以进一步优化阅读时长的准确性。
具体地,将每个用户的阅读时长除以所有用户阅读该文本内容所花费时长之和,即可得到每个用户归一化后的阅读时长。
进一步地,在一实施例中,对上述归一化处理后的阅读时长作进行方差去噪,以消除数据统计的偏差,可以更进一步优化阅读时长的准确性。
为便于说明,以预设文本为一HTML文件的旅游攻略为例,本基于阅读时长的关键词加权方法包括如下步骤:
1)APP解析某网站的旅游攻略HTML文件,以HTML文件中<h2>标题下的文本内容提取出来,并作为目标标签。设text[j]表示该HTML文件中第j个<h2>标签(对应第j个景点)中的文本,其中,M为<h2>标题的总数,0<j<=M;
2)APP收集记录每个读者阅读每个<h2>标题下的内容的耗时,若某个读者没有完整阅读完攻略,则本次阅读记录不参与收集计算。设t[i,j]表示第i个读者读text[j]的时长,共计有N个读者,0<i<=N;
3)设衰减系数为exp(-1/j),则t[i,j]=t[i,j]*exp(-1/j),其中,i表示第i个读者,0<j<=M;
4)对text[j]做归一化处理,设sum(t[i,j])为所有用户读取文本内容所花费的时间之和;则t[i,j]=t[i,j]/sum(t[i,j]),其中i表示第i个读者,0<j<=M,即,把读者i读text[j]的时长归一化到(0,1)的区间;
5)根据方差去除噪音数据。计算t[i,j]的均值和标准差,其中0<i<=N,j表示景点j。对n个读者读景点j的时长计算均值和标准差,分别记为E和S。取t[i,j]的值在[E-S,E+S]区间的作为合格值。这个区间之外的被认为偏离标准差太大的噪音数据,舍去不用;
6)计算text[j]的权重,即计算t[i,j]的均值,其中,0<i<=N。t[i,j]表示根据上一步骤去除噪音数据后的合格数据,K为text[j]的合格条数,0<K<=N。W[j]=sum(t[i,j])/K。W[j]即text[j]的权重;
7)这样就求出了一个旅游攻略中每个<h2>标题的权重W[j],把每个<h2>标题中的景点名称作为旅游攻略的标签,其权重为W[j];
8)将W[j]的权重叠加到关键词集合中。
在一实施例中,如图2所示,提供一种基于阅读时长的关键词加权系统,用于执行如上述的基于阅读时长的关键词加权方法,并包括通过网络相连的前端APP和后端服务器:其中,
前端APP,用于提取预设文本下的预设标题,并将预设标题作为目标标签;获取用户阅读预设标题下文本内容的阅读时长;
后端服务器,用于根据预设标题所在预设文本中的前后位置,对阅读时长进行修正,得到修正后的阅读时长;以修正后的阅读时长作为目标标签下文本内容的权重值。
在本实施例中,基于阅读时长的关键词加权系统是与本基于阅读时长的关键词加权方法对应的硬件设备,此处不再赘述其功能。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中基于阅读时长的关键词加权方法的步骤,例如图1所示的步骤S1至步骤S4。
在一实施例中,提供一计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中基于阅读时长的关键词加权方法。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于阅读时长的关键词加权方法,其特征在于,包括:
提取预设文本下的预设标题,并将所述预设标题作为目标标签;
获取用户阅读所述预设标题下文本内容的阅读时长;
根据所述预设标题所在所述预设文本中的前后位置,对所述阅读时长进行修正,得到修正后的阅读时长;
以所述修正后的阅读时长作为所述目标标签下文本内容的权重值;
将所述目标标签及与所述目标标签对应的权重值添加到预设关键词集合中;
所述根据所述预设标题所在所述预设文本中的前后位置,对所述阅读时长进行修正,得到修正后的阅读时长,包括:
所述预设标题所在所述预设文本中的前后位置分别对应预设衰减系数;
将所述阅读时长乘以所述衰减系数,得到修正后的阅读时长;
其中,所述预设衰减系数设为exp(-1/j),exp代表以e为底的指数函数,j代表预设标题在预设文本中的位置排序,j越小代表位置越靠前,j越大代表位置越靠后。
2.如权利要求1所述的基于阅读时长的关键词加权方法,其特征在于,所述获取用户阅读所述预设标题下文本内容的阅读时长,包括:
获取多个用户阅读所述预设标题下文本内容的阅读时长;
在所述对所述阅读时长进行修正之后,并在所述以所述 修正后的阅读时长作为所述目标标签下文本内容的权重值之前,所述基于阅读时长的关键词加权方法,还包括:
根据用户数量,将修正后的阅读时长进行归一化处理,得到修正后的阅读时长。
3.如权利要求2所述的基于阅读时长的关键词加权方法,其特征在于,在所述将修正后的阅读时长进行归一化处理之后,并且在以修正后的阅读时长作为所述目标标签下文本内容的权重值之前,所述基于阅读时长的关键词加权方法,还包括:
对归一化处理后的阅读时长进行方差去噪,得到修正后的阅读时长。
4.如权利要求3所述的基于阅读时长的关键词加权方法,其特征在于,所述以所述修正后的阅读时长作为所述目标标签下文本内容的权重值,包括:
计算所述修正后的阅读时长的平均值,并以所述平均值作为所述目标标签下文本内容的权重值。
5.如权利要求4所述的基于阅读时长的关键词加权方法,其特征在于,在所述以所述平均值作为所述目标标签下文本内容的权重值之后,所述基于阅读时长的关键词加权方法,还包括:
将所述目标标签及与该目标标签对应的权重值添加到预设关键词集合中。
6.如权利要求1至5任一项所述的基于阅读时长的关键词加权方法,其特征在于,所述预设文本为HTML文件。
7.一种基于阅读时长的关键词加权系统,其特征在于,用于执行如权利要求1至6任一项所述的基于阅读时长的关键词加权方法,并包括通过网络相连的前端APP和后端服务器,其中,
所述前端APP,用于提取预设文本下的预设标题,并将所述预设标题作为目标标签;获取用户阅读所述预设标题下文本内容的阅读时长;
所述后端服务器,用于根据所述预设标题所在所述预设文本中的前后位置,对所述阅读时长进行修正,得到修正后的阅读时长;以所述修正后的阅读时长作为所述目标标签下文本内容的权重值;将所述目标标签及与所述目标标签对应的权重值添加到预设关键词集合中。
8.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述基于阅读时长的关键词加权方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于阅读时长的关键词加权方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111491993.3A CN113886517B (zh) | 2021-12-08 | 2021-12-08 | 基于阅读时长的关键词加权方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111491993.3A CN113886517B (zh) | 2021-12-08 | 2021-12-08 | 基于阅读时长的关键词加权方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113886517A CN113886517A (zh) | 2022-01-04 |
CN113886517B true CN113886517B (zh) | 2022-08-19 |
Family
ID=79016588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111491993.3A Active CN113886517B (zh) | 2021-12-08 | 2021-12-08 | 基于阅读时长的关键词加权方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113886517B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959469A (zh) * | 2018-05-11 | 2018-12-07 | 中国平安人寿保险股份有限公司 | 阅读管理方法、装置、计算机设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX2015010582A (es) * | 2013-02-15 | 2017-01-11 | Voxy Inc | Sistemas y metodos de aprendizaje de idiomas. |
US20170140051A1 (en) * | 2015-11-16 | 2017-05-18 | Facebook, Inc. | Ranking and Filtering Comments Based on Labelling |
US10719204B2 (en) * | 2016-01-10 | 2020-07-21 | Apple Inc. | Document selection and display based on detected viewer preferences |
CN108334588B (zh) * | 2018-01-29 | 2021-03-23 | 北京搜狐新媒体信息技术有限公司 | 一种用户标签构建方法及装置 |
CN111666486B (zh) * | 2019-03-07 | 2023-10-03 | 腾讯科技(深圳)有限公司 | 热度值获取方法及装置 |
CN110807313A (zh) * | 2019-10-15 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 预估文本阅读时间的方法、装置、电子设备及存储介质 |
KR102158352B1 (ko) * | 2020-03-27 | 2020-09-21 | (주)케이엔랩 | 정책정보 문서의 요지 정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램 |
-
2021
- 2021-12-08 CN CN202111491993.3A patent/CN113886517B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959469A (zh) * | 2018-05-11 | 2018-12-07 | 中国平安人寿保险股份有限公司 | 阅读管理方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113886517A (zh) | 2022-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109791559B (zh) | 促进图像作为搜索查询的使用 | |
CN110110577B (zh) | 识别菜名的方法及装置、存储介质、电子装置 | |
US20040215715A1 (en) | System and method for non-invasive collection of data | |
CN103988202A (zh) | 基于索引和搜索的图像吸引力 | |
CN105589852B (zh) | 一种信息推荐的方法和装置 | |
CN111861605B (zh) | 业务对象推荐方法 | |
US8290925B1 (en) | Locating product references in content pages | |
CN112182391A (zh) | 一种用户画像方法与装置 | |
CN106776609A (zh) | 网站转载数量的统计方法及装置 | |
CN113743455A (zh) | 目标检索方法、装置、电子设备及存储介质 | |
CN113779381A (zh) | 资源推荐方法、装置、电子设备和存储介质 | |
CN108280102B (zh) | 上网行为记录方法、装置及用户终端 | |
JP2008310626A (ja) | 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体 | |
CN115661302A (zh) | 一种视频编辑方法、装置、设备及存储介质 | |
CN114090891A (zh) | 个性化内容推荐方法、装置、设备及存储介质 | |
WO2019227705A1 (zh) | 图片录入方法、服务器及计算机存储介质 | |
CN113886517B (zh) | 基于阅读时长的关键词加权方法、系统、设备及介质 | |
CN110851708A (zh) | 负样本的抽取方法、装置、计算机设备和存储介质 | |
CN115544214A (zh) | 一种事件处理方法、设备及计算机可读存储介质 | |
CN107169065B (zh) | 一种特定内容的去除方法和装置 | |
CN111414074A (zh) | 屏幕浏览数据处理方法、装置、介质及电子设备 | |
CN112700291B (zh) | 一种广告位的内容推荐方法、装置、存储介质及电子设备 | |
CN115525161A (zh) | 词条获取方法、装置及电子设备 | |
CN107426338A (zh) | 一种资讯管理方法及系统 | |
CN111476028A (zh) | 一种汉语短语识别方法、系统、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |