CN114154075B - 热门信息确定方法、装置、计算机设备和介质 - Google Patents
热门信息确定方法、装置、计算机设备和介质 Download PDFInfo
- Publication number
- CN114154075B CN114154075B CN202210119332.6A CN202210119332A CN114154075B CN 114154075 B CN114154075 B CN 114154075B CN 202210119332 A CN202210119332 A CN 202210119332A CN 114154075 B CN114154075 B CN 114154075B
- Authority
- CN
- China
- Prior art keywords
- information
- target
- determining
- heat
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000012163 sequencing technique Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 6
- 235000019633 pungent taste Nutrition 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 7
- 230000006399 behavior Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000000611 regression analysis Methods 0.000 description 3
- 230000000699 topical effect Effects 0.000 description 3
- 241000238557 Decapoda Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种热门信息确定方法、装置、计算机设备和介质;其中,该方法包括:根据用户所需要的信息的类型,在信息库中确定与类型对应的目标信息集合,其中,目标信息集合中包括多个信息;确定目标信息集合中包含的每个信息所对应的热度以及热度趋势;基于所有的热度以及热度趋势,从目标信息集合中确定热门信息。本公开实施例在确定热门信息时考虑了各信息的热度以及热度趋势,有利于提高热门信息的客观性和准确性。
Description
技术领域
本公开涉及数据处理技术领域,尤其涉及一种热门信息确定方法、装置、计算机设备和介质。
背景技术
目前,用户在查看需要的信息时,可以通过查看服务器、应用程序或者一些平台推荐的热门信息的方式,节省寻找所需要的信息的时间。
现有技术中,热门信息的确定通常是根据针对某信息的用户行为数据来确定该信息是否为热门信息,这种方法的参考维度比较单一,且由于参考对象单一可能会存在偶发性,从而导致确定的热门信息不够准确,影响用户体验。
发明内容
为了解决上述技术问题,本公开提供了一种热门信息确定方法、装置、计算机设备和介质。
第一方面,本公开提供了一种热门信息确定方法,包括:
根据用户所需要的信息的类型,在信息库中确定与所述类型对应的目标信息集合,其中,所述目标信息集合中包括多个信息;
确定所述目标信息集合中包含的每个信息所对应的热度以及热度趋势;
基于所有的热度以及热度趋势,从所述目标信息集合中确定热门信息。
可选的,所述确定所述目标信息集合中包含的每个信息所对应的热度以及热度趋势,包括:
针对所述目标信息集合中包含的每个信息,确定与所述类型对应的目标文本库中在预设时间内与当前信息对应的新发布文本的文本总数、在所述预设时间内所有文本的总访问次数以及在所述预设时间内各专家用户对所有文本的目标总访问次数,并根据所述文本总数、所述总访问次数以及所述目标总访问次数,确定所述当前信息对应的热度以及热度趋势。
可选的,所述根据所述文本总数、所述总访问次数以及所述目标总访问次数,确定所述当前信息对应的热度以及热度趋势,包括:
确定所述文本总数对应的第一权重、所述总访问次数对应的第二权重以及所述目标总访问次数对应的第三权重;
根据所述第一权重、所述第二权重以及所述第三权重,采用加权平均法确定所述当前信息对应的热度;
确定所述文本总数对应的第四权重、所述总访问次数对应的第五权重以及所述目标总访问次数对应的第六权重;
根据所述第四权重、所述第五权重以及所述第六权重,采用加权平均法确定所述当前信息对应的热度趋势,其中,所述第一权重和所述第四权重不同,所述第二权重和所述第五权重不同,所述第三权重和所述第六权重不同。
可选的,所述目标文本库通过以下方式确定:
获取预先建立的文本库中包含的每个文本分别对应的标题和摘要;
根据所述标题和摘要,确定所述文本库中与所述类型对应的目标文本;
基于所有目标文本,得到所述目标文本库。
可选的,所述根据所述标题和摘要,确定所述文本库中与所述类型对应的目标文本,包括:
确定所述每个文本对应的标题和摘要与所述类型的相关度;
将所有相关度中超过预设阈值的目标相关度所对应的文本确定为所述目标文本。
可选的,确定在所述预设时间内各专家用户对所有文本的目标总访问次数之前,还包括:
针对各专家用户中的每个专家用户,获取当前专家用户对应的身份信息,并根据所述身份信息对所述当前专家用户进行认证,以确定所述当前专家用户是否为有效专家用户;
相应的,确定在所述预设时间内各专家用户对所有文本的目标总访问次数,包括:
获取每个有效专家用户分别在所述预设时间内对所有文本的目标访问次数;
将所有目标访问次数相加,得到所述目标总访问次数。
可选的,所述基于所有的热度以及热度趋势,从所述目标信息集合中确定热门信息,包括:
根据所有的热度以及热度趋势,对所述目标信息集合中包含的多个信息进行排序,得到对应的排列顺序;
根据所述排列顺序,确定所述热门信息。
第二方面,本公开提供了一种热门信息确定装置,包括:
集合确定模块,用于根据用户所需要的信息的类型,在信息库中确定与所述类型对应的目标信息集合,其中,所述目标信息集合中包括多个信息;
热度确定模块,用于确定所述目标信息集合中包含的每个信息所对应的热度以及热度趋势;
信息确定模块,用于基于所有的热度以及热度趋势,从所述目标信息集合中确定热门信息。
可选的,热度确定模块,包括:数量确定单元和热度确定单元;
数量确定单元,用于针对所述目标信息集合中包含的每个信息,确定与所述类型对应的目标文本库中在预设时间内与当前信息对应的新发布文本的文本总数、在所述预设时间内所有文本的总访问次数以及在所述预设时间内各专家用户对所有文本的目标总访问次数;
热度确定单元,用于根据所述文本总数、所述总访问次数以及所述目标总访问次数,确定所述当前信息对应的热度以及热度趋势。
可选的,热度确定单元,具体用于:
确定所述文本总数对应的第一权重、所述总访问次数对应的第二权重以及所述目标总访问次数对应的第三权重;
根据所述第一权重、所述第二权重以及所述第三权重,采用加权平均法确定所述当前信息对应的热度;
确定所述文本总数对应的第四权重、所述总访问次数对应的第五权重以及所述目标总访问次数对应的第六权重;
根据所述第四权重、所述第五权重以及所述第六权重,采用加权平均法确定所述当前信息对应的热度趋势,其中,所述第一权重和所述第四权重不同,所述第二权重和所述第五权重不同,所述第三权重和所述第六权重不同。
可选的,上述装置还包括:目标文本库确定模块;
目标文本库确定模块包括:获取单元、第一确定单元以及第二确定单元;
获取单元,用于获取预先建立的文本库中包含的每个文本分别对应的标题和摘要;
第一确定单元,用于根据所述标题和摘要,确定所述文本库中与所述类型对应的目标文本;
第二确定单元,用于基于所有目标文本,得到所述目标文本库。
可选的,第一确定单元,具体用于:
确定所述每个文本对应的标题和摘要与所述类型的相关度;
将所有相关度中超过预设阈值的目标相关度所对应的文本确定为所述目标文本。
可选的,上述装置还包括:
认证模块,用于确定在所述预设时间内各专家用户对所有文本的目标总访问次数之前,针对各专家用户中的每个专家用户,获取当前专家用户对应的身份信息,并根据所述身份信息对所述当前专家用户进行认证,以确定所述当前专家用户是否为有效专家用户;
相应的,确定在所述预设时间内各专家用户对所有文本的目标总访问次数,包括:
获取每个有效专家用户分别在所述预设时间内对所有文本的目标访问次数;
将所有目标访问次数相加,得到所述目标总访问次数。
可选的,信息确定模块,具体用于:
根据所有的热度以及热度趋势,对所述目标信息集合中包含的多个信息进行排序,得到对应的排列顺序;
根据所述排列顺序,确定所述热门信息。
第三方面,本公开还提供了一种计算机设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本公开实施例中的任一种所述的热门信息确定方法。
第四方面,本公开还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开实施例中的任一种所述的热门信息确定方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:首先根据用户所需要的信息的类型,在信息库中确定与类型对应的目标信息集合,其中,目标信息集合中包括多个信息,然后确定目标信息集合中包含的每个信息所对应的热度以及热度趋势,最后基于所有的热度以及热度趋势,从目标信息集合中确定热门信息,通过在确定热门信息时考虑了各信息的热度以及热度趋势,有利于提高热门信息的客观性和准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种热门信息确定方法的流程示意图;
图2是本公开实施例提供的另一种热门信息确定方法的流程示意图;
图3是本公开实施例提供的一种热门信息确定装置的结构示意图;
图4是本公开实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
图1是本公开实施例提供的一种热门信息确定方法的流程示意图。本实施例可适用于为用户确定热门信息,以便有针对性的推荐给用户的情况。本实施例方法可由热门信息确定装置来执行,该装置可采用硬件/或软件的方式来实现,并可配置于计算机设备中。如图1所示,该方法具体包括如下:
S110,根据用户所需要的信息的类型,在信息库中确定与类型对应的目标信息集合,其中,目标信息集合中包括多个信息。
其中,用户所需要的信息可以是用户直接输入的信息,也可以是根据用户的浏览行为或者使用记录等分析出来的信息,并且获取用户的浏览行为或者使用记录是经过用户授权的,还可以是通过其他方式得到用户所需要的信息,本实施例不做限制。类型可以理解为用户所需要的信息所属的具体类别,可以根据信息的用途进行划分,例如假设用户所需要的信息为与创业项目相关的信息,则对应的类型为创业;假设用户所需要的信息为与找工作相关的信息,则对应的类型为求职。信息库可以理解为预先建立的包括多种信息的资源库。目标信息集合可以理解为与用户所需要的信息的类型相关的所有信息组成的集合,假设用户所需要的信息的类型为创业,则目标信息集合可以为创业项目集合。
由于当今社会处于信息飞速发展以及传播的时代,因此在互联网中包含了各种各样的信息。如何在众多信息中确定出与用户需求对应的热门信息变得尤为重要。为了确定出热门信息,需要获取用户所需要的信息,并确定该信息对应的类型,在确定出该信息对应的类型之后,能够以该类型作为关键词,在信息库中快速确定出与该类型所对应的目标信息集合,便于后续确定目标信息集合中包含的每个信息所对应的热度以及热度趋势。
S120,确定目标信息集合中包含的每个信息所对应的热度以及热度趋势。
其中,热度可以理解为在某一时间段内用户通过搜索引擎、搜索设备等渠道关注到某一信息的关注度和搜索度。热度趋势可以理解为在某一时间段内某一信息的关注度和搜索度的变化趋势,例如呈快速增长趋势、增长趋势以及下降趋势等。
在确定出目标信息集合之后,由于目标信息集合中包括多个信息,为了从目标信息集合中确定热门信息,需要确定目标信息集合中包含的每个信息所对应的热度以及热度趋势,具体可以通过每个信息的关注人数、浏览数量、回答数量、评论数量、点赞数量、转发数量以及收藏数量等参数,根据回归分析法、加权平均法以及其他方法等确定出每个信息分别对应的热度以及热度趋势;还可以通过与每个信息相关的文本数量、各文本的浏览数量、评论数量、点赞数量以及转发数量等与文本相关的参数,根据回归分析法、加权平均法以及其他方法等确定出每个信息分别对应的热度以及热度趋势。
示例性的,关注人数、浏览数量、回答数量、评论数量、点赞数量、转发数量以及收藏数量等参数越大,相应的热度和热度趋势也越高;关注人数、浏览数量、回答数量、评论数量、点赞数量、转发数量以及收藏数量等参数越小,相应的热度和热度趋势也就越低。
S130,基于所有的热度以及热度趋势,从目标信息集合中确定热门信息。
在确定出目标信息集合中包含的每个信息所对应的热度以及热度趋势之后,比较各信息分别对应的热度以及热度趋势的大小,能够确定出对应的每个信息是否为热门信息,例如热度以及热度趋势较高的信息为热门信息,从而能够从目标信息集合中确定出热门信息,便于后续将热门信息推荐给用户,从而为用户节省时间,提高用户的使用体验。假设目标信息集合为创业项目集合,则最终确定的热门信息可以为热门创业项目信息。
在本实施例中,首先根据用户所需要的信息的类型,在信息库中确定与类型对应的目标信息集合,其中,目标信息集合中包括多个信息,然后确定目标信息集合中包含的每个信息所对应的热度以及热度趋势,最后基于所有的热度以及热度趋势,从目标信息集合中确定热门信息,通过在确定热门信息时考虑了各信息的热度以及热度趋势,有利于提高热门信息的客观性和准确性。
在本实施例中,可选的,所述基于所有的热度以及热度趋势,从所述目标信息集合中确定热门信息,包括:
根据所有的热度以及热度趋势,对所述目标信息集合中包含的多个信息进行排序,得到对应的排列顺序;
根据所述排列顺序,确定所述热门信息。
具体的,在确定出目标信息集合中包含的每个信息所对应的热度以及热度趋势之后,根据所有的热度以及热度趋势,通过相应的排序方法能够对目标信息集合中包含的多个信息进行排序,得到对应的排列顺序。其中,排序方法可以为基于线性回归模型的排序方法或者基于机器学习的其他排序方法等,还可以是其他类型的排序方法,本实施例对此不做限制。在得到排列顺序之后,根据该排列顺序,能够确定出热门信息,例如将排列顺序中排名前3的作为热门信息,本实施例对热门信息的个数不做具体限制。
本实施例中,通过上述方法确定热门信息更准确,有利于提高用户的满意度以及使用体验。
在本实施例中,可选的,信息库可以通过以下方式建立:从互联网、报纸、杂志以及书籍等途径中进行信息抓取,得到各种信息;对所有信息进行预处理,例如查重、过滤、检验真实性和合法性以及删除等操作,得到处理后的信息;基于所有处理后的信息,建立信息库。
本实施例中,通过预先建立信息库,能够节省得到目标信息集合的时间,提高工作效率。
在本实施例中,可选的,在建立信息库之后,还包括:
目标时间之后,再次进行信息抓取,获取新信息;对新信息进行预处理,在确定新信息与信息库中包含的所有信息均不同时,将新信息增加至信息库中。
其中,目标时间可以为预先设定好的,例如1天,也可以视具体情况而定,本实施例不做限制。
本实施例中,通过上述方法对信息库进行更新,有利于保证信息库的全面性和有效性。
图2是本公开实施例提供的另一种热门信息确定方法的流程示意图。本实施例是在上述实施例的基础上进行优化。可选的,本实施例对确定每个信息所对应的热度以及热度趋势的过程进行详细的解释说明。如图2所示,该方法具体包括如下:
S210,根据用户所需要的信息的类型,在信息库中确定与类型对应的目标信息集合,其中,目标信息集合中包括多个信息。
S220,针对目标信息集合中包含的每个信息,确定与类型对应的目标文本库中在预设时间内与当前信息对应的新发布的文本总数、在预设时间内所有文本的总访问次数以及在预设时间内各专家用户对所有文本的目标总访问次数,并根据文本总数、总访问次数以及目标总访问次数,确定当前信息对应的热度以及热度趋势。
其中,目标文本库可以理解为与用户所需要的信息的类型相对应的文本库,例如假设用户所需要的信息为与创业项目相关的信息,则目标文本库可以理解为与各种创业项目相关的已发布(发布也可以称报道)文本所组成的文本库。预设时间可以为预先设定好的,例如24小时,也可以视具体情况而定,本实施例不做限制。新发布文本的文本总数可以理解为新公开的文本的数量。总访问次数可以理解为在预设时间内所有用户对目标文本库中包含的所有文本的访问次数之和,其能够反映出用户对文本的关注度。目标总访问次数可以理解为预设时间内各专家用户对目标文本库中包含的所有文本的访问次数之和,其能够反映出各专家用户对文本的关注度。专家用户可以理解为与用户所需要的信息的类型所对应的专业型人才,例如,若用户所需要的信息的类型创业,则专家用户可以为投资方面的专家或者公司的创始人等。
由于目标信息集合中包括多个信息,那么针对目标信息集合中包含的每个信息,将每个信息依次作为当前信息,确定目标文本库中在预设时间内与当前信息对应的新发布文本的文本总数、目标文本库中在预设时间内所有文本的总访问次数以及目标文本库中在预设时间内各专家用户对所有文本的目标总访问次数,并根据文本总数、总访问次数以及目标总访问次数这三个参数,通过回归分析法、加权平均法以及其他方法等确定当前信息对应的热度以及热度趋势,从而得到目标信息集合中包含的每个信息分别对应的热度以及热度趋势,即一个信息对应一个热度和一个热度趋势。
S230,基于所有的热度以及热度趋势,从目标信息集合中确定热门信息。
在本实施例中,首先根据用户所需要的信息的类型,在信息库中确定与类型对应的目标信息集合,其中,目标信息集合中包括多个信息,然后针对目标信息集合中包含的每个信息,确定与类型对应的目标文本库中在预设时间内与当前信息对应的新发布文本的文本总数、在预设时间内所有文本的总访问次数以及在预设时间内各专家用户对所有文本的目标总访问次数,并根据文本总数、总访问次数以及目标总访问次数,确定当前信息对应的热度以及热度趋势,最后基于所有的热度以及热度趋势,从目标信息集合中确定热门信息效果,由于在确定热度以及热度趋势时,综合考虑了新发布文本的文本总数、所有文本的总访问次数以及各专家用户对所有文本的目标总访问次数,因此所确定的热度以及热度趋势更全面,能够反应出信息的受关注度和变化趋势,从而有利于进一步提高热门信息的客观性和准确性。
在本实施例中,可选的,所述根据所述文本总数、所述总访问次数以及所述目标总访问次数,确定所述当前信息对应的热度以及热度趋势,可以具体包括:
确定所述文本总数对应的第一权重、所述总访问次数对应的第二权重以及所述目标总访问次数对应的第三权重;
根据所述第一权重、所述第二权重以及所述第三权重,采用加权平均法确定所述当前信息对应的热度;
确定所述文本总数对应的第四权重、所述总访问次数对应的第五权重以及所述目标总访问次数对应的第六权重;
根据所述第四权重、所述第五权重以及所述第六权重,采用加权平均法确定所述当前信息对应的热度趋势,其中,所述第一权重和所述第四权重不同,所述第二权重和所述第五权重不同,所述第三权重和所述第六权重不同。
其中,第一权重,第二权重,……,第六权重的具体数值可以为预先设定好的,也可以视具体情况而定,本实施例不做限制。
具体的,在得到当前信息对应的新发布文本的文本总数、所有文本的总访问次数以及各专家用户对所有文本的目标总访问次数之后,根据上述三个参数,通过加权平均法能够确定出当前信息对应的热度以及热度趋势。加权平均法的具体实施过程为:
1、确定文本总数对应的第一权重、总访问次数对应的第二权重以及目标总访问次数对应的第三权重;
2、将文本总数与第一权重相乘得到第一数值,总访问次数与第二权重相乘得到第二数值,目标总访问次数与第三权重相乘得到第三数值,基于第一数值、第二数值和第三数值求取第一平均值,即为当前信息对应的热度;
3、确定文本总数对应的第四权重、总访问次数对应的第五权重以及目标总访问次数对应的第六权重;
4、将文本总数与第四权重相乘得到第四数值,总访问次数与第五权重相乘得到第五数值,目标总访问次数与第六权重相乘得到第六数值,基于第四数值、第五数值和第六数值求取第二平均值,即为当前信息对应的热度趋势。
本实施例中,通过上述方法确定当前信息对应的热度以及热度趋势,简单快捷,且第一权重,第二权重,……,第六权重的具体数值可以进行调节,有利于提高所确定的热度以及热度趋势的准确性。
在本实施例中,可选的,所述目标文本库通过以下方式确定:
获取预先建立的文本库中包含的每个文本分别对应的标题和摘要;
根据所述标题和摘要,确定所述文本库中与所述类型对应的目标文本;
基于所有目标文本,得到所述目标文本库。
具体的,由于每个文本包含的内容可能不同,通常情况下标题和摘要能够反映出文本所表述的具体内容,因此通过获取预先建立的文本库中包含的每个文本分别对应的标题和摘要,再根据所有的标题和摘要,就能够确定出文本库中与用户所需要的信息的类型对应的目标文本,例如假设用户所需要的信息的类型为创业,则目标文本即为创业相关的文本。最后基于所有的目标文本,就能够得到目标文本库。
本实施例中,基于文本的标题和摘要确定目标文本库,能够节省时间,提高工作效率,所确定的目标文本库也更全面和准确。
在本实施例中,可选的,所述根据所述标题和摘要,确定所述文本库中与所述类型对应的目标文本,包括:
确定所述每个文本对应的标题和摘要与所述类型的相关度;
将所有相关度中超过预设阈值的目标相关度所对应的文本确定为所述目标文本。
其中,预设阈值可以为预先设定好的,也可以视具体情况而定,本实施例不做限制。目标相关度可以理解为所有相关度中超过预设阈值的相关度。
具体的,通过计算每个文本对应的标题和摘要与用户所需要的信息的类型的相关度,能够得到与文本个数相同的多个相关度,根据多个相关度的数值大小能够确定出各文本分别与用户所需要的信息的类型的相关程度的高低。例如,若某个相关度的数值较大,则与该相关度对应的文本与用户所需要的信息的类型的相关程度较高。在得到各文本分别对应的相关度之后,比较各相关度与预设阈值的大小关系,并将所有相关度中超过预设阈值的目标相关度所对应的文本确定为目标文本。
本实施例中,通过上述方法确定目标文本简单快捷,有利于提高后续确定目标文本库的效率。
在本实施例中,可选的,确定在所述预设时间内各专家用户对所有文本的目标总访问次数之前,还包括:
针对各专家用户中的每个专家用户,获取当前专家用户对应的身份信息,并根据所述身份信息对所述当前专家用户进行认证,以确定所述当前专家用户是否为有效专家用户;
相应的,确定在所述预设时间内各专家用户对所有文本的目标总访问次数,包括:
获取每个有效专家用户分别在所述预设时间内对所有文本的目标访问次数;
将所有目标访问次数相加,得到所述目标总访问次数。
具体的,确定在预设时间内各专家用户对所有文本的目标总访问次数之前,还需要针对各专家用户中的每个专家用户,分别将各专家用户依次作为当前专家用户,获取当前专家用户对应的身份信息,例如姓名或者擅长领域等,并根据该身份信息对当前专家用户进行认证,若当前专家用户通过认证,则确定确定当前专家用户为有效专家用户;若当前专家用户未通过认证,则确定确定当前专家用户为无效专家用户。通过上述认证过程有利于确保专家用户身份的合法性以及后续目标总访问次数的准确性。
在确定各专家用户是否为有效专家用户之后,获取每个有效专家用户分别在预设时间内对所有文本的目标访问次数,然后将所有目标访问次数相加,就得到了目标总访问次数。
本实施例中,通过对各专家用户进行认证,以及根据有效专家用户分别在预设时间内对所有文本的目标访问次数,确定目标总访问次数,使得目标访问次数更准确,进一步提高后续热度以及热度趋势的准确性。
在本实施例中,可选的,上述方法还包括:通过不断引入新的专家用户、对新的专家用户进行认证和标记以及记录各专家用户的浏览和关注行为等方式,建立专家用户库。
本实施例中,通过建立专家用户库,能够便于后续通过专家用户库确定某专家用户是否为有效专家用户。
图3是本公开实施例提供的一种热门信息确定装置的结构示意图;该装置配置于计算机设备中,可实现本申请任意实施例所述的热门信息确定方法。该装置具体包括如下:
集合确定模块310,用于根据用户所需要的信息的类型,在信息库中确定与所述类型对应的目标信息集合,其中,所述目标信息集合中包括多个信息;
热度确定模块320,用于确定所述目标信息集合中包含的每个信息所对应的热度以及热度趋势;
信息确定模块330,用于基于所有的热度以及热度趋势,从所述目标信息集合中确定热门信息。
在本实施例中,可选的,热度确定模块320,包括:数量确定单元和热度确定单元;
数量确定单元,用于针对所述目标信息集合中包含的每个信息,确定与所述类型对应的目标文本库中在预设时间内与当前信息对应的新发布文本的文本总数、在所述预设时间内所有文本的总访问次数以及在所述预设时间内各专家用户对所有文本的目标总访问次数;
热度确定单元,用于根据所述文本总数、所述总访问次数以及所述目标总访问次数,确定所述当前信息对应的热度以及热度趋势。
在本实施例中,可选的,热度确定单元,具体用于:
确定所述文本总数对应的第一权重、所述总访问次数对应的第二权重以及所述目标总访问次数对应的第三权重;
根据所述第一权重、所述第二权重以及所述第三权重,采用加权平均法确定所述当前信息对应的热度;
确定所述文本总数对应的第四权重、所述总访问次数对应的第五权重以及所述目标总访问次数对应的第六权重;
根据所述第四权重、所述第五权重以及所述第六权重,采用加权平均法确定所述当前信息对应的热度趋势,其中,所述第一权重和所述第四权重不同,所述第二权重和所述第五权重不同,所述第三权重和所述第六权重不同。
在本实施例中,可选的,上述装置还包括:目标文本库确定模块;
目标文本库确定模块包括:获取单元、第一确定单元以及第二确定单元;
获取单元,用于获取预先建立的文本库中包含的每个文本分别对应的标题和摘要;
第一确定单元,用于根据所述标题和摘要,确定所述文本库中与所述类型对应的目标文本;
第二确定单元,用于基于所有目标文本,得到所述目标文本库。
在本实施例中,可选的,第一确定单元,具体用于:
确定所述每个文本对应的标题和摘要与所述类型的相关度;
将所有相关度中超过预设阈值的目标相关度所对应的文本确定为所述目标文本。
在本实施例中,可选的,上述装置还包括:
认证模块,用于确定在所述预设时间内各专家用户对所有文本的目标总访问次数之前,针对各专家用户中的每个专家用户,获取当前专家用户对应的身份信息,并根据所述身份信息对所述当前专家用户进行认证,以确定所述当前专家用户是否为有效专家用户;
相应的,确定在所述预设时间内各专家用户对所有文本的目标总访问次数,包括:
获取每个有效专家用户分别在所述预设时间内对所有文本的目标访问次数;
将所有目标访问次数相加,得到所述目标总访问次数。
在本实施例中,可选的,信息确定模块330,具体用于:
根据所有的热度以及热度趋势,对所述目标信息集合中包含的多个信息进行排序,得到对应的排列顺序;
根据所述排列顺序,确定所述热门信息。
通过本公开实施例提供的热门信息确定装置,首先根据用户所需要的信息的类型,在信息库中确定与类型对应的目标信息集合,其中,目标信息集合中包括多个信息,然后确定目标信息集合中包含的每个信息所对应的热度以及热度趋势,最后基于所有的热度以及热度趋势,从目标信息集合中确定热门信息,通过在确定热门信息时考虑了各信息的热度以及热度趋势,有利于提高热门信息的客观性和准确性。
本公开实施例所提供的热门信息确定装置可执行本公开任意实施例所提供的热门信息确定方法,具备执行方法相应的功能模块和有益效果。
图4是本公开实施例提供的一种计算机设备的结构示意图。如图4所示,该计算机设备包括处理器410和存储装置420;计算机设备中处理器410的数量可以是一个或多个,图4中以一个处理器410为例;计算机设备中的处理器410和存储装置420可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储装置420作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本公开实施例中的热门信息确定方法对应的程序指令/模块。处理器410通过运行存储在存储装置420中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现本公开实施例所提供的热门信息确定方法。
存储装置420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本实施例提供的一种计算机设备可用于执行上述任意实施例提供的热门信息确定方法,具备相应的功能和有益效果。
本公开实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于实现本公开实施例所提供的热门信息确定方法。
当然,本公开实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本公开任意实施例所提供的热门信息确定方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本公开可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(RandomAccess Memory, RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述的方法。
值得注意的是,上述热门信息确定装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本公开的保护范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种热门信息确定方法,其特征在于,所述方法包括:
根据用户所需要的信息的类型,在信息库中确定与所述类型对应的目标信息集合,其中,所述目标信息集合中包括多个信息;
确定所述目标信息集合中包含的每个信息所对应的热度以及热度趋势;
基于所有的热度以及热度趋势,从所述目标信息集合中确定热门信息;
所述确定所述目标信息集合中包含的每个信息所对应的热度以及热度趋势,包括:
针对所述目标信息集合中包含的每个信息,确定与所述类型对应的目标文本库中在预设时间内与当前信息对应的新发布文本的文本总数、在所述预设时间内所有文本的总访问次数以及在所述预设时间内各专家用户对所有文本的目标总访问次数,并根据所述文本总数、所述总访问次数以及所述目标总访问次数,确定所述当前信息对应的热度以及热度趋势;
确定在所述预设时间内各专家用户对所有文本的目标总访问次数之前,还包括:
针对各专家用户中的每个专家用户,获取当前专家用户对应的身份信息,并根据所述身份信息对所述当前专家用户进行认证,以确定所述当前专家用户是否为有效专家用户;
相应的,确定在所述预设时间内各专家用户对所有文本的目标总访问次数,包括:
获取每个有效专家用户分别在所述预设时间内对所有文本的目标访问次数;
将所有目标访问次数相加,得到所述目标总访问次数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述文本总数、所述总访问次数以及所述目标总访问次数,确定所述当前信息对应的热度以及热度趋势,包括:
确定所述文本总数对应的第一权重、所述总访问次数对应的第二权重以及所述目标总访问次数对应的第三权重;
根据所述第一权重、所述第二权重以及所述第三权重,采用加权平均法确定所述当前信息对应的热度;
确定所述文本总数对应的第四权重、所述总访问次数对应的第五权重以及所述目标总访问次数对应的第六权重;
根据所述第四权重、所述第五权重以及所述第六权重,采用加权平均法确定所述当前信息对应的热度趋势,其中,所述第一权重和所述第四权重不同,所述第二权重和所述第五权重不同,所述第三权重和所述第六权重不同。
3.根据权利要求1所述的方法,其特征在于,所述目标文本库通过以下方式确定:
获取预先建立的文本库中包含的每个文本分别对应的标题和摘要;
根据所述标题和摘要,确定所述文本库中与所述类型对应的目标文本;
基于所有目标文本,得到所述目标文本库。
4.根据权利要求3所述的方法,其特征在于,所述根据所述标题和摘要,确定所述文本库中与所述类型对应的目标文本,包括:
确定所述每个文本对应的标题和摘要与所述类型的相关度;
将所有相关度中超过预设阈值的目标相关度所对应的文本确定为所述目标文本。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述基于所有的热度以及热度趋势,从所述目标信息集合中确定热门信息,包括:
根据所有的热度以及热度趋势,对所述目标信息集合中包含的多个信息进行排序,得到对应的排列顺序;
根据所述排列顺序,确定所述热门信息。
6.一种热门信息确定装置,其特征在于,所述装置包括:
集合确定模块,用于根据用户所需要的信息的类型,在信息库中确定与所述类型对应的目标信息集合,其中,所述目标信息集合中包括多个信息;
热度确定模块,用于确定所述目标信息集合中包含的每个信息所对应的热度以及热度趋势;
信息确定模块,用于基于所有的热度以及热度趋势,从所述目标信息集合中确定热门信息;
所述热度确定模块,包括:数量确定单元和热度确定单元;
数量确定单元,用于针对所述目标信息集合中包含的每个信息,确定与所述类型对应的目标文本库中在预设时间内与当前信息对应的新发布文本的文本总数、在所述预设时间内所有文本的总访问次数以及在所述预设时间内各专家用户对所有文本的目标总访问次数;
热度确定单元,用于根据所述文本总数、所述总访问次数以及所述目标总访问次数,确定所述当前信息对应的热度以及热度趋势;
所述装置还包括:
认证模块,用于确定在所述预设时间内各专家用户对所有文本的目标总访问次数之前,针对各专家用户中的每个专家用户,获取当前专家用户对应的身份信息,并根据所述身份信息对所述当前专家用户进行认证,以确定所述当前专家用户是否为有效专家用户;
相应的,确定在所述预设时间内各专家用户对所有文本的目标总访问次数,包括:
获取每个有效专家用户分别在所述预设时间内对所有文本的目标访问次数;
将所有目标访问次数相加,得到所述目标总访问次数。
7.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210119332.6A CN114154075B (zh) | 2022-02-08 | 2022-02-08 | 热门信息确定方法、装置、计算机设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210119332.6A CN114154075B (zh) | 2022-02-08 | 2022-02-08 | 热门信息确定方法、装置、计算机设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114154075A CN114154075A (zh) | 2022-03-08 |
CN114154075B true CN114154075B (zh) | 2022-05-17 |
Family
ID=80450302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210119332.6A Active CN114154075B (zh) | 2022-02-08 | 2022-02-08 | 热门信息确定方法、装置、计算机设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114154075B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750334A (zh) * | 2012-06-01 | 2012-10-24 | 北京市农林科学院农业科技信息研究所 | 一种基于dm的农业信息精准推送的方法 |
WO2017101818A1 (zh) * | 2015-12-16 | 2017-06-22 | 广州神马移动信息科技有限公司 | 搜索结果显示方法、装置及搜索系统 |
CN107239497A (zh) * | 2017-05-02 | 2017-10-10 | 广东万丈金数信息技术股份有限公司 | 热门内容搜索方法和系统 |
CN111382345A (zh) * | 2018-12-27 | 2020-07-07 | 北京网智天元大数据科技有限公司 | 话题筛选和发布的方法、装置和服务器 |
CN111597448A (zh) * | 2020-05-15 | 2020-08-28 | 北京奇艺世纪科技有限公司 | 一种信息的热度的确定方法、装置及电子设备 |
CN112612942A (zh) * | 2020-12-29 | 2021-04-06 | 河海大学 | 一种基于社交大数据的基金推荐系统及方法 |
-
2022
- 2022-02-08 CN CN202210119332.6A patent/CN114154075B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750334A (zh) * | 2012-06-01 | 2012-10-24 | 北京市农林科学院农业科技信息研究所 | 一种基于dm的农业信息精准推送的方法 |
WO2017101818A1 (zh) * | 2015-12-16 | 2017-06-22 | 广州神马移动信息科技有限公司 | 搜索结果显示方法、装置及搜索系统 |
CN107239497A (zh) * | 2017-05-02 | 2017-10-10 | 广东万丈金数信息技术股份有限公司 | 热门内容搜索方法和系统 |
CN111382345A (zh) * | 2018-12-27 | 2020-07-07 | 北京网智天元大数据科技有限公司 | 话题筛选和发布的方法、装置和服务器 |
CN111597448A (zh) * | 2020-05-15 | 2020-08-28 | 北京奇艺世纪科技有限公司 | 一种信息的热度的确定方法、装置及电子设备 |
CN112612942A (zh) * | 2020-12-29 | 2021-04-06 | 河海大学 | 一种基于社交大数据的基金推荐系统及方法 |
Non-Patent Citations (1)
Title |
---|
基于用户关联的热点话题检测方法;李洪利等;《计算机与现代化》;20150415(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114154075A (zh) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10713309B2 (en) | Results from search providers using a browsing-time relevancy factor | |
US8554759B1 (en) | Selection of documents to place in search index | |
Vallet et al. | Personalized diversification of search results | |
CN108363815B (zh) | 一种网页页面的预读取方法、装置及智能终端设备 | |
US8583636B1 (en) | Systems and methods for determining a quality of provided items | |
US10169449B2 (en) | Method, apparatus, and server for acquiring recommended topic | |
Kong et al. | Predicting search intent based on pre-search context | |
WO2022142519A1 (zh) | 信息推荐方法、装置、电子设备和存储介质 | |
US20150006506A1 (en) | Evaluation of web pages | |
US9116945B1 (en) | Prediction of human ratings or rankings of information retrieval quality | |
US20120066359A1 (en) | Method and system for evaluating link-hosting webpages | |
CN106919611B (zh) | 产品信息推送方法和装置 | |
Rader et al. | Influences on tag choices in del. icio. us | |
CN110046298A (zh) | 一种查询词推荐方法、装置、终端设备及计算机可读介质 | |
CN110825977A (zh) | 一种数据推荐方法及相关设备 | |
CN111651670A (zh) | 基于用户行为图谱的内容检索方法、装置终端和存储介质 | |
CN104933099B (zh) | 一种为用户提供目标搜索结果的方法与装置 | |
CN110555165A (zh) | 信息识别方法、装置、计算机设备和存储介质 | |
Choudhary et al. | Role of ranking algorithms for information retrieval | |
CN112507229A (zh) | 一种文档推荐方法、系统和计算机设备 | |
CN114154075B (zh) | 热门信息确定方法、装置、计算机设备和介质 | |
CN112597274A (zh) | 基于bm25算法的文档确定方法、装置、设备及存储介质 | |
US7886217B1 (en) | Identification of web sites that contain session identifiers | |
CN101639856B (zh) | 检测互联网信息传播的网页关联评价装置 | |
CN109948034B (zh) | 基于过滤会话实现提取页面信息的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230116 Address after: 100125 5th floor, building 1, courtyard 10, Chaoyang Park South Road, Chaoyang District, Beijing Patentee after: Beijing duokrypton Information Technology Co.,Ltd. Address before: 100125 5th floor, building 1, courtyard 10, Chaoyang Park South Road, Chaoyang District, Beijing Patentee before: Beijing Da krypton Information Technology Co.,Ltd. |
|
TR01 | Transfer of patent right |