CN110347900A - 一种关键词的重要度计算方法、装置、服务器及介质 - Google Patents
一种关键词的重要度计算方法、装置、服务器及介质 Download PDFInfo
- Publication number
- CN110347900A CN110347900A CN201910622615.0A CN201910622615A CN110347900A CN 110347900 A CN110347900 A CN 110347900A CN 201910622615 A CN201910622615 A CN 201910622615A CN 110347900 A CN110347900 A CN 110347900A
- Authority
- CN
- China
- Prior art keywords
- keyword
- user
- file
- file destination
- propagation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种关键词的重要度计算方法、装置、服务器及介质,其中方法包括:确定目标文件的传播用户集,所述传播用户集包括至少一个呈现所述目标文件的用户终端对应用户的用户标识;获取所述目标文件的关键词集合,并获取所述传播用户集中各用户标识对应的浏览日志;基于所述传播用户集中各用户标识对应的浏览日志,确定所述关键词集合中各关键词对应的浏览信息,并根据所述各关键词对应的浏览信息,确定所述各关键词对应于所述目标文件的关键词重要度,可实现对文件关键词重要度的准确计算,从而有效提升文件推送的精准度。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种关键词的重要度计算方法、装置、服务器及介质。
背景技术
随着互联网技术的深入发展,当前在进行文件推送时,是基于用户的历史浏览记录确定出用户的感兴趣目录,从而可基于所述用户的感兴趣目录进行文件的推送,而当前在基于用户的感兴趣目录进行文件推送时,主要是基于待推送文件的主题是否和所述用户的感兴趣目录相关进行的,服务器为了确定待推送文件的主题是否和感兴趣目标相关,可通过该用户的感兴趣目录是否包括该待推送文件的主题词确定。由于单靠文件的主题词确定和用户的感兴趣目录是否匹配的方式比较单一,所以不能准确地确定出文件的主题,也就降低了文件推送的准确性。
发明内容
本发明实施例提供了一种关键词的重要度计算方法、装置、服务器及介质,可实现对文件关键词重要度的准确计算,从而有效提升文件推送的精准度。
一方面,本发明实施例提供了一种关键词的重要度计算方法,包括:
确定目标文件的传播用户集,所述传播用户集包括至少一个呈现所述目标文件的用户终端对应用户的用户标识;
获取所述目标文件的关键词集合,并获取所述传播用户集中各用户标识对应的浏览日志;
基于所述传播用户集中各用户标识对应的浏览日志,确定所述关键词集合中各关键词对应的浏览信息,并根据所述各关键词对应的浏览信息,确定所述各关键词对应于所述目标文件的关键词重要度。
另一方面,本发明实施例提供了一种关键词的重要度计算装置,包括:
确定单元,用于确定目标文件的传播用户集,所述传播用户集包括至少一个呈现所述目标文件的用户终端对应用户的用户标识;
获取单元,用于获取所述目标文件的关键词集合,并获取所述传播用户集中各用户标识对应的浏览日志;
所述确定单元,还用于基于所述传播用户集中各用户标识对应的浏览日志,确定所述关键词集合中各关键词对应的浏览信息,并根据所述各关键词对应的浏览信息,确定所述各关键词对应于所述目标文件的关键词重要度。
再一方面,本发明实施例提供了一种服务器,包括处理器、存储器和通信接口,所述处理器、所述存储器和所述通信接口相互连接,其中,所述存储器用于存储计算机程序指令,所述处理器被配置用于执行所述程序指令,执行如下步骤:
确定目标文件的传播用户集,所述传播用户集包括至少一个呈现所述目标文件的用户终端对应用户的用户标识;
获取所述目标文件的关键词集合,并获取所述传播用户集中各用户标识对应的浏览日志;
基于所述传播用户集中各用户标识对应的浏览日志,确定所述关键词集合中各关键词对应的浏览信息,并根据所述各关键词对应的浏览信息,确定所述各关键词对应于所述目标文件的关键词重要度。
再一方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行如第一方面所述的关键词的重要度计算方法。
在本发明实施例中,服务器可确定目标文件的传播用户集,并可获取所述目标文件的关键词集合,以及所述传播用户集中各用户标识对应的浏览日志,从而可基于所述传播用户集中各用户标识对应的浏览日志,确定出该关键词集合中各关键词对应的浏览信息,从而可基于该关键词对应的浏览信息,确定出所述各关键词对应于所述目标文件的关键词重要度,可实现对目标文件中各关键词重要度的有效计算,使得服务器可基于确定的关键词重要度,向用户定向推送满足用户查看需求的文件,可有效提升文件推送的精准度,从而提升用户对文件的查看体验。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种确定文件的传播用户集以及传播用户集中不同用户对应的浏览日志的示意图;
图2是本发明实施例提供的一种关键词的重要度计算方法的示意流程图;
图3是本发明另一实施例提供的一种关键词的重要度计算方法的示意流程图;
图4是本发明实施例提供的一种确定关键词对应于用户的点击通过率的示意图;
图5是本发明实施例提供的一种关键词的重要度计算装置的示意性框图;
图6是本发明实施例提供的一种服务器的示意性框图。
具体实施方式
本发明实施提出了一种关键词的重要度计算方法,以确定任一文件(所述任一文件可作为目标文件)中包括的各关键词对应于所述目标文件的关键词重要度,同时,也可确定出不同用户所关注的不同关键词对应于目标文件的重要度,从而可根据目标文件中各关键词的重要度和所述用户所关注的关键词,向用户定向推送包括所述用户所关注的关键词的文件。在一个实施中,所述目标文件例如可以是文本目标文件、音频目标文件或视频目标文件等,所述文本目标文件例如可以是新闻或小说等文章,在本发明实施中,主要以目标文件为文本文件进行详细说明,在该目标文件为音频文件或视频文件时,可参见本发明实施例。
在一个实施例中,服务器可基于用户的行为数据为目标文件中的各关键词(即tag)进行关键词重要度计算,具体地,在对目标文件中的关键词进行重要度计算时,可基于用户对该目标文件的点击通过率(Click Through Rate,CTR)确定,所述用户对所述目标文件的点击通过率是指:将所述目标文件推送到用户对应终端的次数以及该用户对推送目标文件的查看次数之间的比值。例如在所述目标文件为文本目标文件(具体如新闻)时,确定该新闻中各关键词的重要度方法是通过确定将该新闻推送到某用户的次数,以及该用户对该推送新闻的查看次数之间的比值确定的。
在服务器采用关键词的重要度计算方法对目标文件中的关键词进行重要度计算之前,可先确定目标文件中的多个关键词,从而对该目标文件中的各个关键词进行重要度计算。其中,在对目标文件中的各个关键词进行关键词重要度计算时,可基于用户浏览日志(session)的展示,确定用户对推送文件的点击次数,基于该点击次数可确定目标文件中各关键词的重要度,其中,服务器可将点击次数越多的关键词对应的重要度确定为较大值。具体地,如图1所示,如果目标文件为文本文件A,则所述服务器可先确定将该文本文件A推送到的传播用户集users,所述传播用户集users用于记录该服务器将文本文件推送到的用户对应的用户标识,如图所示,确定的文本文件A的传播用户集users包括用户1~用户N。进一步地,服务器在确定将该文本文件A推送到的传播用户集users后,针对该传播用户集users中的任一用户(假设该任一用户为用户1),可确定该用户1对应的浏览日志session,如图所示,确定的所述用户1对应的浏览日志session中包括浏览文件a、浏览文件b,浏览文件x等浏览文件,从而服务器可统计该文本文件A中的每个关键词在所述用户1的浏览日志session中的呈现次数(或展示次数),以及点击次数。在一个实施例中,可将文本文件A中每个关键词在用户1的session中的呈现次数可用fre_show(tag)进行标记,并可将该每个关键词的点击次数用fre_click(tag)进行标记。
所述服务器通过遍历所述传播用户集users中每个用户对文本文件A中各关键词的呈现次数和点击次数,可确定所述文本文件A中每个关键词在所述传播用户集users中所有用户的呈现总和,以及点击总和,在一个实施例中,可用∑usersfre_show(tag)对所述文本文件A中的每个关键字在身上传播用户集users中的呈现总和进行表示,并可用∑usersfre_click(tag)对所述点击总和进行表示。在所述服务器确定文本文件中各关键词对应的呈现总和∑usersfre_show(tag),以及点击总和后∑usersfre_click(tag),针对每个关键词可进行关键词重要度计算,得到该关键词对应的tag重要度,即是:∑usersfre_show(tag)/∑usersfre_click(tag),从而可通过用户对文件中关键词的点击通过率确定出文件中关键词的重要度,实现了对关键词重要度计算方法的统一。
请参见图2,是本发明实施例提出的一种关键词的重要度计算方法,该方法可应用于上述的服务器,如图2所示,该方法包括:
S201,确定目标文件的传播用户集。
在一个实施例中,服务器可将已推送的任一文件作为目标文件,所述目标文件包括文本文件、音频文件或视频文件中的一种或多种,所述文本文件例如可以是新闻文本、所述音频文件例如可以是音乐文件、所述视频文件例如可以是电影视频等。在本发明实施例中,主要以所述目标文件为文本文件进行详细说明,具体地,本发明实施例以所述目标文件为新闻文件进行详细说明,在所述目标文件为音频文件或视频文件时,可参见本发明实施例。
在一个实施例中,服务器在进行文件推送时,针对目标文件而言,所述服务器在将所述目标文件推送到各个用户对应终端时,将对该目标文件推送到的用户进行记录,从而可在对所述目标文件中的关键词重要度进行计算时,确定该目标文件的传播用户集。其中,所述服务器在对所述目标文件推送到的用户进行记录时,可记录推送到的用户对应的用户标识,所述用户标识例如可以是所述用户对应终端的终端标识,也可以是所述用户启用对应终端的权限标识等,所以,在所述服务器对所述目标文件中的关键词重要度进行计算时,确定的传播用户集中包括至少一个呈现所述目标文件的用户终端对应用户的用户标识。
S202,获取所述目标文件的关键词集合,并获取所述传播用户集中各用户标识对应的浏览日志。
在一个实施例中,所述服务器可在确定目标文件的传播用户集后执行步骤S202中所述的获取所述目标文件的关键词集合,也可以在确定所述目标文件的传播用户集的同时,执行所述的获取所述目标文件的关键词集合的步骤。
所述目标文件的关键词是基于所述目标文件中预设的候选词集合确定的,所述服务器可先获取所述目标文件的候选词集合,在一个实施例中,所述服务器可按照预设的抽取规则从所述目标文件中抽取得到所述候选词集合,所述预设的抽取规则可以是基于所述目标文件中的各主题,从每一个主题中抽取至少一个词语作为候选词集合的规则,或者,所述预设的抽取规则也可以是基于所述目标文件的各段落,从所述各段落中抽取至少一个词语作为候选词集合的规则。进一步地,所述服务器在获取到所述目标文件的候选词集合后,可按照预设算法对所述候选词集合中各候选词进行打分,以确定所述候选词集合中各候选词对应的分值,从而可根据所述各候选词对应的分值,从所述候选词集合中确定至少一个满足预设筛选条件的候选词作为所述目标文件的关键词。
在一个实施例中,服务器在按照预设的抽取规则从所述目标文件中抽取候选词集合时,如果所述目标文件为文本文件,则直接进行抽取,如果所述目标文件为音频文件或视频文件,在所述服务器进行候选词抽取时,可先对所述音频文件或视频文件进行语音识别,从而可基于语音识别结果,确定出所述音频文件或视频文件对应的文本文件,并从该音频文件或视频文件对应的文本文件中进行候选词抽取,从而可基于抽取的候选词确定所述音频或视频文件对应文本文件的关键词集合。
在一个实施例中,用户在通过用户终端进行文件浏览时,所述用户对应终端中将对所述用户的文件浏览进行记录,并基于记录的所述用户对文件的浏览生成该用户的浏览日志。在所述用户终端对所述用户的文件浏览进行记录时,可将所述用户浏览文件的文件标识记录到浏览日志中,以使得所述服务器在确定用户浏览的文件时,可基于所述用户浏览日志中包括的浏览标识,确定出各文件标识对应的浏览文件,所以,所述服务器可确定出目标文件对应传播用户集中任一用户的浏览日志,从而可基于所述任一用户的浏览日志确定出该目标文件中各关键词在所述传播用户集中对应于所述目标文件的关键词重要度。
在所述服务器确定目标文件的传播用户集,并获取到所述目标文件的关键词集合,以及传播用户集中各用户标识对应的浏览日志后,所述服务器可执行步骤S203,以确定出该目标文件中各关键词对应的关键词重要度。
在一个实施例中,步骤S101和步骤S102没有具体的先后执行顺序,可同时执行步骤S101和步骤S102,也可先执行步骤S101,再执行步骤S102,也可先执行步骤S102,再执行步骤S101,在本发明实施例中不做限定。
S203,基于所述传播用户集中各用户标识对应的浏览日志,确定所述关键词集合中各关键词对应的浏览信息,并根据所述各关键词对应的浏览信息,确定所述各关键词对应于所述目标文件的关键词重要度。
在一个实施例中,所述服务器在基于所述目标文件对应的传播用户集中的各个用户标识,确定所述各用户标识对应的浏览日志后,可基于该浏览日志确定该目标文件对应的关键词集合中各关键词对应的浏览信息,从而可确定出所述各关键词对应于所述目标文件的关键词重要度。具体地,所述服务器可根据所述传播用户集中各用户标识对应的浏览日志,确定出将所述目标文件推送到所述传播用户集中各用户的次数,并可确定出所述各用户对推送的所述目标文件的查看次数,从而可基于该目标文件在传播用户集中的显示次数,以及所述传播用户集中各用户对所述目标文件的查看次数,确定该目标文件中各关键词对应于该目标文件的关键词重要度。
在本发明实施例中,服务器可确定目标文件的传播用户集,并可获取所述目标文件的关键词集合,以及所述传播用户集中各用户标识对应的浏览日志,从而可基于所述传播用户集中各用户标识对应的浏览日志,确定出该关键词集合中各关键词对应的浏览信息,从而可基于该关键词对应的浏览信息,确定出所述各关键词对应于所述目标文件的关键词重要度,可实现对目标文件中各关键词重要度的有效计算,使得服务器可基于确定的关键词重要度,向用户定向推送满足用户查看需求的文件,可有效提升文件推送的精准度,从而提升用户对文件的查看体验。
为了对目标文件中关键词的重要度计算方法进行详细阐述,请参见图3,是本发明另一实施例提出的一种关键词的重要度计算方法的示意流程图,如图3所示,该方法包括:
S301,确定目标文件的传播用户集,所述传播用户集包括至少一个呈现所述目标文件的用户终端对应用户的用户标识。
S302,获取所述目标文件的关键词集合,并获取所述传播用户集中各用户标识对应的浏览日志。
在一个实施例中,步骤S301和步骤S302的具体实施方式可参见上述实施例中步骤S201和步骤S202的具体实施方式,在此不再赘述。
S303,针对所述传播用户集中的目标用户标识,确定所述目标用户标识对应的目标浏览日志。
S304,基于所述目标浏览日志,确定所述目标文件中的任一关键词对应于目标用户的点击通过率。
S305,根据所述目标用户的点击通过率,确定所述关键词集合中各关键词对应的浏览信息。
在步骤S303~步骤S305中,是对上述步骤S203中确定所述关键词集合中各关键词对应的浏览信息的具体细化,具体地,服务器可在确定所述目标文件对应的传播用户集后,基于所述传播用户集记录的用户标识确定所述传播用户集中各用户标识对应的浏览日志,其中,所述传播用户集中的任一用户标识可以为目标用户标识,基于所述目标用户标识,所述服务器可确定出所述目标用户标识所对应的目标浏览日志。在所述服务器确定出所述目标用户标识对应的目标浏览日志后,所述服务器可根据所述目标浏览日志,确定所述目标文件中的任一关键词对应于目标用户的点击通过率。
在一个实施例中,所述点击通过率是根据将所述任一关键词呈现到所述目标用户对应终端的次数,以及所述目标用户通过所述对应终端查看所述任一关键词的次数确定的。具体地,所述服务器在确定呈现到所述目标用户对应终端的各关键词对应次数,以及所述目标用户通过对应终端对各关键词的查看次数后,可将所述各关键词分别对应的呈现次数和查看次数之间的比值,作为所述各关键词对应于目标用户的点击通过率,举例来说,如果服务器确定呈现到所述目标用户对应终端的关键词a的次数为:fre_show(关键词a)=50,所述目标用户通过对应终端对所述关键词a的查看次数为:fre_click(关键词a)=40,则确定关键词a对应于目标用户的点击通过率为=40/50=0.8。
在所述服务器确定所述目标文件中各关键词对应于目标用户的点击通过率之后,所述服务器在根据所述目标用户的点击通过率,确定所述关键词集合中各关键词对应的浏览信息时,可先将所述传播用户集中各用户标识依次作为目标用户标识,以确定所述目标文件中的任一关键词分别对应于所述传播用户集中各用户的点击通过率,如所述服务器可依次将所述传播用户集中的用户1、用户2,直到用户N的用户标识依次作为目标用户标识,从而可确定出所述目标文件中关键词集合中各关键词分别对应于所述用户1、用户2直到用户N的点击通过率;在确定出所述目标文件中任一关键词分别对应于所述传播用户集中各用户的点击通过率后,所述服务器可将所述任一关键词分别对应于所述传播用户集中各用户的点击通过率进行累加,从而可得到所述任一关键词对应的浏览信息,也就是说,所述任一关键词对应的浏览信息是基于所述任一关键词在所述用户集合中各用户对应的点击通过率确定的。
在一个实施例中,所述服务器在确定目标用户通过所述对应终端查看所述任一关键词的次数时,可根据所述目标文件中的任一关键词,从所述目标浏览日志中筛选出包括所述任一关键词的参考文件集,所述参考文件集中的任一参考文件为用户确定查看的文件,且所述任一参考文件包括确定的所述关键词,进一步地,所述服务器可确定所述参考文件集中的文件数量,从而可将所述确定的文件数量作为所述任一关键词呈现到所述目标用户对应终端的次数。
在一个实施例中,所述服务器在确定所述关键词集合中各关键词对应的浏览信息时,如图4所示,如果目标文件为文本文件A,且该文本文件A对应的关键词集合包括三个关键词,分别为关键词a,关键词b和关键词c,在所述文本文件A对应的传播用户集中,假设目标用户1对应的浏览日志中有三个浏览文件包括所述三个关键词中的一个或多个,如图4所示,目标用户1对应的浏览日志中包括的文本文件1包括关键词a和关键词b,包括的文本文件2包括关键词a和关键词c,包括的文本文件3包括关键词c和关键词d,而且,根据所述目标用户1对应浏览日志的记录可知,所述目标用户1对所述文本文件1的查看次数为一次,对所述文本文件2的查看次数为1次,对所述文本文件3的查看次数为0次。所以,基于所述目标用户1的浏览日志,可确定所述目标文件A中的关键词a出现的次数为2次,而对应的被目标用户1查看的次数为2次,则所述关键词a对应于目标用户1的点击通过率a=2/2=1,同理,可得到所述关键词b对应于目标用户1的点击通过率b=2/2=1,关键词c对应于目标用户1的点击通过率c=1/2=0.5。服务器可将所述各关键词分别对应于不同用户的点击通过率进行累加,从而可得到所述各关键词的浏览信息。
在所述服务器确定所述关键词集合中各关键词对应的浏览信息后,可基于所述各关键词对应的浏览信息确定出所述各关键词的重要度,即转而执行步骤S306。
S306,根据所述各关键词对应的浏览信息,确定所述各关键词对应于所述目标文件的关键词重要度。
在一个实施例中,服务器可将所述各关键词对应的浏览信息直接作为所述关键词对应于目标文件的关键词重要度,也可基于所述关键词对应的浏览信息,重新确定所述各关键词对应于所述目标文件的关键词重要度,在所述服务器基于所述关键词对应的浏览信息重新确定所述各关键词对应于所述目标文件的关键词重要度时,所述服务器可预先设定不同浏览信息取值对应的关键词重要度的值,如所述服务器可预先设定浏览信息取值为a时,对应的关键词重要度为x,在所述浏览信息取值为b时,对应的关键词重要度为y等。
在所述服务器确定所述各关键词对应于所述目标文件的关键词重要度后,可基于用户关注的关键词,和各关键词对应于不同文件的重要度,确定向用户定向推送的推送文件,使得推送到用户对应终端的文件是满足用户查看习惯的文件,提升推送文件的查看度。具体地,所述服务器可先根据所述传播用户集中目标用户标识对应的目标用户对所述任一关键词的点击通过率,确定所述目标用户的关注关键词,在一个实施例中,所述服务器可将所述目标用户对关键词的点击通过率满足预设通过率阈值的作为所述目标用户的关注关键词,例如,所述预设通过率阈值例如可以是0.6或者0.8等。
在所述服务器确定所述目标用户的关注关键词的同时,所述服务器可确定待显示文件集中各待显示文件包括的关键词对应于所述待显示文件的关键词重要度,根据所述待显示文件中各关键词对应的关键词重要度,可确定所述待显示文件各关键词对应文章主题在所述待显示文件中的重要度,进一步地,所述服务器可根据所述目标用户的关注关键词和所述关键词对应于所述待显示文件的关键词重要度,从所述待显示文件中确定出呈现到所述目标用户对应终端的文件。在一个实施例中,服务器可基于所述目标用户的关注关键词,从所述待显示文件中确定出包括所述目标用户的关注关键词的文件,从而可将包括所述关注关键词的文件推送到所述目标用户对应用户终端,或者,所述服务器还可根据所述目标用户对不同关注关键词的关注度,按照所述关注度从所述待显示文件中确定出包括不同关注关键词的文件推送到用户终端,其中,所述可基于所述目标用户对不同关注关键词的关注度的大小,确定包括该不同关注关键词的文件推送到用户终端的顺序。
在一个实施例中,服务器可按照所述待显示文件中的各关键词对应的关键词重要度,确定该文件是否包括该目标用户的关注关键词,具体地,当所述关注关键词对应于待显示文件的关键词重要度较低时,可认为所述待显示文件不包括该关注关键词,而当所述关注关键词对应于所述待显示文件的关键词重要度较高时,可认为该待显示文件包括该关注关键词,并可基于该关注关键词对应于待显示文件的关键词重要度,确定将待显示文件推送到用户终端的顺序,其中,可将关注关键词对应于待显示文件的关键词重要度较高的,先推送到用户终端。
在本发明实施例中,服务器可在确定目标文件的传播用户集时,获取所述目标文件的关键词集合,并获取所述传播用户集中各用户标识对应的浏览日志,从而可针对所述传播用户集中的目标用户标识,确定所述目标用户标识对应的目标浏览日志,进一步地,所述服务器可基于所述目标浏览日志,确定所述目标文件中任一关键词对应于所述目标用户的点击通过率,以根据所述点击通过率确定出所述各关键词对应的浏览信息,所述服务器基于所述浏览信息可确定出所述各关键词对应于目标文件的关键词重要度,从而可按照该关键词重要度向用户终端进行文件推送,使得在准确地计算各关键词对应文件的重要度的同时,可按照确定出的关键词重要度实现对文件的有效推送。
基于上述关键词的重要度计算方法实施例的描述,本发明实施例还提供了一种关键词的重要度计算装置,该关键词的重要度计算装置可以是运行于上述服务器的一个计算机程序(包括程序代码)。该关键词的重要度计算装置可执行如图2和图3所述的关键词的重要度计算方法,请参见图5,该关键词的重要度计算装置包括:确定单元501和获取单元502。
确定单元501,用于确定目标文件的传播用户集,所述传播用户集包括至少一个呈现所述目标文件的用户终端对应用户的用户标识;
获取单元502,用于获取所述目标文件的关键词集合,并获取所述传播用户集中各用户标识对应的浏览日志;
所述确定单元501,还用于基于所述传播用户集中各用户标识对应的浏览日志,确定所述关键词集合中各关键词对应的浏览信息,并根据所述各关键词对应的浏览信息,确定所述各关键词对应于所述目标文件的关键词重要度。
在一个实施例中,所述确定单元501,具体用于:
针对所述传播用户集中的目标用户标识,确定所述目标用户标识对应的目标浏览日志;
基于所述目标浏览日志,确定所述目标文件中的任一关键词对应于目标用户的点击通过率;
根据所述目标用户的点击通过率,确定所述关键词集合中各关键词对应的浏览信息;
其中,所述点击通过率是根据将所述任一关键词呈现到所述目标用户对应终端的次数,以及所述目标用户通过所述对应终端查看所述任一关键词的次数确定的。
在一个实施例中,所述确定单元501,具体用于:
将所述传播用户集中各用户标识依次作为目标用户标识,以确定所述目标文件中的任一关键词分别对应于所述传播用户集中各用户的点击通过率;
将所述任一关键词分别对应于所述传播用户集中各用户的点击通过率进行累加,得到所述任一关键词对应的浏览信息。
在一个实施例中,所述装置还包括:筛选单元503。
筛选单元503,用于根据所述目标文件中的任一关键词,从所述目标浏览日志中筛选出包括所述任一关键词的参考文件集;
所述确定单元501,还用于确定所述参考文件集中的文件数量,并将所述确定的文件数量作为所述任一关键词呈现到所述目标用户对应终端的次数。
在一个实施例中,所述装置还包括:打分单元504。
所述获取单元502,还用于获取所述目标文件的候选词集合;
打分单元504,用于按照预设算法对所述候选词集合中各候选词进行打分,以确定所述候选词集合中各候选词对应的分值;
所述确定单元501,还用于根据所述各候选词对应的分值,从所述候选词集合中确定至少一个满足预设筛选条件的候选词作为所述目标文件的关键词。
在一个实施例中,所述确定单元501,还用于根据所述传播用户集中目标用户标识对应的目标用户对所述任一关键词的点击通过率,确定所述目标用户的关注关键词;
所述确定单元501,还用于确定待显示文件集中各待显示文件包括的关键词对应于所述待显示文件的关键词重要度;
所述确定单元501,还用于根据所述目标用户的关注关键词和所述关键词对应于所述待显示文件的关键词重要度,从所述待显示文件中确定出呈现到所述目标用户对应终端的文件。
在一个实施例中,所述目标文件包括文本文件、音频文件或视频文件中的一种或多种;
当所述目标文件为音频文件或视频文件时,所述获取单元502,具体用于:
对所述音频文件或视频文件进行语音识别,以确定所述音频文件或视频文件对应的文本文件,并从所述音频文件或视频文件对应的文本文件中获取关键词集合。
在本发明实施例中,确定单元501可确定目标文件的传播用户集,获取单元502可获取所述目标文件的关键词集合,以及所述传播用户集中各用户标识对应的浏览日志,从而所述确定单元501可基于所述传播用户集中各用户标识对应的浏览日志,确定出该关键词集合中各关键词对应的浏览信息,从而可基于该关键词对应的浏览信息,确定出所述各关键词对应于所述目标文件的关键词重要度,可实现对目标文件中各关键词重要度的有效计算,使得服务器可基于确定的关键词重要度,向用户定向推送满足用户查看需求的文件,可有效提升文件推送的精准度,从而提升用户对文件的查看体验。
请参见图6,是本发明实施例提供的一种服务器的结构示意性框图,如图6所示的本发明实施例中的服务器可包括:一个或多个处理器601;一个或多个输入设备602,一个或多个输出设备603和存储器604。上述处理器601、输入设备602、输出设备603和存储器604通过总线605连接。存储器604用于存储计算机程序,所述计算机程序包括程序指令,处理器601用于执行所述存储器604存储的程序指令。
所述存储器604可以包括易失性存储器(volatile memory),如随机存取存储器(random-access memory,RAM);存储器604也可以包括非易失性存储器(non-volatilememory),如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;存储器604还可以包括上述种类的存储器的组合。
所述处理器601可以是中央处理器(central processing unit,CPU)。所述处理器601还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)等。该PLD可以是现场可编程逻辑门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,GAL)等。所述处理器601也可以为上述结构的组合。
本发明实施例中,所述存储器604用于存储计算机程序,所述计算机程序包括程序指令,处理器601用于执行存储器604存储的程序指令,用来实现上述实施例中的相应方法的步骤。
在一个实施例中,所述处理器601被配置调用所述程序指令,用于执行:
确定目标文件的传播用户集,所述传播用户集包括至少一个呈现所述目标文件的用户终端对应用户的用户标识;
获取所述目标文件的关键词集合,并获取所述传播用户集中各用户标识对应的浏览日志;
基于所述传播用户集中各用户标识对应的浏览日志,确定所述关键词集合中各关键词对应的浏览信息,并根据所述各关键词对应的浏览信息,确定所述各关键词对应于所述目标文件的关键词重要度。
在一个实施例中,所述处理器601被配置调用所述程序指令,用于执行:
针对所述传播用户集中的目标用户标识,确定所述目标用户标识对应的目标浏览日志;
基于所述目标浏览日志,确定所述目标文件中的任一关键词对应于目标用户的点击通过率;
根据所述目标用户的点击通过率,确定所述关键词集合中各关键词对应的浏览信息;
其中,所述点击通过率是根据将所述任一关键词呈现到所述目标用户对应终端的次数,以及所述目标用户通过所述对应终端查看所述任一关键词的次数确定的。
在一个实施例中,所述处理器601被配置调用所述程序指令,用于执行:
将所述传播用户集中各用户标识依次作为目标用户标识,以确定所述目标文件中的任一关键词分别对应于所述传播用户集中各用户的点击通过率;
将所述任一关键词分别对应于所述传播用户集中各用户的点击通过率进行累加,得到所述任一关键词对应的浏览信息。
在一个实施例中,所述处理器601被配置调用所述程序指令,用于执行:
根据所述目标文件中的任一关键词,从所述目标浏览日志中筛选出包括所述任一关键词的参考文件集;
确定所述参考文件集中的文件数量,并将所述确定的文件数量作为所述任一关键词呈现到所述目标用户对应终端的次数。
在一个实施例中,所述处理器601被配置调用所述程序指令,用于执行:
获取所述目标文件的候选词集合,按照预设算法对所述候选词集合中各候选词进行打分,以确定所述候选词集合中各候选词对应的分值;
根据所述各候选词对应的分值,从所述候选词集合中确定至少一个满足预设筛选条件的候选词作为所述目标文件的关键词。
在一个实施例中,所述处理器601被配置调用所述程序指令,用于执行:
根据所述传播用户集中目标用户标识对应的目标用户对所述任一关键词的点击通过率,确定所述目标用户的关注关键词;
确定待显示文件集中各待显示文件包括的关键词对应于所述待显示文件的关键词重要度;
根据所述目标用户的关注关键词和所述关键词对应于所述待显示文件的关键词重要度,从所述待显示文件中确定出呈现到所述目标用户对应终端的文件。
在一个实施例中,所述目标文件包括文本文件、音频文件或视频文件中的一种或多种,当所述目标文件为音频文件或视频文件时,所述处理器601被配置调用所述程序指令,用于执行:
对所述音频文件或视频文件进行语音识别,以确定所述音频文件或视频文件对应的文本文件,并从所述音频文件或视频文件对应的文本文件中获取关键词集合。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明的局部实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或局部流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (10)
1.一种关键词的重要度计算方法,其特征在于,包括:
确定目标文件的传播用户集,所述传播用户集包括至少一个呈现所述目标文件的用户终端对应用户的用户标识;
获取所述目标文件的关键词集合,并获取所述传播用户集中各用户标识对应的浏览日志;
基于所述传播用户集中各用户标识对应的浏览日志,确定所述关键词集合中各关键词对应的浏览信息,并根据所述各关键词对应的浏览信息,确定所述各关键词对应于所述目标文件的关键词重要度。
2.根据权利要求1所述的方法,其特征在于,所述基于所述传播用户集中各用户标识对应的浏览日志,确定所述关键词集合中各关键词对应的浏览信息,包括:
针对所述传播用户集中的目标用户标识,确定所述目标用户标识对应的目标浏览日志;
基于所述目标浏览日志,确定所述目标文件中的任一关键词对应于目标用户的点击通过率;
根据所述目标用户的点击通过率,确定所述关键词集合中各关键词对应的浏览信息;
其中,所述点击通过率是根据将所述任一关键词呈现到所述目标用户对应终端的次数,以及所述目标用户通过所述对应终端查看所述任一关键词的次数确定的。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标用户的点击通过率,确定所述关键词集合中各关键词对应的浏览信息,包括:
将所述传播用户集中各用户标识依次作为目标用户标识,以确定所述目标文件中的任一关键词分别对应于所述传播用户集中各用户的点击通过率;
将所述任一关键词分别对应于所述传播用户集中各用户的点击通过率进行累加,得到所述任一关键词对应的浏览信息。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据所述目标文件中的任一关键词,从所述目标浏览日志中筛选出包括所述任一关键词的参考文件集;
确定所述参考文件集中的文件数量,并将所述确定的文件数量作为所述任一关键词呈现到所述目标用户对应终端的次数。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目标文件的候选词集合,按照预设算法对所述候选词集合中各候选词进行打分,以确定所述候选词集合中各候选词对应的分值;
根据所述各候选词对应的分值,从所述候选词集合中确定至少一个满足预设筛选条件的候选词作为所述目标文件的关键词。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述传播用户集中目标用户标识对应的目标用户对所述任一关键词的点击通过率,确定所述目标用户的关注关键词;
确定待显示文件集中各待显示文件包括的关键词对应于所述待显示文件的关键词重要度;
根据所述目标用户的关注关键词和所述关键词对应于所述待显示文件的关键词重要度,从所述待显示文件中确定出呈现到所述目标用户对应终端的文件。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述目标文件包括文本文件、音频文件或视频文件中的一种或多种;
当所述目标文件为音频文件或视频文件时,所述获取所述目标文件的关键词集合,包括:
对所述音频文件或视频文件进行语音识别,以确定所述音频文件或视频文件对应的文本文件,并从所述音频文件或视频文件对应的文本文件中获取关键词集合。
8.一种关键词的重要度计算装置,其特征在于,包括:
确定单元,用于确定目标文件的传播用户集,所述传播用户集包括至少一个呈现所述目标文件的用户终端对应用户的用户标识;
获取单元,用于获取所述目标文件的关键词集合,并获取所述传播用户集中各用户标识对应的浏览日志;
所述确定单元,还用于基于所述传播用户集中各用户标识对应的浏览日志,确定所述关键词集合中各关键词对应的浏览信息,并根据所述各关键词对应的浏览信息,确定所述各关键词对应于所述目标文件的关键词重要度。
9.一种服务器,其特征在于,包括处理器和存储设备,所述存储设备用于存储计算机程序指令,所述处理器用于执行所述程序指令,实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行如权利要求1-7任一项所述的关键词的重要度计算方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910622615.0A CN110347900B (zh) | 2019-07-10 | 2019-07-10 | 一种关键词的重要度计算方法、装置、服务器及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910622615.0A CN110347900B (zh) | 2019-07-10 | 2019-07-10 | 一种关键词的重要度计算方法、装置、服务器及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110347900A true CN110347900A (zh) | 2019-10-18 |
CN110347900B CN110347900B (zh) | 2022-12-27 |
Family
ID=68174928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910622615.0A Active CN110347900B (zh) | 2019-07-10 | 2019-07-10 | 一种关键词的重要度计算方法、装置、服务器及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110347900B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990571A (zh) * | 2019-12-02 | 2020-04-10 | 精硕科技(北京)股份有限公司 | 一种讨论占比的获取方法、装置、存储介质及电子设备 |
CN111047362A (zh) * | 2019-12-18 | 2020-04-21 | 上海智勘科技有限公司 | 智能音箱使用活跃度的统计管理方法和系统 |
CN113011165A (zh) * | 2021-03-19 | 2021-06-22 | 支付宝(杭州)信息技术有限公司 | 一种识别被封锁关键词的方法、装置、设备及介质 |
CN113011165B (zh) * | 2021-03-19 | 2024-06-07 | 支付宝(中国)网络技术有限公司 | 一种识别被封锁关键词的方法、装置、设备及介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060006377A (ko) * | 2004-07-16 | 2006-01-19 | 정의신 | 웹 사이트에서의 1차 키워드 검색에 대해 관련성 있는 2차키워드의 리스트를 제공하는 방법 및 장치 |
JP2008181186A (ja) * | 2007-01-23 | 2008-08-07 | Yahoo Japan Corp | クエリーログを利用したキーワードとサイトの関連度を求める方法 |
US20080208841A1 (en) * | 2007-02-22 | 2008-08-28 | Microsoft Corporation | Click-through log mining |
CN103473317A (zh) * | 2013-09-12 | 2013-12-25 | 百度在线网络技术(北京)有限公司 | 提取关键词的方法和设备 |
CN103823803A (zh) * | 2012-11-16 | 2014-05-28 | 腾讯科技(深圳)有限公司 | 一种关键词筛选的方法、装置和设备 |
CN104217031A (zh) * | 2014-09-28 | 2014-12-17 | 北京奇虎科技有限公司 | 一种根据服务器搜索日志数据进行用户分类的方法和装置 |
CN105488163A (zh) * | 2015-11-30 | 2016-04-13 | 百度在线网络技术(北京)有限公司 | 信息推送方法和装置 |
CN105808728A (zh) * | 2016-03-08 | 2016-07-27 | 百度在线网络技术(北京)有限公司 | 数据处理方法及装置 |
CN107193987A (zh) * | 2017-05-27 | 2017-09-22 | 广东神马搜索科技有限公司 | 获取与页面相关的搜索词的方法、装置和系统 |
CN108335147A (zh) * | 2018-02-28 | 2018-07-27 | 北京搜狐新媒体信息技术有限公司 | 一种基于用户行为的数据分析方法及系统 |
CN109190024A (zh) * | 2018-08-20 | 2019-01-11 | 平安科技(深圳)有限公司 | 信息推荐方法、装置、计算机设备及存储介质 |
CN109976984A (zh) * | 2017-12-27 | 2019-07-05 | Tcl集团股份有限公司 | 用户数据的统计方法及装置 |
-
2019
- 2019-07-10 CN CN201910622615.0A patent/CN110347900B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060006377A (ko) * | 2004-07-16 | 2006-01-19 | 정의신 | 웹 사이트에서의 1차 키워드 검색에 대해 관련성 있는 2차키워드의 리스트를 제공하는 방법 및 장치 |
JP2008181186A (ja) * | 2007-01-23 | 2008-08-07 | Yahoo Japan Corp | クエリーログを利用したキーワードとサイトの関連度を求める方法 |
US20080208841A1 (en) * | 2007-02-22 | 2008-08-28 | Microsoft Corporation | Click-through log mining |
CN103823803A (zh) * | 2012-11-16 | 2014-05-28 | 腾讯科技(深圳)有限公司 | 一种关键词筛选的方法、装置和设备 |
CN103473317A (zh) * | 2013-09-12 | 2013-12-25 | 百度在线网络技术(北京)有限公司 | 提取关键词的方法和设备 |
CN104217031A (zh) * | 2014-09-28 | 2014-12-17 | 北京奇虎科技有限公司 | 一种根据服务器搜索日志数据进行用户分类的方法和装置 |
CN105488163A (zh) * | 2015-11-30 | 2016-04-13 | 百度在线网络技术(北京)有限公司 | 信息推送方法和装置 |
CN105808728A (zh) * | 2016-03-08 | 2016-07-27 | 百度在线网络技术(北京)有限公司 | 数据处理方法及装置 |
CN107193987A (zh) * | 2017-05-27 | 2017-09-22 | 广东神马搜索科技有限公司 | 获取与页面相关的搜索词的方法、装置和系统 |
CN109976984A (zh) * | 2017-12-27 | 2019-07-05 | Tcl集团股份有限公司 | 用户数据的统计方法及装置 |
CN108335147A (zh) * | 2018-02-28 | 2018-07-27 | 北京搜狐新媒体信息技术有限公司 | 一种基于用户行为的数据分析方法及系统 |
CN109190024A (zh) * | 2018-08-20 | 2019-01-11 | 平安科技(深圳)有限公司 | 信息推荐方法、装置、计算机设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
YUKIHIRO TAGAMI等: "Modeling User Activities on the Web using Paragraph Vector", 《WWW"15 COMPANION: PROCEEDINGS OF THE 24TH INTERNATIONAL CONFERENCE ON WORLD WIDE WEB》 * |
王倩等: "面向搜索引擎竞价排名的关键词商业价值分析", 《广西师范大学学报(自然科学版)》 * |
王珂: "实时新闻推荐系统的设计与实现", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990571A (zh) * | 2019-12-02 | 2020-04-10 | 精硕科技(北京)股份有限公司 | 一种讨论占比的获取方法、装置、存储介质及电子设备 |
CN110990571B (zh) * | 2019-12-02 | 2024-04-02 | 北京秒针人工智能科技有限公司 | 一种讨论占比的获取方法、装置、存储介质及电子设备 |
CN111047362A (zh) * | 2019-12-18 | 2020-04-21 | 上海智勘科技有限公司 | 智能音箱使用活跃度的统计管理方法和系统 |
CN113011165A (zh) * | 2021-03-19 | 2021-06-22 | 支付宝(杭州)信息技术有限公司 | 一种识别被封锁关键词的方法、装置、设备及介质 |
CN113011165B (zh) * | 2021-03-19 | 2024-06-07 | 支付宝(中国)网络技术有限公司 | 一种识别被封锁关键词的方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110347900B (zh) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299362B (zh) | 相似企业推荐方法、装置、计算机设备及存储介质 | |
CN106503014B (zh) | 一种实时信息的推荐方法、装置和系统 | |
CN108319630B (zh) | 信息处理方法、装置、存储介质和计算机设备 | |
US7769751B1 (en) | Method and apparatus for classifying documents based on user inputs | |
Jain | Prediction of movie success using sentiment analysis of tweets | |
US10372716B2 (en) | Automatic discovery and presentation of topic summaries related to a selection of text | |
WO2019076191A1 (zh) | 关键词提取方法和装置、存储介质及电子装置 | |
US8892554B2 (en) | Automatic word-cloud generation | |
CN111460153B (zh) | 热点话题提取方法、装置、终端设备及存储介质 | |
CN107784092A (zh) | 一种推荐热词的方法、服务器及计算机可读介质 | |
US20080201297A1 (en) | Method and System for Determining Relation Between Search Terms in the Internet Search System | |
CN110263248A (zh) | 一种信息推送方法、装置、存储介质和服务器 | |
US11222375B2 (en) | Data analysis method and system thereof | |
US9344507B2 (en) | Method of processing web access information and server implementing same | |
CN111814770A (zh) | 一种新闻视频的内容关键词提取方法、终端设备及介质 | |
WO2018205845A1 (zh) | 一种数据处理方法及服务器、计算机存储介质 | |
CN104462096B (zh) | 舆情监测分析方法和装置 | |
CN108459845A (zh) | 一种监控标签属性的埋点方法及装置 | |
CN112163072A (zh) | 基于多数据源的数据处理方法以及装置 | |
CN111538903B (zh) | 搜索推荐词确定方法、装置、电子设备及计算机可读介质 | |
JP7395377B2 (ja) | コンテンツ検索方法、装置、機器、および記憶媒体 | |
CN110347900A (zh) | 一种关键词的重要度计算方法、装置、服务器及介质 | |
US20150052126A1 (en) | Method and system for recommending relevant web content to second screen application users | |
JP2010146171A (ja) | 表現補完装置およびコンピュータプログラム | |
US10339559B2 (en) | Associating social comments with individual assets used in a campaign |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |