CN105740436A - 基于互联网搜索技术的文字作品推送方法和装置 - Google Patents

基于互联网搜索技术的文字作品推送方法和装置 Download PDF

Info

Publication number
CN105740436A
CN105740436A CN201610069443.5A CN201610069443A CN105740436A CN 105740436 A CN105740436 A CN 105740436A CN 201610069443 A CN201610069443 A CN 201610069443A CN 105740436 A CN105740436 A CN 105740436A
Authority
CN
China
Prior art keywords
factor
prize
winning
writing
pushed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610069443.5A
Other languages
English (en)
Other versions
CN105740436B (zh
Inventor
朱德伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201610069443.5A priority Critical patent/CN105740436B/zh
Publication of CN105740436A publication Critical patent/CN105740436A/zh
Application granted granted Critical
Publication of CN105740436B publication Critical patent/CN105740436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了基于互联网搜索技术的文字作品推送的方法和装置。所述方法的一具体实施方式包括:对于预设作者集合中的每个作者,从指定网站抓取该作者预定篇数的文字作品作为待推送文字作品;从预定网站获取各个作者的网络信息,并基于所述网络信息计算各个作者的网络影响力因子;对各个待推送文字作品的内容进行语义分析,计算各个待推送文字作品的词汇度因子;对各个待推送文字作品,根据所述词汇度因子和相应作者的网络影响力因子计算重要度系数;基于对各个待推送文字作品的重要度系数的比较,优先推送重要度系数较高的待推送文字作品。该实施方式可以提高文字作品推送的有效性。

Description

基于互联网搜索技术的文字作品推送方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及网络技术领域,尤其涉及基于互联网搜索技术的文字作品推送方法和装置。
背景技术
文字作品,是指用语言文字符号记录的,用以表达作者思想情感的文学、艺术、自然科学、社会科学、工程技术作品的创作成果,可以包括小说(长、中、短篇)、诗歌、散文、论文、剧本、电影、电视创作、歌曲等表达方式。现有的互联网文字作品推送方法中,一般以文字作品在相关网站的点击量、评论量进行排名,通常是点击量、评论量越高排名越靠前。这种文字作品推送的方法,仅仅考虑了读者对作品内容关注程度的影响,在一些情况下,例如在具有指导意义的网页(如学报等)上,其推送的文字作品还需综合考虑作品质量、以及作者自身的影响力(例如读者的关注度、作者的荣誉情况等)等等。因此,现有技术的缺陷在于:不能充分利用现有的互联网数据对作者和作品做出综合评价,导致文字作品推送的有效性不高。
发明内容
本申请的目的在于提出一种改进的方法和装置,来解决以上背景技术部分提到的技术问题。
一方面,本申请提供了基于互联网搜索技术的文字作品推送的方法,所述方法包括:对于预设作者集合中的每个作者,从指定网站抓取该作者预定篇数的文字作品作为待推送文字作品;从预定网站获取各个作者的网络信息,并基于所述网络信息计算各个作者的网络影响力因子;对各个待推送文字作品的内容进行语义分析,计算各个待推送文字作品的词汇度因子;对各个待推送文字作品,根据所述词汇度因子和相应作者的网络影响力因子计算重要度系数;基于对各个待推送文字作品的重要度系数的比较,优先推送重要度系数较高的待推送文字作品。
在一些实施例中,所述重要度系数为所述词汇度因子与所述网络影响力因子的乘积。
在一些实施例中,所述网络信息包括以下至少一项:信息浏览量、社区评论数及粉丝数、获奖数量和/或获奖等级信息;以及,所述基于所述网络信息计算各个作者的网络影响力因子包括:根据所述网络信息所包括的项,相应进行以下至少一项因子的计算:基于所述信息浏览量计算信息浏览量因子、基于所述社区评论数及粉丝数计算社区影响力因子、基于所述获奖数量和/或获奖等级信息计算获奖因子;如果所述网络信息包括一项,所述网络影响力因子为基于该项计算的因子;如果所述网络信息包括多项,所述网络影响力因子为基于该多项中每一项计算的因子的乘积。
在一些实施例中,当所述网络信息包括信息浏览量时,所述信息浏览量因子通过以下公式计算:
S 1 = Σ i kx i ;
其中,i代表所述预定网站中的网站i,k表示计算系数,xi为网站i中所包含的信息浏览量;以及/或者
当所述网络信息包括社区评论数及粉丝数时,所述社区影响力因子通过以下公式计算:
S 2 = Σ j ( k 1 x j × k 2 x 2 j × k 3 x 3 j ) ;
其中,j代表所述预定网站中的网站j,k1表示社区评论数影响系数,x1j为网站j中所包含的社区评论数,k2表示社区粉丝数影响系数,x2j为网站j中所包含的社区粉丝数,k3表示社区粉丝的粉丝数影响系数,x3j为网站j中所包含的社区粉丝的粉丝数;以及/或者
当所述网络信息包括获奖数量和/或获奖等级信息时,所述获奖因子通过以下公式计算:
S 3 = Σ m k m x m
其中,m表示获奖等级m,km表示获奖等级m的计算系数,xm为获奖等级m中的获奖数量;如果所述网络信息包括获奖数量而不包括获奖等级,计算所述获奖因子的公式简化为:S3=kmx,其中,km表示获奖数量的计算系数,x表示获奖数量;如果所述网络信息包括获奖等级信息而不包括获奖数量时,计算所述获奖因子的公式简化为:其中,m表示获奖等级m,km表示获奖等级m的计算系数。
在一些实施例中,所述对各个待推送文字作品的内容进行语义分析,计算各个待推送文字作品的词汇度因子包括:从各个待推送文字作品的内容中截取预定字数的文字;对所截取的文字进行分词处理;将处理后的文字与预设的参考词汇关键词进行匹配;根据所匹配到的参考词汇关键词数目计算各个待推送文字作品的词汇度因子。
在一些实施例中,根据匹配到的参考词汇关键词数目计算各个待推送文字作品的词汇度因子的公式包括:
S=kx;
其中,k表示计算系数,x为所匹配到的参考词汇关键词数目。
第二方面,本申请提供了一种基于互联网搜索技术的文字作品推送的装置,所述装置包括:待推送文字作品抓取模块,配置用于对于预设作者集合中的每个作者,从指定网站抓取该作者预定篇数的文字作品作为待推送文字作品;网络影响力因子计算模块,配置用于从预定网站获取各个作者的网络信息,并基于所述网络信息计算各个作者的网络影响力因子;词汇度因子计算模块,配置用于对各个待推送文字作品的内容进行语义分析,计算各个待推送文字作品的词汇度因子;重要度系数计算模块,配置用于对各个待推送文字作品,根据所述词汇度因子和相应作者的网络影响力因子计算重要度系数;推送模块,配置用于基于对各个待推送文字作品的重要度系数的比较,优先推送重要度系数较高的待推送文字作品。
在一些实施例中,所述重要度系数为所述词汇度因子与所述网络影响力因子的乘积。
在一些实施例中,所述网络信息包括以下至少一项:信息浏览量、社区评论数及粉丝数、获奖数量和/或获奖等级信息;以及,所述网络影响力因子计算模块包括:计算单元,配置用于根据所述网络信息所包括的项,相应进行以下至少一项因子的计算:基于所述信息浏览量计算信息浏览量因子、基于所述社区评论数及粉丝数计算社区影响力因子、基于所述获奖数量和/或获奖等级信息计算获奖因子;网络影响力因子确定单元,配置用于按照如下规则确定所述网络影响力因子:如果所述网络信息包括一项,所述网络影响力因子为基于该项计算的因子;如果所述网络信息包括多项,所述网络影响力因子为基于该多项中每一项计算的因子的乘积。
在一些实施例中,当所述网络信息包括信息浏览量时,所述信息浏览量因子通过以下公式计算:
S 1 = Σ i kx i ;
其中,i代表所述预定网站中的网站i,k表示计算系数,xi为网站i中所包含的信息浏览量;以及/或者
当所述网络信息包括社区评论数及粉丝数时,所述社区影响力因子通过以下公式计算:
S 2 = Σ j ( k 1 x j × k 2 x 2 j × k 3 x 3 j ) ;
其中,j代表所述预定网站中的网站j,k1表示社区评论数影响系数,x1j为网站j中所包含的社区评论数,k2表示社区粉丝数影响系数,x2j为网站j中所包含的社区粉丝数,k3表示社区粉丝的粉丝数影响系数,x3j为网站j中所包含的社区粉丝的粉丝数;以及/或者
当所述网络信息包括获奖数量和/或获奖等级信息时,所述获奖因子通过以下公式计算:
S 3 = Σ m k m x m
其中,m表示获奖等级m,km表示获奖等级m的计算系数,xm为获奖等级m中的获奖数量;如果所述网络信息包括获奖数量而不包括获奖等级,计算所述获奖因子的公式简化为:S3=kmx,其中,km表示获奖数量的计算系数,x表示获奖数量;如果所述网络信息包括获奖等级信息而不包括获奖数量时,计算所述获奖因子的公式简化为:其中,m表示获奖等级m,km表示获奖等级m的计算系数。
在一些实施例中,所述词汇度因子计算模块包括:截取单元,配置用于从各个待推送文字作品的内容中截取预定字数的文字;分词单元,配置用于对所截取的文字进行分词处理;匹配单元,配置用于将处理后的文字与预设的参考词汇关键词进行匹配;计算单元,配置用于根据所匹配到的参考词汇关键词数目计算各个待推送文字作品的词汇度因子。
在一些实施例中,所述计算单元根据所匹配到的参考词汇关键词数目计算各个待推送文字作品的词汇度因子的公式包括:
S=kx;
其中,k表示计算系数,x为所匹配到的参考词汇关键词数目。
本申请提供的基于互联网搜索技术的文字作品推送的方法和装置,对于预设作者集合中的每个作者,从指定网站抓取该作者预定篇数的文字作品作为待推送文字作品,接着从预定网站获取各个作者的网络信息,并基于网络信息计算各个作者的网络影响力因子,然后对各个待推送文字作品的内容进行语义分析,计算各个待推送文字作品的词汇度因子,接着对各个待推送文字作品,根据词汇度因子和相应作者的网络影响力因子计算重要度系数,并基于对各个待推送文字作品的重要度系数的比较,优先推送重要度系数较高的待推送文字作品。由于综合考虑了作者自身的网络影响力和待推送文字作品本身的质量,该方法和装置可以基于互联网搜索技术提高文字作品推送的有效性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了可以应用本申请实施例的示例性系统架构;
图2是根据本申请的基于互联网搜索技术的文字作品推送的方法的一个实施例的流程图;
图3是根据本申请的基于互联网搜索技术的文字作品推送的方法的一个应用场景的效果示意图;
图4是根据本申请的基于互联网搜索技术的文字作品推送的装置的一个实施例的结构示意图;
图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102分别可以通过网络103与服务器104交互,以接收或发送消息等。终端设备101、102上可以安装有各种通讯客户端应用,例如浏览器应用、搜索类应用、邮箱客户端、即时通信工具等。
终端设备101、102可以是支持浏览器应用等安装于其上的各种电子设备,包括但不限于智能手机、智能手表、平板电脑、个人数字助理、电子书阅读器、MP3播放器(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器104可以是提供各种服务的服务器。例如对终端设备101、102上的浏览器应用、为浏览器应用所显示的网站等提供支持的后台服务器等。服务器可以对接收到的数据进行存储、生成等处理,并将处理结果反馈给终端设备。
需要说明的是,本申请实施例所提供的基于互联网搜索技术的文字作品推送方法中的步骤一般可以由服务器104执行,但也可以由终端设备101、102执行,本申请对此不做限定。相应地,确定用户标识的关联性的装置一般设置在服务器104中,但也可以设置在终端设备101、102中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
请参考图2,其示出了确定基于互联网搜索技术的文字作品推送的方法的一个实施例的流程200。该基于互联网搜索技术的文字作品推送的方法,包括以下步骤:
步骤201,对于预设作者集合中的每个作者,从指定网站抓取该作者预定篇数的文字作品作为待推送文字作品。
在本实施例中,电子设备(例如图1所示的终端设备或服务器)可以对预设作者集合中的每个作者,从指定网站抓取该作者预定篇数的文字作品作为待推送文字作品。这里,文字作品例如可以是文学类作品(如小说、诗歌等)、科技论文类作品等等。
电子设备可以按照发表时间由近及远的顺序抓取指定作者的预定篇数的文字作品,也可以按照点击量由高到低的顺序抓取指定作者的预定篇数的文字作品,还可以按照其他合理的顺序(例如“点赞”数量由高到低的顺序)抓取指定作者的预定篇数的文字作品,本申请对此不做限定。
其中,预设作者集合可以是由人工预先从现有的作家中选择确定,也可以从各可供进行文字作品检索、推送、阅读等操作的文字作品网站(例如“起点中文网”、“榕树下中文网”等)的作者列表中获得,还可以统计各作者名在多个上述文字作品网站出现的次数确定,等等,本申请对此不做限定。其中,预设作者集合中包括的作者名可以包括但不限于以下至少一项:作者的本名、代号、化名、笔名、别称等等。在一些实现中,电子设备在将预先确定的至少一个作者名等加入预设作者集合之后,可以对预设作者集合中每个作者设定欲进行推送的相关文字作品的篇数,例如,可以设定推送每个作者的相同篇数(如2篇)的文字作品,也可以分别设定推送每个作者不同篇数的文字作品。
在本实施例中,电子设备可以从指定网站抓取预设作者集合中的每个作者的预定篇数的文字作品作为待推送文字作品。其中,电子设备对每个作者抓取的文字作品篇数可以是设定要推送的文字作品篇数,也可以多于设定要推送的文字作品篇数,还可以是固定的文字作品篇数(如10篇)。
这里,指定网站可以是人工或电子设备根据文字作品类网站的访问量排名预先选定的至少一个网站,例如,从起点中文网、红袖添香中文网、榕树下中文网等等网站中选定的一个或多个网站。电子设备可以通过多种网页内容抓取方式从这些指定网站抓取每个作者的预定篇数的文字作品。例如,爬虫是一种自动获取网页内容的程序,传统爬虫从一个或多个初始网页的URL(UniformResourceLocator,统一资源定位符)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足一定停止条件,电子设备可以通过爬虫(如“nutch”)从这些指定网站抓取文字作品。在一些实现中,电子设备可以预先设置爬虫的URL链接深度作为爬虫的停止条件,如停止条件为URL链接深度为2,初始网页的URL链接深度为1,初始网页上的URL链接深度为2,满足停止条件,则爬虫在获取初始网页上的URL所链接到的网页内容后停止。
其中,电子设备可以从本地或远程地获取上述网页内容。具体地,当上述电子设备是为上述指定网站提供支持的后台服务器时,其可以直接从本地获取上述网页内容;否则,其可以通过有线连接方式或者无线连接方式从为上述指定网站提供支持的后台服务器获取上述网页内容。上述无线连接方式包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultrawideband)连接、以及其他现在已知或将来开发的无线连接方式。
步骤202,从预定网站获取各个作者的网络信息,并基于网络信息计算各个作者的网络影响力因子。
在本实施例中,电子设备可以从预定网站获取各个作者的网络信息,并进一步根据所获取的网络信息计算各个作者的网络影响力因子。
其中,网络信息可以是从网络获取的作者的各种信息,例如百科类网站上的作者介绍信息、社交类网站的作者好友信息等等。网络影响力因子可以用于表征作者通过网络信息对网络用户所产生的影响力的大小。
在本实施例的一些可选实现方式中,网络信息可以包括但不限于以下至少一项:信息浏览量、社区评论数及粉丝(fans)数、获奖数量和/或获奖等级信息等等。相应地,电子设备可以根据网络信息所包括的项,进行包括但不限于以下至少一项因子的计算:当网络信息包括信息浏览量时,电子设备可以基于信息浏览量计算信息浏览量因子;当网络信息包括社区评论数及粉丝数时,电子设备可以基于社区评论数及粉丝数计算社区影响力因子;当网络信息包括获奖数量和/或获奖等级信息时,电子设备可以基于获奖数量和/或获奖等级信息计算获奖因子。进一步地,如果网络信息仅包括一项,网络影响力因子为基于该项计算的因子;如果网络信息包括多项,网络影响力因子为基于该多项中每一项计算的因子的乘积。例如,当网络信息仅包括信息浏览量时,作者的网络影响力因子即为信息浏览量因子,当网络信息包括信息浏览量、社区评论数及粉丝数时,作者的网络影响力因子即为信息浏览量因子与社区影响力因子的乘积。
其中,作者的信息浏览量可以是预定网站中作者信息被浏览的次数,例如预定网站为百度百科、维基百科(weiki)、知乎网之类的网站,作者的信息浏览量可以是在这些网站中的介绍作者信息的页面被浏览的次数。电子设备可以通过作者的信息浏览量计算信息浏览量因子,用以表征信息浏览量对于文字作品推送选择或排序的重要程度。在一些实现中,电子设备可以从浏览器页面的访问日志中,统计一定时间段(如3年)内上述预定网站(例如百度百科)的介绍作者信息的页面的浏览次数。在另一些实现中,电子设备可以通过带有有效账号信息(例如用户名和密码)的爬虫登录上述预定网站(例如知乎网),抓取与单个作者相关的关联页面,并将这些关联页面与预设的网络信息关键词(如网络信息关键词“浏览次数”)进行匹配,获取从关联页面中匹配到的网络信息关键词相关位置的数字(如“浏览次数:21840722次”中的数字“21840722”),作为信息浏览量。
信息浏览量因子可以与信息浏览量正相关。在本实施例的一些可选实现方式中,如果上述预定网站只包括一个预定网站,则信息浏览量因子S可以通过以下方式计算:S=kx,其中,k为计算系数,x为这一个预定网站中单个作者的信息浏览量。则本领域技术人员可以理解,如果上述预定网站包括至少一个预定网站,信息浏览量因子可以通过以下公式计算:
S 1 = Σ i kx i ;
公式中,i代表预定网站中的网站i,k表示计算系数,xi为网站i中所包含的信息浏览量;
还可以过以下公式计算:
S 1 = Σ i k i x i ;
公式中,i代表预定网站中的网站i,ki表示网站i中的计算系数,xi为网站i中所包含的信息浏览量。
值得说明的是,以上个公式中的k或ki可以通过人工确定,也可以通过计算获得。举例而言,假设将浏览量信息取浏览量的计数最大值(如10的15次方)时,对应的浏览量因子取最大值(如1),则k或ki的值可以为浏览量因子最大值除以浏览量的计数最大值(1/1015)。
其中,社区影响力因子可以用以表征单个作者在某个或某些社区对用户的影响程度。如果预定网站时社交类网站,例如微博、论坛等网站,社区影响力可以通过社区评论数及粉丝数来反映。电子设备可以从预定网站中获取单个作者的社区评论数及粉丝数,并根据社区评论数及粉丝数计算单个作者的社区影响力因子。电子设备可以通过带有有效账号信息(例如用户名和密码)的爬虫登录上述预定网站(例如微博),抓取与单个作者相关的关联页面,并将这些关联页面与预设的网络信息关键词(如网络信息关键词“评论”)进行匹配,获取从关联页面中匹配到的网络信息关键词相关位置的数字(如“评论155832”中的数字“155832”),作为评论数。举例而言,爬虫的初始URL可以为:
http://weibo.com/guojingming?c=spr_qdhz_bd_baidusmt_weibo_s&sudaref=www.baidu.com&nick=“郭敬明”,爬虫由此打开新浪微博中作者“郭敬明”的微博首页,电子设备可以通过网络信息关键词“粉丝”与该微博首页的页面内容进行匹配,获取页面上“粉丝”对应的数字,如39454104,即为社区粉丝数;电子设备接着可以通过网络信息关键词“评论”与该微博首页的页面内容进行匹配,获取该页面上发表的每条微博中“评论”对应的数字,如37444、49591……等,即为每条微博的评论数。可选地,电子设备可以将上述各评论数相加得到作者“郭敬明”在“新浪微博”社区的社区评论数。
社区影响力因子可以与社区评论数及粉丝数正相关。在本实施例的一些可选实现方式中,如果上述预定网站只包括一个预定网站,则信息浏览量因子S可以通过以下方式计算:S2=k1x1×k2x2×k3x3,其中,k1表示社区评论数影响系数,x1为该预定网站中所包含的社区评论数,k2表示社区粉丝数影响系数,x2为该预定网站中所包含的社区粉丝数,k3表示社区粉丝的粉丝数影响系数,x3为该预定网站中所包含的社区粉丝的粉丝数。这里,社区粉丝的粉丝数影响系数可以通过以下方式获得:爬虫从初始URL页面上获取“粉丝”页面的URL,然后进一步从获取的“粉丝”页面上获取各粉丝的新浪微博首页,并从各粉丝的新浪微博首页获取个粉丝的社区粉丝数。
在本实施例的另一些可选实现方式中,如果上述预定网站包括多个预定网站,电子设备可以通过以下公式计算各个作者的社区影响力因子:
S 2 = Σ j ( k 1 x j × k 2 x 2 j × k 3 x 3 j ) ;
其中,j代表所述预定网站中的网站j,k1表示社区评论数影响系数,x1j为网站j中所包含的社区评论数,k2表示社区粉丝数影响系数,x2j为网站j中所包含的社区粉丝数,k3表示社区粉丝的粉丝数影响系数,x3j为网站j中所包含的社区粉丝的粉丝数。
同理,以上个公式中的k1、k2可以通过人工确定,也可以通过计算获得。举例而言,假设将社区粉丝数的计数最大值(如10的15次方)时,对应的社区影响力因子中的粉丝影响力因子(如k1x1项)取最大值(如10),则k1的值可以为粉丝影响力因子最大值除以社区粉丝数的计数最大值(10/1015)。可选地,k3的值可以远小于k1的值,如0.1k1
其中,各个作者的获奖数量和/或获奖等级也从一定程度反映了作者的文字作品质量和作品影响力,因此,电子设备还可以从预定网站获取各作者的获奖数量和/或获奖等级信息,以计算作者的获奖因子。这里,电子设备可以通过预设的网络信息关键词,如“获……奖”,对预定网站中作者的关联页面中的获奖次数进行统计(如匹配到一次上述网络信息关键词获奖次数加1),获得作者的获奖次数,也可以通过预设的网络信息关键词,如“茅盾文学奖”、“老舍文学奖”等等,对预定网站中作者的关联页面中的获奖等级进行统计。实践中,获奖等级可以预先设定,例如,在文学作品的推送中,奖获奖等级设定为1-10十个等级,等级1对应网络信息关键词“诺贝尔文学奖”,等级2对应“中国文学奖”,等级3对应“茅盾文学奖”、“老舍文学奖”等等。
获奖因子可以与上述获奖数量和/或获奖等级正相关。在一些实现中,电子设备可以根据获奖数量计算获奖因子,此时,获奖因子S可以通过以下方式计算:S3=kmx,其中,km可以表示获奖数量的计算系数,x可以表示获奖次数。在另一些实现中,电子设备可以根据获奖等级计算获奖因子,此时,获奖因子S可以通过以下方式计算:
S 3 = Σ m k m ;
其中,m可以表示获奖等级m,km可以表示获奖等级m的计算系数。在另一些实现中,电子设备可以根据获奖数量和获奖等级计算获奖因子,计算公式如下:
S 3 = Σ m k m x m ;
其中,m可以表示获奖等级m,km可以表示获奖等级m的计算系数,xm可以为获奖等级m中的获奖数量。可选地,获奖等级m的级别越高,km的值可以越大。
同理,以上个公式中的k或ki可以通过人工确定,也可以通过计算获得。举例而言,假设获奖数量为最大值(如100)时,对应的获奖因子取最大值(如1),则k或ki的值可以为1/100。
步骤203,对各个待推送文字作品的内容进行语义分析,计算各个待推送文字作品的词汇度因子。
在本实施例中,电子设备还可以通过各种分析手段对各个待推送文字作品的内容进行语义分析,从而根据各个待推送文字作品所包含的词汇计算其词汇度因子。其中,词汇度可以用以表示文字作品所包括的有实际意义的词(例如除虚词之外的词,如动词、名词等)的数量,也可以用以表示文字作品的词汇丰富度(例如所包括的修饰词的数量等)。
这里,对待推送文字作品的内容进行语义分析的方法有多种,本实施例中可以首先对其进行分词处理。例如,可以对待推送文字作品的内容进行全切分、最大正向匹配切分方法等处理,把内容分割成词。以最大正向匹配切分方法为例,假定分词词典中的最长词有j(j≥1)个汉字字符,则从被分词的文档中依次取包含j个字符的字串;将所取的j个字符与分词词典中包含j个字符的词进行匹配,若字典中存在这样的一个j个字符的词汇,则匹配成功,所取的j个字符被作为一个词切分出来;否则,所取的j个字符的字串去掉最后一个字符,形成包括j-1个字符的字串,并与分词词典中包含j-1个字符的词进行匹配,若字典中存在这样的一个j-1个字符的词汇,则匹配成功,所取的j-1个字符被作为一个词切分出来……直到从这j个字符中切分出一个词或者剩余字串的长度为0为止。如果从这j个字符中切分出一个词,则可以从切分出的词之后的字符中取j个字符继续匹配,如果剩余字串的长度为0,则舍弃j个字符的第一个字符,取紧邻的j个字符继续匹配,当剩余字符小于j个时,取剩余的所有字符与分词词典中相应字符数的词进行匹配即可,直到被分词的文档中所有的字符被匹配完毕。
在本实施例的一些可选的实现方式中,对上述待推送文字作品的内容的分析方式可以是全统计分析方式。例如,可以统计各个待推送文字作品的内容中所包含的词汇个数,以作为计算词汇度因子的词汇基数。
在本实施例的另一些可选实现方式中,对上述待推送文字作品的内容的分析方式可以是部分统计分析方式。此时,电子设备可以从待推送文字作品中抓取固定字数(如1000字)的文档,进行分词处理之后,将分词后的词汇与预设的文学词汇关键词进行匹配,将匹配到的词汇个数作为计算词汇度因子的词汇基数。在一些实现中,预设的文学词汇关键词可以是从文学典籍(如诗经、唐诗三百首等)中获取的词汇。可选地,预设的文学词汇关键词可以以文学词汇关键词集合或文学词汇数据库的形式预先存储在电子设备中。
在本实施例的一些可选实现方式中,各个待推送文字作品的词汇度因子的计算公式可以为:
S=kx;
其中,k表示计算系数,x为上述的计算词汇度因子的词汇基数。
可以理解,以上个公式中的k可以通过人工确定,也可以通过计算获得。举例而言,在上述的部分统计分析方式中,假设抓取的文革字数为1000,则计算词汇度因子的词汇基数最大值为1000,对应的词汇度因子最大值例如是1,则k的值可以为1/1000。
步骤204,对各个待推送文字作品,根据上述词汇度因子和相应作者的网络影响力因子计算重要度系数。
在本实施例中,电子设备可以根据步骤202和步骤203中计算得到的各个作者的网络影响力因子,以及各个待推送文字作品的词汇度因子,对各个待推送文字作品计算重要度系数。
在本实施例的一些可选实现方式中,电子设备可以将各个待推送文字作品的词汇度因子与相应作者的网络影响力因子相乘得到重要度系数。举例而言,待推送文字作品包括文学作品《蛙》,作者为“莫言”,则电子设备可以通过步骤202、步骤203的方法计算的待推送文字作品《蛙》的网络影响力因子计算待推送文字作品《蛙》的重要度系数。如词汇度因子S1(如0.6),作者“莫言”的信息浏览量因子S2(如0.1)、社区影响力因子S3(如9)及获奖因子S4(如0.8),则作者“莫言”的网络影响力因子为S2×S3×S4,待推送文字作品《蛙》的重要度系数可以为:S1×S2×S3×S4(如0.6×0.1×9×0.8=0.432)。
在本实施例的其他可选实现方式中,电子设备也可以将各个待推送文字作品的词汇度因子与相应作者的信息浏览量因子、社区影响力因子及获奖因子相加或求加权和得到重要度系数,本申请对此不做限定。
步骤205,基于对各个待推送文字作品的重要度系数的比较,优先推送重要度系数较高的待推送文字作品。
在本实施例中,电子设备可以将各个待推送文字作品的重要度系数进行比较,并优先推送待推送文字作品中重要度系数较高的作品。例如,电子设备可以首先按照重要度系数从大到小的顺序将待推送文字作品进行排序;接着选取排列靠前的预设篇数的文字作品进行推送,或者选取排列靠前的预设篇数的文字作品作为优先推送的文字作品,当检测到用户更换文字作品的操作(如点击“换一批”按钮)时,推送接下来的预设篇数的文字作品,等等,本申请对此不做限定。
电子设备可以通过单独的推送窗口推送上述文字作品,也可以通过网页中的超链接推送文字作品。作为示例,电子设备可以将文字作品名设置为网页中的超链接,生成新网页展现给用户。
值得说明的是,本实施例的基于互联网搜索技术的文字作品推送的方法虽然按照上述步骤说明如上,然而并不构成对本申请执行顺序的限定。举例而言,上述的步骤202和步骤203可以调换顺序执行,也可以同时执行,本申请对此不做限定。
请参考图3,作为一个应用场景,本实施例的基于互联网搜索技术的文字作品推送的方法可以应用于为“××文学网站”提供支持的后台服务器。如图3所示,在步骤3001中,当用户通过用户端301访问“××文学网站”时,用户端301向后台服务器302发送包含文学作品访问请求的网页浏览请求,该网页浏览请求中可以包含用户指定的作者集合;接着,在步骤3002中,后台服务器302可以从指定网站的服务器303中获取上述作者集合中每个作者的预定篇数的文学作品作为待推送文学作品,然后,在步骤3003中,后台服务器302可以从预定网站的服务器304中获取作者的网络信息,其中,指定网站的服务器303和预定网站的服务器304可以是相同的服务器,本申请不做限定;接着,后台服务器302根据从指定网站的服务器303抓取的文学作品内容计算各待推送文学作品的词汇度因子,同时,根据从预定网站的服务器304获取的各作者的网络信息计算各作者的网络影响力因子(如信息浏览量因子、社区影响力因子及获奖因子的乘积);然后,在步骤3005中,后台服务器302将各待推送文学作品的词汇度因子与相应作者的网络影响力因子相乘,得到各待推送文学作品的重要度系数;然后,在步骤3006中,后台服务器302可以基于各待推送文学作品的重要度系数的大小比较,优先将重要度系数较高的待推送文学作品名称以超链接形式嵌入网页中反馈至用户端301,以供用户端301将网页呈现给用户。
本申请的上述实施例,通过获取各个作者的网络信息,例如可以包括信息浏览量、社区评论数及粉丝数、获奖数量和/或获奖等级信息,并据此计算各个作者的网络浏览量因子,将其作为对各待推送文字作品重要度系数计算的依据之一,从而充分了互联网数据,提高了文字作品推送的有效性。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了基于互联网搜索技术的文字作品推送的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于电子设备中。
如图4所示,基于互联网搜索技术的文字作品推送的装置400包括待推送文字作品抓取模块401、网络影响力因子计算模块402、词汇度因子计算模块403、重要度系数计算模块404和推送模块405。其中,待推送文字作品抓取模块401可以配置配置用于对于预设作者集合中的每个作者,从指定网站抓取该作者预定篇数的文字作品作为待推送文字作品;网络影响力因子计算模块402可以配置配置用于从预定网站获取各个作者的网络信息,并基于所述网络信息计算各个作者的网络影响力因子;词汇度因子计算模块403可以配置用于对各个待推送文字作品的内容进行语义分析,计算各个待推送文字作品的词汇度因子;重要度系数计算模块404可以配置用于对各个待推送文字作品,根据所述词汇度因子和相应作者的网络影响力因子计算重要度系数;推送模块405可以配置用于基于对各个待推送文字作品的重要度系数的比较,优先推送重要度系数较高的待推送文字作品。
在本实施例的一些可选实现方式中,上述重要度系数为词汇度因子与网络影响力因子的乘积。
在本实施例的一些可选实现方式中,网络信息可以包括但不限于以下至少一项:信息浏览量、社区评论数及粉丝数、获奖数量和/或获奖等级信息。此时,网络影响力因子计算模块包括:计算单元(未示出),可以配置用于根据网络信息所包括的项,相应进行可以包括但不限于以下至少一项因子的计算:基于信息浏览量计算信息浏览量因子、基于社区评论数及粉丝数计算社区影响力因子、基于获奖数量和/或获奖等级信息计算获奖因子;网络影响力因子确定单元未示出),可以配置用于按照如下规则确定网络影响力因子:如果网络信息包括一项,网络影响力因子为基于该项计算的因子;如果网络信息包括多项,网络影响力因子为基于该多项中每一项计算的因子的乘积。
在本实施例的一些可选实现方式中,当网络信息包括信息浏览量时,信息浏览量因子通过以下公式计算:
S 1 = Σ i kx i ;
其中,i可以代表预定网站中的网站i,k可以表示计算系数,xi可以为网站i中所包含的信息浏览量;以及/或者
当网络信息包括社区评论数及粉丝数时,社区影响力因子通过以下公式计算:
S 2 = Σ j ( k 1 x j × k 2 x 2 j × k 3 x 3 j ) ;
其中,j可以代表所述预定网站中的网站j,k1可以表示社区评论数影响系数,x1j可以为网站j中所包含的社区评论数,k2可以表示社区粉丝数影响系数,x2j可以为网站j中所包含的社区粉丝数,k3可以表示社区粉丝的粉丝数影响系数,x3j可以为网站j中所包含的社区粉丝的粉丝数;以及/或者
当网络信息包括获奖数量和/或获奖等级信息时,获奖因子通过以下公式计算:
S 3 = Σ m k m x m
其中,m可以表示获奖等级m,km可以表示获奖等级m的计算系数,xm可以为获奖等级m中的获奖数量;
如果网络信息包括获奖数量而不包括获奖等级,计算获奖因子的公式可以简化为:S3=kmx,其中,km可以表示获奖数量的计算系数,x可以表示获奖数量;
如果网络信息包括获奖等级信息而不包括获奖数量时,计算获奖因子的公式可以简化为:其中,m可以表示获奖等级m,km可以表示获奖等级m的计算系数。
在本实施例的一些可选实现方式中,词汇度因子计算模块包括:截取单元(未示出),可以配置用于从各个待推送文字作品的内容中截取预定字数的文字;分词单元(未示出),可以配置用于对所截取的文字进行分词处理;匹配单元(未示出),可以配置用于将处理后的文字与预设的参考词汇关键词进行匹配;计算单元(未示出),可以配置用于根据所匹配到的参考词汇关键词数目计算各个待推送文字作品的词汇度因子。
在本实施例的一些可选实现方式中,根据所匹配到的参考词汇关键词数目计算各个待推送文字作品的词汇度因子的公式可以包括:
S=kx;
其中,k表示计算系数,x为所匹配到的参考词汇关键词数目。
值得说明的是,基于互联网搜索技术的文字作品推送的装置400中记载的诸模块或单元与参考图2描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于基于互联网搜索技术的文字作品推送的装置400及其中包含的模块或单元,在此不再赘述。
本领域技术人员可以理解,上述基于互联网搜索技术的文字作品推送的装置400还包括一些其他公知结构,例如处理器、存储器等,为了不必要地模糊本公开的实施例,这些公知的结构在图4中未示出。
下面参考图5,其示出了适于用来实现本申请实施例的电子设备的计算机系统500的结构示意图。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有系统500操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。
本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括待推送文字作品抓取模块、网络影响力因子计算模块、词汇度因子计算模块、重要度系数计算模块和推送模块。这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,推送模块还可以被描述为“配置用于基于对各个待推送文字作品的重要度系数的比较,优先推送重要度系数较高的待推送文字作品的模块”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器时,使得所述设备执行:对于预设作者集合中的每个作者,从指定网站抓取该作者预定篇数的文字作品作为待推送文字作品;从预定网站获取各个作者的网络信息,并基于所述网络信息计算各个作者的网络影响力因子;对各个待推送文字作品的内容进行语义分析,计算各个待推送文字作品的词汇度因子;对各个待推送文字作品,根据所述词汇度因子和相应作者的网络影响力因子计算重要度系数;基于对各个待推送文字作品的重要度系数的比较,优先推送重要度系数较高的待推送文字作品。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种基于互联网搜索技术的文字作品推送的方法,所述方法包括:
对于预设作者集合中的每个作者,从指定网站抓取该作者预定篇数的文字作品作为待推送文字作品;
从预定网站获取各个作者的网络信息,并基于所述网络信息计算各个作者的网络影响力因子;
对各个待推送文字作品的内容进行语义分析,计算各个待推送文字作品的词汇度因子;
对各个待推送文字作品,根据所述词汇度因子和相应作者的网络影响力因子计算重要度系数;
基于对各个待推送文字作品的重要度系数的比较,优先推送重要度系数较高的待推送文字作品。
2.根据权利要求1所述的方法,其特征在于,所述重要度系数为所述词汇度因子与所述网络影响力因子的乘积。
3.根据权利要求1或2所述的方法,其特征在于,所述网络信息包括以下至少一项:信息浏览量、社区评论数及粉丝数、获奖数量和/或获奖等级信息;以及
所述基于所述网络信息计算各个作者的网络影响力因子包括:
根据所述网络信息所包括的项,相应进行以下至少一项因子的计算:基于所述信息浏览量计算信息浏览量因子、基于所述社区评论数及粉丝数计算社区影响力因子、基于所述获奖数量和/或获奖等级信息计算获奖因子;
如果所述网络信息包括一项,所述网络影响力因子为基于该项计算的因子;
如果所述网络信息包括多项,所述网络影响力因子为基于该多项中每一项计算的因子的乘积。
4.根据权利要求3所述的方法,其特征在于,当所述网络信息包括信息浏览量时,所述信息浏览量因子通过以下公式计算:
S 1 = Σ i kx i ;
其中,i代表所述预定网站中的网站i,k表示计算系数,xi为网站i中所包含的信息浏览量;以及/或者
当所述网络信息包括社区评论数及粉丝数时,所述社区影响力因子通过以下公式计算:
S 2 = Σ j ( k 1 x j × k 2 x 2 j × k 3 x 3 j ) ;
其中,j代表所述预定网站中的网站j,k1表示社区评论数影响系数,x1j为网站j中所包含的社区评论数,k2表示社区粉丝数影响系数,x2j为网站j中所包含的社区粉丝数,k3表示社区粉丝的粉丝数影响系数,x3j为网站j中所包含的社区粉丝的粉丝数;以及/或者
当所述网络信息包括获奖数量和/或获奖等级信息时,所述获奖因子通过以下公式计算:
S 3 = Σ m k m x m
其中,m表示获奖等级m,km表示获奖等级m的计算系数,xm为获奖等级m中的获奖数量;
如果所述网络信息包括获奖数量而不包括获奖等级,计算所述获奖因子的公式简化为:S3=kmx,其中,km表示获奖数量的计算系数,x表示获奖数量;
如果所述网络信息包括获奖等级信息而不包括获奖数量时,计算所述获奖因子的公式简化为:其中,m表示获奖等级m,km表示获奖等级m的计算系数。
5.根据权利要求1所述的方法,其特征在于,所述对各个待推送文字作品的内容进行语义分析,计算各个待推送文字作品的词汇度因子包括:
从各个待推送文字作品的内容中截取预定字数的文字;
对所截取的文字进行分词处理;
将处理后的文字与预设的参考词汇关键词进行匹配;
根据所匹配到的参考词汇关键词数目计算各个待推送文字作品的词汇度因子。
6.根据权利要求5所述的方法,其特征在于,根据匹配到的参考词汇关键词数目计算各个待推送文字作品的词汇度因子的公式包括:
S=kx;
其中,k表示计算系数,x为所匹配到的参考词汇关键词数目。
7.一种基于互联网搜索技术的文字作品推送的装置,所述装置包括:
待推送文字作品抓取模块,配置用于对于预设作者集合中的每个作者,从指定网站抓取该作者预定篇数的文字作品作为待推送文字作品;
网络影响力因子计算模块,配置用于从预定网站获取各个作者的网络信息,并基于所述网络信息计算各个作者的网络影响力因子;
词汇度因子计算模块,配置用于对各个待推送文字作品的内容进行语义分析,计算各个待推送文字作品的词汇度因子;
重要度系数计算模块,配置用于对各个待推送文字作品,根据所述词汇度因子和相应作者的网络影响力因子计算重要度系数;
推送模块,配置用于基于对各个待推送文字作品的重要度系数的比较,优先推送重要度系数较高的待推送文字作品。
8.根据权利要求7所述的装置,其特征在于,所述重要度系数为所述词汇度因子与所述网络影响力因子的乘积。
9.根据权利要求7或8所述的装置,其特征在于,所述网络信息包括以下至少一项:信息浏览量、社区评论数及粉丝数、获奖数量和/或获奖等级信息;以及
所述网络影响力因子计算模块包括:
计算单元,配置用于根据所述网络信息所包括的项,相应进行以下至少一项因子的计算:基于所述信息浏览量计算信息浏览量因子、基于所述社区评论数及粉丝数计算社区影响力因子、基于所述获奖数量和/或获奖等级信息计算获奖因子;
网络影响力因子确定单元,配置用于按照如下规则确定所述网络影响力因子:如果所述网络信息包括一项,所述网络影响力因子为基于该项计算的因子;
如果所述网络信息包括多项,所述网络影响力因子为基于该多项中每一项计算的因子的乘积。
10.根据权利要求9所述的装置,其特征在于,当所述网络信息包括信息浏览量时,所述信息浏览量因子通过以下公式计算:
S 1 = Σ i kx i ;
其中,i代表所述预定网站中的网站i,k表示计算系数,xi为网站i中所包含的信息浏览量;以及/或者
当所述网络信息包括社区评论数及粉丝数时,所述社区影响力因子通过以下公式计算:
S 2 = Σ j ( k 1 x j × k 2 x 2 j × k 3 x 3 j ) ;
其中,j代表所述预定网站中的网站j,k1表示社区评论数影响系数,x1j为网站j中所包含的社区评论数,k2表示社区粉丝数影响系数,x2j为网站j中所包含的社区粉丝数,k3表示社区粉丝的粉丝数影响系数,x3j为网站j中所包含的社区粉丝的粉丝数;以及/或者
当所述网络信息包括获奖数量和/或获奖等级信息时,所述获奖因子通过以下公式计算:
S 3 = Σ m k m x m
其中,m表示获奖等级m,km表示获奖等级m的计算系数,xm为获奖等级m中的获奖数量;
如果所述网络信息包括获奖数量而不包括获奖等级,计算所述获奖因子的公式简化为:S3=kmx,其中,km表示获奖数量的计算系数,x表示获奖数量;
如果所述网络信息包括获奖等级信息而不包括获奖数量时,计算所述获奖因子的公式简化为:其中,m表示获奖等级m,km表示获奖等级m的计算系数。
11.根据权利要求7所述的装置,其特征在于,所述词汇度因子计算模块包括:
截取单元,配置用于从各个待推送文字作品的内容中截取预定字数的文字;
分词单元,配置用于对所截取的文字进行分词处理;
匹配单元,配置用于将处理后的文字与预设的参考词汇关键词进行匹配;
计算单元,配置用于根据所匹配到的参考词汇关键词数目计算各个待推送文字作品的词汇度因子。
12.根据权利要求11所述的装置,其特征在于,所述计算单元根据所匹配到的参考词汇关键词数目计算各个待推送文字作品的词汇度因子的公式包括:
S=kx;
其中,k表示计算系数,x为所匹配到的参考词汇关键词数目。
CN201610069443.5A 2016-02-01 2016-02-01 基于互联网搜索技术的文字作品推送方法和装置 Active CN105740436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610069443.5A CN105740436B (zh) 2016-02-01 2016-02-01 基于互联网搜索技术的文字作品推送方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610069443.5A CN105740436B (zh) 2016-02-01 2016-02-01 基于互联网搜索技术的文字作品推送方法和装置

Publications (2)

Publication Number Publication Date
CN105740436A true CN105740436A (zh) 2016-07-06
CN105740436B CN105740436B (zh) 2019-12-27

Family

ID=56242115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610069443.5A Active CN105740436B (zh) 2016-02-01 2016-02-01 基于互联网搜索技术的文字作品推送方法和装置

Country Status (1)

Country Link
CN (1) CN105740436B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109819024A (zh) * 2019-01-17 2019-05-28 平安城市建设科技(深圳)有限公司 基于数据分析的信息推送方法、装置、存储介质及终端
CN111008525A (zh) * 2020-03-11 2020-04-14 北京搜狐新媒体信息技术有限公司 一种关注度的计算方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814171A (zh) * 2009-02-24 2010-08-25 李晓萌 一种面向媒体的网络影响力指数计算方法
CN102124466A (zh) * 2008-09-05 2011-07-13 索尼公司 内容推荐系统、内容推荐方法、内容推荐设备、程序以及信息存储介质
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
JP2013257756A (ja) * 2012-06-13 2013-12-26 Hitachi Solutions Ltd 文字情報の分析方法および情報分析装置並びにプログラム
CN104142940A (zh) * 2013-05-08 2014-11-12 华为技术有限公司 信息推荐处理方法及装置
CN104462578A (zh) * 2014-12-29 2015-03-25 北京邮电大学 新闻推送方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102124466A (zh) * 2008-09-05 2011-07-13 索尼公司 内容推荐系统、内容推荐方法、内容推荐设备、程序以及信息存储介质
CN101814171A (zh) * 2009-02-24 2010-08-25 李晓萌 一种面向媒体的网络影响力指数计算方法
JP2013257756A (ja) * 2012-06-13 2013-12-26 Hitachi Solutions Ltd 文字情報の分析方法および情報分析装置並びにプログラム
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
CN104142940A (zh) * 2013-05-08 2014-11-12 华为技术有限公司 信息推荐处理方法及装置
CN104462578A (zh) * 2014-12-29 2015-03-25 北京邮电大学 新闻推送方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡丹华: "基于UGC挖掘的学术虚拟社区知识推荐研究", 《中国优秀硕士学位论文全文数据库·信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109819024A (zh) * 2019-01-17 2019-05-28 平安城市建设科技(深圳)有限公司 基于数据分析的信息推送方法、装置、存储介质及终端
CN111008525A (zh) * 2020-03-11 2020-04-14 北京搜狐新媒体信息技术有限公司 一种关注度的计算方法及系统

Also Published As

Publication number Publication date
CN105740436B (zh) 2019-12-27

Similar Documents

Publication Publication Date Title
US10180967B2 (en) Performing application searches
CN103136360B (zh) 一种互联网行为标注引擎及对应该引擎的行为标注方法
US7519588B2 (en) Keyword characterization and application
CN104077377B (zh) 基于网络文章属性的网络舆情热点发现方法和装置
CN102708174B (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN103218431B (zh) 一种能识别网页信息自动采集的系统
CN108572990B (zh) 信息推送方法和装置
CN100462969C (zh) 利用互联网为公众提供和查询信息的方法
CN106991160B (zh) 一种基于用户影响力以及内容的微博传播预测方法
CN104615627B (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN107368515A (zh) 应用程序页面推荐方法及系统
WO2013049774A2 (en) Sentiment analysis from social media content
CN102662703A (zh) 一种应用程序插件加载方法及装置
CN102073725A (zh) 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
US11604843B2 (en) Method and system for generating phrase blacklist to prevent certain content from appearing in a search result in response to search queries
CN103177036A (zh) 一种标签自动提取方法和系统
CN103942268A (zh) 搜索与应用相结合的方法、设备以及应用接口
US10346414B2 (en) Information collection method and device
CN107491465A (zh) 用于搜索内容的方法和装置以及数据处理系统
Gupta et al. A review on search engine optimization: Basics
CN104090923A (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN102063454A (zh) 一种搜索与应用相结合的方法和设备
CN104281619A (zh) 搜索结果排序系统及方法
CN106933864A (zh) 一种搜索引擎系统及其搜索方法
CN110750707A (zh) 关键词推荐方法、装置和电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant