CN110851709B - 资讯推送方法、装置、计算机设备和存储介质 - Google Patents
资讯推送方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110851709B CN110851709B CN201910987832.XA CN201910987832A CN110851709B CN 110851709 B CN110851709 B CN 110851709B CN 201910987832 A CN201910987832 A CN 201910987832A CN 110851709 B CN110851709 B CN 110851709B
- Authority
- CN
- China
- Prior art keywords
- information
- keywords
- preset
- pushing
- quantization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种资讯推送方法、装置、计算机设备和存储介质,包括:资讯推送服务器获取预设时间段内的资讯信息,然后根据预设的剔除规则对资讯信息进行剔除,得到剔除后的资讯信息,之后根据预设的量化规则对剔除后的资讯信息进行量化,得到剔除后的资讯信息的量化值,最后根据量化值对所述剔除后的资讯信息进行排序,并将排序后的资讯信息中目标资讯信息推送至查看系统,该方法中,由于资讯推送服务器对从推送数据库中获取到的资讯信息进行了筛选处理,使得目标资讯信息及时地被推送至查看系统,实现了对资讯信息的筛选和及时推送,且整个资讯信息筛选、推送过程没有人工干预,降低了人力成本。
Description
技术领域
本申请涉及互联网技术领域,特别是涉及一种资讯推送方法、装置、计算机设备和存储介质。
背景技术
随着大数据时代的来临,企业资讯信息的获取成为每个企业发展的核心部分。对于企业来说,从网络上准确地获取相关行业动态、相关政策变化等资讯在企业发展过程中占据了重要的位置。
目前,通用的获取资讯的技术为网络爬虫技术。爬虫技术是指基于关键词的信息爬取技术,根据设定的目标网站和关键词,实现自动化的爬取该目标网站上的相关资讯,若爬取到的资讯中存在较多的无关资讯,或者爬取到的资讯为无差别资讯,则需要人工进一步筛选。
但是,目前获取资讯的方法存在较低的及时性和较高的人力成本的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种资讯推送方法、装置、计算机设备和存储介质。
第一方面,提供了一种资讯推送方法,该方法包括:
获取预设时间段内的资讯信息;资讯信息包括行业动态信息和政策变化的信息;
根据预设的剔除规则对资讯信息进行剔除,得到剔除后的资讯信息;
根据预设的量化规则对剔除后的资讯信息进行量化,得到剔除后的资讯信息的量化值;
根据量化值对剔除后的资讯信息进行排序,并将排序后的资讯信息中目标资讯信息推送至查看系统。
本实施例中,由于资讯推送服务器对获取到的资讯信息进行了剔除冗余资讯处理,而后对剔除后的资讯信息进行了量化值排序,使得量化值高的资讯信息及时地被推送至查看系统,实现了对热点资讯信息的及时推送,且整个资讯信息筛选、推送过程没有人工干预,降低了人力成本。
在其中一个实施例中,上述根据预设的量化规则对剔除后的资讯信息进行量化,得到剔除后的资讯信息的量化值,包括:
从剔除后的资讯信息中获取资讯信息的关键词;资讯信息的关键词包括资讯标题关键词和资讯内容关键词;
根据预设的量化规则分别获取资讯标题关键词的量化值和资讯内容关键词的量化值;
对资讯标题关键词的量化值和资讯内容关键词的量化值进行加权计算,得到剔除后的资讯信息的量化值;资讯标题关键词的权重大于资讯内容关键词的权重。
资讯推送服务器根据资讯标题关键词的量化值和资讯内容关键词的量化值对剔除后的资讯信息进行加权计算,得到剔除后的资讯信息的量化值,量化值可以准确反映出对应资讯信息的关注度与重要性。
在其中一个实施例中,上述预设的量化规则还包括关键词所属资讯分类的优先级;资讯分类的优先级与关键词量化值成正比。
资讯推送服务器将关键词量化值与所属资讯分类优先级相关联,且两者关系成正比,两个条件相互制约,使得关注度较高的类别资讯在资讯推送过程中更能及时优先地被推送至查看系统。
在其中一个实施例中,上述从剔除后的资讯信息中获取资讯信息的关键词,包括:
根据预设的关键词词典,从剔除后的资讯信息中查找对应的资讯标题关键词和资讯内容关键词;
对资讯标题关键词和资讯内容关键词进行去重操作,得到资讯信息的关键词。
资讯推送服务器将获取到的资讯标题和资讯内容中关键词进行去重操作,在后续根据关键词进行量化排序步骤中,保证了关键词量化的可靠性,同时使得获取到的资讯信息准确性更高。
在其中一个实施例中,上述预设的剔除规则包括以下规则中的至少一个:
剔除资讯标题中包含停止词的资讯信息;
剔除资讯标题中不含预设的关键词词典中关键词的资讯信息;
剔除预设时间段内已推送过的资讯信息。
资讯推送服务器按照预设的剔除规则对获取到的资讯信息中冗余资讯进行剔除,在后续对热点资讯的筛选中,可以更准确地将热点资讯信息推送至查看系统。
在其中一个实施例中,在上述将排序后的资讯信息中目标资讯信息推送至查看系统之前,还包括:
从目标资讯信息中提取目标资讯信息的摘要信息;
将目标资讯信息的摘要信息推送至所述查看系统。
将目标资讯信息进行摘要信息的提取,通过资讯推送服务器对摘要信息进行字符长度处理,而后将经过字符长度处理后的摘要信息推送至查看系统,规范了目标资讯信息的摘要信息字符长度,在一定程度上减少了资源的占用。
在其中一个实施例中,在上述将排序后的资讯信息中目标资讯信息推送至查看系统之后,还包括:
存储目标资讯信息至存储数据库;存储数据库存储了所有推送过的资讯信息。
资讯推送服务器在将目标资讯信息推送至查看系统之后,将该推送过的目标资讯存储于存储数据库中,有利于在下一次剔除冗余资讯时,进行重复资讯信息的判断。
第二方面,提供了一种资讯推送装置,该装置包括:
获取模块,用于从推送数据库中获取预设时间段内的资讯信息;资讯信息表示行业动态及政策变化的信息;
剔除模块,用于根据预设的剔除规则剔除资讯信息中的冗余资讯,得到多个剔除后的资讯信息;
量化模块,用于根据预设的量化规则对剔除后的资讯信息进行量化,得到剔除后的资讯信息的量化值;
推送模块,用于根据量化值对剔除后的资讯信息进行排序,并将排序后的资讯信息中目标资讯信息推送至查看系统。
第三方面,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述第一方面中任一项实施例所提供的资讯推送方法。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面中任一项实施例所提供的资讯推送方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
本申请涉及一种资讯推送方法、装置、计算机设备和存储介质。资讯推送服务器通过获取预设时间段内的资讯信息,然后根据预设的剔除规则对资讯信息进行剔除,得到剔除后的资讯信息,之后根据预设的量化规则对剔除后的资讯信息进行量化,得到剔除后的资讯信息的量化值,最后根据量化值对剔除后的资讯信息进行排序,并将排序后的资讯信息中目标资讯信息推送至查看系统。本申请中,由于资讯推送服务器对获取的资讯信息先进行了冗余资讯的剔除,而后对剔除后的资讯信息进行量化排序,最后将目标资讯信息推送至查看系统,其中,目标资讯信息为排序后的排名靠前的资讯信息,实现了对资讯信息的筛选后的及时推送,且整个资讯信息筛选、推送过程没有人工干预,降低了人力成本。
附图说明
图1为一个实施例中资讯推送方法的应用环境图;
图2为一个实施例中资讯推送方法的流程示意图;
图3为另一个实施例中资讯推送方法的流程示意图;
图4为另一个实施例中资讯推送方法的流程示意图;
图5为另一个实施例中资讯推送方法的流程示意图;
图6为一个实施例中资讯推送装置的结构框图;
图7为另一个实施例中资讯推送装置的结构框图;
图8为另一个实施例中资讯推送装置的结构框图;
图9为另一个实施例中资讯推送装置的结构框图;
图10为另一个实施例中资讯推送装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的资讯推送方法,可以应用于如图1所示的应用环境中。其中,资讯推送服务器101、查看系统服务器102与查看系统终端103通过网络进行通信。资讯推送服务器101获取到行业资讯信息后,对该行业资讯信息进行筛选处理,然后向查看系统服务器102推送最终得到的量化排序后资讯信息,查看系统服务器102最终将该待推送的资讯信息发送显示在查看系统终端103中。其中,资讯推送服务器101可以用独立的服务器或者是多个服务器组成的服务器集群来实现,查看系统服务器102也可以用独立的服务器或者是多个服务器组成的服务器集群来实现,查看系统终端103可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
下面将通过实施例并结合附图具体地对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。需要说明的是,本申请图2-图5实施例提供的资讯推送方法,其执行主体可以是资讯推送服务器,也可以是资讯推送装置,该资讯推送装置可以通过软件、硬件或者软硬件结合的方式成为资讯推送服务器的部分或全部。下述方法实施例中,均以执行主体是资讯推送服务器为例来进行说明。
在一个实施例中,如图2所示,提供了一种资讯推送方法,以该方法应用于图1的应用环境中的资讯推送服务器为例进行说明,本实施例涉及的是资讯推送服务器获取到行业资讯信息之后,对该行业资讯信息进行筛选处理得到所需的热点资讯信息,在资讯信息推送过程中,使得该热点资讯信息可以及时地推送至查看系统的具体过程,该方法包括以下步骤:
S201、获取预设时间段内的资讯信息;资讯信息包括行业动态信息和政策变化的信息。
其中,资讯推送服务可以从推送数据库中获取资讯信息,推送数据库表示的是存储从目标网站库中获取的相关行业资讯信息的数据库,其中,从目标网站库中获取的相关行业资讯信息可以是爬虫工具按照预先设定的关键词词典从目标网站库中获取的资讯信息,在实际使用中,资讯推送服务器可以从该推送数据库中获取预设时间段内的资讯信息以进行处理,其中,预设时间段为预先设定的,需要从推送数据库中获取资讯信息的时间段,例如,资讯推送服务器可以从推送数据库中获取前三天的资讯信息,或者获取前五天的资讯信息等。其中,资讯信息表示行业动态及政策变化的信息,该资讯信息内容包括但不限于数据源(网站)、关键词、标题、文章全文、发布者、网页链接、发布时间、爬取时间。
在本实施例中,在资讯推送服务器从推送数据库中获取资讯信息之前,需要先通过爬虫工具根据预先设定的关键词词典对目标网站库进行资讯信息爬取,例如,关键词词典中包含“二手车”、“二手车金融”、“二手车市场”等关键词,目标网站库可以包括腾讯网、中国财富网、环球网、新浪网等网站等;爬虫工具爬取到的资讯信息存储于推送数据库中。资讯推送服务器按照预先设定的时间段(预设时间段)从原始数据库中获取过去对应时间内的资讯信息,示例地,预设时间段可以设为每三天进行一次获取资讯处理,相当于资讯推送服务器每隔三天从推送数据库中获取当前时间三天前的资讯信息,用于资讯信息处理。爬虫工具爬取到的某一条资讯信息内容,示例地,该资讯信息内容可以为环球网、“二手车”,2019年3月5日09时47分08秒,“库存压力“抬头”二手车释放良好讯号”,文章全文,经济日报,2019年3月5日09时46分以及http://finance.huanqiu.com/chanjing/2019-03/14469136.html,该资讯信息内容只是举例说明,本实施例不以此为限。
S202、根据预设的剔除规则对资讯信息进行剔除,得到剔除后的资讯信息。
本步骤中,预设的剔除规则指的是资讯推送服务器为剔除推送数据库中获取到的行业资讯信息中的冗余资讯预先设定的规则,其中,冗余资讯表示重复的、无用的资讯信息,示例地,剔除规则可以包括剔除资讯标题中的包含的过多停止词的资讯信息,其中,停止词可以是“在”、“里面”、“也”、“的”、“它”、“为”等介词、冠词、副词或连词、剔除资讯标题中不包含关键词的资讯信息,其中,该关键词从预先设定的关键词词典中获取,其中,关键词可以是“二手车”、“二手车金融”、“二手车市场”等、剔除预先设定时间段内重复推送的资讯信息,例如,剔除过去三天内已推送过的资讯信息等、剔除由于其他原因导致的不完整的资讯信息等,在实际应用中若有其他冗余信息也可设定在剔除规则中,本实施例对此不做限定。
具体地,资讯推送服务器从推送数据库中获取资讯信息后,按照预设的剔除规则从该资讯信息中查找出冗余资讯,并将查找出的冗余资讯剔除,得到多个剔除后的资讯信息。可以理解的是,对于资讯推送服务器根据预设的剔除规则中设定冗余资讯,在剔除冗余资讯时的顺序,可根据实际情况而定,本实施例对此不做限定。
S203、根据预设的量化规则对剔除后的资讯信息进行量化,得到剔除后的资讯信息的量化值。
其中,预设的量化规则表示对剔除后的资讯信息进行计算得到最终量化值的规则,该最终量化值表示剔除后资讯信息的重要程度,其中,量化值越高的资讯信息,其重要程度越高,其在企业中受到的关注度高。例如,在对剔除后的资讯信息进行计算时,可以根据资讯信息的关键词量化值进行计算、或者是根据资讯信息的类别优先级进行计算、或者是根据获取时间进行计算,本实施例对此不做限定。
在本实施例中,资讯推送服务器获取剔除后的资讯信息之后,可以通过提取剔除后的资讯信息中的关键词,该关键词对应不同的量化值,根据关键词的量化值进行计算,得到剔除后的资讯信息的量化值;或者可以通过提取剔除后的资讯信息中的关键词,根据预先设定的关键词与资讯类别的对应关系,确定剔除后的资讯信息的资讯类别,不同资讯类别对应不同的优先级,根据类别优先级对应的量化值,得到剔除后的资讯信息的量化值,示例地,资讯类别可以包括政策动态、市场动态、人事动态、企业动态和其他等类别,优先级顺序可以为政策动态为1级,对应量化值为10分等;或者还可以通过获取剔除后的资讯信息的获取时间,设定获取时间越接近当前时间的量化值越高,根据获取时间对应的量化值,得到剔除后的资讯信息的量化值。本实施例中不以此为限。
S204、根据量化值对剔除后的资讯信息进行排序,并将排序后的资讯信息中目标资讯信息推送至查看系统。
其中,量化值指的是根据上述量化规则对当前资讯信息进行计算之后得到的量化值,将计算后的资讯信息按照量化值顺序进行排序,排序方式可以为降序排序。其中,目标资讯信息指的是排序后被推送至查看系统的资讯信息,具体地,该目标资讯信息可以是排序后全部的资讯信息,也可以是排序后选取的一部分资讯信息。其中,查看系统指的是资讯推送服务器通过网络与之进行通信的企业内部办公系统,该系统可以为查看系统服务器与查看系统终端的结合,或者可以是查看系统终端,资讯推送服务器将目标资讯信息推送至查看系统之后,查看系统最终将该资讯信息展示在终端显示界面中。
在本实施例中,示例地,资讯推送服务器获取剔除后的资讯信息的量化值后,根据量化值对资讯信息进行排序,然后从排序后的所有资讯信息中选取TOP10资讯信息作为目标资讯信息,其中,TOP10指的是量化值排序在前10的资讯信息。获取目标资讯信息之后,资讯推送服务器将该目标资讯信息推送至查看系统,最终查看系统将该目标资讯信息展示在终端显示界面中,以使本实施例中不以此为限。
本实施例中,资讯推送服务器从推送数据库中获取预设时间段内的资讯信息,然后根据预设的剔除规则剔除资讯信息中冗余资讯,得到多个剔除后的资讯信息,之后根据预设的量化规则对剔除后的资讯信息进行量化,得到剔除后的资讯信息的量化值,最后根据量化值对所述剔除后的资讯信息进行排序,并将排序后的资讯信息中目标资讯信息推送至查看系统,该方法中,由于资讯推送服务器对从推送数据库中获取的资讯信息先进行了冗余资讯的剔除,而后对剔除后的资讯信息进行量化排序,最后目标资讯信息推送至查看系统,实现了对资讯信息的筛选后的及时推送,且整个资讯信息筛选、推送过程没有人工干预,降低了人力成本。
在一个实施例中,如图3所示,上述实施例中步骤203“根据预设的量化规则对剔除后的资讯信息进行量化,得到剔除后的资讯信息的量化值”,包括:
S301、从剔除后的资讯信息中获取资讯信息的关键词;资讯信息的关键词包括资讯标题关键词和资讯内容关键词。
其中,关键词为预先设定的关键词词典中的与行业相关的关键词,该关键词词典包括“二手车”、“二手车金融”、“二手车市场”等,资讯标题关键词为资讯推送服务器从剔除后的资讯信息的资讯标题中查找获取到的关键词,存储于标题关键词列表中;资讯内容关键词为资讯推送服务器从剔除后的资讯信息的资讯全文中查找获取到的关键词,存储于全文关键词列表中。
在本实施例中,资讯推送服务器从剔除后的资讯信息的资讯标题和资讯全文中分别查找获取关键词,示例地,若剔除后的资讯信息的资讯标题为“二手车市场迎来年轻化趋势--大搜车家选普及新生代二手车消费理念影响二手车市场”,资讯推送服务器从该标题中查找到的关键词为“二手车市场”、“二手车”和“二手车市场”,将上述关键词保存至资讯标题关键词列表中。本实施例中不以此为限。
S302、根据预设的量化规则分别获取资讯标题关键词的量化值和资讯内容关键词的量化值。
其中,关键词量化值的大小表示该关键词的行业相关程度和重要程度,按照关键词的行业相关度和重要程度,对不同关键词设定对应大小不同的量化值,资讯推送服务器根据关键词对应的量化值,从资讯标题关键词列表中获取对应关键词,计算资讯标题关键词的总量化值,从资讯内容关键词列表中获取对应关键词,计算资讯内容关键词的总量化值。
在本实施例中,资讯推送服务器分别从资讯标题关键词列表和资讯内容关键词列表中获取对应关键词,根据不同关键词对应不同的量化值,分别计算得到资讯标题关键词的总量化值和资讯内容关键词的总量化值,示例地,关键词词典中包括“二手车市场”、“二手车”和“二手车市场”等,“二手车市场”对应权重为10,“二手车金融”对应权重为8,权重不同的目的在于针对资讯标题对资讯信息进行精准筛选。本实施例不以此为限。
S303、对资讯标题关键词的量化值和资讯内容关键词的量化值进行加权计算,得到剔除后的资讯信息的量化值;资讯标题关键词的权重大于资讯内容关键词的权重。
在本实施例中,资讯标题关键词与资讯内容关键词分别存储于资讯标题关键词列表和资讯内容关键词列表中,列表中还存储了关键词对应的量化值,资讯推送服务器分别从两个数据列表中获取关键词及相应的量化值,对资讯标题与资讯内容对应的量化值进行加权计算。示例地,资讯标题关键词总量化值可以定义为score_title,资讯内容关键词总量化值可以为score_content,对资讯标题关键词总量化值赋予对应的权重weight_title,对资讯内容关键词总量化值赋予对应的权重weight_content,由此,可计算得到当前资讯信息的总量化值。
具体地,当前资讯信息总量化值可以通过以下公式计算得到:
score=weight_title×score_title+weight_content×score_content
其中资讯标题权重weight_title大于资讯内容权重weight_content。需要说明的是,在设置权重时,可选地,考虑到资讯标题包含信息的重要程度,设定资讯标题关键词的权重大于资讯内容关键词的权重,具体设定根据实际情况而定,本实施例对此不做限定。
本实施例中,资讯推送服务器根据资讯标题关键词的量化值和资讯内容关键词的量化值对剔除后的资讯信息进行加权计算,得到剔除后的资讯信息的总量化值,量化值可以准确反映出对应资讯信息的关注度与重要性。
在一个实施例中,上述预设的量化规则还包括关键词所属资讯分类的优先级;资讯分类的优先级与关键词量化值成正比。
其中,资讯分类为每个关键词对应其所属的资讯类型,该资讯分类包括政策动态、市场动态、人事动态、企业动态及其他,每个资讯类型对应不同的优先级顺序,表示不同类型的资讯信息的行业相关度和重要程度。
在本实施例中,示例地,资讯类别的优先级顺序可以设定为,政策动态类别设定为优先级1级,将市场动态类别设定为优先级2级,将人事动态类别设定为优先级3级,将企业动态类别设定为优先级4级,将其他类别设定为优先级5级或者不设定优先级。资讯分类的优先级与关键词量化值成正比,相当于关键词“二手车金融”属于政策动态类,政策动态类优先级顺序为1级,“二手车金融”对应的量化值为10,“二手车市场”属于市场动态类,市场动态类优先级顺序为2级,“二手车市场”对应的量化值为8,本实施例中不以此为限。
本实施例中,资讯推送服务器将关键词量化值与所属资讯分类优先级相关联,且两者关系成正比,两个条件相互制约,使得关注度较高的类别资讯在资讯推送过程中更能及时优先地被推送至查看系统。
在一个实施例中,如图4所示,上述实施例中,步骤301“从剔除后的资讯信息中获取资讯信息的关键词”,包括:
S401、根据预设的关键词词典,从剔除后的资讯信息中查找对应的资讯标题关键词和资讯内容关键词。
其中,关键词词典指的是预先设定的存储行业相关的关键词的词典,用于该方法中涉及到的获取关键词操作步骤。根据关键词词典,资讯推送服务器查找剔除后的资讯信息中资讯标题中的关键词和资讯内容中的关键词,查找方式可以但不限于为对比查找。
在本实施例中,资讯推送服务器根据预先设定的关键词词典,在剔除后的资讯信息中资讯标题中的关键词和资讯内容中对比查找相应的关键词。具体地,引用同样的示例,关键词词典中包括“二手车”、“二手车金融”、“二手车市场”等关键词,则资讯推送服务器对应查找资讯标题中的“二手车”、“二手车金融”、“二手车市场”等关键词和资讯内容中的“二手车”、“二手车金融”、“二手车市场”等关键词。本实施例中不以此为限。
S402、对资讯标题关键词和资讯内容关键词进行去重操作,得到资讯信息的关键词。
其中,去重操作指的是删除获得的关键词中重复的关键词,达到资讯标题和资讯内容中一个关键词只出现一次的目的。去重的目的在于在之后步骤对关键词进行量化排序时,对没有重复的关键词对应的量化值进行计算,所得的最终量化值才能真实反映当前资讯信息的情况。
在本实施例中,示例地,资讯推送服务器获取到某一个剔除后的资讯信息资讯标题为“二手车市场迎来年轻化趋势--大搜车家选普及新生代二手车消费理念影响二手车市场”,其中资讯标题关键词为“二手车市场”、“二手车”、“二手车市场”,将这些关键词中的重复的关键词去掉后,该资讯标题关键词为“二手车市场”、“二手车”,该关键词“二手车市场”、“二手车”即为去重后得到的资讯标题关键词,用于后续的按照预设的量化规则进行量化步骤,本实施例中不以此为限。
本实施例中将获取到的资讯标题和资讯内容中关键词进行去重操作,这样,在后续根据关键词进行量化排序步骤中,保证了关键词量化的可靠性,同时使得获取到的资讯信息准确性更高。
在一个实施例中,上述预设的剔除规则包括以下规则中的至少一个:剔除资讯标题中包含停止词的资讯信息;剔除资讯标题中不含预设的关键词词典中关键词的资讯信息;剔除预设时间段内已推送过的资讯信息。
其中,停止词包括“在”、“里面”、“也”、“的”、“它”、“为”等介词、冠词、副词或连词;关键词取于上述预先设定的关键词词典,关键词包括但不限于包括“二手车”、“二手车金融”、“二手车市场”等关键词,预设时间段指的是预先设定的当前时间之前的一段时间,可以为当前时间的前三天。上述几种剔除规则可以同时进行,也可以顺序进行,根据实际情况而定,本实施例对此不做限定。
在本实施例中,示例地,若资讯推送服务器获取到的资讯标题为“如今,二手车的存在价值是什么”,扫描到该资讯标题中的停止词为“如今”、“存在”、“是”、“什么”,因为该资讯标题包含过多的停止词,则资讯推送服务器选择剔除该资讯标题对应的资讯信息;若资讯推送服务器获取到的资讯标题为“疲劳驾驶时千万别开车”,通过根据关键词词典的对比查找,资讯推送服务器从资讯标题中没有查找到任意一个关键词,则资讯推送服务器选择剔除该资讯标题对应的资讯信息;若预先设定时间为当前时间的前三天,资讯服务器从存储数据库中获取当前时间的前三天的全部资讯信息,用于与当前资讯信息进行重复资讯的检测,其中,存储数据库为存储已经推送过的全部资讯信息的数据库。具体地,重复资讯检测方式可以包括,首先,资讯推送服务器将当前资讯信息的资讯标题与获取到的已推送过的资讯信息的资讯标题进行分词比较,获取两者资讯标题中的词段进行重复率计算,具体地,重复率可以由重复词段数与总词段数的比值得出,设定重复阈值为0.6,若重复率超过重复阈值0.6,则判定当前资讯信息为已推送过的资讯信息,则剔除该资讯信息。本实施例中不以此为限。
资讯推送服务器按照预设的剔除规则对获取到的资讯信息中冗余资讯进行剔除,在后续对剔除后的资讯信息的的量化排序中,可以更准确地将所需的待推送的资讯信息推送至查看系统。
在一个实施例中,如图5所示,在上述实施例中步骤204“将排序后的资讯信息中目标资讯信息推送至查看系统”之前,还包括:
S501、从目标资讯信息中提取目标资讯信息的摘要信息。
其中,摘要信息指的是资讯推送服务器获取到目标资讯信息后,对目标资讯信息的第一自然段落信息经过处理后,形成的符合标准段落信息字符长度的段落信息,该摘要信息用于之后的资讯推送。
在本实施例中,示例地,资讯推送服务器可以通过提取目标资讯内容中第一个自然段落信息作为候选摘要信息,对该候选摘要信息进行字符长度的处理。其中,预先设定标准段落字符长度为80个字符,最小段落字符长度为20个字符,若资讯推送服务器获取到的第一个自然段落信息的字符长度为小于最小段落信息字符长度,则继续获取之后的段落信息中的内容,使得获取到的段落信息中的内容长度大于等于20个字符;若资讯推送服务器获取到的段落信息的字符长度大于标准段落字符长度80个字符,对该段落信息中的语句进行拆分,拆分方式可以为保留字符长度之内的语句,删除超出字符长度的其他语句,或者删除包含停止词较多的语句,保留包含关键词较多的语句,然后将保留的语句进行组合,使得组合后的语句的字符长度小于等于80个字符。该预先设定的标准段落字符长度与最小段落字符长度只是举例说明,本实施例中不以此为限。
S502、将目标资讯信息的摘要信息推送至所述查看系统。
在本实施例中,示例地,资讯推送服务器将字符长度为100个字符的第一个段落信息经过语句拆分、组合,得到字符长度小于等于80个字符的标准段落作为当前行业资讯信息的摘要信息,然后将该摘要信息推送至查看系统,其中,该查看系统可以是企业内部办公系统,由查看系统服务器与查看系统终端结合,面向管理层及其他员工,当资讯推送服务器将目标资讯的摘要信息推送至查看系统时,查看系统可以向面向的用户发送推送信息。
本实施例中将目标资讯信息进行摘要信息的提取,通过资讯推送服务器对摘要信息进行字符长度处理,而后将经过字符长度处理后的摘要信息推送至查看系统,规范了目标资讯信息的摘要信息字符长度,在一定程度上减少了资源的占用。
在一个实施例中,在上述实施例中步骤204“将排序后的资讯信息中目标资讯信息推送至查看系统”之后,还包括:
存储目标资讯信息至存储数据库;存储数据库存储了所有推送过的资讯信息。
其中,存储数据库中存储的是所有推送过的资讯信息,在本实施例中,资讯推送服务器可以从该存储数据库获取已推送过的资讯信息,以在获取的资讯信息中进行重复率检测,并将检测到重复的资讯信息剔除,本实施例对存储数据库中存储的内容不以此为限。
本实施例中资讯推送服务器在将目标资讯信息推送至查看系统之后,将该推送过的目标资讯存储于存储数据库中,这样有利于在下一次剔除冗余资讯时,进行重复资讯信息的判断。
应该理解的是,虽然图1-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种资讯推送装置600,包括:获取模块601、剔除模块602、量化模块603和推送模块604,其中:
获取模块601,用于获取预设时间段内的资讯信息;资讯信息包括行业动态信息和政策变化的信息;
剔除模块602,用于根据预设的剔除规则对资讯信息进行剔除,得到剔除后的资讯信息;
量化模块603,用于根据预设的量化规则对剔除后的资讯信息进行量化,得到剔除后的资讯信息的量化值;
推送模块604,用于根据量化值对剔除后的资讯信息进行排序,并将排序后的资讯信息中目标资讯信息推送至查看系统。
在一个实施例中,如图7所示,该资讯推送装置600中量化模块603包括获取单元6031和计算单元6032,其中:
获取单元6031,用于从剔除后的资讯信息中获取资讯信息的关键词;资讯信息的关键词包括资讯标题关键词和资讯内容关键词;还用于根据预设的量化规则分别获取资讯标题关键词的量化值和资讯内容关键词的量化值;
计算单元6032,用于对资讯标题关键词的量化值和资讯内容关键词的量化值进行加权计算,得到剔除后的资讯信息的量化值;资讯标题关键词的权重大于资讯内容关键词的权重。
在一个实施例中,上述预设的量化规则还包括关键词所属资讯分类的优先级;资讯分类的优先级与关键词量化值成正比。
在一个实施例中,如图8所示,该量化模块603中获取单元6031包括查找子单元60311和去重子单元60312,其中:
查找子单元60311,用于根据预设的关键词词典,从剔除后的资讯信息中查找对应的资讯标题关键词和资讯内容关键词;
去重子单元60312,用于对资讯标题关键词和资讯内容关键词进行去重操作,得到资讯信息的关键词。
在一个实施例中,上述预设的剔除规则包括以下规则中的至少一个:
剔除资讯标题中包含停止词的资讯信息;
剔除资讯标题中不含预设的关键词词典中关键词的资讯信息;
剔除预设时间段内已推送过的资讯信息。
在一个实施例中,如图9所示,该资讯推送装置600中推送模块604包括提取单元6041和推送单元6042,其中:
提取单元6041,用于从目标资讯信息中提取目标资讯信息的摘要信息;
推送单元6042,用于将目标资讯信息的摘要信息推送至所述查看系统。
在一个实施例中,如图10所示,该资讯推送装置600还包括存储模块605:
存储模块605,用于存储目标资讯信息至存储数据库;存储数据库存储了所有推送过的资讯信息。
上述实施例提供的一种资讯推送装置,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
关于资讯推送装置的具体限定可以参见上文中对于资讯推送方法的限定,在此不再赘述。上述资讯推送装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是资讯推送服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储资讯数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种资讯推送方法。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取预设时间段内的资讯信息;资讯信息包括行业动态信息和政策变化的信息;
根据预设的剔除规则对所述资讯信息进行剔除,得到剔除后的资讯信息;
根据预设的量化规则对剔除后的资讯信息进行量化,得到剔除后的资讯信息的量化值;
根据量化值对剔除后的资讯信息进行排序,并将排序后的资讯信息中目标资讯信息推送至查看系统。
本申请实施例提供的计算机设备,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取预设时间段内的资讯信息;资讯信息包括行业动态信息和政策变化的信息;
根据预设的剔除规则对所述资讯信息进行剔除,得到剔除后的资讯信息;
根据预设的量化规则对剔除后的资讯信息进行量化,得到剔除后的资讯信息的量化值;
根据量化值对剔除后的资讯信息进行排序,并将排序后的资讯信息中目标资讯信息推送至查看系统。
本实施例提供的计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种资讯推送方法,其特征在于,所述方法包括:
获取预设时间段内的资讯信息;所述资讯信息包括行业动态信息和政策变化信息;
根据预设的剔除规则对所述资讯信息进行剔除,得到剔除后的资讯信息;
根据预设的量化规则对所述剔除后的资讯信息进行量化,得到所述剔除后的资讯信息的量化值;
根据所述量化值对所述剔除后的资讯信息进行排序,并将排序后的资讯信息中目标资讯信息推送至查看系统;
其中,所述根据预设的量化规则对所述剔除后的资讯信息进行量化,得到所述剔除后的资讯信息的量化值,包括:
从所述剔除后的资讯信息中获取所述资讯信息的关键词;所述资讯信息的关键词包括资讯标题关键词和资讯内容关键词;
根据所述预设的量化规则分别获取所述资讯标题关键词的量化值和资讯内容关键词的量化值;所述预设的量化规则还包括关键词所属资讯分类的优先级;所述资讯分类的优先级与关键词的量化值成正比;
对所述资讯标题关键词的量化值和资讯内容关键词的量化值进行加权计算,得到所述剔除后的资讯信息的量化值;所述资讯标题关键词的权重大于所述资讯内容关键词的权重。
2.根据权利要求1所述的方法,其特征在于,所述从所述剔除后的资讯信息中获取所述资讯信息的关键词,包括:
根据预设的关键词词典,从所述剔除后的资讯信息中查找对应的资讯标题关键词和资讯内容关键词;
对所述资讯标题关键词和资讯内容关键词进行去重操作,得到所述资讯信息的关键词。
3.根据权利要求1所述的方法,其特征在于,所述预设的剔除规则包括以下规则中的至少一个:
剔除资讯标题中包含停止词的资讯信息;
剔除资讯标题中不含预设的关键词词典中关键词的资讯信息;
剔除预设时间段内已推送过的资讯信息。
4.根据权利要求1所述的方法,其特征在于,在所述将排序后的资讯信息中目标资讯信息推送至查看系统之前,所述方法还包括:
从所述目标资讯信息中提取目标资讯信息的摘要信息;
将所述目标资讯信息的摘要信息推送至所述查看系统。
5.根据权利要求1所述的方法,其特征在于,在所述将排序后的资讯信息中目标资讯信息推送至查看系统之后,所述方法还包括:
存储所述目标资讯信息至存储数据库;所述存储数据库存储了所有推送过的资讯信息。
6.一种资讯推送装置,其特征在于,所述装置包括:
获取模块,用于获取预设时间段内的资讯信息;所述资讯信息包括行业动态信息和政策变化的信息;
剔除模块,用于根据预设的剔除规则对所述资讯信息进行剔除,得到剔除后的资讯信息;
量化模块,用于根据预设的量化规则对所述剔除后的资讯信息进行量化,得到所述剔除后的资讯信息的量化值;
推送模块,用于根据所述量化值对所述剔除后的资讯信息进行排序,并将排序后的资讯信息中目标资讯信息推送至查看系统;
所述量化模块包括:获取单元和计算单元;
所述获取单元,用于从所述剔除后的资讯信息中获取所述资讯信息的关键词;所述资讯信息的关键词包括资讯标题关键词和资讯内容关键词;还用于根据所述预设的量化规则分别获取所述资讯标题关键词的量化值和资讯内容关键词的量化值;所述预设的量化规则还包括关键词所属资讯分类的优先级;所述资讯分类的优先级与关键词的量化值成正比;
所述计算单元,用于对所述资讯标题关键词的量化值和资讯内容关键词的量化值进行加权计算,得到所述剔除后的资讯信息的量化值;所述资讯标题关键词的权重大于所述资讯内容关键词的权重。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
所述推送模块包括:提取单元和推送单元;
所述提取单元,用于从所述目标资讯信息中提取目标资讯信息的摘要信息;
所述推送单元,用于将所述目标资讯信息的摘要信息推送至所述查看系统。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
存储模块,用于存储所述目标资讯信息至存储数据库;所述存储数据库存储了所有推送过的资讯信息。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1至5任一所述的资讯推送方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5任一所述的资讯推送方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910987832.XA CN110851709B (zh) | 2019-10-17 | 2019-10-17 | 资讯推送方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910987832.XA CN110851709B (zh) | 2019-10-17 | 2019-10-17 | 资讯推送方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110851709A CN110851709A (zh) | 2020-02-28 |
CN110851709B true CN110851709B (zh) | 2022-10-14 |
Family
ID=69597971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910987832.XA Active CN110851709B (zh) | 2019-10-17 | 2019-10-17 | 资讯推送方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110851709B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111881339B (zh) * | 2020-06-05 | 2024-03-22 | 百度在线网络技术(北京)有限公司 | 资源信息的推送、通知方法、装置、电子设备及存储介质 |
CN114116867A (zh) * | 2021-11-19 | 2022-03-01 | 南京一盏神灯网络信息科技有限公司 | 一种资讯数据识别转换方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512331A (zh) * | 2015-12-28 | 2016-04-20 | 海信集团有限公司 | 一种视频推荐方法及装置 |
CN106934054A (zh) * | 2017-03-17 | 2017-07-07 | 前海梧桐(深圳)数据有限公司 | 基于大数据的企业细分行业精准分析方法及其系统 |
CN106951494A (zh) * | 2017-03-14 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法及装置 |
CN107330124A (zh) * | 2013-03-11 | 2017-11-07 | 曹华诚 | 内容推荐方法 |
CN107798147A (zh) * | 2017-12-05 | 2018-03-13 | 李贺满 | 一种新闻客户端及其消息推送方法 |
-
2019
- 2019-10-17 CN CN201910987832.XA patent/CN110851709B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330124A (zh) * | 2013-03-11 | 2017-11-07 | 曹华诚 | 内容推荐方法 |
CN105512331A (zh) * | 2015-12-28 | 2016-04-20 | 海信集团有限公司 | 一种视频推荐方法及装置 |
CN106951494A (zh) * | 2017-03-14 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法及装置 |
CN106934054A (zh) * | 2017-03-17 | 2017-07-07 | 前海梧桐(深圳)数据有限公司 | 基于大数据的企业细分行业精准分析方法及其系统 |
CN107798147A (zh) * | 2017-12-05 | 2018-03-13 | 李贺满 | 一种新闻客户端及其消息推送方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110851709A (zh) | 2020-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509482B (zh) | 问题分类方法、装置、计算机设备和存储介质 | |
US20190121806A1 (en) | Managing a search | |
US8332393B2 (en) | Search session with refinement | |
CN110837590B (zh) | 资讯推送方法、装置、计算机设备和存储介质 | |
CN110458324B (zh) | 风险概率的计算方法、装置和计算机设备 | |
CN105095440A (zh) | 一种搜索推荐方法及装置 | |
US20110295850A1 (en) | Detection of junk in search result ranking | |
JP2013504118A (ja) | クエリのセマンティックパターンに基づく情報検索 | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
US9842158B2 (en) | Clustering web pages on a search engine results page | |
JP7451747B2 (ja) | コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
US20150294005A1 (en) | Method and device for acquiring information | |
CN110851709B (zh) | 资讯推送方法、装置、计算机设备和存储介质 | |
CN111651670A (zh) | 基于用户行为图谱的内容检索方法、装置终端和存储介质 | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
US9626439B2 (en) | Method for searching in a database | |
CN109918661B (zh) | 同义词获取方法及装置 | |
US8055670B2 (en) | System and method for the generation of replacement titles for content items | |
CN114169331A (zh) | 地址解析方法、装置、计算机设备和存储介质 | |
CN113656575A (zh) | 训练数据的生成方法、装置、电子设备及可读介质 | |
CN113961811A (zh) | 基于事件图谱的话术推荐方法、装置、设备及介质 | |
CN113704462A (zh) | 文本处理方法、装置、计算机设备及存储介质 | |
CN113468339A (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 | |
CN110727850A (zh) | 网络信息的过滤方法,计算机可读存储介质和移动终端 | |
CN111382331A (zh) | 一种基于大数据的处理舆情话题的方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |