CN112202889B - 信息的推送方法、装置和存储介质 - Google Patents
信息的推送方法、装置和存储介质 Download PDFInfo
- Publication number
- CN112202889B CN112202889B CN202011063448.XA CN202011063448A CN112202889B CN 112202889 B CN112202889 B CN 112202889B CN 202011063448 A CN202011063448 A CN 202011063448A CN 112202889 B CN112202889 B CN 112202889B
- Authority
- CN
- China
- Prior art keywords
- processed
- data
- information
- determining
- objects
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种信息的推送方法、装置和存储介质,该方法包括获取多个待处理对象;根据预先存储的对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,确定待处理对象的关系数据,待处理对象为多个第一对象中的任意一个;根据待处理对象在预设时间段内所发布的信息,确定待处理对象的影响数据;根据关系数据和影响数据,确定待处理对象的权威度,根据每个待处理对象的权威度,对待处理对象所发布的信息进行筛选,得到目标信息,并向终端设备推送目标信息。本申请提供的信息的推送方法、装置和存储介质可以提高推送的信息的准确性。
Description
技术领域
本发明涉及大数据处理技术,尤其涉及一种信息的推送方法、装置和存储介质。
背景技术
随着计算机技术的发展,越来越多的技术(大数据、分布式、人工智能等)应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对服务请求技术提出了更高的要求。目前,在金融科技领域,新闻媒体的种类越来越多,而用户通常会更关注权威度较高的新闻媒体所发布的新闻。因此,系统平台在向用户推送新闻时,通常会考虑新闻媒体的权威度,因而在众多的新闻媒体中,如何确定每个新闻媒体的权威度就很重要。
现有技术中,系统平台在确定新闻媒体的权威度时,主要是根据新闻媒体的名称以及新闻的被转发量来确定。具体地,系统平台可以通过对比两篇新闻的内容相似度和发布时间,来确定新闻之间的转发数据。然后再结合新闻媒体的名称确定每个新闻媒体的权威度,例如,以某高校名称开头的新闻媒体,其权威度可以加5分,以某地区名称开头的新闻媒体,其权威度可以加5分等等。
然而,现有技术中由于仅根据新闻媒体的名称以及新闻的被转发量来确定新闻媒体的权威度,会导致确定出的新闻媒体的权威度准确性较低,进而系统平台在向用户推送新闻时,可能会推送实际权威度较低的新闻媒体所发布的新闻内容,从而导致推送的新闻内容准确度较低。
发明内容
为解决现有技术中存在的问题,本发明提供一种信息的推送方法、装置和存储介质,能够提高所推送的信息的准确性。
第一方面,本申请实施例提供一种信息的推送方法,包括:获取多个待处理对象;
针对每个待处理对象,根据预先存储的对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,确定所述待处理对象的关系数据,所述关系数据用于表示所述待处理对象的影响力,所述待处理对象为所述多个第一对象中的任意一个;
根据所述待处理对象在预设时间段内所发布的信息,确定所述待处理对象的影响数据;
根据所述关系数据和所述影响数据,确定所述待处理对象的权威度;
根据每个待处理对象的权威度,对所述待处理对象在预设时间段内所发布的信息进行筛选,得到目标信息;
向终端设备推送所述目标信息。
在一种可能的实现方式中,所述根据预先存储的对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,确定所述待处理对象的关系数据,包括:
根据所述对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,确定转发和/或引用了所述待处理对象的第一对象相对于所述待处理对象的权重值;
根据所述权重值,确定所述待处理对象的关系数据。
在一种可能的实现方式中,所述根据所述权重值,确定所述待处理对象的关系数据,包括:
根据公式迭代计算所述待处理对象的关系数据,直至上一轮计算得到的所述第一对象的关系数据组成的列向量与本轮计算得到的所述第一对象的关系数据组成的列向量之间的差值小于预设值;其中,Y(M)为所述待处理对象的关系数据,α为预设值,n为转发和/或引用了所述待处理对象的对象数量,wi为转发和/或引用了所述待处理对象的第i个第一对象Ri相对于所述待处理对象对应的权重值,Y(Ri)为上一轮计算得到的转发和/或引用了所述待处理对象的第i个第一对象Ri的关系数据,L为所述多个第一对象的数量。
在一种可能的实现方式中,所述根据所述待处理对象在预设时间段内所发布的信息,确定所述待处理对象的影响数据,包括:
分别确定所述待处理对象的影响地域数据、影响时间数据和影响领域数据;
根据所述影响地域数据、所述影响时间数据和所述影响领域数据,确定所述待处理对象的影响数据。
在一种可能的实现方式中,所述确定所述待处理对象的影响地域数据,包括:
获取所述待处理对象在预设时间段内所发布的所有信息;
提取所述所有信息中每篇信息中的关键词;
根据所述关键词,确定所述待处理对象的影响地域数据。
在一种可能的实现方式中,确定所述待处理对象的影响时间数据,包括:
获取所述待处理对象在预设时间段内所发布的所有信息;
根据所述所有信息中每篇信息的转发时间和发布时间,确定所述每篇信息的转发时间跨度;
根据所述每篇信息的转发时间跨度,确定所述待处理对象的影响时间数据。
在一种可能的实现方式中,确定所述待处理对象的影响领域数据,包括:
根据所述对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,在所述多个第一对象中确定所有转发了所述待处理对象的信息的第二对象;
确定所述第二对象的领域信息;
根据所述第二对象的领域信息,确定所述待处理对象的影响领域数据。
在一种可能的实现方式中,所述根据所述关系数据和所述影响数据,确定所述待处理对象的权威度,包括:
获取所述待处理对象在预设时间段内所发布的信息的数量;
根据所述信息的数量,确定所述待处理对象的活跃度;
将所述关系数据和所述影响数据的乘积,确定为所述待处理对象的初始权威度值;
根据所述活跃度,对所述初始权威度值进行更新,得到所述待处理对象的权威度。
在一种可能的实现方式中,所述方法还包括:
获取所述多个第一对象中每个第一对象所发布的至少一篇信息;
根据所述至少一篇信息,确定所述第一对象所对应的领域信息、转发数据和引用数据;
根据所述转发数据和所述引用数据,确定待构建的对象关系网络中表征所述两个第一对象的两个节点之间有向边的权重值,并构建所述对象关系网络,所述每个节点中还包括对应的所述第一对象的领域信息。
在一种可能的实现方式中,所述根据每个待处理对象的权威度,对所述待处理对象在预设时间段内所发布的信息进行筛选,得到目标信息,包括:
根据每个待处理对象的权威度,将权威度大于预设阈值的待处理对象确定为目标对象;
对所述目标对象在预设时间段内所发布的信息进行筛选,得到目标信息。
第二方面,本申请实施例提供一种信息的推送装置,包括:
获取模块,用于获取多个待处理对象;
处理模块,用于针对每个待处理对象,根据预先存储的对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,确定所述待处理对象的关系数据,所述关系数据用于表示所述待处理对象的影响力,所述待处理对象为所述多个第一对象中的任意一个;
所述处理模块,还用于根据所述待处理对象在预设时间段内所发布的信息,确定所述待处理对象的影响数据;
所述处理模块,还用于根据所述关系数据和所述影响数据,确定所述待处理对象的权威度;
所述处理模块,还用于根据每个待处理对象的权威度,对所述待处理对象在预设时间段内所发布的信息进行筛选,得到目标信息;
发送模块,用于向终端设备推送所述目标信息。
在一种可能的实现方式中,所述处理模块,具体用于:
根据所述对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,确定转发和/或引用了所述待处理对象的第一对象相对于所述待处理对象的权重值;
根据所述权重值,确定所述待处理对象的关系数据。
在一种可能的实现方式中,所述处理模块,具体用于:
根据公式迭代计算所述待处理对象的关系数据,直至上一轮计算得到的所述第一对象的关系数据组成的列向量与本轮计算得到的所述第一对象的关系数据组成的列向量之间的差值小于预设值;其中,Y(M)为所述待处理对象的关系数据,α为预设值,n为转发和/或引用了所述待处理对象的对象数量,wi为转发和/或引用了所述待处理对象的第i个第一对象Ri相对于所述待处理对象对应的权重值,Y(Ri)为上一轮计算得到的转发和/或引用了所述待处理对象的第i个第一对象Ri的关系数据,L为所述多个第一对象的数量。
在一种可能的实现方式中,所述处理模块,具体用于:
分别确定所述待处理对象的影响地域数据、影响时间数据和影响领域数据;
根据所述影响地域数据、所述影响时间数据和所述影响领域数据,确定所述待处理对象的影响数据。
在一种可能的实现方式中,所述处理模块,具体用于:
获取所述待处理对象在预设时间段内所发布的所有信息;
提取所述所有信息中每篇信息中的关键词;
根据所述关键词,确定所述待处理对象的影响地域数据。
在一种可能的实现方式中,所述处理模块,具体用于:
获取所述待处理对象在预设时间段内所发布的所有信息;
根据所述所有信息中每篇信息的转发时间和发布时间,确定所述每篇信息的转发时间跨度;
根据所述每篇信息的转发时间跨度,确定所述待处理对象的影响时间数据。
在一种可能的实现方式中,所述处理模块,具体用于:
根据所述对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,在所述多个第一对象中确定所有转发了所述待处理对象的信息的第二对象;
确定所述第二对象的领域信息;
根据所述第二对象的领域信息,确定所述待处理对象的影响领域数据。
在一种可能的实现方式中,所述处理模块,具体用于:
获取所述待处理对象在预设时间段内所发布的信息的数量;
根据所述信息的数量,确定所述待处理对象的活跃度;
将所述关系数据和所述影响数据的乘积,确定为所述待处理对象的初始权威度值;
根据所述活跃度,对所述初始权威度值进行更新,得到所述待处理对象的权威度。
在一种可能的实现方式中,所述获取模块,还用于获取所述多个第一对象中每个第一对象所发布的至少一篇信息;
所述处理模块,还用于根据所述至少一篇信息,确定所述第一对象所对应的领域信息、转发数据和引用数据;
所述处理模块,还用于根据所述转发数据和所述引用数据,确定待构建的对象关系网络中表征所述两个第一对象的两个节点之间有向边的权重值,并构建所述对象关系网络,所述每个节点中还包括对应的所述第一对象的领域信息。
在一种可能的实现方式中,所述处理模块,具体用于:
根据每个待处理对象的权威度,将权威度大于预设阈值的待处理对象确定为目标对象;
对所述目标对象在预设时间段内所发布的信息进行筛选,得到目标信息。
第三方面,本申请实施例提供一种服务器,包括:
收发器;
处理器;
存储器;以及
计算机程序;
其中,所述计算机程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述计算机程序包括用于执行如第一方面所述的方法的指令。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得服务器执行如第一方面所述的方法。
本申请提供的信息的推送方法、装置和存储介质,针对每个待处理对象,通过根据预先存储的对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,确定待处理对象的关系数据,另外,还需要确定待处理对象的影响数据,从而可以根据关系数据和影响数据,共同确定待处理对象的权威度,从而可以根据确定出的每个待处理对象的权威度,对待处理对象在预设时间段内所发布的信息进行筛选,得到目标信息,并向终端设备推送目标信息。与传统的方案相比,本申请中不再是仅根据信息之间的转发数据以及对象的名称确定权威度,而是考虑了待处理对象所发布的信息的关系数据和影响数据来确定权威度,从而可以提高权威度的准确性,进而提高了信息推送的准确性。另外,本申请的方案相较于现有技术,还具有智能化程度高、且权威度确定方式可以动态自动变更等优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请的运行环境示意图;
图2为本申请实施例提供的一种信息的推送方法的一流程示意图;
图3为本申请实施例提供的一种信息的推送方法的另一流程示意图;
图4为对象关系网络示意图;
图5为本申请实施例提供的一种信息的推送方法的再一流程示意图;
图6为本申请提供的信息的推送装置的结构示意图;
图7A示出了本申请服务器的一种可能的结构示意图;
图7B示出了本申请服务器的另一种可能的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,对本申请实施例中涉及到的相关名词进行解释:
(1)弹性检索(Elastic Search,ES),是一个分布式的、可扩展的实时搜索与数据分析引擎,其返回的检索结果排序越靠前,代表该结果与检索语的文本相似度越高。
(2)对象快速冷启动,是指对于新的对象,能够实现快速预估其权威度的方式。
本申请实施例提供的信息的推送方法,可以应用于根据确定出的各个对象的权威度,向用户推送信息的场景中,其中,对象可以为新闻媒体。例如,可以向用户推送财经新闻、娱乐新闻或社会新闻等等。可以理解,系统平台还可以对用户的行为数据进行分析,根据用户的喜好,向用户对应的终端设备推送一些与用户喜好相关的信息。本领域技术人员可以理解,对象的权威度也可以理解为对象的信任等级或者重要程度。除上述推送信息的场景之外,在其他很多场景中,也需要对对象的权威度进行分析,例如,在对企业的相关信息进行分析时,用户通常会根据企业的舆情数据来分析社会大众对该企业的整体情感倾向,而在这一过程中,用户通常希望通过权威度较高的对象来进行。又例如,在进行广告投放的过程中,用户会更希望将广告投放在权威度较高的对象上。再例如,用户在浏览新闻时,通常也会更关注权威度较高的对象所发布的信息。
传统的对象权威度的确定方案包括:系统平台在初始时可以将所有的对象的权威度均置为0,然后通过对比两个对象所发布的信息之间的相似度和发布时间,来确定对象之间的转发数据,从而得到每个对象对应的转发权威度值,例如,若对象A每10篇原创信息的被转发量超过20,则将对象A的权威度加10分等等。其中,确定对象之间的转发数据时,可以按照如下方式,例如:若对象A的发布时间为2020年9月18日,对象B的发布时间为2020年9月19日,且对象A与对象B的内容相似度大于80%,则可以确定对象B转发了对象A。
进一步地,再基于预设的规则,例如基于对象的名称来更新得到的权威度分值,例如,以某高校名称开头的对象,其权威度可以加5分,以某地区名称开头的对象,其权威度可以加5分等等。通过上述方式,即可以得到对象的最终权威度。
不难理解,由于传统的权威度确定方案中,需要在权威度计算初期,先制定一些预设规则,因此需要大量的专家知识,而且为了反映不同领域下对象的权威度的差异,需要针对不同领域分别设定规则,导致权威度计算的成本较高。另外,由于传统的方案中仅根据预设规则以及对象之间的转发数据来确定权威度,并没有考虑对象所发布的信息,导致确定的权威度准确性不高。在进行信息推送时,通常用户会更关注权威度较高的对象所发布的新闻,因此,系统平台在通过根据上述方式确定出的对象的权威度向用户推送信息时,就会出现推送一些实际权威度较低的对象所发布的信息,从而导致推送的信息准确度较低。
本申请实施例中考虑到上述问题,提出了一种信息的推送方法,其主要是针对每个待处理对象,通过预先存储的对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,确定出待处理对象的关系数据,另外,还可以根据待处理对象在预设时间段内所发布的信息,确定出该待处理对象的影响数据,其包括待处理对象的影响地域数据、影响时间数据和影响领域数据,从而可根据待处理对象的关系数据和影响数据,确定该待处理对象的权威度,并根据每个待处理对象的权威度,对待处理对象在预设时间段内所发布的信息进行筛选,得到目标信息,并向终端设备推送目标信息。在该方法中,可以避免传统方案中需要预先制定大量规则的现象,而且考虑了待处理对象的关系数据和影响数据,以此确定出待处理对象的权威度,从而可以提高权威度的准确度,进而在根据确定出的权威度在向用户推送信息时,可以根据权威度,对待处理对象在预设时间段内所发布的信息进行筛选,得到目标信息,并推送目标信息,从而可以提高所推送的信息的准确性。
在描述本申请的信息的推送方法的方案之前,先根据图1来了解下本申请的示例运行环境。
如图1所示,在左侧示出了请求系统平台所推送信息的各种主体,或者也可以是想要进行对象权威度查询的各种主体,例如用户102、企业104、监管机构106等等,这些主体可以根据需要向系统平台108请求推送信息,或者也可以根据需要向系统平台108请求对某个或某些对象的权威度的查询。当然,所述三种主体仅仅是为了示例说明,实际上还有其他主体可以请求推送信息或者发起查询,例如系统平台108自动推送信息或者自动发起查询等等,在此不再一一举例。来自各个主体的请求通过网络被提供给系统平台108,该系统平台108用于执行对象权威度的确定任务,所述系统平台108包括:确定权威度的触发模块,用于根据触发条件发起对指定的多个待处理对象的权威度进行确定的流程;对象权威度数据库,用于存储经计算的待处理对象的权威度;对象关系网络,用于将通过网络从各个数据源(例如110a-110c和/或112a-112b)处采集到的所有对象所发布的信息,通过计算这些信息的隐含属性信息,例如领域信息、是否转发了其他的信息以及转发的信息标识(Identitydocument,ID)以及是否引用了其他的信息以及引用的信息ID,并根据计算出的隐含属性信息构建对象关系网络;以及权威度确定模块,用于根据对象关系网络,确定出指定待处理对象的权威度。需要进行说明的是,系统平台108在向用户102、企业104、监管机构106等主体推送信息时,该系统平台108中还包括推送模块,用于推送权威度较高的对象所发布的数据。所述数据源110a-110c可以是其他各对象,由这些对象的服务器向系统平台108提供各个维度的数据以用于构建对象关系网络。另外,为了使得构建的对象关系网络更加准确,系统平台108还可以从其他数据源,例如112a-112b,采集其他各类资讯客户端的数据。所述其他数据源112a-112b可以是官方网站、应用程序(Application,APP)等等。另外,上述的对象可以包括网媒、纸媒、论坛、博客、微博等等。
应该理解,在示例环境中的用户102、企业104、监管机构106以及数据源110a-110c、112a-112b的数目仅仅是示例性的,更多或更少的数量都属于本申请的保护范畴。并且,在上述示例运行场景中,所述用户102可以使用各种设备访问所述网络,例如个人计算机、服务器、平板、手机、掌上电脑(Personal Digital Assistant,PDA)、笔记本或其它任何具有联网功能的计算设备。而所述企业104、监管机构106、系统平台108、各种数据源110a-110c、112a-112b则可以利用具有更强大处理能力和更高安全性的一个服务器或服务器组来实现。而它们之间所使用的网络可以包括各种类型的有线和无线网络,例如但不局限于:互联网、局域网、无线保真(Wireless Fidelity,WIFI)、无线局域网(Wireless Local AreaNetworks,WLAN)、蜂窝通信网络(通用分组无线服务技术(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、2G/3G/4G/5G蜂窝网络)、卫星通信网络等等。
在了解了本公开的示例运行环境后,结合图2对本公开的信息的推送方法的方案进行详细说明。
图2为本申请实施例提供的一种信息的推送方法的一流程示意图,如图2所示,系统平台首先采集对象所发布的信息数据,并对数据进行预处理,然后针对每一篇信息,均计算出信息的隐含属性,例如领域分类、引用数据和转发数据,在根据计算出的领域分类、引用数据和转发数据,构建对象关系网络。之后,系统平台会基于构建出的对象关系网络,确定待处理对象的关系数据和影响数据,其中,影响数据包括地域范围数据、时间范围数据和领域范围数据。另外,还可以计算出待处理对象的活跃度,然后根据待处理对象的关系数据和影响范围以及活跃度,确定待处理对象的权威度。进一步的,在确定出各个对象的权威度之后,可以根据确定出的权威度,向终端设备推送相关的信息。由于结合对象之间的转发数据和引用数据,可以更加全面的描述对象之间的关系数据,更能体现出各个对象之间的影响力。另外,通过关系数据和影响数据确定待处理对象的权威度,可以提高权威度的准确性,进而在进行信息的推送时,可以提高所推送的信息的准确性。再者,还可以进一步通过活跃度更新初始权威度,可以减小权威度的计算量,节约计算资源。
可以理解的是,上述对象关系网络可以是预先构建好的,也可以是在确定权威度时构建的。下面将分别针对基于预先构建好并存储在存储器中的对象关系网络确定权威度的方式以及如何构建对象关系网络的方式进行详细说明。
图3为本申请实施例提供的一种信息的推送方法的另一流程示意图,本申请实施例提供了一种信息的推送方法,该方法可以由任意执行信息的推送方法的装置来执行,该装置可以通过软件和/或硬件实现。本实施例中,该装置可以集成在如图1所示的系统平台中,也即服务器中。如图3所示,本申请实施例提供的信息的推送方法包括如下步骤:
步骤301:获取多个待处理对象。
在本步骤中,若某个用户、企业或者其他对象想要请求推送信息或者请求查看待处理对象的权威度时,可以向系统平台触发请求消息,该请求消息中包括有多个待处理对象的标识信息。另外,系统平台也可以自动的将存储在其中的各个对象中的多个对象作为待处理对象,以确定该些待处理对象的权威度。
其中,待处理对象可以包括各种新闻媒体,例如包括网媒、纸媒、论坛、博客、微博以及各类资讯客户端等。
步骤302:针对每个待处理对象,根据预先存储的对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,确定待处理对象的关系数据。
其中,关系数据用于表示所述待处理对象的影响力。对象关系网络用于表示对象关系网络中所包括的多个第一对象之间对信息的转发数据和/或引用数据,该待处理对象为多个第一对象中的任意一个。
在本步骤中,该对象关系网络可以为预先构建好的有向网络,其中,该有向网络中的每个节点均表示一个第一对象,示例性的,该对象关系网络中包括多个第一对象。可以理解,对象关系网络中包括的第一对象的数量越多,确定出的待处理对象的权威度越准确。在一种可能的实现方式中,该对象关系网络中包括了目前所有的对象,该待处理对象为对象关系网络中所包括的多个第一对象中的任意一个。另外,对于每个节点来说,该节点中还包括其所表示的第一对象对应的领域信息。表征两个第一对象的两个节点之间有向边的权重值,表示两个第一对象之间的转发数据和/或引用数据,以及转发和/或引用的次数,或者表示两个第一对象之间的转发和/或引用的次数的归一化值。
在获取到对象关系网络之后,可以根据该对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,确定待处理对象的关系数据。其中,待处理对象的关系数据用于表示待处理对象的影响力,其可以理解为待处理对象对其他对象的影响程度,或者也可以理解为待处理对象对其他对象造成的影响。其中,关系数据越大,说明待处理对象的权威度越高。
由于通过对象关系网络,确定出待处理对象的关系数据之后,可以基于该关系数据确定权威度,避免了传统方式中确定权威度的指标较为单一的现象,从而可以提高权威度的准确性。
在一种可能的实现方式中,在确定待处理对象的关系数据时,可以先根据对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,确定转发和/或引用了待处理对象的第一对象相对于所述待处理对象的权重值,该权重值用于表示第一对象的转发次数和/或引用次数,或者也可以表示为第一对象的转发次数和/或引用次数的归一化值,然后根据确定出的权重值,确定待处理对象的关系数据。
具体的,如上所述,对象关系网络中两个节点之间有向边的权重值,即表示两个第一对象之间的转发次数和/或引用次数。因此,可以根据该对象关系网络,确定出表征第一对象的节点在出度方向上的边权重值,该权重值即为转发和/或引用了该第一对象的其他第一对象相对于该第一对象的权重值。
图4为对象关系网络示意图,如图4所示,该对象关系网络中包括四个节点,其分别表示对象1、对象2、对象3和对象4,其中,转发和/或引用了对象1的对象2相对于对象1的权重值为0.5,转发和/或引用了对象1的对象3相对于对象1的权重值为0.4,转发和/或引用了对象2的对象3相对于对象2的权重值为0.6,转发和/或引用了对象3的对象2相对于对象3的权重值为0.5,转发和/或引用了对象3的对象4相对于对象3的权重值为1。
在上述方式中,由于通过预先构建的对象关系网络,可以直接确定出转发和/或引用了待处理对象的第一对象相对于待处理对象的权重值,因此,可以提高权重值获取的效率。
在确定出每个第一对象所对应的权重值之后,可以根据该权重值确定待处理对象的关系数据。示例性的,可以根据公式(1)迭代计算待处理对象的关系数据,直至上一轮计算得到的第一对象的关系数据组成的列向量与本轮计算得到的第一对象的关系数据组成的列向量之间的差小于预设值:
其中,Y(M)为待处理对象的关系数据,α为预设值,其可以根据经验得到,示例性的,α可以为经验值0.85,当然,其也可以为其他数值,对于α的具体取值,本申请实施例在此不做限制。n为转发和/或引用了待处理对象的第一对象的数量,wi为转发和/或引用了待处理对象的第i个第一对象Ri相对于所述待处理对象对应的权重值,Y(Ri)为上一轮计算得到的转发和/或引用了待处理对象的第i个第一对象Ri的关系数据,L为多个第一对象的数量。
具体的,以图4所示的对象关系网络为例详细说明确定待处理对象的关系数据的方式。假设L个第一对象之间不存在转发和/或引用数据的情况下,可以将所有的第一对象的关系数据统一初始化赋值为假设待处理对象为对象2,在第一轮迭代时,Y(R1)、Y(R3)和Y(R4)的值均为/>按照公式(1)可以计算出第一轮迭代后的对象2的关系数据Y′(R2)。另外,基于公式(1),也可以计算出第一轮迭代后的对象1的关系数据Y′(R1)、第一轮迭代后的对象3的关系数据Y′(R3)以及第一轮迭代后的对象4的关系数据Y′(R4),其中,计算Y′(R1)、Y′(R3)以及Y′(R4)的方式,与计算Y′(R2)的方式类似,Y(Ri)的值均为/>其中,用Yn表示第n轮迭代后各第一对象的关系数据组成的列向量。
在第一轮迭代计算结束,在考虑转发数据和/或引用数据的情况下,进行第二轮迭代计算时,Y(Ri)的值为第一轮计算出的Y′(R1)、Y′(R3)以及Y′(R4),按照公式(1),可以计算出第二轮迭代后的对象2的关系数据Y″(R2)。同理,按照同样的方式,也可以计算出第二轮迭代后的第二轮迭代后的对象1的关系数据Y″(R1)、第二轮迭代后的对象3的关系数据Y″(R3)以及第二轮迭代后的对象4的关系数据Y″(R4)。在第二轮迭代结束之后,将计算第一轮计算得到的第一对象的关系数据组成的列向量Y1与本轮计算得到的第一对象的关系数据组成的列向量Y2之间的差值是否小于预设值。若小于预设值,则将第二轮迭代计算后得到的Y″(R2)确定为对象2的关系数据。若不小于预设值,则继续进行第三轮迭代,其中,第三轮迭代时,可以基于第二轮计算出的Y″(R1)、Y″(R2)、Y″(R3)、和Y″(R4)。并重复执行上述过程,直至第n轮迭代后各第一对象的关系数据组成的列向量Yn,满足公式(2)时结束迭代:
|Yn-Yn-1|<m (2)
其中,Yn-1为第n-1轮迭代后各第一对象的关系数据组成的列向量,m为预设值,示例性的,该m可以为10-5,另外,该m也可以为其他值,对于m的具体数值,本申请实施例在此不做限制。
在结束迭代后,可以将第n轮计算出的对象2的关系数据,确定为最终的关系数据。
进一步的,如图4所示,在对象关系网络中,每个节点中还包括对应的第一对象的领域信息,如对象1的领域为财经,对象2的领域为国际,对象3的领域为科技,对象4的领域为社会。因此,采用上述方式,基于对象关系网络得到的待处理对象的关系数据,是在各个细分领域下的关系数据。
在本实施例中,通过迭代的方式计算待处理对象的关系数据,可以提高关系数据的准确性。另外,由于基于对象关系网络,可以得到各个细分领域下待处理对象的关系数据,可以避免现有技术中针对每个领域,都需要制定大量规则的现象,从而可以实现新媒体快速冷启动,以及增量式更新的目的。
步骤303:根据待处理对象在预设时间段内所发布的信息,确定待处理对象的影响数据。
可以理解的是,系统平台可以先执行步骤302,再执行步骤303,或者先执行步骤303,再执行步骤302,或者同时执行步骤302和步骤303。对于步骤302和步骤303的执行顺序,本申请实施例在此不做限制。
其中,待处理对象在预设时间段内所发布的信息,可以理解为待处理对象在预设时间段内所发布的新闻内容,或者所发布的新闻数据。
在本步骤中,待处理对象的影响数据,可以包括影响地域数据、影响时间数据和影响领域数据。其中,影响地域数据可以用于表示待处理对象在地域维度,对其他对象的影响程度。影响时间数据可以用于表示待处理对象在时间维度,对其他对象的影响程度,具体可以为待处理对象从发布某一条信息开始,到转发该信息的最晚的时间之间的时间跨度。影响领域数据可以用于表示待处理对象在领域维度,对其他对象的影响程度。
综上,在一种可能的实现方式中,在确定待处理对象的影响数据时,可以先分别确定待处理对象的影响地域数据、影响时间数据和影响领域数据,再根据上述影响地域数据、影响时间数据和影响领域数据,确定待处理对象的影响数据。
示例性的,可是将影响地域数据、影响时间数据和影响领域数据的和,确定为待处理对象的影响数据。也可以按照预设的影响地域数据、影响时间数据和影响领域数据各自所对应的权重值,确定待处理对象的影响数据。
在本方式中,通过影响地域数据、影响时间数据和影响领域数据,确定待处理对象的影响数据,由于考虑了各个维度的影响,因此,通过该影响数据确定的权威度将更加准确。
下面,将分别介绍影响地域数据、影响时间数据和影响领域数据的确定方式。
(1)对于影响地域数据,通过获取待处理对象在预设时间段内所发布的所有信息,并提取所有信息中每篇信息中的关键词,然后根据提取的关键词,确定待处理对象的影响地域数据。
其中,本申请实施例中根据对象经常报道的地域范围,可以将对象划分为“区域性媒体”,“地区性媒体”,“国家性媒体”和“国际性媒体”,并为这些地域范围对应的对象赋予不同的影响地域数据。例如,区域性媒体对应的对象的影响地域数据为0.2,地区性媒体对应的对象的影响地域数据为0.55,国家性媒体对应的对象的影响地域数据为0.85,国际性媒体对应的对象的影响地域数据为1。
在确定待处理对象经常报道的地域范围时,系统平台可以获取待处理对象在预设时间段内所发布的所有信息,其中,预设时间段可以为3个月,也可以为半年等。可以理解,预设时间段设置的越长,确定出的影响地域数据越准确。系统平台将每篇信息按照句号、问号或叹号进行分句,通过分词工具,对每一个句子进行词性标注,以提取出信息中的所有关键词。示例性的,上述关键词可以为地点名词,分词工具可以为结巴分词工具,当然,也可以为其他分词工具,只要能将句子进行词性标注即可。这样就可以得到该待处理对象所发布的所有信息中,提及过的所有地点名词集合,其中,地点名词可以用P来表示。
接下来,可以判断集合P中的地点名词,是否存在满足超过预设比例的地点名词属于同一个省,若是,则认为该待处理对象属于“区域性媒体”,否则,将判断是否存在满足超过预设比例的地点名词属于同一个地区(比如西北地区,华北地区),若是,则认为该待处理对象属于“地区性媒体”,否则将判断是否存在满足超过预设比例的地点名词属于同一个国家,若是,则认为该待处理对象属于“国家性媒体”,否则认为该待处理对象属于“国际性媒体”。其中,预设比例可以根据实际情况或者经验进行设置,例如可以设置为70%,对于预设比例的具体取值,本申请实施例在此不做限制。
进一步的,系统平台根据上述方式确定出待处理对象经常所报道的地域范围后,将根据预先设置的地域范围对应的对象与影响地域数据之间的对应关系,即可以确定出待处理对象的影响地域数据。例如,若确定出待处理对象为“国家性媒体”,则其对应的影响地域数据为0.85。
在本实施例中,通过提取待处理对象在预设时间段内所发布的所有信息中的关键词,并根据该关键词确定待处理对象的影响地域数据,由此不仅可以使得影响地域数据的确定方式更为简单,而且可以提高影响地域数据的准确性。
(2)对于影响时间数据,通过获取待处理对象在预设时间段内所发布的所有信息,并根据所有信息中每篇信息的转发时间和发布时间,确定每篇信息的转发时间跨度,然后根据每篇信息的转发时间跨度,确定待处理对象的影响时间数据。
具体的,系统平台可以获取待处理对象在预设时间段内所发布的所有信息,其中,预设时间段可以为3个月,也可以为半年等。可以理解,上述预设时间段设置的越长,确定出的影响时间数据越准确。在获取到预设时间段内所发布的所有信息之后,将依次检查每一篇信息,是否被其他对象所转发或引用过。若存在某一篇信息被其他对象所转发或引用过,则从所有转发或引用对象中查找到最晚的发布时间,并采用该发布时间减去本篇信息的发布时间,得到本篇信息的转发时间跨度。其中,转发信息是指转发或引用了该信息的数据。使用上述方式,将所有被其他对象所转发或引用过的信息的转发时间跨度进行叠加,得到待处理对象的总转发时间跨度。
举例来说,若待处理对象在近3个月内发布了5篇信息,其中,对象1发布的信息和对象2所发布的信息被其他对象所转发,且转发了对象1的转发信息的最晚发布时间是2020年7月20日,而对象1发布信息的时间为2020年6月30日,则可以确定出对象1的转发时间跨度为20天。转发了对象2的转发信息的最晚发布时间是2020年8月10日,而对象2的发布时间为2020年8月1日,则可以确定出对象2的转发时间跨度为9天。因此,待处理对象的总转发时间跨度为29天。
进一步的,在确定出总转发时间跨度之后,可以根据公式(3)计算待处理对象的影响时间数据:
其中,X2为待处理对象的影响时间数据,k为待处理对象的总转发时间跨度,n为待处理对象在预设时间段内所发布的信息的数量,a为预设值,示例性的,a的值可以为7。
另外,对于判断某一篇信息是否被其他对象所转发或引用的方式,将在下文中进行详细说明。
在本实施例中,通过确定待处理对象在预设时间段内所发布的所有信息的转发时间跨度,并根据该转发时间跨度确定待处理对象的影响时间数据,由此不仅可以使得影响时间数据的确定方式更为简单,而且可以提高影响时间数据的准确性。
(3)对于影响领域数据,可以根据对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,在多个第一对象中确定所有转发了待处理对象的信息的第二对象,并确定第二对象的领域信息,然后根据第二对象的领域信息,确定待处理对象的影响领域数据。
具体的,在对象关系网络中,确定出代表待处理对象的节点N,然后根据该对象关系网络,可以在多个第一对象中确定出所有转发了待处理对象的信息的第二对象。示例性的,上述第二对象可以是对象关系网络中所有指向节点N的节点所表征的对象。
另外,由于对象关系网络中的每个节点中还包括对应的第一对象的领域信息,因此,在确定出所有的第二对象之后,将可以统计出第二对象在所有不同的领域分类内的个数h。然后,根据如下公式(4),将可以计算出待处理对象的影响领域数据:
其中,X3为待处理对象的影响领域数据,b为总的领域个数,示例性的,b可以为14。
以图4所示的对象关系网络为例,假设对象1为待处理对象,根据该对象关系网络,可以确定出转发或引用了对象1的信息的第二对象包括对象2和对象3,并且对象2的领域信息为国际,对象3的领域信息为科技,也即第二对象在所有不同的领域分类内的个数h为2。由此,根据公式(4),将可以计算出待处理对象的影响领域数据。
在本实施例中,可以根据对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,确定出所有转发了待处理对象的信息的第二对象,然后根据第二对象的领域信息,可以确定出待处理对象的影响领域数据,由此不仅可以使得影响领域数据的确定方式更为简单,而且可以提高影响领域数据的准确性。
步骤304:根据关系数据和影响数据,确定待处理对象的权威度。
在本步骤中,系统平台在确定出关系数据和影响数据之后,可以根据这两个参数,确定待处理对象的权威度。
在一种可能的实现方式中,影响数据包括影响地域数据X1、影响时间数据X2和影响领域数据X3,那么,可以按照如下公式(5)确定待处理对象的权威度A:
A=(X1+X2+X3)·Y (5)
其中,Y为待处理对象的关系数据。
在本实施例中,可以结合待处理对象的关系数据和影响数据,确定该待处理对象的权威度,相比传统的方案,本申请中能够更加准确的对不同细分领域内的对象进行权威度的计算。
进一步的,由于在计算对象的影响数据和关系数据的过程中,需要对预设时间段内的全量信息进行分析处理,由于目前对象的数量大约有150万,而信息的总量约5亿条,因此,按照上述方式确定所有对象的权威度时,需要花费较长的时间,耗费大量的计算资源。基于此,本申请实施例中可以引入待处理对象的活跃度来对权威度进行增量式的更新。
在一种可能的实现方式中,可以通过获取待处理对象在预设时间段内所发布的信息的数量,并根据所发布的信息的数量,确定待处理对象的活跃度,然后将根据关系数据和影响数据确定出的待处理对象的初始权威度值,再根据活跃度进行更新,得到待处理对象的权威度。
具体的,在本申请中,假设在短期时间(小于7天)内,待处理对象的影响数据和关系数据是较稳定的,那么短期内待处理对象的权威度主要是受到待处理对象的活跃度Z的影响。其中,活跃度反映了待处理对象在预设时间段内,例如最近7天内发布信息的频繁程度。示例性的,可以通过获取待处理对象在预设时间段内所发布的信息的数量,然后根据预设的函数关系或者对应关系,来确定待处理对象的活跃度,其中,发布的信息的数量越多,则活跃度越高。
在确定出待处理对象的活跃度之后,可以根据公式(6)对得到的初始权威度进行更新:
其中,At+Δt表示待处理对象在第t+Δt天时的权威度,At表示待处理对象在第t天时的权威度,Zt表示待处理对象在第t天时的活跃度,Zt+Δt表示待处理对象在第t+Δt天时的活跃度,c为预设值,c的具体取值可以根据实际经验或者实际情况进行设置,示例性的,c的值可以为20,当然,c也可以为其他值。其中,c是用来防止Zt过小而Zt+Δt过大,或Zt+Δt过小而Zt过大的情况下,带来At+Δt的大幅变化。
可以理解,待处理对象在第t天时的活跃度,可以根据待处理对象在第t天前的预设时间段内所发布的信息的数量确定,待处理对象在第t+Δt天时的活跃度,可以根据待处理对象在第t+Δt天前的预设时间段内所发布的信息的数量确定。
在公式(6)中,At的值可以根据公式(5)计算,也可以根据公式(6)进行计算。为了提高权威度的准确性,并减小确定权威度所花费的时间,降低计算资源,在实际应用中,系统平台可以在第一次计算时,按照公式(5)计算出初始权威度,而在后续对初始权威度进行更新时,可以按照公式(6)进行。例如:可以设定在每周一的凌晨,通过计算影响地域数据X1、影响时间数据X2和影响领域数据X3,并结合公式(5)来确定待处理对象的初始权威度A,而在周二至周日的时间内,则通过计算活跃度Z值,并结合公式(6)来更新待处理对象的初始权威度A。由于公式(6)的计算量要远小于公式(5),这样可以节约大量的计算资源并能够快速更新所有媒体的权威度。
从公式(6)中可以看出,待处理对象在短期内发布信息越频繁,其活跃度Z越高,权威度也会得到小幅上升,反之,待处理对象发布信息的数量下降,也会带来权威度的减小。
在本实施例中,由于结合待处理对象的活跃度,来增量更新待处理对象的初始权威度,从而能够减小权威度的计算量,提高权威度计算的效率。
步骤305、根据每个待处理对象的权威度,对待处理对象在预设时间段内所发布的信息进行筛选,得到目标信息。
在本步骤中,由于用户通常希望接收到权威度较高的对象所发布的信息,因此,在确定出每个待处理对象的权威度之后,将可以根据每个待处理对象的权威度,对待处理对象在预设时间段内所发布的信息进行筛选,得到目标信息。
在一种可能的实现方式中,可以根据每个待处理对象的权威度,将权威度大于预设阈值的待处理对象确定为目标对象,并对目标对象在预设时间段内所发布的信息进行筛选,得到目标信息。
其中,预设阈值可以根据实际情况或者经验设置,例如可以设置为70等,对于预设阈值的具体取值,本申请实施例在此不做限制。
由于可以将权威度大于预设阈值的目标对象所发布的信息进行筛选后推送给用户,可以极大的提高用户对信息的接受率,而且可以提高所推送内容的准确性。
在另一种可能的实现方式中,还可以将权威度最高的待处理对象所发布的信息进行筛选后推送给终端设备,由此可以提高推送内容的准确性。
可以理解的是,本申请实施例中,系统平台在确定出各个待处理对象的权威度之后,也可以直接将确定出的权威度推送给终端设备,这样,用户在进行信息查询或者广告投放等操作时,可以选取权威度较高的对象进行,从而可以提高用户的体验。
步骤306、向终端设备推送目标信息。
在本步骤中,系统平台在确定出目标信息之后,将筛选后得到的目标信息发送给终端设备。
本申请实施例提供的信息的推送方法,针对每个待处理对象,通过根据预先存储的对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,确定待处理对象的关系数据,另外,还需要确定待处理对象的影响数据,从而可以根据关系数据和影响数据,共同确定待处理对象的权威度,从而可以根据确定出的每个待处理对象的权威度,对待处理对象在预设时间段内所发布的信息进行筛选,得到目标信息,并向终端设备推送目标信息。与传统的方案相比,本申请中不再是仅根据信息之间的转发数据以及对象的名称确定权威度,而是考虑了待处理对象所发布的信息的关系数据和影响数据来确定权威度,从而可以提高权威度的准确性,进而提高了信息推送的准确性。另外,本申请的方案相较于现有技术,还具有智能化程度高、且权威度确定方式可以动态自动变更等优点。
图5为本申请实施例提供的一种信息的推送方法的再一流程示意图,在本实施例中,将对图3所示实施例中的对象关系网络的构建方法进行详细说明。如图5所示,本申请实施例提供的信息的推送方法包括如下步骤:
步骤501:获取多个第一对象中每个第一对象所发布的至少一篇信息。
在本步骤中,第一对象的数量越多,则构建出的对象关系网络越准确。示例性的,多个第一对象可以为目前所有的对象。其中,每个第一对象所发布的信息中包含有如下基本属性:信息ID、标题、正文、发布源、发布时间、链接和作者等。
步骤502:根据至少一篇信息,确定第一对象所对应的领域信息、转发数据和引用数据。
在本步骤中,可以通过建模分析的方式,针对每篇信息,可以计算出该信息所对应的隐含属性:领域分类属性、是否转发了其他对象所发布的信息以及所转发的信息ID以及是否引用了其他对象所发布的信息以及所引用的信息ID等。
针对每一篇信息,可以用一个领域分类模型来判断该信息的领域类别。其中,对于领域分类模型可以按照如下方式进行训练得到:(1)获取训练数据,首先从各信息门户类网站上,按照网站划分的不同栏目来抽取信息数据,作为预标注训练集。为了保证样本内容的表述更加丰富,在抽取数据的过程中,每个网站的每个栏目在同一天发布的所有信息,仅随机抽取不超过两篇作为预标注训练样本。另外,可以在每个领域类别中分别抽取2000篇信息,然后由标注人员进行人工标注校准。(2)选择“单子句分类任务”模式对初始模型进行精调。具体的,标注样本中每一篇信息的标题作为句a,用空子串作为句b,用人工校准后的标注类别作为label的值,组成一条标注样本<a,b,label>,然后将标注样本集数据输入到预训练的初始模型中进行精调学习,得到最终的领域分类模型。其中,初始模型可以为预训练好的bert中文模型,也可以采用其他主流的多分类模型,比如fasttext模型、xgboost模型和TextCNN模型等。其中,采用预先训练好的bert中文模型进行领域分类时,准确性要高于其他模型。
为了提高领域分类模型的准确性,系统平台在进行模型训练之前,需要对获取到的信息的正文进行预处理。具体的,可以通过以下6条正则表达式过滤掉正文中的html标签:
'//<!\[CDATA\[[^>]*//\]\]>',
'<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',
'<\s*style[^>]*>[^<]*<\s*/\s*style\s*>',
'</?\w+[^>]*>',
'<br\s*?/?>',
'<!--[^>]*-->';
另外,还可以通过以下4条正则表达式过滤掉正文中的emoji表情符号:
'\U0001F600-\U0001F64F',
'\U0001F300-\U0001F5FF',
'\U0001F680-\U0001F6FF',
'\U0001F1E0-\U0001F1FF'。
通过上述方式对信息的正文进行预处理之后,可以由标注人员对预处理后的信息进行人工标注校准。
进一步的,在获取到领域分类模型之后,将针对每个第一对象所发布的每篇信息,可以将该信息的标题作为句a,空子串作为句b,输入到领域分类模型中,即可输出当前信息所属的领域类别。在输出领域类别之后,将会修改信息的发布源字段值为“发布源_领域类别”,譬如发布源为“XX网”,领域类别为“财经”,则修改后的发布源字段值为“XX网_财经”。
示例性的,本申请实施例中将领域类别可以归纳为以下的14个类别:社会,国际,财经,金融,科技,汽车,美食,军事,旅游,时尚,历史,搞笑,游戏和养生。
对于转发数据,若某篇信息中有超过80%的内容是转发自另一篇信息,则认为这两篇信息之间存在转发数据,且为发布时间较晚的信息转发发布时间较早的信息。
在判断信息转发数据之前,需要将所有的信息均存储于ES集群中。然后将所有的信息按照发布时间从早到晚进行排序,并顺次判断每篇信息是否转发了别的信息。具体地,首先取一篇待处理的信息X,用完整的正文去检索ES集群,集群返回与信息X文本相似度最高(这里的相似度仅仅是词汇的重合度比较高,而不会判断文本描述上的相似性),且发布时间早于信息X(信息X只可能转发发布时间早于它的信息)的预设数量篇信息(不足预设数量篇信息的,有多少信息便返回多少),其中,预设数量可以为1000。然后将ES集群返回的信息集(用Ei表示,0<i<1000),按照发布时间从早到晚进行排序,并顺次计算信息X是否转发了信息Ei。在具体的判断过程中,可以用一个预设长度,例如为20,步长为1的窗口从信息X的正文中截取字符串,并判断每个字符串是否出现在了被比较的信息Ei中。若出现,则将信息X的正文中对应的字符串进行标记。最后计算信息X中所有进行标记的字符数与信息X的正文总字符数之间的比值,若比值大于预设比例,则认为信息X转发了信息Ei,同时在信息X中记录“存在转发信息,转发信息的ID为信息Ei的ID”,“存在转发对象,转发对象为信息Ei的发布源”,然后结束处理。其中,预设比例可以根据经验或者实际情况进行设置,例如可以设置为80%。
对于引用数据,可以包括内容引用、提及引用和概念引用。
其中,内容引用是指若某篇信息正文中有超过30%,且不超过80%的内容是转发自另一篇信息,则认为这两篇信息之间存在引用数据,且为发布时间较晚的信息引用发布时间较早的信息。因此,在判断内容引用时,可以采用上述转发数据判断的方式,只是将上述的预设比例设置为较小的值,例如30%。
若检索出信息X引用了信息Ei,在信息X中记录“存在引用信息,引用信息的ID为信息Ei的ID”,“存在引用对象,引用对象为信息Ei的发布源”,然后结束处理。
其中,在判断是否存在提及引用时,可以判断待处理的信息X中是否存在如下句式:“对象名称+电/讯”,“对象名称+地点+日期+电/讯”,“当前对象名称记者+姓名”,“对象名称+特稿”,“对象名称+消息”等,比如“XX网北京4月8日电”或“ZZ网消息”。若存在上述句式中的至少一个,则表明信息X引用了句式中出现的对象“XX网”,“ZZ网”。假设信息X的领域类别为“财经”,则引用对象M记为“句式中的对象_信息X的领域类别”,比如“XX网_财经”,“ZZ网_财经”。最后在信息X中记录“存在引用对象,引用对象为M”。
其中,对于概念引用,这种情况比如ZZ网在新闻报道中首次提出了“CC”这一概念,接下来这个概念被其他对象进行大量引用。为了检查这种引用数据,首先需要找出某个对象M提出的所有新概念,具体的方法是将某个对象M发表的信息,按照发布时间从早到晚进行排序。然后顺次处理每一篇信息,从正文中提取出引号或书名号中的字符串。若这个字符串在早于该篇信息的所有已发表的信息中都没有出现过,在该对象M后续发表的信息中出现的篇数大于10,在其余对象后续发表的信息中出现的篇数大于20,则认为这个字符串为新概念。最后在所有出现过这一概念的信息X中记录,“存在引用对象,引用对象为‘M_对象X的领域类别’”。
步骤503:根据转发数据和引用数据,确定待构建的对象关系网络中表征两个第一对象的两个节点之间有向边的权重值,并构建对象关系网络。
其中,每个节点中还包括对应的第一对象的领域信息。
具体地,在确定出每个第一对象对应的转发数据和引用数据之后,将构建一个有向图网络,该有向图网络中每个节点代表一个第一对象;有向图网络中的每条有向边代表了两个节点(第一对象)之间存在着转发数据或引用数据,且有向边的箭头所指向的第一对象为被转发或被引用的对象,有向边的权重代表两个节点(第一对象)之间转发和引用的次数。
具体地,首先初始化一个空白的图网络,网络中节点个数和边的个数都为0。然后依次处理所有的信息,针对每一篇信息,假若信息的发布源不在图网络中,则在网络中创建一个表示该信息发布源的节点N1,反之跳过当前步骤;假若信息存在转发数据,且转发对象不在图网络中,则在网络中创建一个表示转发对象的节点N2。反之继续判断从节点N1到节点N2之间是否存在有向边,若不存在,则创建一条从节点N1到节点N2的有向边,并赋予边权重1;反之将从节点N1到节点N2的有向边的权重加1;假若对象存在引用数据,且引用对象不在图网络中,则在网络中创建一个表示引用对象的节点N_3。反之继续判断从节点N1到节点N3之间是否存在有向边,若不存在,则创建一条从节点N1到节点N3的有向边,并赋予边权重0.5;反之将从节点N1到节点N3的有向边的权重加0.5。最后,归一化所有节点在出度方向上的边权重。假设节点N2总共有三条指向其他节点的边,三条边的权重分别为1,2,3,那么归一化后三条边的权重分别为1/(1+2+3),2/(1+2+3),3/(1+2+3)。根据上述方式,可以得到如图3所示的对象关系网络,其中,构建的对象关系网络中每个节点中还包括对应的第一对象的领域信息。
在上述实施例中,通过获取多个第一对象中每个第一对象所发布的至少一篇信息,并根据至少一篇信息,确定第一对象所对应的领域信息、转发数据和引用数据,然后根据转发数据和引用数据,确定节点之间有向边的权重值,并构建对象关系网络,从而可以提高对象关系网络的完整性和准确性。
在一些实施例中,当系统平台在执行权威度确定的方案,并确定出待处理对象的权威度后,可以根据待处理对象的权威度向请求推送信息的用户或者企业推送权威度高于预设阈值的对象所发布的信息。在另一些实施例中,当系统平台在执行权威度确定的方案,并确定出待处理对象的权威度后,可以将待处理对象的权威度发送给查询该待处理对象的权威度的用户或者企业。在又一些实施例中,当该待处理对象的权威度较低时,还可以向上述用户或者企业发送提示信息。
图6为本申请提供的信息的推送装置60的结构示意图,该装置可以位于服务器,参见图6,所述装置包括:获取模块601、处理模块602和发送模块603,其中:
获取模块601用于获取多个待处理对象;
处理模块602用于针对每个待处理对象,根据预先存储的对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,确定所述待处理对象的关系数据,所述关系数据用于表示所述待处理对象的影响力,所述待处理对象为所述多个第一对象中的任意一个;
所述处理模块602还用于根据所述待处理对象在预设时间段内所发布的信息,确定所述待处理对象的影响数据;
所述处理模块602还用于根据所述关系数据和所述影响数据,确定所述待处理对象的权威度;
所述处理模块602还用于根据每个待处理对象的权威度,对所述待处理对象在预设时间段内所发布的信息进行筛选,得到目标信息;
发送模块603,用于向终端设备推送所述目标信息。
可选地,所述处理模块602具体用于:
根据所述对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,确定转发和/或引用了所述待处理对象的第一对象相对于所述待处理对象的权重值;
根据所述权重值,确定所述待处理对象的关系数据。
可选地,所述处理模块602具体用于:
根据公式迭代计算所述待处理对象的关系数据,直至上一轮计算得到的所述第一对象的关系数据组成的列向量与本轮计算得到的所述第一对象的关系数据组成的列向量之间的差值小于预设值;其中,Y(M)为所述待处理对象的关系数据,α为预设值,n为转发和/或引用了所述待处理对象的第一对象的数量,wi为转发和/或引用了所述待处理对象的第i个第一对象Ri相对于所述待处理对象对应的权重值,Y(Ri)为上一轮计算得到的转发和/或引用了所述待处理对象的第i个第一对象Ri的关系数据,L为所述多个第一对象的数量。
可选地,所述处理模块602具体用于:
分别确定所述待处理对象的影响地域数据、影响时间数据和影响领域数据;
根据所述影响地域数据、所述影响时间数据和所述影响领域数据,确定所述待处理对象的影响数据。
可选地,所述处理模块602具体用于:
获取所述待处理对象在预设时间段内所发布的所有信息;
提取所述所有信息中每篇信息中的关键词;
根据所述关键词,确定所述待处理对象的影响地域数据。
可选地,所述处理模块602具体用于:
获取所述待处理对象在预设时间段内所发布的所有信息;
根据所述所有信息中每篇信息的转发时间和发布时间,确定所述每篇信息的转发时间跨度;
根据所述每篇信息的转发时间跨度,确定所述待处理对象的影响时间数据。
可选地,所述处理模块602具体用于:
根据所述对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,在所述多个第一对象中确定所有转发了所述待处理对象的信息的第二对象;
确定所述第二对象的领域信息;
根据所述第二对象的领域信息,确定所述待处理对象的影响领域数据。
可选地,所述处理模块602具体用于:
获取所述待处理对象在预设时间段内所发布的信息的数量;
根据所述信息的数量,确定所述待处理对象的活跃度;
将所述关系数据和所述影响数据的乘积,确定为所述待处理对象的初始权威度值;
根据所述活跃度,对所述初始权威度值进行更新,得到所述待处理对象的权威度。
可选地,所述获取模块601还用于获取所述多个第一对象中每个第一对象所发布的至少一篇信息;
所述处理模块602还用于根据所述至少一篇信息,确定所述第一对象所对应的领域信息、转发数据和引用数据;
所述处理模块602还用于根据所述转发数据和所述引用数据,确定待构建的对象关系网络中表征所述两个第一对象的两个节点之间有向边的权重值,并构建所述对象关系网络,所述每个节点中还包括对应的所述第一对象的领域信息。
可选地,所述处理模块602具体用于:
根据每个待处理对象的权威度,将权威度大于预设阈值的待处理对象确定为目标对象;
对所述目标对象在预设时间段内所发布的信息进行筛选,得到目标信息。
上述装置可用于执行上述对应方法实施例提供的方法,具体实现方式和技术效果类似,这里不再赘述。
图7A示出了本申请服务器的一种可能的结构示意图。服务器700包括:处理单元702和通信单元703。处理单元702用于对服务器700的动作进行控制管理,例如,处理单元702用于支持服务器700执行图3的步骤301-步骤304,和/或用于本申请所描述的技术的其它过程。通信单元703用于支持服务器700与其它网络实体的通信。服务器700还可以包括存储单元701,用于存储服务器700的计算机程序代码和数据。
其中,处理单元702可以是处理器或控制器,例如可以是CPU,通用处理器,数字信号处理器(DigitalSignalProcessor,DSP),专用集成电路(Application-SpecificIntegrated Circuit,ASIC),现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。通信单元703可以是通信接口、收发器、收发电路等,其中,通信接口是统称,可以包括一个或多个接口。存储单元701可以是存储器。
当处理单元702为处理器,通信单元703为通信接口,存储单元701为存储器时,本发明所涉及的服务器可以为图7B所示的服务器。
参阅图7B所示,该服务器710包括:处理器712、通信接口713、存储器711。可选的,服务器710还可以包括总线714。其中,通信接口713、处理器712以及存储器711可以通过总线714相互连接;总线714可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。所述总线714可以分为地址总线、数据总线、控制总线等。为便于表示,图7B中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
另外,存储器711中存储有计算机程序,并且被配置为由处理器712执行,该计算机程序包括用于执行如上图3和图5所示实施例所述的方法的指令。
本申请实施例还提供一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机程序,所述计算机程序使得服务器执行前述图3和图5所示实施例提供的信息的推送方法。其中,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (13)
1.一种信息的推送方法,其特征在于,包括:
获取多个待处理对象;所述待处理对象包括各种新闻媒体;
针对每个待处理对象,根据预先存储的对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,确定所述待处理对象的关系数据,所述关系数据用于表示所述待处理对象的影响力,所述待处理对象为所述多个第一对象中的任意一个;所述对象关系网络是基于所述各种新闻媒体对应的数据进行构建的;
根据所述待处理对象在预设时间段内所发布的信息,确定所述待处理对象的影响数据;
根据所述关系数据和所述影响数据,确定所述待处理对象的权威度;
根据每个待处理对象的权威度,对所述待处理对象在预设时间段内所发布的信息进行筛选,得到目标信息;
向终端设备推送所述目标信息。
2.根据权利要求1所述的方法,其特征在于,所述根据预先存储的对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,确定所述待处理对象的关系数据,包括:
根据所述对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,确定转发和/或引用了所述待处理对象的第一对象相对于所述待处理对象的权重值;
根据所述权重值,确定所述待处理对象的关系数据。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述待处理对象在预设时间段内所发布的信息,确定所述待处理对象的影响数据,包括:
分别确定所述待处理对象的影响地域数据、影响时间数据和影响领域数据;
根据所述影响地域数据、所述影响时间数据和所述影响领域数据,确定所述待处理对象的影响数据。
5.根据权利要求4所述的方法,其特征在于,所述确定所述待处理对象的影响地域数据,包括:
获取所述待处理对象在预设时间段内所发布的所有信息;
提取所述所有信息中每篇信息中的关键词;
根据所述关键词,确定所述待处理对象的影响地域数据。
6.根据权利要求4所述的方法,其特征在于,确定所述待处理对象的影响时间数据,包括:
获取所述待处理对象在预设时间段内所发布的所有信息;
根据所述所有信息中每篇信息的转发时间和发布时间,确定所述每篇信息的转发时间跨度;
根据所述每篇信息的转发时间跨度,确定所述待处理对象的影响时间数据。
7.根据权利要求4所述的方法,其特征在于,确定所述待处理对象的影响领域数据,包括:
根据所述对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,在所述多个第一对象中确定所有转发了所述待处理对象的信息的第二对象;
确定所述第二对象的领域信息;
根据所述第二对象的领域信息,确定所述待处理对象的影响领域数据。
8.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述关系数据和所述影响数据,确定所述待处理对象的权威度,包括:
获取所述待处理对象在预设时间段内所发布的信息的数量;
根据所述信息的数量,确定所述待处理对象的活跃度;
将所述关系数据和所述影响数据的乘积,确定为所述待处理对象的初始权威度值;
根据所述活跃度,对所述初始权威度值进行更新,得到所述待处理对象的权威度。
9.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
获取所述多个第一对象中每个第一对象所发布的至少一篇信息;
根据所述至少一篇信息,确定所述第一对象所对应的领域信息、转发数据和引用数据;
根据所述转发数据和所述引用数据,确定待构建的对象关系网络中表征两个第一对象的两个节点之间有向边的权重值,并构建所述对象关系网络,所述每个节点中还包括对应的所述第一对象的领域信息。
10.根据权利要求1-3任一项所述的方法,其特征在于,所述根据每个待处理对象的权威度,对所述待处理对象在预设时间段内所发布的信息进行筛选,得到目标信息,包括:
根据每个待处理对象的权威度,将权威度大于预设阈值的待处理对象确定为目标对象;
对所述目标对象在预设时间段内所发布的信息进行筛选,得到目标信息。
11.一种信息的推送装置,其特征在于,包括:
获取模块,用于获取多个待处理对象;所述待处理对象包括各种新闻媒体;
处理模块,用于针对每个待处理对象,根据预先存储的对象关系网络中多个第一对象之间对信息的转发数据和/或引用数据,确定所述待处理对象的关系数据,所述关系数据用于表示所述待处理对象的影响力,所述待处理对象为所述多个第一对象中的任意一个;所述对象关系网络是基于所述各种新闻媒体对应的数据进行构建的;
所述处理模块,还用于根据所述待处理对象在预设时间段内所发布的信息,确定所述待处理对象的影响数据;
所述处理模块,还用于根据所述关系数据和所述影响数据,确定所述待处理对象的权威度;
所述处理模块,还用于根据每个待处理对象的权威度,对所述待处理对象在预设时间段内所发布的信息进行筛选,得到目标信息;
发送模块,用于向终端设备推送所述目标信息。
12.一种服务器,其特征在于,包括:
收发器;
处理器;
存储器;以及
计算机程序;
其中,所述计算机程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述计算机程序包括用于执行如权利要求1-10任一项所述的方法的指令。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得服务器执行权利要求1-10任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011063448.XA CN112202889B (zh) | 2020-09-30 | 2020-09-30 | 信息的推送方法、装置和存储介质 |
PCT/CN2021/119784 WO2022068659A1 (zh) | 2020-09-30 | 2021-09-23 | 信息的推送方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011063448.XA CN112202889B (zh) | 2020-09-30 | 2020-09-30 | 信息的推送方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112202889A CN112202889A (zh) | 2021-01-08 |
CN112202889B true CN112202889B (zh) | 2023-05-23 |
Family
ID=74012954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011063448.XA Active CN112202889B (zh) | 2020-09-30 | 2020-09-30 | 信息的推送方法、装置和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112202889B (zh) |
WO (1) | WO2022068659A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112202889B (zh) * | 2020-09-30 | 2023-05-23 | 深圳前海微众银行股份有限公司 | 信息的推送方法、装置和存储介质 |
CN115580649B (zh) * | 2022-08-31 | 2024-05-03 | 嘉兴学院 | 一种基于用户网络行为的智能信息推送方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324637A (zh) * | 2012-03-23 | 2013-09-25 | 腾讯科技(深圳)有限公司 | 一种热点信息挖掘方法和系统 |
CN108810089A (zh) * | 2018-05-04 | 2018-11-13 | 微梦创科网络科技(中国)有限公司 | 一种信息推送方法、装置及存储介质 |
CN108897860A (zh) * | 2018-06-29 | 2018-11-27 | 中国科学技术信息研究所 | 信息推送方法、装置、电子设备及计算机可读存储介质 |
CN109840319A (zh) * | 2017-11-24 | 2019-06-04 | 阿里巴巴集团控股有限公司 | 确定对象实体的方法、系统及计算机设备和存储介质 |
CN111143655A (zh) * | 2019-12-30 | 2020-05-12 | 创新奇智(青岛)科技有限公司 | 一种新闻热度的计算方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106126519B (zh) * | 2016-06-01 | 2019-07-26 | 腾讯科技(深圳)有限公司 | 媒体信息的展示方法及服务器 |
CN106202294B (zh) * | 2016-07-01 | 2020-09-11 | 北京奇虎科技有限公司 | 基于关键词和主题模型融合的相关新闻计算方法及装置 |
CN107169873B (zh) * | 2017-06-16 | 2021-05-11 | 北京信息科技大学 | 一种多特征融合的微博用户权威度评价方法 |
CN112202889B (zh) * | 2020-09-30 | 2023-05-23 | 深圳前海微众银行股份有限公司 | 信息的推送方法、装置和存储介质 |
-
2020
- 2020-09-30 CN CN202011063448.XA patent/CN112202889B/zh active Active
-
2021
- 2021-09-23 WO PCT/CN2021/119784 patent/WO2022068659A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324637A (zh) * | 2012-03-23 | 2013-09-25 | 腾讯科技(深圳)有限公司 | 一种热点信息挖掘方法和系统 |
CN109840319A (zh) * | 2017-11-24 | 2019-06-04 | 阿里巴巴集团控股有限公司 | 确定对象实体的方法、系统及计算机设备和存储介质 |
CN108810089A (zh) * | 2018-05-04 | 2018-11-13 | 微梦创科网络科技(中国)有限公司 | 一种信息推送方法、装置及存储介质 |
CN108897860A (zh) * | 2018-06-29 | 2018-11-27 | 中国科学技术信息研究所 | 信息推送方法、装置、电子设备及计算机可读存储介质 |
CN111143655A (zh) * | 2019-12-30 | 2020-05-12 | 创新奇智(青岛)科技有限公司 | 一种新闻热度的计算方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2022068659A1 (zh) | 2022-04-07 |
CN112202889A (zh) | 2021-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11580104B2 (en) | Method, apparatus, device, and storage medium for intention recommendation | |
US20210209182A1 (en) | Systems and methods for improved web searching | |
Kanishcheva et al. | Method of integration and content management of the information resources network | |
US9262509B2 (en) | Method and system for semantic distance measurement | |
US7949643B2 (en) | Method and apparatus for rating user generated content in search results | |
TW201546633A (zh) | 文本資訊的匹配、業務對象的推送方法和裝置 | |
US10068178B2 (en) | Methods and system for associating locations with annotations | |
CN112202889B (zh) | 信息的推送方法、装置和存储介质 | |
US20150199402A1 (en) | Computerized systems and methods for indexing and serving recurrent calendar events | |
CN105069103A (zh) | App搜索引擎利用用户评论的方法及系统 | |
Wu et al. | Extracting topics based on Word2Vec and improved Jaccard similarity coefficient | |
Li et al. | A hybrid model for experts finding in community question answering | |
CN112883030A (zh) | 数据收集方法、装置、计算机设备和存储介质 | |
CN115145871A (zh) | 文件查询方法、装置和电子设备 | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
US20170235835A1 (en) | Information identification and extraction | |
US10504145B2 (en) | Automated classification of network-accessible content based on events | |
CN107665442B (zh) | 获取目标用户的方法及装置 | |
CN111079035B (zh) | 基于动态图谱链接分析的领域搜索排序方法 | |
Wang et al. | The collective direction of attention diffusion | |
Fischer et al. | Timely semantics: a study of a stream-based ranking system for entity relationships | |
CN113434789B (zh) | 基于多维度文本特征的搜索排序方法及相关设备 | |
CN113468206A (zh) | 数据维护方法、装置、服务器、介质及产品 | |
Vysotska et al. | Set-theoretic models and unified methods of information resources processing in e-business systems | |
Gu et al. | Key analysis of smart tourism project setting and tourists' satisfaction degree based on data mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |