发明内容
本申请实施例提供了一种新闻处理方法、装置、设备及介质,用以解决现有技术在为新闻配置失效时间时存在新闻的失效时间的精准度较低的问题。
本申请实施例提供的技术方案如下:
一方面,本申请实施例提供了一种新闻处理方法,包括:
确定待处理的新闻和新闻的内容类别;
针对待匹配的各个事件,基于新闻的新闻内容信息中的各个词语分别与事件的事件内容信息的相关值,获得新闻与事件的相关值;
基于新闻分别与各个事件的相关值,从各个事件中,筛选新闻的各个关联事件;
针对各个关联事件,基于新闻的新闻内容信息与关联事件的事件内容信息的词语共现统计结果,获得新闻与关联事件的相似度;
基于新闻分别与各个关联事件的相似度,从各个关联事件中,筛选新闻的目标关联事件;
基于目标关联事件的时间节点以及新闻的内容类别,确定新闻的失效时间。
在一种可能的实施方式中,确定待处理的新闻和新闻的内容类别,包括:
获取对应的新闻类别为目标新闻类别的各个新闻;
针对各个新闻,获取新闻的特征向量,并基于新闻的特征向量,使用内容分类模型,获得新闻的内容类别;
从各个新闻中,获取对应的内容类别为任一目标内容类别的新闻为待处理的新闻,并记录待处理的新闻的内容类别。
在一种可能的实施方式中,获取新闻的特征向量,包括:
对新闻的标题进行分词处理,得到新闻的各个标题分词,并基于各个标题分词的词向量,获得新闻的标题词向量;
对新闻的正文进行分词处理,得到新闻的各个正文分词,并基于各个正文分词的词向量,获得新闻的正文词向量;
从新闻的正文中,提取包含时间信息的各个短句作为新闻的时间正文,并对时间正文进行分词处理,得到新闻的各个时间分词,基于各个时间分词的词向量,获得新闻的时间词向量;
基于新闻的标题词向量、正文词向量和时间词向量,获得新闻的特征向量。
在一种可能的实施方式中,基于新闻的新闻内容信息中的各个词语分别与事件的事件内容信息的相关值,获得新闻与事件的相关值之前,还包括:
确定新闻的新闻内容信息中的名词与事件的事件内容信息中的名词存在别名关系时,对存在别名关系的名词进行统一化处理。
在一种可能的实施方式中,基于新闻的新闻内容信息中的各个词语分别与事件的事件内容信息的相关值,获得新闻与事件的相关值,包括:
对新闻的新闻内容信息中的各个词语分别与事件的事件内容信息的相关值进行加权求和处理,得到新闻与事件的相关值。
在一种可能的实施方式中,基于新闻的新闻内容信息与关联事件的事件内容信息的词语共现统计结果,获得新闻与关联事件的相似度,包括:
获取新闻的新闻内容信息中的各个词语分别在关联事件的事件内容信息中出现的次数;
对新闻的新闻内容信息中的各个词语分别在关联事件的事件内容信息中出现的次数进行加权求和处理,得到新闻与事件的相似度。
在一种可能的实施方式中,基于目标关联事件的时间节点以及新闻的内容类别,确定新闻的失效时间,包括:
基于新闻的内容类别,从目标关联事件的各个发展阶段中,确定新闻对应的发展阶段;
从目标关联事件的各个时间节点中,确定与新闻对应的发展阶段关联的时间节点为新闻的失效时间。
在一种可能的实施方式中,从目标关联事件的各个时间节点中,筛选与新闻对应的发展阶段关联的时间节点为新闻的失效时间,包括:
若新闻对应的发展阶段为事件发生前,则从目标关联事件的各个时间节点中,确定目标关联事件的开始时间为新闻的失效时间;
若新闻对应的发展阶段为事件发生中,则从目标关联事件的各个时间节点中,确定目标关联事件的结束时间为新闻的失效时间;
若新闻对应的发展阶段为事件发生后,则从目标关联事件的各个时间节点中,确定目标关联事件的下一次开始时间为新闻的失效时间。
另一方面,本申请实施例提供了一种新闻处理装置,包括:
新闻确定单元,用于确定待处理的新闻和新闻的内容类别;
相关值获取单元,用于针对待匹配的各个事件,基于新闻的新闻内容信息中的各个词语分别与事件的事件内容信息的相关值,获得新闻与事件的相关值;
第一筛选单元,用于基于新闻分别与各个事件的相关值,从各个事件中,筛选新闻的各个关联事件;
相似度获取单元,用于针对各个关联事件,基于新闻的新闻内容信息与关联事件的事件内容信息的词语共现统计结果,获得新闻与关联事件的相似度;
第二筛选单元,用于基于新闻分别与各个关联事件的相似度,从各个关联事件中,筛选新闻的目标关联事件;
失效确定单元,用于基于目标关联事件的时间节点以及新闻的内容类别,确定新闻的失效时间。
在一种可能的实施方式中,在确定待处理的新闻和新闻的内容类别时,新闻确定单元具体用于:
获取对应的新闻类别为目标新闻类别的各个新闻;
针对各个新闻,获取新闻的特征向量,并基于新闻的特征向量,使用内容分类模型,获得新闻的内容类别;
从各个新闻中,获取对应的内容类别为任一目标内容类别的新闻为待处理的新闻,并记录待处理的新闻的内容类别。
在一种可能的实施方式中,在获取新闻的特征向量时,新闻确定单元具体用于:
对新闻的标题进行分词处理,得到新闻的各个标题分词,并基于各个标题分词的词向量,获得新闻的标题词向量;
对新闻的正文进行分词处理,得到新闻的各个正文分词,并基于各个正文分词的词向量,获得新闻的正文词向量;
从新闻的正文中,提取包含时间信息的各个短句作为新闻的时间正文,并对时间正文进行分词处理,得到新闻的各个时间分词,基于各个时间分词的词向量,获得新闻的时间词向量;
基于新闻的标题词向量、正文词向量和时间词向量,获得新闻的特征向量。
在一种可能的实施方式中,本申请实施例提供的新闻处理装置还包括:
统一化处理单元,用于在相关值获取单元基于新闻的新闻内容信息中的各个词语分别与事件的事件内容信息的相关值,获得新闻与事件的相关值之前,确定新闻的新闻内容信息中的名词与事件的事件内容信息中的名词存在别名关系时,对存在别名关系的名词进行统一化处理。
在一种可能的实施方式中,在基于新闻的新闻内容信息中的各个词语分别与事件的事件内容信息的相关值,获得新闻与事件的相关值时,相关值获取单元具体用于:
对新闻的新闻内容信息中的各个词语分别与事件的事件内容信息的相关值进行加权求和处理,得到新闻与事件的相关值。
在一种可能的实施方式中,在基于新闻的新闻内容信息与关联事件的事件内容信息的词语共现统计结果,获得新闻与关联事件的相似度时,相似度获取单元具体用于:
获取新闻的新闻内容信息中的各个词语分别在关联事件的事件内容信息中出现的次数;
对新闻的新闻内容信息中的各个词语分别在关联事件的事件内容信息中出现的次数进行加权求和处理,得到新闻与事件的相似度。
在一种可能的实施方式中,在基于目标关联事件的时间节点以及新闻的内容类别,确定新闻的失效时间时,失效确定单元具体用于:
基于新闻的内容类别,从目标关联事件的各个发展阶段中,确定新闻对应的发展阶段;
从目标关联事件的各个时间节点中,确定与新闻对应的发展阶段关联的时间节点为新闻的失效时间。
在一种可能的实施方式中,在从目标关联事件的各个时间节点中,筛选与新闻对应的发展阶段关联的时间节点为新闻的失效时间时,失效确定单元具体用于:
若新闻对应的发展阶段为事件发生前,则从目标关联事件的各个时间节点中,确定目标关联事件的开始时间为新闻的失效时间;
若新闻对应的发展阶段为事件发生中,则从目标关联事件的各个时间节点中,确定目标关联事件的结束时间为新闻的失效时间;
若新闻对应的发展阶段为事件发生后,则从目标关联事件的各个时间节点中,确定目标关联事件的下一次开始时间为新闻的失效时间。
另一方面,本申请实施例提供了一种新闻处理设备,包括:存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现本申请实施例提供的新闻处理方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令被处理器执行时实现本申请实施例提供的新闻处理方法。
本申请实施例的有益效果如下:
本申请实施例中,通过为新闻筛选目标关联事件,并基于该目标关联事件的各个时间节点和该新闻的内容类别,确定该新闻的失效时间,不仅可以根据该新闻的内容类别,准确地确定出该新闻在该目标关联事件中所处的发展阶段,而且,还可以根据该新闻在该目标关联事件中所处的发展阶段,从该目标关联事件的各个时间节点中,准确地筛选出该新闻的失效时间,从而在根据该新闻的失效时间,对该新闻进行下架处理时,可以提高对该新闻进行下架处理的及时性,此外,利用新闻与事件的相关值和相似度,对各个事件进行两层筛选,使得获得的目标关联事件更接近新闻报道的事件内容,从而使得根据目标关联事件的各个时间节点和新闻的内容类别确定出的失效时间更为精准,进一步地提高了新闻的失效时间的精准度。
具体实施方式
为了使本申请的目的、技术方案及有益效果更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于本领域技术人员更好地理解本申请,下面先对本申请涉及的技术用语进行简单介绍。
1、客户端,为可以安装在手机、计算机、个人数字助理(Personal DigitalAssistant,PDA)、智能电视等终端设备上,具有新闻浏览功能且支持用户交互的一种应用程序。
2、服务器,为可以为客户端提供失效时间配置服务、数据库服务、计算服务等各类服务的后台运行设备。
3、新闻,为对事件进行报道的文章。其中:
新闻内容信息,为对新闻报道的事件的内容进行概括描述的信息,包括但不限于:新闻的标题和正文中的设定语句等。例如:新闻内容信息可以包括但不限于:新闻的标题和正文的前4句等;
新闻类别,为根据新闻所描述的事件的类型,对新闻进行划分的类别。例如:新闻类别可以包括但不限于:体育比赛类、影视类、财经类、科技类、社会类等;
内容类别,为根据新闻所描述的事件的发展阶段,对新闻进行划分的类别。例如:对于体育比赛类新闻,内容类别可以包括但不限于:赛前预热类、赛中战况类和赛后战报类,当然,还可以包括但不限于:新闻爆料类、经典赛事盘点类等。
新闻数据库,为用于存储新闻的数据库。本申请中,新闻数据库中的新闻可以按照新闻类别进行存储。
4、事件,为可以对一定人群产生影响的事情。例如:体育比赛事件、影视上映事件、新品发布事件等。其中:
时间节点,为与事件发生前、事件发生中和事件发生后等事件的各个发展阶段相关联的时间点,包括但不限于:开始时间、结束时间和下一次开始时间。例如:体育比赛事件的时间节点可以包括但不限于:体育比赛的开始时间、结束时间和下一轮开始时间。
事件内容信息,为对事件进行概括描述的信息,包括但不限于:事件的时间节点、参与主体、参与角色等。例如:在一个实施例中,体育比赛事件的事件内容信息可以包括但不限于:体育比赛的开始时间、结束时间、下一轮开始时间、赛事主体和参赛角色;在另一个实施例中,体育比赛事件的事件内容信息可以包括但不限于:体育比赛的开始时间、赛事主体和参赛角色。
事件数据库,为用于存储事件的相关信息的数据库,其中,事件数据库与新闻类别一一对应。例如:体育比赛类新闻对应的事件数据库可以是用于存储各个体育比赛的时间节点、赛事主体、参赛角色等信息的数据库,具体的,体育比赛类新闻对应的事件数据库可以是,从体育类网站爬取各个体育比赛的时间节点、赛事主体、参赛角色等信息后,根据爬取到的各个体育比赛的时间节点、赛事主体、参赛角色等信息建立的。本申请中,事件数据库可以采用列表的形式存储各个事件,例如:参阅表1所示,为体育比赛类新闻对应的事件数据库的一个示意,该事件数据库中存储有各个体育比赛的开始时间、赛事主体和参赛角色,当然,该事件数据库中还可以存储有各个体育比赛的结束时间和下一轮开始时间,本申请不作限定。
表1.
开始时间 |
赛事主体 |
参赛角色 |
2019-07-06 03:30 |
XX夏季联赛 |
XX队76人 |
2019-07-07 17:30 |
XX联赛第15轮 |
A队vs B队 |
2019-07-07 18:00 |
XX职业联赛 |
C队vs D队 |
2019-07-07 18:00 |
XX职业联赛 |
E队vs F队 |
2019-07-07 18:00 |
XX乙级联赛 |
G队vs H队 |
2019-07-07 19:35 |
XX联赛第16轮 |
J队vs K队 |
2019-07-07 19:35 |
XX联赛第16轮 |
M队vs N队 |
…… |
…… |
…… |
5、别名数据库,为用于存储事件所涉及的各个名词的正式名称和别名的数据库,其中,别名数据库与新闻类别一一对应。例如:体育比赛类新闻对应的别名数据库可以是用于存储体育比赛涉及的各个参赛角色和赛事主体的正式名称和别名的数据库。本申请中,别名数据库可以采用列表的形式存储各个名词的正式名称和别名,例如:参阅表2所示,为体育比赛类新闻对应的别名数据库的一个示意,该别名数据库中存储有体育比赛涉及的各个参赛角色和赛事主体的正式名称和别名。
表2.
体育项目 |
名词类型 |
正式名称 |
别名 |
篮球 |
参赛角色 |
A队 |
A1/A2/A3 |
足球 |
参赛角色 |
B队 |
B1/B2 |
足球 |
参赛角色 |
C队 |
C1/C2/C3 |
足球 |
参赛角色 |
E队 |
/ |
足球 |
赛事主体 |
XX联赛 |
XX |
…… |
…… |
…… |
…… |
在介绍了本申请涉及的技术用语后,接下来,对本申请实施例的应用场景和设计思想进行简单介绍。
目前,在为新闻配置失效时间时,通常采用短时效规则匹配加内容分类匹配的失效时间识别方法,识别出新闻的失效时间后,基于识别出的失效时间,为该新闻进行失效时间配置,具体的,参阅图1所示,该失效时间识别方法为:获取待处理的新闻,检测该新闻中是否存在短时效词典中记录的明晨、昨晚、刚刚、今晚等任一短时效词,若存在,则将为该新闻中存在的短时效词配置的失效时间,确定为该新闻的失效时间,若不存在,则获取该新闻的特征向量,将该新闻的特征向量输入内容分类模型,得到该新闻的内容类别,并基于存储的内容类别与失效时间的映射关系,确定该新闻的内容类别所对应的失效时间,为该新闻的失效时间。其中,内容类别与失效时间的映射关系可以采用列表的形式进行存储,例如:参阅表3所示,为体育比赛类新闻对应的内容类别与失效时间的映射关系的一个示意。
表3.
内容类别 |
失效时间(单位:小时) |
赛前预热 |
24 |
赛中战况 |
3 |
赛后战报 |
72 |
新闻爆料 |
168 |
经典赛事盘点 |
720 |
…… |
…… |
显然,目前的失效时间识别方法依赖于对新闻进行内容分类的能力以及对短时效词进行识别的能力,最终获得的失效时间的粒度较粗,精准度较低,可能影响新闻下架的及时性。
因此,针对上述问题,本申请实施例提供了一种新闻处理系统,参阅图2所示,该新闻处理系统可以包括服务器201,安装在终端设备202上的新闻编辑平台203,以及安装在终端设备202上的客户端204,其中,新闻编辑平台203和客户端204可以通过通信网络205与服务器201进行通信连接。实际应用中,编辑人员可以在新闻编辑平台203上编辑新闻,并通过新闻编辑平台203,将编辑的各个新闻发送到服务器201;服务器201可以将新闻编辑平台203发送的各个新闻存储在新闻数据库中,确定到达失效时间配置周期时,根据目标新闻类别和目标内容类别,从该新闻数据库在当前失效时间配置周期内存储的所有新闻中,获取待处理的各个新闻,并为待处理的各个新闻分别配置失效时间,进而,客户端204就可以根据服务器201为各个新闻分别配置的失效时间,及时地对各个新闻进行下架处理。
实际应用中,服务器201在为待处理的各个新闻分别配置失效时间时,可以采用本申请实施例提供的新闻处理方法,具体的,服务器201针对待处理的各个新闻,可以基于该新闻分别与各个事件的相关值,从各个事件中,筛选该新闻的各个关联事件,并基于该新闻分别与各个关联事件的相似度,从各个关联事件中,筛选该新闻的目标关联事件,以及基于该目标关联事件的时间节点以及该新闻的内容类别,确定该新闻的失效时间。这样,通过为新闻筛选目标关联事件,并基于该目标关联事件的各个时间节点和该新闻的内容类别,确定该新闻的失效时间,不仅可以根据该新闻的内容类别,准确地确定出该新闻在该目标关联事件中所处的发展阶段,而且,还可以根据该新闻在该目标关联事件中所处的发展阶段,从该目标关联事件的各个时间节点中,准确地筛选出该新闻的失效时间,从而在根据该新闻的失效时间,对该新闻进行下架处理时,可以提高对该新闻进行下架处理的及时性,此外,利用新闻与事件的相关值和相似度,对各个事件进行两层筛选,使得获得的目标关联事件更接近新闻报道的事件内容,从而使得根据目标关联事件的各个时间节点和新闻的内容类别确定出的失效时间更为精准,进一步地提高了新闻的失效时间的精准度。
应当理解,图2中的服务器、终端设备和通信网络的数目仅仅是示意性的,根据实际需求可以具有任意数目的服务器、终端设备和通信网络,对此,本申请不作限定。
在介绍了本申请实施例的应用场景和设计思想之后,下面对本申请实施例提供的技术方案进行详细说明。
本申请实施例提供了一种新闻处理方法,该新闻处理方法可以应用于如图2所示的新闻处理系统200中的服务器201,参阅图3所示,本申请实施例提供的新闻处理方法的流程如下:
步骤301:确定待处理的新闻和该新闻的内容类别。
具体的,服务器201在确定待处理的新闻和该新闻的内容类别时,可以采用但不限于以下方式:
首先,服务器201确定到达失效时间配置周期时,从新闻数据库在当前失效时间配置周期内存储的所有新闻中,获取对应的新闻类别为目标新闻类别的各个新闻。
然后,服务器201针对获得的目标新闻类别下的各个新闻,获取该新闻的特征向量,并基于该新闻的特征向量,使用内容分类模型,获得该新闻的内容类别。其中,服务器201在获取该新闻的特征向量时可以包括但不限于以下步骤:对该新闻的标题进行分词处理,得到该新闻的各个标题分词,并基于各个标题分词的词向量,获得该新闻的标题词向量;对该新闻的正文进行分词处理,得到该新闻的各个正文分词,并基于各个正文分词的词向量,获得该新闻的正文词向量;从该新闻的正文中,提取包含时间信息的各个短句作为该新闻的时间正文,并对该时间正文进行分词处理,得到该新闻的各个时间分词,基于各个时间分词的词向量,获得该新闻的时间词向量;基于该新闻的标题词向量、正文词向量和时间词向量,获得该新闻的特征向量。
最后,服务器201从各个新闻中,获取对应的内容类别为任一目标内容类别的新闻作为待处理的新闻,并记录该待处理的新闻的内容类别。
步骤302:针对待匹配的各个事件,基于该新闻的新闻内容信息中的各个词语分别与该事件的事件内容信息的相关值,获得该新闻与该事件的相关值。
在具体实施时,服务器201可以根据待处理的新闻对应的新闻类别,获得相应的事件数据库,并将该事件数据库中的各个事件分别确定为待匹配的事件。
进一步的,服务器201针对待匹配的各个事件,可以基于该新闻的新闻内容信息中的各个词语分别与该事件的事件内容信息的相关值,获得该新闻与该事件的相关值。
值得说的是,本申请实施例中,为了提高相关值的精准度,服务器201针对待匹配的各个事件,在基于该新闻的新闻内容信息中的各个词语分别与该事件的事件内容信息的相关值,获得该新闻与该事件的相关值之前,还可以获取为目标新闻类别建立的别名数据库,并根据该别名数据库中存储的各个名词的正式名称和别名的映射关系,检测该新闻的新闻内容信息中的名词与该事件的事件内容信息中的名词是否存在别名关系,当确定该新闻的新闻内容信息中的名词与该事件的事件内容信息中的名词存在别名关系时,对存在别名关系的名词进行统一化处理。
进一步的,服务器201针对待匹配的各个事件,在对该新闻的新闻内容信息和该事件的事件内容信息中存在别名关系的名词进行统一化处理后,在基于该新闻的新闻内容信息中的各个词语分别与该事件的事件内容信息的相关值,获得该新闻与该事件的相关值时,可以采用但不限于以下方式:服务器201可以获取该新闻的新闻内容信息中的各个词语分别与该事件的事件内容信息的相关值,并对该新闻的新闻内容信息中的各个词语分别与该事件的事件内容信息的相关值进行加权求和处理,得到该新闻与该事件的相关值。
步骤303:基于该新闻分别与各个事件的相关值,从各个事件中,筛选该新闻的各个关联事件。
具体的,服务器201在基于该新闻分别与各个事件的相关值,从各个事件中,筛选该新闻的各个关联事件时,可以采用但不限于以下方式:
第一种方式:服务器201可以从各个事件中,筛选出对应的相关值不小于相关阈值的事件作为该新闻的关联事件。
第二种方式:服务器201可以从各个事件中,筛选出对应的相关值的排名在前M内的事件作为该新闻的关联事件。
步骤304:针对各个关联事件,基于该新闻的新闻内容信息与该关联事件的事件内容信息的词语共现统计结果,获得该新闻与该关联事件的相似度。
进一步的,服务器201针对各个关联事件,在基于该新闻的新闻内容信息与该关联事件的事件内容信息的词语共现统计结果,获得该新闻与该关联事件的相似度时,可以采用但不限于以下方式:服务器201可以获取该新闻的新闻内容信息中的各个词语分别在该关联事件的事件内容信息中出现的次数,并对该新闻的新闻内容信息中的各个词语分别在该关联事件的事件内容信息中出现的次数进行加权求和处理,得到该新闻与该事件的相似度。
步骤305:基于该新闻分别与各个关联事件的相似度,从各个关联事件中,筛选该新闻的目标关联事件。
具体的,服务器201在基于该新闻分别与各个关联事件的相似度,从各个关联事件中,筛选该新闻的目标关联事件时,可以采用但不限于以下方式:服务器201可以从各个关联事件中,筛选出对应的相似度最高的关联事件作为该新闻的目标关联事件。
步骤306:基于该目标关联事件的各个时间节点以及该新闻的内容类别,确定该新闻的失效时间。
具体的,服务器201在基于该目标关联事件的时间节点以及该新闻的内容类别,确定该新闻的失效时间时,可以采用但不限于以下方式:
首先,服务器201基于该新闻的内容类别,从该目标关联事件的各个发展阶段中,确定该新闻对应的发展阶段。
然后,服务器201从该目标关联事件的各个时间节点中,确定与该新闻对应的发展阶段关联的时间节点为该新闻的失效时间。具体的,服务器201在确定与该新闻对应的发展阶段关联的时间节点为该新闻的失效时间时,可能存在但不限于以下三种情况:
第一种情况:该新闻对应的发展阶段为事件发生前。
此种情况下,服务器201可以从该目标关联事件的各个时间节点中,确定该目标关联事件的开始时间为该新闻的失效时间。
第二种情况:该新闻对应的发展阶段为事件发生中。
此种情况下,服务器201可以从该目标关联事件的各个时间节点中,确定该目标关联事件的结束时间为该新闻的失效时间。
第三种情况:该新闻对应的发展阶段为事件发生后。
此种情况下,服务器201可以从该目标关联事件的各个时间节点中,确定该目标关联事件的下一次开始时间为该新闻的失效时间。
这样,通过为新闻筛选目标关联事件,并基于该目标关联事件的各个时间节点和该新闻的内容类别,确定该新闻的失效时间,不仅可以根据该新闻的内容类别,准确地确定出该新闻在该目标关联事件中所处的发展阶段,而且,还可以根据该新闻在该目标关联事件中所处的发展阶段,从该目标关联事件的各个时间节点中,准确地筛选出该新闻的失效时间,从而在根据该新闻的失效时间,对该新闻进行下架处理时,可以提高对该新闻进行下架处理的及时性,此外,利用新闻与事件的相关值和相似度,对各个事件进行两层筛选,使得获得的目标关联事件更接近新闻报道的事件内容,从而使得根据目标关联事件的各个时间节点和新闻的内容类别确定出的失效时间更为精准,进一步地提高了新闻的失效时间的精准度。
通常情况下,体育比赛类新闻对时效性要求较高,针对体育比赛类新闻,可以采用本申请实施例提供的新闻处理方法,获得体育比赛类新闻的失效时间并进行配置,从而确保体育比赛类新闻能够及时下架。
实际应用中,参阅图4A所示,本申请实施例提供的体育比赛类新闻处理方法可以包括:确定到达失效时间配置周期时,从新闻数据库在当前失效时间配置周期内存储的各个新闻中,获取对应的新闻类别为体育比赛类的各个新闻,并从获得的各个新闻中,筛选出对应的内容类别为赛前预热类、赛中战况类和赛后战报类中的任一类别的新闻作为待处理的新闻;针对待处理的各个新闻,采用BM25算法,获得该新闻分别与体育比赛类新闻对应的事件数据库中的各个体育比赛事件的相关值,并从各个体育比赛事件中,筛选出对应的相关值的排名在前M内的体育比赛事件作为该新闻的关联体育比赛事件;采用词语共现算法,获得该新闻分别与各个关联体育比赛事件的相似度,并从各个关联体育比赛事件中,筛选出对应的相似度最高的关联体育比赛事件作为该新闻的目标关联体育比赛事件;基于该目标关联体育比赛事件的各个时间节点以及该新闻的内容类别,确定该新闻的失效时间。
接下来,对本申请实施例提供的体育比赛类新闻处理方法进行详细说明,参阅图4B所示,本申请实施例提供的体育比赛类新闻处理方法的具体流程如下:
步骤401:服务器201确定到达失效时间配置周期时,从新闻数据库在当前失效时间配置周期内存储的所有新闻中,获取对应的新闻类别为体育比赛类的各个新闻。
步骤402:服务器201从各个新闻中,筛选出对应的内容类别为赛前预热类、赛中战况类和赛后战报类中的任一类别的新闻作为待处理的新闻。
实际应用中,参阅图4C所示,服务器201在从各个新闻中筛选待处理的新闻时,可以采用但不限于以下方式:
首先,服务器201获取各个新闻的特征向量。具体的,参阅图4D所示,服务器201针对各个新闻,可以对该新闻的标题进行分词处理,得到该新闻的各个标题分词,并对各个标题分词的词向量进行累加和归一化处理,得到该新闻的标题词向量;对该新闻的正文进行分词处理,得到该新闻的各个正文分词,并对各个正文分词的词向量进行累加和归一化处理,得到该新闻的正文词向量;从该新闻的正文中,提取包含时间信息的各个短句作为该新闻的时间正文,并对该时间正文进行分词处理,得到该新闻的各个时间分词,对各个时间分词的词向量进行累加和归一化处理,得到该新闻的时间词向量;基于该新闻的标题词向量、正文词向量和时间词向量,获得该新闻的特征向量。
然后,服务器201基于各个新闻的特征向量,使用内容分类模型,获得各个新闻的内容类别。
最后,服务器201从各个新闻中,筛选出对应的内容类别为赛前预热类、赛中战况类和赛后战报类中的任一类别的新闻作为待处理的新闻。
步骤403:服务器201从该新闻中,提取标题和正文中的设定语句,并将提取出的标题和正文中的设定语句确定为该新闻的新闻内容信息。
步骤404:服务器201获取为体育比赛类的新闻建立的事件数据库,并将该事件数据库中存储的各个体育比赛事件分别作为待匹配的体育比赛事件。
步骤405:服务器201针对待匹配的各个体育比赛事件,将事件数据库中存储的该体育比赛事件的时间节点、赛事主体和参赛角色确定为该体育比赛事件的赛事内容信息。
步骤406:服务器201获取为体育比赛类的新闻建立的别名数据库。
步骤407:服务器201根据该别名数据库中存储的各个参赛角色和赛事主体的正式名称和别名,对该新闻的新闻内容信息和各个体育比赛事件的赛事内容信息中存在别名关系的参赛角色和赛事主体进行统一化处理。
步骤408:服务器201针对各个体育比赛事件,获取该新闻的新闻内容信息中的各个词语分别与该体育比赛事件的赛事内容信息的相关值,并对该新闻的新闻内容信息中的各个词语分别与该体育比赛事件的赛事内容信息的相关值进行加权求和处理,得到该新闻与该体育比赛事件的相关值。
实际应用中,服务器201可以采用BM25算法实现步骤408的操作,即服务器201针对各个体育比赛事件,可以采用BM25算法,获得该新闻与该体育比赛事件的相关性得分,并将该相关性得分确定为该新闻与该体育比赛事件的相关值。
步骤409:服务器201从各个体育比赛事件中,筛选出对应的相关值的排名在前M内的体育比赛事件作为该新闻的关联体育比赛事件。其中,M为根据经验值设置的正整数,例如:M可以设置为10。
步骤410:服务器201针对各个关联体育比赛事件,获取该新闻的新闻内容信息中的各个词语分别在该关联体育比赛事件的赛事内容信息中出现的次数,并对该新闻的新闻内容信息中的各个词语分别在该关联体育比赛事件的赛事内容信息中出现的次数进行加权求和处理,得到该新闻与该关联体育比赛事件的相似度。
实际应用中,服务器201可以采用词语共现算法实现步骤410的操作,即服务器201针对各个关联体育比赛事件,可以采用词语共现算法,获得该新闻与该体育比赛事件的词语共现统计结果,并将该词语共现统计结果表征的词语共现次数确定为该新闻与该体育比赛事件的相似度。
步骤411:服务器201从各个关联体育比赛事件中,筛选出对应的相似度最高的关联体育比赛事件作为该新闻的目标关联体育比赛事件。
步骤412:服务器201基于该新闻的内容类别,从该目标关联体育比赛事件的各个发展阶段中,确定该新闻对应的发展阶段,并从该目标关联体育比赛事件的各个时间节点中,确定与该新闻对应的发展阶段关联的时间节点为该新闻的失效时间。
实际应用中,服务器201在基于该新闻的内容类别,从该目标关联体育比赛事件的各个发展阶段中,确定该新闻对应的发展阶段时,可能存在但不限于以下三种情况:
第一种情况:该新闻的内容类别为赛前预热类。
此种情况下,服务器201可以将该目标关联体育比赛事件的各个发展阶段中的赛前,确定为该新闻对应的发展阶段。
第二种情况:该新闻的内容类别为赛中战况类。
此种情况下,服务器201可以将该目标关联体育比赛事件的各个发展阶段中的赛中,确定为该新闻对应的发展阶段。
第三种情况:该新闻的内容类别为赛后战报类。
此种情况下,服务器201可以将该目标关联体育比赛事件的各个发展阶段中的赛后,确定为该新闻对应的发展阶段。
进一步的,服务器201确定出该新闻对应的发展阶段后,从该目标关联体育比赛事件的各个时间节点中,确定与该新闻对应的发展阶段关联的时间节点为该新闻的失效时间时,可能存在但不限于以下三种情况:
第一种情况:该新闻对应的发展阶段为赛前。
此种情况下,服务器201可以从目标关联体育比赛事件的各个时间节点中,确定该目标关联体育比赛事件的比赛开始时间为该新闻的失效时间。具体的,服务器201可以采用但不限于以下方式:
首先,服务器201可以从体育比赛类新闻对应的事件数据库中,获取该目标关联体育比赛事件的时间节点。
然后,服务器201可以从该目标关联体育比赛事件的时间节点中,获取该目标关联体育比赛事件的开始时间作为该新闻的失效时间。
第二种情况:该新闻对应的发展阶段为赛中。
此种情况下,服务器201可以从该目标关联体育比赛事件的各个时间节点中,确定该目标关联体育比赛事件的比赛结束时间为该新闻的失效时间。具体的,服务器201可以采用但不限于以下方式:
首先,服务器201可以从体育比赛类新闻对应的事件数据库中,获取该目标关联体育比赛事件的时间节点,并从该目标关联体育比赛事件的时间节点中,获取该目标关联体育比赛事件的结束时间。
然后,服务器201若获得该目标关联体育比赛事件的结束时间,则将该目标关联体育比赛事件的结束时间作为该新闻的失效时间;若未获得该目标关联体育比赛事件的结束时间,则从该目标关联体育比赛事件的时间节点中,获取该目标关联体育比赛事件的开始时间,并基于该目标关联体育比赛事件的开始时间和该目标关联体育比赛事件的比赛持续时间,确定该目标关联体育比赛事件的结束时间,以及将确定出的该目标关联体育比赛事件的结束时间作为该新闻的失效时间。
第三种情况:该新闻对应的发展阶段为赛后。
此种情况下,服务器201可以从该目标关联体育比赛事件的各个时间节点中,确定该目标关联体育比赛事件的下一次比赛开始时间为该新闻的失效时间。具体的,服务器201可以采用但不限于以下方式:
首先,服务器201可以从体育比赛类新闻对应的事件数据库中,获取该目标关联体育比赛事件的时间节点,并从该目标关联体育比赛事件的时间节点中,获取该目标关联体育比赛事件的下一轮开始时间。
然后,服务器201若获得该目标关联体育比赛事件的下一轮开始时间,则将该目标关联体育比赛事件的下一轮开始时间作为该新闻的失效时间;若未获得该目标关联体育比赛事件的下一轮开始时间,则从该目标关联体育比赛事件的各个时间节点中,获取该目标关联体育比赛事件的开始时间,并以该目标关联体育比赛事件的赛事主体为查询条件,从体育比赛类新闻对应的事件数据库中,查询体育比赛事件,以及从查询到的各个体育比赛事件中,筛选出对应的开始时间与该目标关联体育比赛事件的开始时间最接近的体育比赛事件,将筛选出的该体育比赛事件的开始时间确定为该目标关联体育比赛事件的下一轮开始时间,并将该目标关联体育比赛事件的下一轮开始时间作为该新闻的失效时间。
这样,通过为体育比赛类新闻筛选目标关联体育比赛事件,并基于该目标关联体育比赛事件的各个时间节点和该体育比赛类新闻的内容类别,确定该新闻的失效时间,不仅可以根据该体育比赛类新闻的内容类别,准确地识别出该体育比赛类新闻在该目标关联体育比赛事件中所处的发展阶段,而且,还可以根据该体育比赛类新闻在该目标关联体育比赛事件中所处的发展阶段,从该目标关联体育比赛事件的各个时间节点中,准确地筛选出该体育比赛类新闻的失效时间,从而在根据该体育比赛类新闻的失效时间,对该体育比赛类新闻进行下架处理时,课题提高对该体育比赛类新闻进行下架处理的及时性,此外,利用该体育比赛类新闻与体育比赛事件的相关值和相似度,对各个体育比赛事件进行两层筛选,使得获得的目标关联体育比赛事件更接近体育比赛类新闻报道的体育比赛事件内容,从而使得根据目标关联体育比赛事件的各个时间节点和该体育比赛类新闻的内容类别,确定出的失效时间更为精准,进一步地提高了体育比赛类新闻的失效时间的精准度。
基于上述实施例,本申请实施例提供了一种新闻处理装置,该新闻处理装置可以应用于如图2所示的新闻处理系统200中的服务器201,参阅图5所示,本申请实施例提供的新闻处理装置500至少包括:
新闻确定单元501,用于确定待处理的新闻和新闻的内容类别;
相关值获取单元502,用于针对待匹配的各个事件,基于新闻的新闻内容信息中的各个词语分别与事件的事件内容信息的相关值,获得新闻与事件的相关值;
第一筛选单元503,用于基于新闻分别与各个事件的相关值,从各个事件中,筛选新闻的各个关联事件;
相似度获取单元504,用于针对各个关联事件,基于新闻的新闻内容信息与关联事件的事件内容信息的词语共现统计结果,获得新闻与关联事件的相似度;
第二筛选单元505,用于基于新闻分别与各个关联事件的相似度,从各个关联事件中,筛选新闻的目标关联事件;
失效确定单元506,用于基于目标关联事件的时间节点以及新闻的内容类别,确定新闻的失效时间。
在一种可能的实施方式中,在确定待处理的新闻和新闻的内容类别时,新闻确定单元501具体用于:
获取对应的新闻类别为目标新闻类别的各个新闻;
针对各个新闻,获取新闻的特征向量,并基于新闻的特征向量,使用内容分类模型,获得新闻的内容类别;
从各个新闻中,获取对应的内容类别为任一目标内容类别的新闻为待处理的新闻,并记录待处理的新闻的内容类别。
在一种可能的实施方式中,在获取新闻的特征向量时,新闻确定单元501具体用于:
对新闻的标题进行分词处理,得到新闻的各个标题分词,并基于各个标题分词的词向量,获得新闻的标题词向量;
对新闻的正文进行分词处理,得到新闻的各个正文分词,并基于各个正文分词的词向量,获得新闻的正文词向量;
从新闻的正文中,提取包含时间信息的各个短句作为新闻的时间正文,并对时间正文进行分词处理,得到新闻的各个时间分词,基于各个时间分词的词向量,获得新闻的时间词向量;
基于新闻的标题词向量、正文词向量和时间词向量,获得新闻的特征向量。
在一种可能的实施方式中,本申请实施例提供的新闻处理装置还包括:
统一化处理单元507,用于在相关值获取单元502基于新闻的新闻内容信息中的各个词语分别与事件的事件内容信息的相关值,获得新闻与事件的相关值之前,确定新闻的新闻内容信息中的名词与事件的事件内容信息中的名词存在别名关系时,对存在别名关系的名词进行统一化处理。
在一种可能的实施方式中,在基于新闻的新闻内容信息中的各个词语分别与事件的事件内容信息的相关值,获得新闻与事件的相关值时,相关值获取单元502具体用于:
对新闻的新闻内容信息中的各个词语分别与事件的事件内容信息的相关值进行加权求和处理,得到新闻与事件的相关值。
在一种可能的实施方式中,在基于新闻的新闻内容信息与关联事件的事件内容信息的词语共现统计结果,获得新闻与关联事件的相似度时,相似度获取单元504具体用于:
获取新闻的新闻内容信息中的各个词语分别在关联事件的事件内容信息中出现的次数;
对新闻的新闻内容信息中的各个词语分别在关联事件的事件内容信息中出现的次数进行加权求和处理,得到新闻与事件的相似度。
在一种可能的实施方式中,在基于目标关联事件的时间节点以及新闻的内容类别,确定新闻的失效时间时,失效确定单元506具体用于:
基于新闻的内容类别,从目标关联事件的各个发展阶段中,确定新闻对应的发展阶段;
从目标关联事件的各个时间节点中,确定与新闻对应的发展阶段关联的时间节点为新闻的失效时间。
在一种可能的实施方式中,在从目标关联事件的各个时间节点中,筛选与新闻对应的发展阶段关联的时间节点为新闻的失效时间时,失效确定单元506具体用于:
若新闻对应的发展阶段为事件发生前,则从目标关联事件的各个时间节点中,确定目标关联事件的开始时间为新闻的失效时间;
若新闻对应的发展阶段为事件发生中,则从目标关联事件的各个时间节点中,确定目标关联事件的结束时间为新闻的失效时间;
若新闻对应的发展阶段为事件发生后,则从目标关联事件的各个时间节点中,确定目标关联事件的下一次开始时间为新闻的失效时间。
需要说明的是,本申请实施例提供的新闻处理装置500解决技术问题的原理与本申请实施例提供的新闻处理方法相似,因此,本申请实施例提供的新闻处理装置500的实施可以参见本申请实施例提供的新闻处理方法的实施,重复之处不再赘述。
在介绍了本申请实施例提供的新闻处理方法和装置之后,接下来,对本申请实施例提供的新闻处理设备进行简单介绍。
本申请实施例提供了一种新闻处理设备,该新闻处理设备可以是但不限于是如图2所示的新闻处理系统200中的服务器201。实际应用中,参阅图6所示,本申请实施例提供的新闻处理设备600至少包括:处理器601、存储器602和存储在存储器602上并可在处理器601上运行的计算机程序,处理器601执行计算机程序时实现本申请实施例提供的新闻处理方法。
需要说明的是,如图6所示的新闻处理设备600仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
本申请实施例提供的新闻处理设备600还可以包括连接不同组件(包括处理器601和存储器602)的总线603。其中,总线603表示几类总线结构中的一种或多种,包括存储器总线、外围总线、局域总线等。
存储器602可以包括易失性存储器形式的可读介质,例如随机存储器(RandomAccess Memory,RAM)6021和/或高速缓存存储器6022,还可以进一步包括只读存储器(ReadOnly Memory,ROM)6023。
存储器602还可以包括具有一组(至少一个)程序模块6024的程序工具6025,程序模块6024包括但不限于:操作子系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
新闻处理设备600也可以与一个或多个外部设备604(例如键盘、遥控器等)通信,还可以与一个或者多个使得用户能与新闻处理设备600交互的设备通信(例如手机、电脑等),和/或,与使得新闻处理设备600与一个或多个其它新闻处理设备600进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口605进行。并且,新闻处理设备600还可以通过网络适配器606与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图6所示,网络适配器606通过总线603与新闻处理设备600的其它模块通信。应当理解,尽管图6中未示出,可以结合新闻处理设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)子系统、磁带驱动器以及数据备份存储子系统等。
在介绍了本申请实施例提供的新闻处理方法、装置和设备之后,接下来,对本申请实施例提供的计算机可读存储介质进行简单介绍。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,计算机指令被处理器执行时实现本申请实施例提供的新闻处理方法。具体地,该可执行程序可以内置或者安装在新闻处理设备600中,这样,新闻处理设备600就可以通过执行内置或者安装的可执行程序实现本申请实施例提供的新闻处理方法。
此外,本申请实施例提供的新闻处理方法还可以实现为一种程序产品,该程序产品包括程序代码,当该程序产品可以在新闻处理设备600上运行时,该程序代码用于使新闻处理设备600执行本申请实施例提供的新闻处理方法。
本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合,其中,可读介质可以是可读信号介质或者可读存储介质,而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合,具体地,可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码,还可以在计算设备上运行。然而,本申请实施例提供的程序产品不限于此,在本申请实施例中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。