CN110020104A - 新闻处理方法、装置、存储介质及计算机设备 - Google Patents

新闻处理方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN110020104A
CN110020104A CN201710791715.7A CN201710791715A CN110020104A CN 110020104 A CN110020104 A CN 110020104A CN 201710791715 A CN201710791715 A CN 201710791715A CN 110020104 A CN110020104 A CN 110020104A
Authority
CN
China
Prior art keywords
news
identified
event
term vector
timing node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710791715.7A
Other languages
English (en)
Other versions
CN110020104B (zh
Inventor
殷乐
花贵春
王丹丹
郎兵
赵林
胡博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Beijing Co Ltd
Original Assignee
Tencent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Beijing Co Ltd filed Critical Tencent Technology Beijing Co Ltd
Priority to CN201710791715.7A priority Critical patent/CN110020104B/zh
Priority to PCT/CN2018/104156 priority patent/WO2019047849A1/zh
Publication of CN110020104A publication Critical patent/CN110020104A/zh
Application granted granted Critical
Publication of CN110020104B publication Critical patent/CN110020104B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种新闻处理方法,包括:获取待识别新闻的词向量;获取事件的词向量、以及所述事件的时间节点;基于所述待识别新闻的词向量与所述事件的词向量的相似度,确定所述待识别新闻的关联事件,以及确定所述待识别新闻在所述关联事件中所对应的时间节点。本申请实施例还提供一种新闻处理装置、存储介质及计算机设备。

Description

新闻处理方法、装置、存储介质及计算机设备
技术领域
本发明涉及互联网应用技术领域,特别涉及一种新闻处理方法、装置、计算机可读存储介质及计算机设备。
背景技术
随着互联网技术的发展,上网浏览新闻已经成为越来越多用户的习惯,纵多新闻网站或者新闻应用都具有主动向用户推荐新闻的功能。推荐的新闻可以是近期的热点新闻,也可以是根据不同用户有针对性的推荐对应领域内的新闻。
通常,新闻需要设置新闻失效时间将失效新闻及时下架处理,以确保不会将失效新闻推荐给用户,向用户所推荐的新闻是符合新闻事件的发展动态从而满足用户阅读需求的。
相关技术中,对于上述问题,尚无有效解决方案。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种可提高推荐新闻时效性的新闻处理方法、装置、计算机可读存储介质及计算机设备。
为达到上述目的,本发明实施例的技术方案是这样实现的:
一种新闻处理方法,包括:获取待识别新闻的词向量;获取事件的词向量、以及所述事件的时间节点;
基于所述待识别新闻的词向量与所述事件的词向量的相似度,确定所述待识别新闻的关联事件,以及,确定所述待识别新闻在所述关联事件中所对应的时间节点。
一种新闻处理装置,包括:第一获取模块,用于获取待识别新闻的词向量;第二获取模块,用于获取事件对应的词向量、以及所述事件的时间节点;确定模块,用于基于所述待识别新闻的词向量与所述事件的词向量的相似度,确定所述待识别新闻的关联事件,以及,确定所述待识别新闻在所述关联事件中所对应的时间节点。
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现一种新闻处理方法。该新闻处理方法,包括:获取待识别新闻的词向量;获取事件的词向量、以及所述事件的时间节点;基于所述待识别新闻的词向量与所述事件的词向量的相似度,确定所述待识别新闻的关联事件,以及,确定所述待识别新闻在所述关联事件中所对应的时间节点。
一种计算机设备,包括存储器、处理器及存储在所述存储器上运行的计算机程序,所述处理器执行所述程序时实现一种新闻处理方法。该新闻处理方法,包括:获取待识别新闻的词向量;获取事件的词向量、以及所述事件的时间节点;基于所述待识别新闻的词向量与所述事件的词向量的相似度,确定所述待识别新闻的关联事件,以及,确定所述待识别新闻在所述关联事件中所对应的时间节点。
本发明实施例中,通过设置事件的时间节点,提取新闻的词向量自动识别出与新闻的关联事件,以及确定新闻所对应事件的时间节点,通过引入事件的时间节点对新闻设置合理的生命周期,从而可基于新闻对应该事件的时间节点判断该新闻所处事件的发展阶段,对待识别新闻所对应的关联事件以及是否属于关联事件当前发展阶段能够准确识别,有利于确保向用户推送的待识别新闻的时效性。
附图说明
图1为本发明一实施例中新闻处理方法的应用环境图。
图2为本发明一实施例中新闻处理方法的流程图。
图3为本发明另一实施例中新闻处理方法的流程图。
图4为本发明又一实施例中新闻处理方法的流程图。
图5为本发明再一实施例中新闻处理方法的流程图。
图6为本发明又一实施例中新闻处理方法的流程图。
图7为本发明实施例提供的新闻阅读应用在新闻推送业务时在服务器进行新闻处理的一个可选的应用场景示意图。
图8为本发明实施例提供的新闻阅读应用在新闻推送业务时在终端显示的一个可选的应用场景示意图。
图9为本发明以比赛事件A、待识别新闻B为例的新闻处理方法的主要步骤的流程图。
图10为本发明一实施例中的新闻处理装置的结构示意图。
图11为本发明另一实施例中的新闻处理装置的结构示意图。
图12为本发明又一实施例中的新闻处理装置的结构示意图。
图13为本发明一实施例中计算机设备的内部结构示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明技术方案做进一步的详细阐述。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
通过网络浏览新闻已经成为越来越多用户的习惯,众多的新闻网站或者新闻应用也都具有主动向用户推荐新闻的功能。而为了能够让用户所接收到的新闻是符合事件的发展动态又满足用户阅读需求的,需要提供能够有效识别新闻与事件的关系并设置合理的失效时间的新闻处理方法。
图1所示为本申请一实施例提供的新闻处理方法的应用环境图,包括终端100和服务器200,服务器200通过网络与终端100连接。其中,用户通过终端100下载新闻应用或者登陆新闻网站进行浏览。其中,新闻应用是指专门供用户获取阅读新闻信息的应用软件或包含有专门供用户获取阅读新闻信息的功能模块的应用软件,如目前常用的包含有新闻推荐功能的新闻阅读专区的各种APP(Application)软件。该终端100可以是智能手机、平板电脑、个人数字助理(PDA)以及个人计算机等。服务器200通过网络向对应的终端100发送推荐的新闻,以供用户通过终端显示查看。服务器200可以为独立的物理服务器或者物理服务器集群。
请参阅图2,为本申请一实施例提供的新闻处理方法,包括如下步骤。
步骤101,获取待识别新闻的词向量。
新闻通常是指用概括的叙述方式,以文字、图像、视频等手段及时报道比较重大、有价值的事件,使得一定人群了解。广义上的新闻是指消息,包含所有通过媒体或网络途径记录事件、传播信息的文字、图像、视频、音频数据的称谓,如,广义上的新闻不仅包括通过通常意义上的新闻网站、新闻应用等投放的文字、图像、视频、音频数据,也包括通常意义上社交应用中以文章形式投放的与事件相关的消息。本实施例中,新闻是指广义上的新闻。待识别新闻是指本本申请实施例所提供的新闻处理方法中的待处理对象。
在一个具体的实施例中,步骤101,获取待识别新闻的词向量包括:基于待识别新闻提取关键词;将所述提取的关键词映射到词向量空间,得到关键词对应的词向量。
这里,关键词通常是指描述事件过程中必然会提到的且能够体现事件独特的特征的信息,如,事件的描述通常包括时间、地点、人物、事情经过四个要素相关的信息,从而关键词至少可以从与该四个要素相关的信息的角度进行确定和提取。基于待识别新闻提取关键词的步骤可以是通过从新闻的垂直网站或其它相关新闻网页中抓取结构化信息的方式获得,抓取结构化信息可以采用目前互联网技术中已知的抓取方式例如爬虫技术。其中,垂直网站是指注意力集中在某些特定的领域或某种特定的需求,提供有关这个领域或需求的全部深度信息和相关服务的网站。而结构化信息是指信息经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,其使用和维护通过数据库进行管理,并有一定的操作规范。关键词的提取可以来源于新闻的标题、报道内容、对应的评论中等。
在一个具体的实施例中,基于待识别新闻提取关键词包括:从以下至少之一提取对应的待识别新闻的关键词:第一,待识别新闻;第二,待识别新闻的特定关联信息。其中,待识别新闻是指新闻报道本身的内容中包含的信息,如新闻标题、新闻正文,其中,针对视频或者音频数据的新闻,除从新闻标题中可以提取关键词之外,还可以通过语音识别将其转换成文本的方式进行关键词的提取。待识别新闻的特定关联信息主要是指新闻报道相关的内容中包含的信息,如新闻对应的评论,针对视频后者音频数据的新闻,除从新闻标题中可以提取关键词之外,还可以从对应的评论中提取关键词。本实施例中,基于待识别新闻提取关键词不限于新闻发布时的原始出处的框架形式,可以借助于新闻报道本身的内容及评论等相关信息全面提取关键词,从而可以更正确和精准地识别出新闻的关键词,也可以充分考虑到新闻中丰富的报道内容对于时效性识别的帮助。
词向量是指将语言中的字、词、短语等进行数字化的方式。词向量的表达形式包括:用一个特定长度的向量来表示一个词,向量的长度为词典的大小,向量的分享只有一个1,其它全为0,1的位置对应词在词典中的位置;或者通过训练将语言中的每一词映射成一个相对所述特定长度较短的固定长度的短向量,将所有这些向量放在一起形成一个词向量空间,而每一向量为该空间中的一个点,在空间中引入距离参数,根据词所对应短向量之间的距离来判断词之间词法、语义上的相似性。词向量的训练可以通过语言模型的方式实现,通过该语言模型将提取的关键词映射到词向量空间得到对应的词向量。在一个具体的实施例中,将提取的关键词映射到词向量空间可以通过词到向量(word2vec)训练词向量模型,得到关键词对应的词向量。
步骤103,获取事件的词向量、以及所述事件的时间节点。
事件是指比较重大,能够对一定人群产生影响的事情。事件的描述通常包括时间、地点、人物、事情经过四个要素相关的信息,其中,事情经过包括事件从产生到结束的发展过程中的内容描述。事件的时间节点是指将事情的发展过程根据不同时间段所具有的某种共同特性而将事情区分为多个发展阶段的具体时间点。以体育比赛事件为例,根据体育比赛这一事情的发展过程,可分别以比赛开始时间和比赛结束时间这两个时间节点将其区分为赛前、赛中及赛后三个阶段。又以电影播放事件为例,根据电影从宣传到放映这一事情的发展过程可分别以点映时间、首映时间、公映开始时间和公映结束时间为时间节点将其区分为上映前、上映中及上映后三个阶段。
在一个具体的实施例中,获取事件对应的词向量包括:基于事件提取关键词;将提取的关键词映射到词向量空间,得到关键词对应的词向量。这里,关键词通常是指描述事件过程中必然会提到的且能够体现事件独特的特征的信息,如,事件的描述通常包括时间、地点、人物、事情经过四个要素相关的信息,事件本身还有所处行业、或领域类别的属性,从而事情所属类别是事件另一个要素相关的信息,从而事件的关键词至少可以从与该五个要素相关的信息的角度来确定和进行提取。以“XX电影于XX日在北京进行首映,该影片中的主演人员XX参加了首映”这一事件为例,事件的关键词可以从时间要素角度提取“XX”日,从地点要素角度提取“北京”,从人物要素角度提取主演人员“XX”,从事件类别要素角度提取“娱乐”类分别作为事件的关键词。新闻是呈现事件的一种具体表达形式,基于事件提取关键词还可以是基于事件已知的多个关联新闻提取关键词。
步骤105,基于待识别新闻的词向量与事件的词向量的相似度,确定待识别新闻的关联事件,以及确定待识别新闻在关联事件中所对应的时间节点。
相似度是指表示两个事物之间的关联程度。基于待识别新闻的词向量与事件的词向量的相似度的方式主要包括:通过待识别新闻的词向量与事件的词向量之间进行匹配,根据匹配的结果确定;或者待识别新闻的词向量与事件的词向量之间计算相似度值,根据相似度值的大小确定。通过待识别新闻与事件之间的相似度自动识别待识别新闻所对应的关联事件,即识别待识别新闻是否为特定事件的关联新闻。通过待识别新闻与事件之间的相似度自动识别待识别新闻所对应关联事件的时间节点,即识别待识别新闻所对应关联事件所处的发展阶段。
上述实施例所提供的新闻处理方法中,通过设置事件的时间节点,提取新闻的相关信息自动识别出与事件相关的关联新闻,以及根据新闻的时间信息确定新闻所对应事件的时间节点,通过引入事件的时间节点对新闻设置合理的生命周期,从而可基于新闻对应该事件的时间节点判断该新闻所处事件的发展阶段,对待识别新闻所对应事件以及是否与事件当前发展阶段能够准确识别,有利于提高待识别新闻的时效性的把握。
通过确定待识别新闻在关联事件中所对应的时间节点,可以基于该时间节点设置待识别新闻的失效时间。请参阅图3,在一个实施例中,新闻处理方法还包括:步骤107,当对应的时间节点为与失效关联的特定的时间节点时,确定待识别新闻失效。
事件的时间节点通常为包括以时间先后顺序进行排列的多个时间节点的序列。每一个时间节点表该事件的一个发展阶段的开始时间或者表示该事件的一个发展阶段的结束时间,任意相邻的两个时间节点即对应该事件的一个发展阶段,因此,当确认该待识别新闻对应时间的时间节点时,即确定了该待识别新闻所处事件的发展阶段,从而可以根据对应的时间节点确定与失效关联的特定的时间节点。如,将对应的时间节点的下一时间节点,即该待识别新闻所处事件发展阶段的结束时间或该待识别新闻所处事件发展阶段的下一发展阶段的开始时间作为与失效关联的特定的时间节点,确定为待识别新闻的失效时间。作为另一可选的实施例,当确认该待识别新闻对应时间的时间节点时,还可以将对应的时间节点的后续的具有预设间隔的时间节点,即该待识别新闻所处事件发展阶段的后续发展阶段中的时间节点作为与失效关联的特定的时间节点,确定为待识别新闻的失效时间。作为又一可选的实施例,当确认该待识别新闻对应时间的时间节点时,还可以将对应的时间节点加上一个预设的时长作为失效关联的特定的时间节点,确定为待识别新闻的失效时间。
其中,与失效关联的特定的时间节点可以是时刻,也可以是时间段,当与失效关联的特定的时间节点是用时间段表示时,则可以根据实际应用需求而设置该时间段内的任意时刻确定为待识别新闻的失效时间。在其中一个具体的实施例中,是将该事件的下一发展阶段的开始时间设置为该待识别新闻的失效时间,与失效关联的特定的时间节点即指待识别新闻所处事件的发展阶段的下一发展阶段的开始时间。通过时间节点将事件发展区分为多个发展阶段,并识别新闻所处事件的不同发展阶段后将新闻的失效时间设置为下一个发展阶段或者后续的特定发展阶段开始的时间,具体选取哪个发展阶段根据实际应用需求而定,通过根据对应的时间节点确定与失效关联的特定的时间节点,从而只将属于事件的当前发展阶段的新闻推荐给用户,并将不属于事件的当前的发展阶段的新闻及时下架处理,以确保推荐给用户的新闻的时效性。
请参阅图4,在另一个实施例中,新闻处理方法还包括:步骤108,当对应的时间节点的类型为结束时间节点,且相较于结束时间节点的预设失效时长到达时,确定待识别新闻失效。
事件的时间节点的设置中,每一个时间节点可用于表示事件的一个发展阶段的开始时间或者表示该事件的一个发展阶段的结束时间,位于序列最前端的时间节点为起始时间节点,位于序列最末端的时间节点为结束时间节点,位于最前端和最末端之间的时间节点均为中间时间节点。其中,当结束时间节点设置为表示事件最后一个发展阶段的开始时间时,也就是说,当结束时间节点是用于表示事件的最后一个发展阶段的开始时间时,相当于是最后一个发展阶段没有设置时间节点来限定其结束时间,根据待识别新闻包含的时间信息确定其所对应的事件的时间节点时也可能是该结束时间节点。因此,针对将每一时间节点用于表示事件的一个发展阶段的开始时间的情况,当确认该待识别新闻对应事件的时间节点为起始时间节点或中间时间节点时,均可将对应的时间节点的下一时间节点、或者后续的具有预设间隔的时间节点、或者对应事件的时间节点加上预设的时长所确定的时间节点,确定为待识别新闻的失效时间,而当确认该待识别新闻对应事件的时间节点为结束时间节点时,则通过设置预设失效时长来确定属于该事件最后一个发展阶段的相关新闻的失效时间。
预设失效时长是指预设的新闻有效的时间范围,对于新闻发布后保持为有效状态的时间超出该有效的时间范围的即作为失效处理。当结束时间节点设置为表示事件最后一个发展阶段的开始时间时,且根据待识别新闻包含的时间信息确定其所对应的事件的时间节点为结束时间节点时,针对属于事件最后一个发展阶段的新闻则可以通过设置将对应的时间节点加上预设失效时长的方式来确定新闻的失效时间。通过该种时间节点的设置方式,将事件通过多个时间节点区分为多个不同的发展阶段时只需考虑每个发展阶段开始的时间,再针对不同领域的事件的最后发展阶段统一设置预设失效时长即可,从而可以降低对事件的时间节点的获取时结束时间节点设置的难度。
在一个具体的实施例中,新闻的失效时长的确定包括两种方式:
第一,基于新闻标题中包含的关键词,针对包含相应关键词的新闻预先设置相应的失效时长;
第二,基于新闻的类别,针对该类别的新闻预先设置相应的失效时长。
通过基于上面两种方式确定新闻的失效时长,再基于新闻的发布时间加上新闻的失效时长来设置新闻的失效时间,然而,该种方式仅能针对包含特定关键词或同类别的新闻设置失效时长,而对于包含大量明确事件、事件周期性并不明确的新闻领域,如体育比赛新闻、电影新闻等领域,根据新闻关键词或者类别设定失效时长的方式均不适用,例如在体育比赛后推荐赛前或赛中新闻是不合理的,在电影上映后推荐上映前的预告新闻是不合适的,出现将新闻推荐给用户后用户再获取该新闻已经没有意义的现象,从而导致推荐新闻的时效性差。
而本申请实施例所提供的新闻处理方法中,通过事件的时间节点将事情的发展根据不同发展阶段所具有的某种共同特性而将事情区分为多个阶段,通过确定待识别新闻对应的事件的时间节点,从而可以获知待识别新闻所处事件的发展阶段,确定该新闻是否属于事情当前发展阶段的新闻,将不属于事情当前发展阶段的新闻确定为失效新闻。基于事件的时间节点对新闻设置合理的生命周期,及时将不属于事件相应发展阶段的新闻确定为失效新闻,以避免将不符合事件当前发展阶段的新闻性低的新闻推荐到用户,以提高向用户推荐的新闻的时效性。
进一步的,在一实施例中,在步骤103中,获取事件的时间节点包括:
获取事件的预先定义的时间节点。
事件的时间节点的设置可以通过预先定义的方式形成。如,通过分析不同领域类别的事件的共同发展特性将其分割为几个发展阶段,并确定几个发展阶段的分割时间点,将这些分割时间点作为对应类别的事件的预先定义的时间节点。又如,通过分析不同热议程度的事件的共同发展特性将其分割为几个热议阶段,并确定几个热议阶段的分割时间点,将这些分割时间点作为对应热议程度的事件预先定义的时间节点。其中,分割时间点可以为时刻,也可以是时间段,相应的,以分割时间点确定时间节点时,则时间节点也可以是时刻或者是时间段,当分割时间点为时间段时,则可根据实际需求而选择将该时间段内的任意时刻设置为属于与其相邻的两个发展阶段所共同具备的或者属于其中之一所具备的。
在另一实施例中,在步骤103中,获取事件的时间节点包括:
获取事件的相关新闻并进行聚类处理,根据不同类别的相关新闻包含的时间信息确定事件的时间节点。
事件的时间节点的设置可以通过对事件的相关新闻进行聚类分析的方式确定。聚类是指将数据分类到不同的类或者簇的过程,同一类或者簇中的对象有很大的相似性,而不同类或者簇间的对象有很大的相异性。相关新闻包含的时间信息包括相关新闻的发布时间、新闻中涉及到的事情内容的发生时间等。本实施例中,相关新闻包含的时间信息是指新闻的发布时间,根据聚类结果中不同类别所包含的相关新闻中的最早发布时间和最晚发布时间来确定该对应类的分割时间点,将这些分割时间点作为事件的时间节点。通过对事件的相关新闻进行聚类处理,不需要事先人为去分析来获知该事件的发展特性来划分发展阶段,而且聚类处理的结果通常还可以反映出该事件的不同发展阶段的新闻量等随机性特征,从而可行性高。
进一步的,在另一个实施例中,获取事件的相关新闻并进行聚类处理,根据不同类别的相关新闻包含的时间信息确定事件的时间节点,包括:
获取事件的相关新闻并进行聚类处理,根据不同类别的相关新闻的时间信息确定事件的初始时间节点;
根据初始时间节点确定该事件的时间节点。
相关新闻包含的时间信息包括相关新闻的发布时间、新闻中涉及到的事情内容的发生时间等。以相关新闻包含的时间信息是指新闻的发布时间为例,首先通过聚类处理得到的不同类别的相关新闻中的最早发布时间和最晚发布时间作为该对应类别的分割时间点,将这些分割时间点作为对应事件的初始时间节点。根据初始时间节点确定该事件的时间节点的过程中,可以以初始时间节点为基础,根据一些个性化需求制定调节规则,根据调节规则对初始时间节点进行调整而获得事件的时间节点;或者以初始时间节点为基础,通过用户根据经验或者其它情况以自定义方式进行调整获得事件的时间节点。
在一个实施例中,请参阅图5,步骤105,基于待识别新闻的词向量与事件的词向量的相似度,确定待识别新闻的关联事件,以及确定待识别新闻在关联事件中所对应的时间节点,包括:
步骤1051,基于待识别新闻的词向量与事件的词向量的相似度,构建待识别新闻对应的第一特征。
其中,待识别新闻的词向量与事件的词向量的相似度的确定方式包括:通过新闻的词向量与事件的词向量之间的匹配概率值进行确定;或,通过计算新闻的词向量与事件的词向量之间的相似度值确定。相应的,第一特征是指与待识别新闻的词向量与事件的词向量的匹配概率值或者相似度值所表征的相似度。作为一种示意性的实施例,新闻的词向量与事件的词向量之间的相似度值的计算方式如下:
在公式1中,fe表示事件的关键词,ai表示fe中第i个事件的关键词的词向量;fn表示待识别新闻的关键词,bj表示fn中第j个新闻的关键词的词向量,n表示新闻的关键词的个数,K表示事件的关键词的个数。其中事件关键词的词向量和新闻的关键词的词向量均是采用数字化的方式表达相应的信息,如何确定事件的关键词的词向量和新闻的关键词的词向量可以通过已知方式实现,如通过word2vec语言模型实现。
基于待识别新闻的词向量与事件的词向量的相似度,构建待识别新闻对应的第一特征的具体表示如下:
fea=[Similar] (公式2)
在公式2中,fea表示待识别新闻对应的第一特征。
步骤1052,将第一特征作为样本特征输入第一分类模型,得到不同事件是待识别新闻的关联事件的置信度。
第一分类模型可以为softmax回归模型或者支持向量机(SVM,Support VectorMachine)模型。将样本特征用x表示,将第一特征作为样本特征输入第一分类模型得到不同事件是待识别新闻的关联事件的置信度的具体表示如下:
在公式3中,hθ(x)表示置信度,θ表示训练模型参数,x表示样本特征。
步骤1053,确定置信度满足条件的事件为待识别新闻的关联事件。
置信度满足条件的具体表示如下:
公式4中,J(θ)表示代价函数,x(i)表示输入,y(i)表示输出,m表示样本特征的数量。通过采用迭代的优化算法如梯度下降法,求解最小化代价函数,从而确定置信度需满足条件,实现一个可用的分类模型,进而计算样本特征属于对应事件的关联新闻的概率,即事件为待识别新闻的关联事件的概率。
确定待识别新闻在关联事件中所对应的时间节点。
在一个实施例中,步骤1051,基于待识别新闻的词向量与事件的词向量的相似度,构建待识别新闻对应的第一特征,包括:
将以下的特征分量组合,得到待识别新闻对应的第一特征:待识别新闻的词向量与事件的词向量的相似度;待识别新闻的时间与事件的时间节点的关系。
待识别新闻的时间包括待识别新闻的发布时间、待识别新闻中涉及到的事情内容的发生时间等。以待识别新闻的时间为待识别新闻的发布时间为例,基于待识别新闻的词向量与事件的词向量的相似度,构建待识别新闻对应的第一特征具体如下:
fea=[Similar,|newtime-eventime|] (公式5)
在公式5中,fea表示待识别新闻对应的第一特征,Similar表示新闻的关键词与事件的关键词的相似度,newtime表示待识别新闻的发布时间,eventime表示事件的时间节点。
在另一个实施例中,在步骤105中,确定待识别新闻在关联时间中所对应的时间节点,包括:
步骤1054,基于待识别新闻的时间与事件的时间节点的关系,构建待识别新闻对应的第二特征。
待识别新闻的时间主要包括待识别新闻的发布时间、待识别新闻中涉及到的事情内容的发生时间等。待识别新闻的时间与事件的时间节点的关系可以是待识别新闻的时间与事件的时间节点的差值、或者是根据差值的大小而赋予的的数值等。本实施例中,待识别新闻中的时间是指新闻发布时间,待识别新闻中的时间与事件的时间节点的关系为差值,构建待识别新闻的时间向量如下所示:
timefea=[newtime-e_time0,....,newtime-e_timei,...,newtime-e_timen] (公式6)
公式6中,timefea表示待识别新闻的时间向量,e_timei表示事件的时间节点,newtime表示待识别新闻的新闻发布时间。
步骤1055,输出第二特征至第二分类模型,得到待识别新闻对应关联事件不同时间节点的置信度。
第二分类模型可以为softmax回归模型或者SVM模型。输出第二特征至第二分类模型是指将第二特征作为第二样本特征输入至第二分类模型,将样本特征用x表示,输出所述第二特征至第二分类模型,得到所述待识别新闻对应所述关联事件不同时间节点的置信度的具体表示如下:
在公式7中,hθ(x)表示置信度,θ表示训练模型参数,x表示样本特征。
步骤1056,确定置信度满足条件的时间节点为待识别新闻所对应的时间节点。
置信度满足条件的具体表示如下:
公式8中,J(θ)表示代价函数,x(i)表示输入,y(i)表示输出,m表示样本特征的数量。通过采用迭代的优化算法如梯度下降法,求解最小化代价函数,从而确定置信度需满足条件,实现一个可用的分类模型,进而计算样本特征属于对应事件的时间节点的概率,即通过待识别新闻的时间对应事件的时间节点的概率而确定待识别新闻所对应的时间节点。
在一个实施例中,步骤1054,基于待识别新闻的时间与事件的时间节点的关系,构建待识别新闻对应的第二特征,包括:
将以下的特征分量组合,得到待识别新闻对应的所述第二特征:待识别新闻的词向量的均值;待识别新闻的时间与关联事件的不同时间节点的关系。
待识别新闻的词向量的均值是指待识别新闻所关联事件的时间节点对应的词向量的均值。待识别新闻的时间与事件的时间节点的关系可以是待识别新闻的时间与事件的时间节点的差值、或者是根据差值的大小而赋予的数值等。本实施例中,待识别新闻中的时间与事件的时间节点的关系为差值,构建待识别新闻的时间向量如下所示:
在公式9中,fea表示第二特征,M表示关联事件的时间节点的数量,Wi表示第i个时间节点的词向量,timefea表示基于待识别新闻中的时间与事件的时间节点的关系为关系表征的待识别新闻的时间向量,如公式6所示的基于待识别新闻中的时间与事件的时间节点的差值表征的待识别新闻的时间向量。
在又一实施例中,如图6所示,在步骤105中,基于待识别新闻的词向量与事件的词向量的相似度,确定待识别新闻的关联事件,以及,确定待识别新闻在关联时间中所对应的时间节点,包括:
步骤1057,基于待识别新闻的词向量与事件的词向量的相似度、以及待识别新闻的时间与事件的时间节点的关系,构建待识别新闻对应的第三特征。
在一个具体的实施例中,步骤1057,基于待识别新闻的词向量与事件的词向量的相似度、以及待识别新闻的时间与事件的时间节点的关系,构建待识别新闻对应的第三特征,包括将以下特征分量组合得到第三特征:待识别新闻的词向量与事件的词向量的相似度;待识别新闻的时间与事件的发生时间节点的关系;待识别新闻的词向量的均值;待识别新闻的时间与关联事件的不同时间节点的关系。所述特征分量与前述实施例中的相应特征分量的表征方式可以相同,如待识别新闻的词向量与事件的词向量的相似度如公式(2)所示,待识别新闻的词向量与事件的词向量的相似度、和待识别新闻的时间与事件的发生时间节点的关系的组合如公式(5)所示;待识别新闻的时间与事件的时间节点的关系如公式(6)所示,待识别新闻的时间与事件的时间节点的关系、和待识别新闻的词向量的均值的组合如公式(9)所示,从而第三特征可以由公式(2)和公式(5)其中之一所表征的特征分量与公式(6)和公式(9)其中之一所表征的特征分量组合形成。
步骤1058,输入第三特征至第三分类模型,得到待识别新闻的时间对应关联事件的不同时间节点的置信度。
第三分类模型可以为softmax回归模型或者SVM(Support Vector Machine)模型。输出第三特征至第三分类模型是指将第三特征作为第三样本特征输入至第三分类模型,将样本特征用x表示,输出所述第三特征至第三分类模型,得到待识别新闻的时间对应关联事件的不同时间节点的置信度的具体表示如下:
在公式10中,hθ(x)表示置信度,θ表示训练模型参数,x表示由第三特征形成的样本特征。
步骤1059,确定置信度满足条件的时间节点为所待识别新闻对应的时间节点,以及,将确定时间节点对应的事件为待识别新闻的关联事件。
置信度满足条件的具体表示如下:
公式11中,J(θ)表示代价函数,x(i)表示输入,y(i)表示输出,m表示样本特征的数量。采用迭代的优化算法如梯度下降法,求解最小化代价函数,从而确定置信度需满足条件,实现一个可用的分类模型,进而计算样本特征属于对应事件的时间节点的概率,通过确定置信度满足条件的时间节点为所待识别新闻对应的时间节点,进一步确定将确定时间节点对应的事件为待识别新闻的关联事件。
本申请实施例所提供的新闻处理方法中,通过事件的时间节点将事件的发展阶段进行划分,将与事件相关的关联新闻的生命周期与事件的发展阶段进行对应,从而对于识别新闻与事件是否关联以及新闻的时间对应于事件当前所处发展阶段的判断更加科学、精确,进一步通过该方式确定新闻的失效时间的计算上可以达到较好的效果。
该新闻处理方法可应用于任意可供用户获取阅读新闻信息的新闻阅读应用软件,如天天快报、腾讯新闻等。以图1所示新闻处理系统的应用场景中终端100为安装的新闻阅读应用为天天快报的客户端为例,请参阅图7,为本发明实施例提供的新闻阅读应用在新闻推送业务时在服务器进行新闻处理的一个可选的应用场景示意图,其中,服务器200通过运行本申请实施例所提供的新闻处理方法,识别属于关联事件的新闻并将处于事件对应的当前发展阶段的新闻推送给终端100,请参阅图8,为本发明实施例提供的新闻阅读应用在新闻推送业务时在终端显示的一个可选的应用场景示意图,用户通过在终端中安装新闻阅读应用客户端可以阅读服务器通过新闻处理方法确定待识别新闻的关联事件以及对应事件的时间节点后,推送的与事件当前发展阶段对应的新闻,用户通过终端100上的新闻阅读应用的软件界面进行查看。请参阅图9,具体以体育比赛事件A、待识别新闻B为例,对本申请实施例所提供的新闻处理方法确定新闻的失效时间的一种具体应用方式如下,包括:
S1,通过对事件的相关新闻进行聚类处理获取事件A的时间节点,具体包括:对体育比赛事件A的相关新闻进行聚类处理,获取体育比赛事件A的四个时间节点A1、A2、A3、A4将该事件划分为比赛事件A比赛前(时间节点A1~A2)、比赛事件A比赛中(时间节点A2~A3)、比赛事件A比赛后(时间节点A3~A4)。
S2,获取待识别新闻B的关键词和事件A的关键词,根据新闻B的关键词与事件A的关键词之间的相似度确定待识别新闻B是否为事件A的关联新闻,具体包括:从待识别新闻B的标题、报道内容和评论中分别去提取结构化信息作为新闻B的关键词,将新闻B的关键词与预定义或者预抽取的事件A的关键词进行相似度计算,并根据相似度构建样本特征,通过分类模型进行分类以判断该待识别新闻B是否为比赛事件A的关联新闻。由于对待识别新闻是否为关联新闻的识别中,待识别新闻B的关键词的提取可以考虑到新闻的全文甚至是评论所包含的内容,且相似度包括多个新闻的关键词分别与事件的关键词之间的相似度计算,可以得到更加准确的判断结果,如针对待识别新闻中提到部分比赛内容而实际并非与记录体育比赛事件相关的新闻可以有效的识别出并召回,从而对新闻和事件的相关性判断准确性更高,在对体育类比赛事件的相关新闻时效性计算中,新闻和比赛的相关性判断召回率可以达到85%,而正确率可以达到98%。
S3,当待识别新闻B为事件A的关联新闻时,即确定待识别新闻B的关联事件为事件A,根据待识别新闻B的发布时间确认待识别新闻B对应事件A的时间节点An,具体包括:根据待识别新闻的发布时间与事件的时间节点构建样本特征,通过分类模型进行分类以判断该待识别新闻B对应比赛事件A的哪个时间节点,如,确定待识别新闻B对应为比赛前的阶段,即对应关联事件中的时间节点为A1;如待识别新闻B对应为比赛中的阶段,即对应关联事件中的时间节点为A2;如待识别新闻B对应为比赛后的接段,即对应关联事件中的时间节点为A3。
S4,根据对应的时间节点An,确定待识别新闻B与失效关联的特定时间节点为对应的失效时间节点,于该待识别新闻B对应的失效时间节点到来之前将该待识别新闻B推送给终端100,于该待识别新闻B对应的失效时间节点到来时召回。在一个具体的实施例中,待识别新闻B对应的失效时间节点为对应的时间节点An的下一时间节点An+1。根据对应的时间节点An,将下一时间节点An+1确定为待识别新闻B的失效时间。任意相邻两个时间节点(An、An+1)分别表示事件A的一个发展阶段的开始和结束的时间,通过确定待识别新闻所处事件的发展阶段,从而可以在当前发展阶段开始时即将属于上一发展阶段的关联新闻做失效处理,确保新闻的时效性。具体包括,将属于比赛前的关联新闻于比赛事件A的比赛中阶段未到来之前推送给用户,而于比赛事件A的时间节点A2到来时即召回;将属于比赛中的关联新闻于比赛后阶段未到来之前保持推送给用户,而于比赛事件A的时间节点A3到来时即召回;将属于比赛后的关联新闻于比赛事件A的时间节点A4即召回。通过本实施例提供的新闻处理方法,对于比赛前新闻识别的正确率可以达到95%,比赛中新闻识别正确率可以达到90%,比赛后新闻识别正确率可以达到97%。
以上新闻处理方法通过对新闻设置合理的生命周期,提高新闻推荐的时效性,从而可提高新闻阅读应用软件的竞争力。
请参阅图9,在一个实施例中,提供一种新闻处理装置,包括第一获取模块11、第二获取模块13及确定模块15。第一获取模块11用于获取待识别新闻的词向量。第二获取模块13用于获取事件对应的词向量、以及事件的时间节点。确定模块15用于基于待识别新闻的词向量与事件的词向量的相似度,确定待识别新闻的关联事件,以及,确定待识别新闻在关联事件中所对应的时间节点。
请参阅图10,其中第一获取模块11包括关键词提取单元111和词向量单元113。关键词提取单元用于基于待识别新闻提取关键词。词向量单元用于将提取的关键词映射到词向量空间,得到关键词对应的词向量。关键词提取单元具体用于从以下至少之一提取对应所述待识别新闻的关键词:所述待识别新闻;所述待识别新闻的特定关联信息。
第二获取模块13包括预定义单元131或者聚类单元133。预定义单元131用于获取事件的预先定义的时间节点。聚类单元133用于获取事件的相关新闻并进行聚类处理,根据不同类别的相关新闻包含的时间信息确定事件的时间节点。
其中,还包括失效确定模块17,用于当对应的时间节点的类型为结束时间节点,且相较于结束时间节点的预设失效时长到达时,确定待识别新闻失效。
在另一个实施例中,失效确定模块17用于当对应的时间节点为与失效关联的特定时间节点时,确定待识别新闻失效。
确定模块15包括第一特征单元151、第一分类单元152及事件确定单元153。第一特征单元151用于基于待识别新闻的词向量与事件的词向量的相似度,构建待识别新闻对应的第一特征。第一分类单元152用于将第一特征作为样本特征输入第一分类模型,得到不同事件是待识别新闻的关联事件的置信度。事件确定单元153用于确定置信度满足条件的事件为待识别新闻的关联事件。第一特征单元151具体用于将以下的特征分量组合,得到待识别新闻对应的第一特征:待识别新闻的词向量与事件的词向量的相似度;待识别新闻的时间与事件的时间节点的关系。
进一步的,确定模块还包括第二特征单元154、第二分类单元155及时间确定单元156。第二特征单元154用于基于待识别新闻的时间与事件的时间节点的关系,构建待识别新闻对应的第二特征。第二分类单元155用于输出第二特征至第二分类模型,得到待识别新闻对应关联事件不同时间节点的置信度。时间确定单元156用于确定置信度满足条件的时间节点为待识别新闻所对应的时间节点。第二特征单元154具体用于将以下的特征分量组合,得到待识别新闻对应的第二特征:待识别新闻的词向量的均值;待识别新闻的时间与关联事件的不同时间节点的关系。
在另一个实施例中,请参阅图11,确定单元15包括第三特征单元157、第三分类单元158以及确定单元159。第三特征单元157用于基于待识别新闻的词向量与事件的词向量的相似度、以及待识别新闻的时间与事件的时间节点的关系,构建待识别新闻对应的第三特征。第三分类单元158用于输入第三特征至第三分类模型,得到待识别新闻的时间对应关联事件的不同时间节点的置信度。确定单元159用于确定置信度满足条件的时间节点为待识别新闻对应的时间节点,以及,将确定时间节点对应的事件为待识别新闻的关联事件。
本申请实施例所提供的新闻处理装置,通过事件的时间节点将事情的发展根据不同时间段所具有的某种共同特性而将事情区分为多个发展阶段,通过确定待识别新闻对应的事件的时间节点,从而可以获知待识别新闻所处事件的发展阶段,确定该新闻是否属于事情当前发展阶段的新闻,将不属于事情当前发展阶段的新闻确定为失效新闻。基于事件的时间节点对新闻设置合理的生命周期,及时将不属于事件相应发展阶段的新闻确定为失效新闻,以避免将不符合事件当前发展阶段的新闻性低的新闻推荐到用户,以提高向用户推荐的新闻的时效性。
需要说明的是:上述实施例提供的新闻处理装置在进行信息提醒时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的新闻处理装置与新闻处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本发明实施例还提供了一种计算机设备,该计算机设备包括处理器及用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行所述计算机程序时,执行:一种新闻处理方法,包括:获取待识别新闻的词向量;获取事件的词向量、以及所述事件的时间节点;基于所述待识别新闻的词向量与所述事件的词向量的相似度,确定所述待识别新闻的关联事件,以及,确定所述待识别新闻在所述关联事件中所对应的时间节点。
所述处理器还用于运行所述计算机程序时,执行:所述获取待识别新闻的词向量,包括:基于待识别新闻提取关键词;将所述提取的关键词映射到词向量空间,得到所述关键词对应的词向量。
所述处理器还用于运行所述计算机程序时,执行:所述基于待识别新闻提取关键词,包括:从以下至少之一提取对应所述待识别新闻的关键词:所述待识别新闻;所述待识别新闻的特定关联信息。
所述处理器还用于运行所述计算机程序时,执行:所述获取所述事件的时间节点,包括:获取所述事件的预先定义的时间节点;或,获取所述事件的相关新闻并进行聚类处理,根据不同类别的相关新闻包含的时间信息确定所述事件的时间节点。
所述处理器还用于运行所述计算机程序时,执行:所述基于所述待识别新闻的词向量与所述事件的词向量的相似度,确定所述待识别新闻的关联事件,包括:基于所述待识别新闻的词向量与所述事件的词向量的相似度,构建所述待识别新闻对应的第一特征;将所述第一特征作为样本特征输入第一分类模型,得到不同所述事件是所述待识别新闻的关联事件的置信度;确定置信度满足条件的事件为所述待识别新闻的关联事件。
所述处理器还用于运行所述计算机程序时,执行:所述基于所述待识别新闻的词向量与所述事件的词向量的相似度,构建所述待识别新闻对应的第一特征,包括:将以下的特征分量组合,得到所述待识别新闻对应的所述第一特征:所述待识别新闻的词向量与所述事件的词向量的相似度;所述待识别新闻的时间与所述事件的时间节点的关系。
所述处理器还用于运行所述计算机程序时,执行:所述确定所述待识别新闻在所述关联时间中所对应的时间节点,包括:基于所述待识别新闻的时间与所述事件的时间节点的关系,构建所述待识别新闻对应的第二特征;以及,输出所述第二特征至第二分类模型,得到所述待识别新闻对应所述关联事件不同时间节点的置信度;确定置信度满足条件的时间节点为所述待识别新闻所对应的时间节点。
所述处理器还用于运行所述计算机程序时,执行:所述基于所述待识别新闻的时间与所述事件的时间节点的关系,构建所述待识别新闻对应的第二特征,包括:将以下的特征分量组合,得到所述待识别新闻对应的所述第二特征:所述待识别新闻的词向量的均值;所述待识别新闻的时间与所述关联事件的不同时间节点的关系。
所述处理器还用于运行所述计算机程序时,执行:所述基于所述待识别新闻的词向量与所述事件的词向量的相似度,确定所述待识别新闻的关联事件,以及,确定所述待识别新闻在所述关联时间中所对应的时间节点,包括:基于所述待识别新闻的词向量与所述事件的词向量的相似度、以及所述待识别新闻的时间与所述事件的时间节点的关系,构建所述待识别新闻对应的第三特征;输入所述第三特征至第三分类模型,得到所述待识别新闻的时间对应所述关联事件的不同时间节点的置信度;确定置信度满足条件的时间节点为所述待识别新闻对应的时间节点,以及,将所述确定时间节点对应的事件为所述待识别新闻的关联事件。
所述处理器还用于运行所述计算机程序时,执行:所述新闻处理方法还包括:当所述对应的时间节点的类型为结束时间节点,且相较于所述结束时间节点的预设失效时长到达时,确定所述待识别新闻失效。
所述处理器还用于运行所述计算机程序时,执行:所述新闻处理方法还包括:当所述对应的时间节点为与失效关联的特定时间节点时,确定所述待识别新闻失效。
如图12所示,为一计算机设备的内部结构示意图,该计算机设备可以为图1中所示的服务器200,包括通过系统总线连接的处理器、内存储器、网络接口和非易失性存储介质。其中,处理器用于实现计算功能和控制服务器工作的功能,该处理器被配置为执行本申请实施例提供的新闻处理方法。非易失性存储介质存储有操作系统、数据库和用于实现本申请实施例提供的新闻处理方法的新闻处理装置。网络接口用于连接终端。
其中,存储器可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,FerromagneticRandom Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,SynchronousStatic Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random AccessMemory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random AccessMemory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data RateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
存储器用于存储各种类型的数据以支持新闻处理装置的操作。这些数据的示例包括:用于在新闻处理装置上操作的任何计算机程序,如操作系统和应用程序;待识别新闻、待识别新闻的词向量、事件的时间节点、时间的词向量等等。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序,例如新闻应用、媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序中。
网络接口用于新闻处理装置与其他设备之间有线或无线方式的通信。新闻处理装置可以接入基于通信标准的无线网络,如WiFi、2G或3G、或它们的组合。在一个示例性实施例中,网络接口经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述网络接口还包括近场通信(NFC,Near Field Communication)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID,Radio FrequencyIDentification)技术、红外数据组织(IrDA,Infrared Data Association)技术、超宽带(UWB,Ultra WideBand)技术、蓝牙(BT,BlueTooth)技术或其他技术来实现。
上述本发明实施例揭示的新闻处理方法可以应用于处理器中,或者由处理器实现。处理器的数量可以是一个或者多个,以完成上述方法的全部或者部分步骤。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,新闻处理装置可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (15)

1.一种新闻处理方法,其特征在于,包括:
获取待识别新闻的词向量;
获取事件的词向量、以及所述事件的时间节点;
基于所述待识别新闻的词向量与所述事件的词向量的相似度,确定所述待识别新闻的关联事件,以及,
确定所述待识别新闻在所述关联事件中所对应的时间节点。
2.如权利要求1所述的新闻处理方法,其特征在于,所述获取待识别新闻的词向量,包括:
基于待识别新闻提取关键词;
将所述提取的关键词映射到词向量空间,得到所述关键词对应的词向量。
3.如权利要求2所述的新闻处理方法,其特征在于,所述基于待识别新闻提取关键词,包括:
从以下至少之一提取对应所述待识别新闻的关键词:
所述待识别新闻;所述待识别新闻的特定关联信息。
4.如权利要求1所述的新闻处理方法,其特征在于,所述获取所述事件的时间节点,包括:
获取所述事件的预先定义的时间节点;或
获取所述事件的相关新闻并进行聚类处理,根据不同类别的相关新闻包含的时间信息确定所述事件的时间节点。
5.如权利要求1所述的新闻处理方法,其特征在于,所述基于所述待识别新闻的词向量与所述事件的词向量的相似度,确定所述待识别新闻的关联事件,包括:
基于所述待识别新闻的词向量与所述事件的词向量的相似度,构建所述待识别新闻对应的第一特征;
将所述第一特征作为样本特征输入第一分类模型,得到不同所述事件是所述待识别新闻的关联事件的置信度;
确定置信度满足条件的事件为所述待识别新闻的关联事件。
6.如权利要求5所述的新闻处理方法,其特征在于,所述基于所述待识别新闻的词向量与所述事件的词向量的相似度,构建所述待识别新闻对应的第一特征,包括:
将以下的特征分量组合,得到所述待识别新闻对应的所述第一特征:
所述待识别新闻的词向量与所述事件的词向量的相似度;
所述待识别新闻的时间与所述事件的时间节点的关系。
7.如权利要求1所述的新闻处理方法,其特征在于,所述确定所述待识别新闻在所述关联时间中所对应的时间节点,包括:
基于所述待识别新闻的时间与所述事件的时间节点的关系,构建所述待识别新闻对应的第二特征;以及
输出所述第二特征至第二分类模型,得到所述待识别新闻对应所述关联事件不同时间节点的置信度;
确定置信度满足条件的时间节点为所述待识别新闻所对应的时间节点。
8.如权利要求7所述的新闻处理方法,其特征在于:所述基于所述待识别新闻的时间与所述事件的时间节点的关系,构建所述待识别新闻对应的第二特征,包括:
将以下的特征分量组合,得到所述待识别新闻对应的所述第二特征:
所述待识别新闻的词向量的均值;
所述待识别新闻的时间与所述关联事件的不同时间节点的关系。
9.如权利要求1所述的新闻处理方法,其特征在于:所述基于所述待识别新闻的词向量与所述事件的词向量的相似度,确定所述待识别新闻的关联事件,以及,确定所述待识别新闻在所述关联时间中所对应的时间节点,包括:
基于所述待识别新闻的词向量与所述事件的词向量的相似度、以及所述待识别新闻的时间与所述事件的时间节点的关系,构建所述待识别新闻对应的第三特征;
输入所述第三特征至第三分类模型,得到所述待识别新闻的时间对应所述关联事件的不同时间节点的置信度;
确定置信度满足条件的时间节点为所述待识别新闻对应的时间节点,以及,将所述确定时间节点对应的事件为所述待识别新闻的关联事件。
10.如权利要求1所述的新闻处理方法,其特征在于,还包括:
当所述对应的时间节点的类型为结束时间节点,且相较于所述结束时间节点的预设失效时长到达时,确定所述待识别新闻失效。
11.如权利要求1所述的新闻处理方法,其特征在于,还包括:
当所述对应的时间节点为与失效关联的特定时间节点时,确定所述待识别新闻失效。
12.一种新闻处理装置,其特征在于,包括:
第一获取模块,用于获取待识别新闻的词向量;
第二获取模块,用于获取事件对应的词向量、以及所述事件的时间节点;
确定模块,用于基于所述待识别新闻的词向量与所述事件的词向量的相似度,确定所述待识别新闻的关联事件,以及,
确定所述待识别新闻在所述关联事件中所对应的时间节点。
13.如权利要求12所述的新闻处理装置,其特征在于,所述确定模块包括:
第一特征单元,用于基于所述待识别新闻的词向量与所述事件的词向量的相似度,构建所述待识别新闻对应的第一特征;
第一分类单元,用于将所述第一特征作为样本特征输入第一分类模型,得到不同所述事件是所述待识别新闻的关联事件的置信度;
事件确定单元,用于确定置信度满足条件的事件为所述待识别新闻的关联事件;
第二特征单元,用于基于所述待识别新闻的时间与所述事件的时间节点的关系,构建所述待识别新闻对应的第二特征;以及
第二分类单元,用于输出所述第二特征至第二分类模型,得到所述待识别新闻对应所述关联事件不同时间节点的置信度;
时间确定单元,用于确定置信度满足条件的时间节点为所述待识别新闻所对应的时间节点。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-11中任意一项所述新闻处理方法。
15.一种计算机设备,包括存储器、处理器及存储在所述存储器上运行的计算机程序,其特征在于:所述处理器执行所述程序时实现如权利要求1-11中任意一项所述的新闻处理方法。
CN201710791715.7A 2017-09-05 2017-09-05 新闻处理方法、装置、存储介质及计算机设备 Active CN110020104B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710791715.7A CN110020104B (zh) 2017-09-05 2017-09-05 新闻处理方法、装置、存储介质及计算机设备
PCT/CN2018/104156 WO2019047849A1 (zh) 2017-09-05 2018-09-05 新闻处理方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710791715.7A CN110020104B (zh) 2017-09-05 2017-09-05 新闻处理方法、装置、存储介质及计算机设备

Publications (2)

Publication Number Publication Date
CN110020104A true CN110020104A (zh) 2019-07-16
CN110020104B CN110020104B (zh) 2023-04-07

Family

ID=65634737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710791715.7A Active CN110020104B (zh) 2017-09-05 2017-09-05 新闻处理方法、装置、存储介质及计算机设备

Country Status (2)

Country Link
CN (1) CN110020104B (zh)
WO (1) WO2019047849A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704603A (zh) * 2019-09-12 2020-01-17 武汉灯塔之光科技有限公司 一种通过资讯发掘当前热点事件的方法和装置
CN110889024A (zh) * 2019-10-25 2020-03-17 武汉灯塔之光科技有限公司 一种用于计算资讯关联股票的方法和装置
CN110888877A (zh) * 2019-11-13 2020-03-17 深圳市超视智慧科技有限公司 事件信息显示方法、装置、计算设备及存储介质
CN110929018A (zh) * 2019-12-04 2020-03-27 Oppo(重庆)智能科技有限公司 文本处理方法、装置、存储介质及电子设备
CN110990705A (zh) * 2019-12-06 2020-04-10 腾讯科技(深圳)有限公司 一种新闻处理方法、装置、设备及介质
CN111324748A (zh) * 2020-02-28 2020-06-23 北京百度网讯科技有限公司 一种体育战报的生成方法、装置、电子设备及存储介质
CN112257734A (zh) * 2019-11-15 2021-01-22 北京沃东天骏信息技术有限公司 一种信息处理方法及装置、存储介质
CN113722593A (zh) * 2021-08-31 2021-11-30 北京百度网讯科技有限公司 事件数据处理方法、装置、电子设备和介质
CN114185922A (zh) * 2021-12-01 2022-03-15 维沃移动通信有限公司 信息检测方法、信息检测装置、电子设备和可读存储介质
CN116340639A (zh) * 2023-03-31 2023-06-27 北京百度网讯科技有限公司 新闻召回方法、装置、设备及存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125520B (zh) * 2019-12-11 2023-04-21 东南大学 一种面向新闻文本的基于深度聚类模型的事件线抽取方法
CN111125429B (zh) * 2019-12-20 2023-05-30 腾讯科技(深圳)有限公司 一种视频推送方法、装置和计算机可读存储介质
CN113407714B (zh) * 2020-11-04 2024-03-12 腾讯科技(深圳)有限公司 基于时效的数据处理方法、装置、电子设备及存储介质
CN112948528A (zh) * 2021-03-02 2021-06-11 北京秒针人工智能科技有限公司 一种基于关键词的数据归类方法及系统
CN115048486B (zh) * 2022-05-24 2024-05-31 支付宝(杭州)信息技术有限公司 事件抽取方法、装置、计算机程序产品、存储介质及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100131530A1 (en) * 2008-11-21 2010-05-27 Stubhub, Inc. System and methods for third-party access to a network-based system for providing location-based upcoming event information
CN103324718A (zh) * 2013-06-25 2013-09-25 百度在线网络技术(北京)有限公司 基于海量搜索日志挖掘话题脉络的方法和系统
CN103473263A (zh) * 2013-07-18 2013-12-25 大连理工大学 一种面向新闻事件演变过程的可视化展现方法
CN104768131A (zh) * 2015-03-12 2015-07-08 中国科学技术大学苏州研究院 一种基于车车通信的中继节点告警消息转发方法
CN104915446A (zh) * 2015-06-29 2015-09-16 华南理工大学 基于新闻的事件演化关系自动提取方法及其系统
CN105787095A (zh) * 2016-03-16 2016-07-20 广州索答信息科技有限公司 互联网新闻的自动生成方法和装置
CN107016556A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 数据处理方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9226037B2 (en) * 2010-12-30 2015-12-29 Pelco, Inc. Inference engine for video analytics metadata-based event detection and forensic search
CN105468669B (zh) * 2015-10-13 2019-05-21 中国科学院信息工程研究所 一种融合用户关系的自适应微博话题追踪方法
CN106886567B (zh) * 2017-01-12 2019-11-08 北京航空航天大学 基于语义扩展的微博突发事件检测方法及装置
CN107122423A (zh) * 2017-04-06 2017-09-01 深圳Tcl数字技术有限公司 影视推介方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100131530A1 (en) * 2008-11-21 2010-05-27 Stubhub, Inc. System and methods for third-party access to a network-based system for providing location-based upcoming event information
CN103324718A (zh) * 2013-06-25 2013-09-25 百度在线网络技术(北京)有限公司 基于海量搜索日志挖掘话题脉络的方法和系统
CN103473263A (zh) * 2013-07-18 2013-12-25 大连理工大学 一种面向新闻事件演变过程的可视化展现方法
CN104768131A (zh) * 2015-03-12 2015-07-08 中国科学技术大学苏州研究院 一种基于车车通信的中继节点告警消息转发方法
CN104915446A (zh) * 2015-06-29 2015-09-16 华南理工大学 基于新闻的事件演化关系自动提取方法及其系统
CN107016556A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 数据处理方法及装置
CN105787095A (zh) * 2016-03-16 2016-07-20 广州索答信息科技有限公司 互联网新闻的自动生成方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LU MEILIAN ET AL.: "Scalable news recommendation using multi-dimensional similarity and Jaccard–Kmeans clustering" *
何伟名: "中文社交媒体话题关键词抽取算法" *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704603A (zh) * 2019-09-12 2020-01-17 武汉灯塔之光科技有限公司 一种通过资讯发掘当前热点事件的方法和装置
CN110889024A (zh) * 2019-10-25 2020-03-17 武汉灯塔之光科技有限公司 一种用于计算资讯关联股票的方法和装置
CN110888877A (zh) * 2019-11-13 2020-03-17 深圳市超视智慧科技有限公司 事件信息显示方法、装置、计算设备及存储介质
CN112257734A (zh) * 2019-11-15 2021-01-22 北京沃东天骏信息技术有限公司 一种信息处理方法及装置、存储介质
CN110929018A (zh) * 2019-12-04 2020-03-27 Oppo(重庆)智能科技有限公司 文本处理方法、装置、存储介质及电子设备
CN110929018B (zh) * 2019-12-04 2023-03-21 Oppo(重庆)智能科技有限公司 文本处理方法、装置、存储介质及电子设备
CN110990705A (zh) * 2019-12-06 2020-04-10 腾讯科技(深圳)有限公司 一种新闻处理方法、装置、设备及介质
CN110990705B (zh) * 2019-12-06 2024-04-12 深圳市雅阅科技有限公司 一种新闻处理方法、装置、设备及介质
CN111324748A (zh) * 2020-02-28 2020-06-23 北京百度网讯科技有限公司 一种体育战报的生成方法、装置、电子设备及存储介质
CN111324748B (zh) * 2020-02-28 2023-08-04 北京百度网讯科技有限公司 一种体育战报的生成方法、装置、电子设备及存储介质
CN113722593A (zh) * 2021-08-31 2021-11-30 北京百度网讯科技有限公司 事件数据处理方法、装置、电子设备和介质
CN113722593B (zh) * 2021-08-31 2024-01-16 北京百度网讯科技有限公司 事件数据处理方法、装置、电子设备和介质
CN114185922A (zh) * 2021-12-01 2022-03-15 维沃移动通信有限公司 信息检测方法、信息检测装置、电子设备和可读存储介质
CN116340639A (zh) * 2023-03-31 2023-06-27 北京百度网讯科技有限公司 新闻召回方法、装置、设备及存储介质
CN116340639B (zh) * 2023-03-31 2023-12-12 北京百度网讯科技有限公司 新闻召回方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110020104B (zh) 2023-04-07
WO2019047849A1 (zh) 2019-03-14

Similar Documents

Publication Publication Date Title
CN110020104A (zh) 新闻处理方法、装置、存储介质及计算机设备
WO2018036555A1 (zh) 会话处理方法及装置
EP3654211A1 (en) Automated response server device, terminal device, response system, response method, and program
US10332506B2 (en) Computerized system and method for formatted transcription of multimedia content
CN102687169B (zh) 提供共创平台的方法和装置
CN101556553B (zh) 基于需求变更的缺陷预测方法和系统
CN112313644A (zh) 基于会话数据构建定制的用户简档
CN111881343A (zh) 信息推送方法、装置、电子设备及计算机可读存储介质
CN103534697B (zh) 用于提供统计对话管理器训练的方法和系统
US20120290509A1 (en) Training Statistical Dialog Managers in Spoken Dialog Systems With Web Data
EP3964994A1 (en) Synchronizing access controls between computing devices
WO2020056621A1 (zh) 一种意图识别模型的学习方法、装置及设备
CN110263009A (zh) 日志分类规则的生成方法、装置、设备及可读存储介质
WO2017075017A1 (en) Automatic conversation creator for news
CN102708174A (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN109724215A (zh) 空调控制方法、空调控制装置、空调设备及存储介质
CN108875059A (zh) 用于生成文档标签的方法、装置、电子设备和存储介质
CN108304373A (zh) 语义词典的构建方法、装置、存储介质和电子装置
CN113011126B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN110489747A (zh) 一种图像处理方法、装置、存储介质及电子设备
CN109635073A (zh) 论坛社区应用管理方法、装置、设备及计算机可读存储介质
US20240045904A1 (en) System and method of providing search and replace functionality for videos
CN104090923A (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN105335466A (zh) 一种音频数据的检索方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant