CN106294765A - 处理新闻数据的方法及装置 - Google Patents

处理新闻数据的方法及装置 Download PDF

Info

Publication number
CN106294765A
CN106294765A CN201610657518.1A CN201610657518A CN106294765A CN 106294765 A CN106294765 A CN 106294765A CN 201610657518 A CN201610657518 A CN 201610657518A CN 106294765 A CN106294765 A CN 106294765A
Authority
CN
China
Prior art keywords
news
target object
candidate
information
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610657518.1A
Other languages
English (en)
Inventor
康潮明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LeTV Holding Beijing Co Ltd
LeTV Information Technology Beijing Co Ltd
Original Assignee
LeTV Holding Beijing Co Ltd
LeTV Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LeTV Holding Beijing Co Ltd, LeTV Information Technology Beijing Co Ltd filed Critical LeTV Holding Beijing Co Ltd
Priority to CN201610657518.1A priority Critical patent/CN106294765A/zh
Publication of CN106294765A publication Critical patent/CN106294765A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种处理新闻数据的方法及装置,涉及互联网技术领域,能够解决现有技术中识别影视相关新闻时准确率较低的问题。本发明的方法包括:获取待识别的新闻库;将新闻库中满足预设关注条件的新闻添加到第一候选新闻集合中,预设关注条件用于限定新闻受关注程度;分别将第一候选新闻集合中每篇新闻的新闻标题与目标对象的信息进行匹配;将匹配成功的新闻标题对应的新闻添加到第二候选新闻集合中;将第二候选新闻集合中满足预设相关条件的新闻正文对应的新闻确定为与目标对象相关的新闻,预设相关条件用于限定新闻正文包含与目标对象不相关信息的程度以及相关信息的程度。本发明主要适用于识别某影视相关新闻的场景中。

Description

处理新闻数据的方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种处理新闻数据的方法及装置。
背景技术
随着互联网技术的发展,网络上的新闻类型越来越丰富,新闻数量也越来越多,从而人们在大量新闻中查找出与某影视相关新闻的难度越来越大,进而如何使计算机自动识别影视相关新闻是极其重要的。
现有的识别影视相关新闻的方法主要有两种:(1)将当前影视的影视名称或者影视人物与待识别新闻进行字面匹配,若待识别新闻中包含当前影视的影视名称或者影视人物,则确定该新闻与当前影视相关,若不包含,则确定该新闻与当前影视不相关;(2)统计待识别新闻中包含当前影视的影视名称或者影视人物的数量,若数量超过阈值,则确定该新闻与当前影视相关,若数量没有超过阈值,则确定该新闻与当前影视不相关。
然而,发明人在实现上述发明的过程中发现,有的新闻中虽然提及过某影视的影视名称或者影视人物,但是整个新闻的重点却是广告、个人评论等信息,因此采用第一种方法(或者第二种方法)可能会将包含当前影视的影视信息但是新闻内容却与当前影视不相关的新闻误判为相关新闻;有的新闻却因篇幅较短,所提及的影视名称或者影视人物的次数不多,但是整个新闻的重点却是与该影视相关,例如该新闻是对某影视发布会的简单介绍,因此采用第二种方法会将新闻内容与当前影视相关但提及影视名称或者影视人物的次数较少的新闻误判为不相关新闻。由此可知,现有的识别影视相关新闻的准确率较低。
发明内容
本发明实施例提供一种处理新闻数据的方法及装置,能够解决现有技术中识别影视相关新闻时,准确率较低的问题。
一方面,本发明实施例提供了一种处理新闻数据的方法,所述方法包括:
获取待识别的新闻库;
将所述新闻库中满足预设关注条件的新闻添加到第一候选新闻集合中,所述预设关注条件用于限定新闻受关注程度;
分别将所述第一候选新闻集合中每篇新闻的新闻标题与目标对象的信息进行匹配;
将匹配成功的新闻标题对应的新闻添加到第二候选新闻集合中;
将所述第二候选新闻集合中满足预设相关条件的新闻正文对应的新闻确定为与所述目标对象相关的新闻,所述预设相关条件用于限定新闻正文包含与所述目标对象不相关信息的程度以及相关信息的程度。
另一方面,本发明实施例提供了一种处理新闻数据的装置,所述装置包括:
获取单元,用于获取待识别的新闻库;
添加单元,用于将所述获取单元获取的所述新闻库中满足预设关注条件的新闻添加到第一候选新闻集合中,所述预设关注条件用于限定新闻受关注程度;
匹配单元,用于分别将所述添加单元获得的所述第一候选新闻集合中每篇新闻的新闻标题与目标对象的信息进行匹配;
所述添加单元还用于将所述匹配单元匹配成功的新闻标题对应的新闻添加到第二候选新闻集合中;
确定单元,用于将所述添加单元获得的所述第二候选新闻集合中满足预设相关条件的新闻正文对应的新闻确定为与所述目标对象相关的新闻,所述预设相关条件用于限定新闻正文包含与所述目标对象不相关信息的程度以及相关信息的程度。
本发明实施例提供的处理新闻数据的方法及装置,能够在获得待识别的新闻库后,先将新闻库中满足预设关注条件的新闻添加到第一候选新闻集合中,然后分别将第一候选新闻集合中每篇新闻的新闻标题与目标对象的信息进行匹配,若匹配成功,则将对应的新闻添加到第二候选新闻集合中,最后根据用于限定新闻正文包含与目标对象不相关信息程度以及相关信息程度的预设相关条件,从第二候选新闻集合中筛选出与目标对象相关的新闻。由此可知,本发明实施例能够通过新闻受关注程度、新闻标题与当前影视(即目标对象)的匹配程度以及新闻正文与当前影视的匹配程度等多个维度对待识别新闻库中的新闻进行综合分析,来判断其是否为与当前影视相关,而非粗滤地通过检测新闻中是否包含某影视的影视信息或者通过统计新闻中包含影视信息的数据量来判断该新闻是否与当前影视相关,从而提高了识别影视相关新闻的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种处理新闻数据的方法的流程图;
图2为本发明实施例提供的另一种处理新闻数据的方法的流程图;
图3为本发明实施例提供的一种处理新闻数据的装置的组成框图;
图4为本发明实施例提供的另一种处理新闻数据的装置的组成框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种处理新闻数据的方法,如图1所示,该方法主要包括:
101、获取待识别的新闻库。
在实际应用中,新闻识别设备可以实时或者定时获取网络上新产生的新闻,然后将获取的新闻保存至待识别的新闻库中,以便后续需要识别这些新闻与各个目标对象的相关性时,从待识别的新闻库中获取待识别的新闻,并对其进行相关性识别。
其中,新闻识别设备可以为服务器,也可以为终端,在此不做限定。目标对象包括电视剧、电影、综艺节目、小说等。
102、将所述新闻库中满足预设关注条件的新闻添加到第一候选新闻集合中。
其中,预设关注条件用于限定新闻受关注程度。在实际应用中,受关注程度较高的新闻中的中心内容往往与某目标对象(例如某影视)相关,而受关注程度较低的新闻往往仅是提及某目标名称或者相关人物,而其中心内容却是与该目标对象无关的个人广告、个人评论等其他信息。因此,可以将受关注程度较高的新闻添加至第一候选新闻集合中进行后续识别,而将受关注程度较低的新闻直接判定为与目标对象无关的新闻。此外,与新闻受关注程度相关的参数主要包括新闻来源、新闻转发量等,新闻识别设备可以通过新闻来源、新闻转发量等多个方面判断新闻是否可以添加至第一候选新闻集合中进行后续判断。
103、分别将所述第一候选新闻集合中每篇新闻的新闻标题与目标对象的信息进行匹配。
其中,信息包括目标名称、相关人物的人物列表。由于新闻标题往往能够体现出新闻正文的中心思想,所以当新闻识别设备从待识别的新闻库中筛选出满足预设关注条件的新闻后,可以进一步对这些新闻的新闻标题与目标对象的信息的匹配程度进行识别,以便确定新闻在用于标志中心思想的新闻标题上是否与目标对象相关。
104、将匹配成功的新闻标题对应的新闻添加到第二候选新闻集合中。
当新闻识别设备确定第一候选新闻集合中某新闻的新闻标题与目标对象的信息匹配成功时,可以确定该新闻标题与目标对象相关,但还无法确定新闻正文中描述的内容是否与目标对象相关,因此可以将该新闻添加到第二候选新闻集合中,以便后续根据新闻正文进行进一步判断;当新闻识别设备确定第一候选新闻集合中某新闻的新闻标题与目标对象的信息匹配失败时,可以直接将该新闻确定为与目标对象不相关的新闻,而不再进行后续判断。
105、将所述第二候选新闻集合中满足预设相关条件的新闻正文对应的新闻确定为与所述目标对象相关的新闻。
其中,预设相关条件用于限定新闻正文包含与目标对象不相关信息的程度以及相关信息的程度。由于新闻正文中包含与目标对象不相关的信息越少,包含与目标对象相关的信息越多,该新闻正文对应的新闻与目标对象越相关,而新闻正文中包含与目标对象不相关的信息越多,包含与目标对象相关的信息越少,该新闻正文对应的新闻与目标对象越不相关,所以在获得第二候选新闻集合后,可以通过判断新闻正文中包含与目标对象不相关信息的程度以及相关信息的程度来确定该新闻是否为与目标对象相关的新闻。
需要说明的是,本发明实施例提供的识别相关新闻的方法,不仅可以应用于影视场景中,还可以应用于其他类似场景中,例如小说等。
本发明实施例提供的处理新闻数据的方法,能够在获得待识别的新闻库后,先将新闻库中满足预设关注条件的新闻添加到第一候选新闻集合中,然后分别将第一候选新闻集合中每篇新闻的新闻标题与目标对象的信息进行匹配,若匹配成功,则将对应的新闻添加到第二候选新闻集合中,最后根据用于限定新闻正文包含与目标对象不相关信息程度以及相关信息程度的预设相关条件,从第二候选新闻集合中筛选出与目标对象相关的新闻。由此可知,本发明实施例能够通过新闻受关注程度、新闻标题与当前影视(即目标对象)的匹配程度以及新闻正文与当前影视的匹配程度等多个维度对待识别新闻库中的新闻进行综合分析,来判断其是否为与当前影视相关,而非粗滤地通过检测新闻中是否包含某影视的影视信息或者通过统计新闻中包含影视信息的数据量来判断该新闻是否与当前影视相关,从而提高了识别影视相关新闻的准确率。
需要说明的是,由于本发明实施例提高了识别影视相关新闻的准确率,所以在基于本发明实施例获得各个影视相关的新闻后,基于这些新闻统计热点新闻、热点影视的准确率也会随之提高。此外,当基于搜索引擎查找某影视相关新闻时,若采用本发明实施例的识别方法,则可以提高搜索相关新闻的准确率。
进一步的,依据上述方法实施例,本发明的另一个实施例提供了一种处理新闻数据的方法,如图2所示,该方法主要包括:
201、获取待识别的新闻库。
202、将所述新闻库中满足预设关注条件的新闻添加到第一候选新闻集合中。
本步骤的具体实现方式可以为:
(a)获取新闻可靠来源库。
其中,构建新闻可靠来源库的具体实现方式可以为:获取数据库中存储的新闻;确定每篇新闻的新闻来源;根据每个新闻来源的出现频次,对新闻来源进行排序;将出现频次为前N名的新闻来源添加至新闻可靠来源库中,其中,N为正整数。
其中,数据库中存储的新闻是从各个网站上采集的所有新闻,即包括已识别的新闻和未识别的新闻,而待识别的新闻库中的新闻为本发明采集的未识别的新闻。N可以根据大量的统计经验获得,例如可以为100。在确定每篇新闻的新闻来源时,可以从新闻开头部分或者新闻结尾部分获得,也可以通过其他方式获得。
(b)确定所述新闻库中每篇新闻的新闻来源。
(c)若所述新闻的新闻来源包含在所述新闻可靠来源库中,则将所述新闻添加到所述第一候选新闻集合中。
若某新闻的新闻来源没有包含在新闻可靠来源库中,则新闻识别设备可以确定该新闻的来源不可靠,从而直接确定该新闻与目标对象不相关。
然而,在实际应用中,可靠来源网站中也存在只提及目标名称或者相关人物,而实际内容与该目标对象无关的新闻,且这些新闻被关注的程度往往较低,所以还需要通过用于表征关注程度的其他参数对可靠来源的新闻进行二次筛选。因此,在确定某新闻的新闻来源包含在新闻可靠来源库中后,还可以再统计一下该新闻的转发量,若转发量大于预设转发阈值,则再将该新闻添加到第一候选新闻集合中,若转发量小于等于预设转发阈值,则直接将该新闻确定为与目标对象不相关的新闻。
203、分别将所述第一候选新闻集合中每篇新闻的新闻标题与目标对象的信息进行匹配。
具体的,在上述实施例中提及信息包括目标名称、相关人物的人物列表,因此本步骤的具体实现方式可以为:针对第一候选新闻集合,分别判断每篇新闻的新闻标题中是否包含目标对象的人物列表中至少一个人物以及新闻标题中的内容是否包含在目标对象的目标名称中;若新闻标题包含目标对象的人物列表中至少一个人物或者新闻标题中的内容包含在目标对象的目标名称中,则匹配成功;若新闻标题不包含目标对象的人物列表中至少一个人物且新闻标题中的内容不包含在目标对象的目标名称中,则匹配失败。
需要说明的是,由于影视名称等通常增加有书名号,且新闻标题中除了影视名称外,往往还含有其他内容,因此,为了提高匹配的准确度,可以将“判断新闻标题中的内容是否包含在目标对象的目标名称中”具体细化为“判断新闻标题的书名号中的内容是否包含在目标对象的目标名称中”。
204、将匹配成功的新闻标题对应的新闻添加到第二候选新闻集合中。
205、获取不相关词词典。
其中,构建不相关词词典的具体实现方式可以为:获取数据库中存储的新闻;分别对每篇新闻进行分词处理;根据每个词语出现的次数,对词语进行排序;将次数位于前M名以及最后P名的词语构成的集合确定为不相关词词典,其中,M和P为正整数。
由于在实际应用中,如“的”“地”等词在一篇新闻中出现的次数相对较高,所以可以将出现次数位于前M名的词语加入不相关词词典中,又由于出现次数位于最后P名的词语往往是一些无关紧要的词语,所以可以次数位于最后P名的词语加入不相关词词典中。其中,M、P可以根据大量经验获得,例如M为50,P为80。
此外,还可以将实际经验积累的一些与影视无关的词加入到不相关词词典,例如,“抢票”、“排片”等。
206、分别统计所述第二候选新闻集合中每篇新闻的新闻正文中包含所述不相关词词典中词语的个数,以及包含所述目标对象的信息的个数。
具体的,新闻识别设备在获得第二候选新闻集合后,可以分别对集合中的新闻正文进行分词处理,然后分别统计新闻正文中包含不相关词(即不相关词词典中的词语)的个数以及包含目标对象的信息的个数。
其中,目标对象的目标名称和/或相关人物出现在新闻正文的一句话中或者出现在新闻正文的一段话中的个数越多,表明该新闻正文的实质内容与目标对象越相关,因此,分别统计第二候选新闻集合中每篇新闻的新闻正文中包含目标对象的信息的个数的具体实现方式可以为:分别统计第二候选新闻集合中每篇新闻的新闻正文中每句话包含目标对象的目标名称和/或人物列表中至少一个人物的个数;或者,分别统计第二候选新闻集合中每篇新闻的新闻正文中每段文字包含目标对象的目标名称和/或人物列表中至少一个人物的个数。
207、若所述新闻的新闻正文中包含所述不相关词词典中词语的个数小于第一预设阈值且所述新闻的新闻正文中包含所述目标对象的信息的个数大于第二预设阈值,则将所述新闻确定为与所述目标对象相关的新闻。
若所述新闻的新闻正文中包含所述不相关词词典中词语的个数大于等于第一预设阈值,或者所述新闻的新闻正文中包含所述目标对象的信息的个数小于等于第二预设阈值,则将所述新闻确定为与所述目标对象不相关的新闻。
具体的,当新闻正文中包含不相关词词典中词语的个数小于第一预设阈值时,新闻识别设备可以确定该新闻正文包含的与目标对象不相关的、无意义的词语较少;当新闻正文中包含目标对象的信息的个数大于第二预设阈值时,新闻识别设备可以确定该新闻正文中包含目标对象的信息较多。因此,当某新闻正文同时满足这两个条件时,新闻识别设备可以确定该新闻正文对应的新闻与目标对象相关,当某新闻正文最多满足这两个条件中的一个条件时,新闻识别设备可以确定该新闻正文对应的新闻与目标对象不相关。
本发明实施例提供的处理新闻数据的方法,能够在获得待识别的新闻库后,先从新闻库中筛选出具有可靠来源且转发量较高的新闻,然后从筛选出的新闻中查找出新闻标题包含目标对象的目标名称或者相关人物的新闻,最后将查找出的新闻正文包含不相关词个数小于第一预设阈值且包含信息个数大于第二预设阈值的新闻确定为与目标对象相关的新闻,将其他新闻确定为与目标对象无关的新闻,由此本发明实施例在可靠来源、转发量、新闻标题包含当前影视(即目标对象)的影视信息情况、新闻正文包含不相关词情况以及新闻正文包含当前影视的影视信息情况等多方面对待识别新闻进行了分析,而非粗滤地通过检测新闻中是否包含某影视的影视信息或者通过统计新闻中包含影视信息的数据量来对待识别新闻进行分析,从而提高了识别影视相关新闻的准确率。
进一步的,依据上述方法实施例,本发明的另一个实施例还提供了一种处理新闻数据的装置,如图3所示,该装置主要包括:获取单元31、添加单元32、匹配单元33以及确定单元34。其中,
获取单元31,用于获取待识别的新闻库;
添加单元32,用于将所述获取单元31获取的所述新闻库中满足预设关注条件的新闻添加到第一候选新闻集合中,所述预设关注条件用于限定新闻受关注程度;
匹配单元33,用于分别将所述添加单元32获得的所述第一候选新闻集合中每篇新闻的新闻标题与目标对象的信息进行匹配;
所述添加单元32还用于将所述匹配单元33匹配成功的新闻标题对应的新闻添加到第二候选新闻集合中;
确定单元34,用于将所述添加单元32获得的所述第二候选新闻集合中满足预设相关条件的新闻正文对应的新闻确定为与所述目标对象相关的新闻,所述预设相关条件用于限定新闻正文包含与所述目标对象不相关信息的程度以及相关信息的程度。
本发明实施例提供的处理新闻数据的装置,能够在获得待识别的新闻库后,先将新闻库中满足预设关注条件的新闻添加到第一候选新闻集合中,然后分别将第一候选新闻集合中每篇新闻的新闻标题与目标对象的信息进行匹配,若匹配成功,则将对应的新闻添加到第二候选新闻集合中,最后根据用于限定新闻正文包含与目标对象不相关信息程度以及相关信息程度的预设相关条件,从第二候选新闻集合中筛选出与目标对象相关的新闻。由此可知,本发明实施例能够通过新闻受关注程度、新闻标题与当前影视(即目标对象)的匹配程度以及新闻正文与当前影视的匹配程度等多个维度对待识别新闻库中的新闻进行综合分析,来判断其是否为与当前影视相关,而非粗滤地通过检测新闻中是否包含某影视的影视信息或者通过统计新闻中包含影视信息的数据量来判断该新闻是否与当前影视相关,从而提高了识别影视相关新闻的准确率。
进一步的,如图4所示,所述添加单元32包括:
第一获取模块321,用于获取新闻可靠来源库;
第一确定模块322,用于确定所述新闻库中每篇新闻的新闻来源;
第一添加模块323,用于当所述新闻的新闻来源包含在所述新闻可靠来源库中时,将所述新闻添加到所述第一候选新闻集合中。
进一步的,如图4所示,所述添加单元32还包括:
第一统计模块324,用于在将所述新闻添加到所述第一候选新闻集合中之前,统计所述新闻的转发量。
进一步的,所述第一添加模块323还用于当所述转发量大于预设转发阈值时,将所述新闻添加到第一候选新闻集合中。
进一步的,如图4所示,所述第一获取模块321包括:
第一获取子模块3211,用于获取数据库中存储的新闻;
第一确定子模块3212,用于确定所述第一获取子模块3211获取的每篇新闻的新闻来源;
第一排序子模块3213,用于根据所述第一确定子模块3212确定的每个新闻来源的出现频次,对新闻来源进行排序;
添加子模块3214,用于将所述第一排序子模块3213获得的出现频次为前N名的新闻来源添加至所述新闻可靠来源库中,其中,所述N为正整数。
进一步的,如图4所示,所述匹配单元33包括:
判断模块331,用于针对所述第一候选新闻集合,分别判断每篇新闻的新闻标题中是否包含所述目标对象的人物列表中至少一个人物以及所述新闻标题中的内容是否包含在所述目标对象的目标名称中;
第二确定模块332,用于当所述判断模块331的判断结果为所述新闻标题包含所述目标对象的人物列表中至少一个人物或者所述新闻标题中的内容包含在所述目标对象的目标名称中,则匹配成功;
所述第二确定模块332还用于当所述判断模块331的判断结果为所述新闻标题不包含所述目标对象的人物列表中至少一个人物且所述新闻标题中的内容不包含在所述目标对象的目标名称中时,匹配失败。
进一步的,如图4所示,所述确定单元34包括:
第二获取模块341,用于获取不相关词词典;
第二统计模块342,用于分别统计所述第二候选新闻集合中每篇新闻的新闻正文中包含所述不相关词词典中词语的个数,以及包含所述目标对象的信息的个数;
第三确定模块343,用于当所述第二统计模块342的统计结果为所述新闻的新闻正文中包含所述不相关词词典中词语的个数小于第一预设阈值且所述新闻的新闻正文中包含所述目标对象的信息的个数大于第二预设阈值时,将所述新闻确定为与所述目标对象相关的新闻。
进一步的,如图4所示,所述第二统计模块342包括:
第一统计子模块3421,用于分别统计所述第二候选新闻集合中每篇新闻的新闻正文中每句话包含所述目标对象的目标名称和/或人物列表中至少一个人物的个数;
第二统计子模块3422,用于分别统计所述第二候选新闻集合中每篇新闻的新闻正文中每段文字包含所述目标对象的目标名称和/或人物列表中至少一个人物的个数。
进一步的,如图4所示,所述第二获取模块341包括:
第二获取子模块3411,用于获取数据库中存储的新闻;
分词子模块3412,用于分别对所述第二获取子模块3411获得的每篇新闻进行分词处理;
第二排序子模块3413,用于根据每个词语出现的次数,对词语进行排序;
第二确定子模块3414,用于将所述次数位于前M名以及最后P名的词语构成的集合确定为所述不相关词词典,其中,所述M和所述P为正整数。
本发明实施例提供的处理新闻数据的装置,能够在获得待识别的新闻库后,先从新闻库中筛选出具有可靠来源且转发量较高的新闻,然后从筛选出的新闻中查找出新闻标题包含目标对象的目标名称或者相关人物的新闻,最后将查找出的新闻正文包含不相关词个数小于第一预设阈值且包含信息个数大于第二预设阈值的新闻确定为与目标对象相关的新闻,将其他新闻确定为与目标对象无关的新闻,由此本发明实施例在可靠来源、转发量、新闻标题包含当前影视(即目标对象)的影视信息情况、新闻正文包含不相关词情况以及新闻正文包含当前影视的影视信息情况等多方面对待识别新闻进行了分析,而非粗滤地通过检测新闻中是否包含某影视的影视信息或者通过统计新闻中包含影视信息的数据量来对待识别新闻进行分析,从而提高了识别影视相关新闻的准确率。
上述装置实施例与前述方法实施例对应,为便于阅读,上述装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,上述实施例中的装置能够对应实现前述方法实施例中的全部内容。
所述处理新闻数据的装置包括处理器和存储器,上述获取单元、添加单元、匹配单元以及确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来为用户提供更多用户体感操作的游戏道具。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:
获取待识别的新闻库;
将所述新闻库中满足预设关注条件的新闻添加到第一候选新闻集合中,所述预设关注条件用于限定新闻受关注程度;
分别将所述第一候选新闻集合中每篇新闻的新闻标题与目标对象的信息进行匹配;
将匹配成功的新闻标题对应的新闻添加到第二候选新闻集合中;
将所述第二候选新闻集合中满足预设相关条件的新闻正文对应的新闻确定为与所述目标对象相关的新闻,所述预设相关条件用于限定新闻正文包含与所述目标对象不相关信息的程度以及相关信息的程度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种处理新闻数据的方法,其特征在于,所述方法包括:
获取待识别的新闻库;
将所述新闻库中满足预设关注条件的新闻添加到第一候选新闻集合中,所述预设关注条件用于限定新闻受关注程度;
分别将所述第一候选新闻集合中每篇新闻的新闻标题与目标对象的信息进行匹配;
将匹配成功的新闻标题对应的新闻添加到第二候选新闻集合中;
将所述第二候选新闻集合中满足预设相关条件的新闻正文对应的新闻确定为与所述目标对象相关的新闻,所述预设相关条件用于限定新闻正文包含与所述目标对象不相关信息的程度以及相关信息的程度。
2.根据权利要求1所述的方法,其特征在于,分别将所述第一候选新闻集合中每篇新闻的新闻标题与目标对象的信息进行匹配包括:
针对所述第一候选新闻集合,分别判断每篇新闻的新闻标题中是否包含所述目标对象的人物列表中至少一个人物以及所述新闻标题中的内容是否包含在所述目标对象的目标名称中;
若所述新闻标题包含所述目标对象的人物列表中至少一个人物或者所述新闻标题中的内容包含在所述目标对象的目标名称中,则匹配成功;
若所述新闻标题不包含所述目标对象的人物列表中至少一个人物且所述新闻标题中的内容不包含在所述目标对象的目标名称中,则匹配失败。
3.根据权利要求1所述的方法,其特征在于,将所述第二候选新闻集合中满足预设相关条件的新闻正文对应的新闻确定为与所述目标对象相关的新闻包括:
获取不相关词词典;
分别统计所述第二候选新闻集合中每篇新闻的新闻正文中包含所述不相关词词典中词语的个数,以及包含所述目标对象的信息的个数;
若所述新闻的新闻正文中包含所述不相关词词典中词语的个数小于第一预设阈值且所述新闻的新闻正文中包含所述目标对象的信息的个数大于第二预设阈值,则将所述新闻确定为与所述目标对象相关的新闻。
4.根据权利要求3所述的方法,其特征在于,分别统计所述第二候选新闻集合中每篇新闻的新闻正文中包含所述目标对象的信息的个数包括:
分别统计所述第二候选新闻集合中每篇新闻的新闻正文中每句话包含所述目标对象的目标名称和/或人物列表中至少一个人物的个数;
或者,分别统计所述第二候选新闻集合中每篇新闻的新闻正文中每段文字包含所述目标对象的目标名称和/或人物列表中至少一个人物的个数。
5.根据权利要求1至4中任一项所述的方法,其特征在于,将所述新闻库中满足预设关注条件的新闻添加到第一候选新闻集合中包括:
获取新闻可靠来源库;
确定所述新闻库中每篇新闻的新闻来源;
若所述新闻的新闻来源包含在所述新闻可靠来源库中,则将所述新闻添加到所述第一候选新闻集合中。
6.一种处理新闻数据的装置,其特征在于,所述装置包括:
获取单元,用于获取待识别的新闻库;
添加单元,用于将所述获取单元获取的所述新闻库中满足预设关注条件的新闻添加到第一候选新闻集合中,所述预设关注条件用于限定新闻受关注程度;
匹配单元,用于分别将所述添加单元获得的所述第一候选新闻集合中每篇新闻的新闻标题与目标对象的信息进行匹配;
所述添加单元还用于将所述匹配单元匹配成功的新闻标题对应的新闻添加到第二候选新闻集合中;
确定单元,用于将所述添加单元获得的所述第二候选新闻集合中满足预设相关条件的新闻正文对应的新闻确定为与所述目标对象相关的新闻,所述预设相关条件用于限定新闻正文包含与所述目标对象不相关信息的程度以及相关信息的程度。
7.根据权利要求6所述的装置,其特征在于,所述匹配单元包括:
判断模块,用于针对所述第一候选新闻集合,分别判断每篇新闻的新闻标题中是否包含所述目标对象的人物列表中至少一个人物以及所述新闻标题中的内容是否包含在所述目标对象的目标名称中;
第二确定模块,用于当所述判断模块的判断结果为所述新闻标题包含所述目标对象的人物列表中至少一个人物或者所述新闻标题中的内容包含在所述目标对象的目标名称中,则匹配成功;
所述第二确定模块还用于当所述判断模块的判断结果为所述新闻标题不包含所述目标对象的人物列表中至少一个人物且所述新闻标题中的内容不包含在所述目标对象的目标名称中时,匹配失败。
8.根据权利要求6所述的装置,其特征在于,所述确定单元包括:
第二获取模块,用于获取不相关词词典;
第二统计模块,用于分别统计所述第二候选新闻集合中每篇新闻的新闻正文中包含所述不相关词词典中词语的个数,以及包含所述目标对象的信息的个数;
第三确定模块,用于当所述第二统计模块的统计结果为所述新闻的新闻正文中包含所述不相关词词典中词语的个数小于第一预设阈值且所述新闻的新闻正文中包含所述目标对象的信息的个数大于第二预设阈值时,将所述新闻确定为与所述目标对象相关的新闻。
9.根据权利要求8所述的装置,其特征在于,所述第二统计模块包括:
第一统计子模块,用于分别统计所述第二候选新闻集合中每篇新闻的新闻正文中每句话包含所述目标对象的目标名称和/或人物列表中至少一个人物的个数;
第二统计子模块,用于分别统计所述第二候选新闻集合中每篇新闻的新闻正文中每段文字包含所述目标对象的目标名称和/或人物列表中至少一个人物的个数。
10.根据权利要求6至9中任一项所述的装置,其特征在于,所述添加单元包括:
第一获取模块,用于获取新闻可靠来源库;
第一确定模块,用于确定所述新闻库中每篇新闻的新闻来源;
第一添加模块,用于当所述新闻的新闻来源包含在所述新闻可靠来源库中时,将所述新闻添加到所述第一候选新闻集合中。
CN201610657518.1A 2016-08-11 2016-08-11 处理新闻数据的方法及装置 Pending CN106294765A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610657518.1A CN106294765A (zh) 2016-08-11 2016-08-11 处理新闻数据的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610657518.1A CN106294765A (zh) 2016-08-11 2016-08-11 处理新闻数据的方法及装置

Publications (1)

Publication Number Publication Date
CN106294765A true CN106294765A (zh) 2017-01-04

Family

ID=57669250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610657518.1A Pending CN106294765A (zh) 2016-08-11 2016-08-11 处理新闻数据的方法及装置

Country Status (1)

Country Link
CN (1) CN106294765A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304421A (zh) * 2017-02-24 2018-07-20 腾讯科技(深圳)有限公司 一种信息搜索方法及装置
CN108734166A (zh) * 2018-05-23 2018-11-02 深圳市茁壮网络股份有限公司 一种新闻标题检测方法及装置
CN109446336A (zh) * 2018-09-18 2019-03-08 平安科技(深圳)有限公司 新闻筛选的方法、装置、计算机设备和存储介质
CN113177117A (zh) * 2021-03-18 2021-07-27 深圳市北科瑞讯信息技术有限公司 新闻素材的采集方法及装置、存储介质、电子装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809154A (zh) * 2015-03-19 2015-07-29 百度在线网络技术(北京)有限公司 用于资讯推荐的方法及装置
CN105045882A (zh) * 2015-07-21 2015-11-11 无锡天脉聚源传媒科技有限公司 一种热词处理方法及装置
CN105468668A (zh) * 2015-10-13 2016-04-06 清华大学 一种官方媒体新闻中话题的推送方法及装置
CN105808773A (zh) * 2016-03-28 2016-07-27 北京麒麟合盛网络技术有限公司 一种新闻推送方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809154A (zh) * 2015-03-19 2015-07-29 百度在线网络技术(北京)有限公司 用于资讯推荐的方法及装置
CN105045882A (zh) * 2015-07-21 2015-11-11 无锡天脉聚源传媒科技有限公司 一种热词处理方法及装置
CN105468668A (zh) * 2015-10-13 2016-04-06 清华大学 一种官方媒体新闻中话题的推送方法及装置
CN105808773A (zh) * 2016-03-28 2016-07-27 北京麒麟合盛网络技术有限公司 一种新闻推送方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304421A (zh) * 2017-02-24 2018-07-20 腾讯科技(深圳)有限公司 一种信息搜索方法及装置
CN108734166A (zh) * 2018-05-23 2018-11-02 深圳市茁壮网络股份有限公司 一种新闻标题检测方法及装置
CN108734166B (zh) * 2018-05-23 2022-03-11 深圳市茁壮网络股份有限公司 一种新闻标题检测方法及装置
CN109446336A (zh) * 2018-09-18 2019-03-08 平安科技(深圳)有限公司 新闻筛选的方法、装置、计算机设备和存储介质
CN109446336B (zh) * 2018-09-18 2024-05-03 平安科技(深圳)有限公司 新闻筛选的方法、装置、计算机设备和存储介质
CN113177117A (zh) * 2021-03-18 2021-07-27 深圳市北科瑞讯信息技术有限公司 新闻素材的采集方法及装置、存储介质、电子装置

Similar Documents

Publication Publication Date Title
CN106055574B (zh) 一种识别非法统一资源标识符url的方法与装置
CN108509436B (zh) 一种确定推荐对象的方法、装置及计算机存储介质
CN108694223B (zh) 一种用户画像库的构建方法及装置
CN106649316B (zh) 一种视频推送方法及装置
CN106331778B (zh) 视频推荐方法和装置
CN111274442B (zh) 确定视频标签的方法、服务器及存储介质
CN109508406B (zh) 一种信息处理方法、装置及计算机可读存储介质
CN111314732A (zh) 确定视频标签的方法、服务器及存储介质
CN110287375B (zh) 视频标签的确定方法、装置及服务器
CN107273546B (zh) 仿冒应用检测方法以及系统
CN106294765A (zh) 处理新闻数据的方法及装置
CN111708909B (zh) 视频标签的添加方法及装置、电子设备、计算机可读存储介质
CN113407773A (zh) 一种短视频智能推荐方法、系统、电子设备及存储介质
CN110210038B (zh) 核心实体确定方法及其系统、服务器和计算机可读介质
US11756301B2 (en) System and method for automatically detecting and marking logical scenes in media content
EP3706014A1 (en) Methods, apparatuses, devices, and storage media for content retrieval
CN110888896A (zh) 数据搜寻方法及其数据搜寻系统
CN111191591B (zh) 一种水印检测、视频处理方法和相关设备
CN111353071A (zh) 标签生成方法及装置
CN109492401B (zh) 一种内容载体风险检测方法、装置、设备及介质
CN108460131B (zh) 一种分类标签处理方法及装置
US20140307968A1 (en) Method and apparatus for automatic genre identification and classification
CN112818984B (zh) 标题生成方法、装置、电子设备和存储介质
CN107577667B (zh) 一种实体词处理方法和装置
CN115437930A (zh) 网页应用指纹信息的识别方法及相关设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170104