CN109446336A - 新闻筛选的方法、装置、计算机设备和存储介质 - Google Patents

新闻筛选的方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109446336A
CN109446336A CN201811089853.1A CN201811089853A CN109446336A CN 109446336 A CN109446336 A CN 109446336A CN 201811089853 A CN201811089853 A CN 201811089853A CN 109446336 A CN109446336 A CN 109446336A
Authority
CN
China
Prior art keywords
news
identification
word
theme
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811089853.1A
Other languages
English (en)
Other versions
CN109446336B (zh
Inventor
郑子欧
汪伟
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811089853.1A priority Critical patent/CN109446336B/zh
Publication of CN109446336A publication Critical patent/CN109446336A/zh
Application granted granted Critical
Publication of CN109446336B publication Critical patent/CN109446336B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及机器学习领域,提供了一种新闻筛选的方法、装置、计算机设备和存储介质。所述方法包括:获取目标名称的命名实体,根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据,根据命名实体查询历史新闻数据,获取目标名称的共现词与主题,根据命名实体、共现词以及主题,构建多个识别词组,根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻。采用本方法能够通过命名实体、共现词以及主题实现对目标新闻的准确获取,对待处理新闻的准确筛选。

Description

新闻筛选的方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种新闻筛选的方法、装置、计算机设备和存储介质。
背景技术
随着机器学习的发展,出现了基于机器学习的新闻筛选技术,目前的新闻筛选技术主要包括根据新闻中的公司或者项目的识别技术确定新闻的对象,根据新闻的对象筛选所需新闻。新闻中的公司或者项目的识别主要还是基于正则匹配原则,正则匹配指的是根据新闻中的公司或者项目的命名实体,匹配命名实体数据库,当命名实体数据库中存在对应的命名实体时,则认为已识别到新闻中的公司或者项目。
由于难以保证新闻中的公司或者项目是独一无二、可唯一定位的,采用目前的新闻筛选的方式,会出现将新闻关联到错误的公司或者项目上的情况,难以实现对新闻的准确筛选。
发明内容
基于此,有必要针对上述技术问题,提供一种能够实现对新闻的准确筛选的新闻筛选的方法、装置、计算机设备和存储介质。
一种新闻筛选的方法,所述方法包括:
获取目标名称的命名实体;
根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据;
根据命名实体查询历史新闻数据,获取目标名称的共现词与主题;
根据命名实体、共现词以及主题,构建多个识别词组;
根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻。
在其中一个实施例中,根据命名实体查询历史新闻数据,获取目标名称的共现词与主题包括:
根据命名实体遍历历史新闻数据;
识别历史新闻数据中包含命名实体的段落;
提取段落中的词语;
统计段落中的各词语与命名实体共同出现的次数;
当段落中的词语与命名实体共同出现的次数大于预设的次数阈值时,确定段落中的词语为目标名称的共现词。
在其中一个实施例中,根据命名实体查询历史新闻数据,获取目标名称的共现词与主题包括:
获取预设的主题数据库中的主题词;
根据主题词查询历史新闻数据;
当历史新闻数据中存在与主题词对应的词语时,根据对应的主题词确定目标名称的主题。
在其中一个实施例中,根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻包括:
将待处理新闻拆分为多个新闻片段;
根据新闻识别模型中的各识别词组匹配各新闻片段,根据匹配结果确定目标新闻片段;
确定与目标新闻片段对应的待处理新闻为目标新闻。
在其中一个实施例中,根据新闻识别模型中的各识别词组匹配各新闻片段,根据匹配结果确定目标新闻片段包括:
获取新闻识别模型中的各识别词组的主题;
根据各识别词组的主题,获取在各新闻片段中与各识别词组的主题相同的第一新闻片段集合;
根据与各识别词组的主题对应的命名实体和共现词,遍历第一新闻片段集合中的第一新闻片段;
确定在第一新闻片段集合中包含命名实体和共现词的第二新闻片段,将第二新闻片段作为目标新闻片段。
在其中一个实施例中,在根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻之后,包括:
根据目标名称标识目标新闻;
将标识后的目标新闻存入预设的新闻数据库。
一种新闻筛选的装置,所述装置包括:
命名实体获取模块,用于获取目标名称的命名实体;
新闻获取模块,用于根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据;
数据获取模块,用于根据命名实体查询历史新闻数据,获取目标名称的共现词与主题;
构建模块,用于根据命名实体、共现词以及主题,构建多个识别词组;
识别模块,用于根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻。
在其中一个实施例中,数据获取模块还用于根据命名实体遍历历史新闻数据,识别历史新闻数据中包含命名实体的段落,提取段落中的词语,统计段落中的各词语与命名实体共同出现的次数,当段落中的词语与命名实体共同出现的次数大于预设的次数阈值时,确定段落中的词语为目标名称的共现词。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取目标名称的命名实体;
根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据;
根据命名实体查询历史新闻数据,获取目标名称的共现词与主题;
根据命名实体、共现词以及主题,构建多个识别词组;
根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取目标名称的命名实体;
根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据;
根据命名实体查询历史新闻数据,获取目标名称的共现词与主题;
根据命名实体、共现词以及主题,构建多个识别词组;
根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻。
上述新闻筛选的方法、装置、计算机设备和存储介质,获取目标名称的命名实体,根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据,根据命名实体查询历史新闻数据,获取目标名称的共现词与主题,根据命名实体、共现词以及主题,构建多个识别词组,根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻,实现对目标新闻的准确获取,对待处理新闻的准确筛选。
附图说明
图1为一个实施例中新闻筛选的方法的应用场景图;
图2为一个实施例中新闻筛选的方法的流程示意图;
图3为一个实施例中图2中步骤S206的子流程示意图;
图4为另一个实施例中图2中步骤S206的子流程示意图;
图5为一个实施例中图2中步骤S210的子流程示意图;
图6为一个实施例中图5中步骤S504的子流程示意图;
图7为另一个实施例中新闻筛选的方法的流程示意图;
图8为一个实施例中新闻筛选的装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的新闻筛选的方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104获取目标名称的命名实体,根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据,根据命名实体查询历史新闻数据,获取目标名称的共现词与主题,根据命名实体、共现词以及主题,构建多个识别词组,根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻,将目标新闻推送至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种新闻筛选的方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202:获取目标名称的命名实体。
目标名称指的是新闻中的公司或者项目的名称。命名实体指的是人名、机构名、地名以及其他所有以名称为标识的实体。获取目标名称的命名实体采用的是实体识别技术,实体识别技术指的是识别文本中具有特定意义的实体。服务器获取预设的新闻文本作为训练集,使用Bi-LSTM+CRF模型训练新闻文本,标注出新闻文本中出现的公司候选词,将公司候选词与目标名称进行匹配,根据匹配度确定目标名称的命名实体。
S204:根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据。
预设的新闻数据库中包括大量已归纳整理的历史新闻数据,归纳整理的依据为新闻中出现过的公司或者项目的名称。服务器设置命名实体为查询关键字,根据查询关键字查询预设的新闻数据库,当预设的新闻数据库中存在与查询关键字对应的历史新闻数据时,确定与查询关键字对应的历史新闻数据为与目标名称相应的历史新闻数据。其中,在新闻数据库中已归纳整理的历史新闻数据上设置有名称标识,在根据查询关键字查询预设的新闻数据库时,通过匹配查询关键字与各历史新闻数据上设置的名称标识即可,当查询关键字与历史新闻数据上设置的名称标识匹配时,获取与查询关键字匹配的历史新闻数据,作为与目标名称相应的历史新闻数据。
S206:根据命名实体查询历史新闻数据,获取目标名称的共现词与主题。
服务器根据命名实体遍历历史新闻数据,确定历史新闻数据中包含命名实体的段落,提取段落中的词语,统计段落中的各词语与命名实体共同出现的次数,当段落中的词语与命名实体共同出现的次数大于预设的次数阈值时,确定段落中的词语为目标名称的共现词。其中,共现词指的是与命名实体共同出现的词语,预设的次数阈值可根据需要自行设置。
服务器获取预设的主题数据库中的主题词,根据主题词查询历史新闻数据,当历史新闻数据中存在与主题词对应的词语时,根据对应的主题词确定目标名称的主题。其中,预设的主题数据库中的主题词指的是主题数据库中已按主题归纳整理的词语,根据主题词可确定对应的主题。常见的主题包括IT、农业以及医学等。IT主题的常见主题词包括手机、电脑以及平板等。
S208:根据命名实体、共现词以及主题,构建多个识别词组。
服务器根据命名实体、共现词以及主题,构建多个识别词组,识别词组指的是命名实体+共现词+主题的组合,因为共现词的数量可能不止一个,所以可以由命名实体、共现词以及主题,构建多个识别词组。
S210:根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻。
服务器根据识别词组构建新闻识别模型,将待处理新闻拆分为多个新闻片段,根据新闻识别模型中的识别词组匹配已拆分的新闻片段,当新闻片段与新闻识别模型中的任意识别词组匹配时,确定新闻片段为目标新闻片段,确定与目标新闻片段对应的待处理新闻为目标新闻。
上述新闻筛选的方法,获取目标名称的命名实体,根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据,根据命名实体查询历史新闻数据,获取目标名称的共现词与主题,根据命名实体、共现词以及主题,构建多个识别词组,根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻,实现对目标新闻的准确获取,对待处理新闻的准确筛选。
在其中一个实施例中,如图3所示,S206包括:
S302:根据命名实体遍历历史新闻数据;
S304:识别历史新闻数据中包含命名实体的段落;
S306:提取段落中的词语;
S308:统计段落中的各词语与命名实体共同出现的次数;
S310:当段落中的词语与命名实体共同出现的次数大于预设的次数阈值时,确定段落中的词语为目标名称的共现词。
服务器以命名实体为遍历关键字,将历史新闻数据拆分为多个新闻段落,根据遍历关键字遍历各新闻段落,识别各新闻段落中包含命名实体的段落,提取包含命名实体的段落中的词语,统计段落中各词语与命名实体共同出现的次数,当段落中的词语与命名实体共同出现的次数大于预设的次数阈值时,确定段落中的词语为目标名称的共现词。其中,预设的次数阈值可按照需要自行设置。进一步的,统计共现词与命名实体共同出现在同一个句子中的次数,根据共现词与命名实体共同出现在同一个句子中的次数对共现词进行排序,确定共现词的重要程度。设置共现词数量阈值,当共现词的数量超过预设的共现词数量阈值时,根据共现词的重要程度和共现词数量阈值对共现词进行筛选。
上述实施例,根据命名实体遍历历史新闻数据,识别历史新闻数据中包含命名实体的段落,提取段落中的词语,统计段落中的各词语与命名实体共同出现的次数,确定段落中与命名实体共同出现的次数大于预设的次数阈值的词语为目标名称的共现词,根据命名实体和历史新闻数据,实现了对目标名称的共现词的准确查找。
在其中一个实施例中,如图4所示,S206包括:
S402:获取预设的主题数据库中的主题词;
S404:根据主题词查询历史新闻数据;
S406:当历史新闻数据中存在与主题词对应的词语时,根据对应的主题词确定目标名称的主题。
预设的主题数据库中的主题词指的是主题数据库中已按主题归纳整理的词语,服务器获取预设的主题数据库中的主题词,根据主题词查询历史新闻数据,当历史新闻数据中存在与主题词对应的词语时,根据对应的主题词确定目标名称的主题。其中,常见的主题包括IT、农业以及医学等。IT主题的常见主题词包括手机、电脑以及平板等。其中,目标名称的主题可能为多个。
上述实施例,获取预设的主题数据库中的主题词,根据主题词查询历史新闻数据,当历史新闻数据中存在与主题词对应的词语时,根据对应的主题词确定目标名称的主题,通过预设的主题数据库中的主题词和历史新闻数据,实现了对目标名称的主题的确定。
在其中一个实施例中,如图5所示,S210包括:
S502:将待处理新闻拆分为多个新闻片段;
S504:根据新闻识别模型中的各识别词组匹配各新闻片段,根据匹配结果确定目标新闻片段;
S506:确定与目标新闻片段对应的待处理新闻为目标新闻。
服务器将待处理新闻拆分为多个新闻片段,根据新闻识别模型中的各识别词组匹配各新闻片段,当新闻片段与新闻识别模型中的任意识别词组匹配时,确定新闻片段为目标新闻片段,确定与目标新闻片段对应的待处理新闻为目标新闻。其中,新闻片段与识别模型中的任意识别词组匹配指的是,新闻片段的主题与识别词组的主题相同,新闻片段中同时出现了命名实体和共现词,新闻片段的主题可根据新闻片段的内容确定。
上述实施例,将待处理新闻拆分为多个新闻片段,根据新闻识别模型中的各识别词组匹配各新闻片段,根据匹配结果确定目标新闻片段,从而确定与目标新闻片段对应的待处理新闻为目标新闻,实现了对目标新闻的准确识别。
在其中一个实施例中,如图6所示,S504包括:
S602:获取新闻识别模型中的各识别词组的主题;
S604:根据各识别词组的主题,获取在各新闻片段中与各识别词组的主题相同的第一新闻片段集合;
S606:根据与各识别词组的主题对应的命名实体和共现词,遍历第一新闻片段集合中的第一新闻片段;
S608:确定在第一新闻片段集合中包含命名实体和共现词的第二新闻片段,将第二新闻片段作为目标新闻片段。
服务器获取新闻识别模型中的各识别词组的主题,根据各识别词组的主题,获取在各新闻片段中与各识别词组的主题相同的第一新闻片段集合,根据与各识别词组的主题对应的命名实体和共现词,遍历第一新闻片段集合中的第一新闻片段,确定在第一新闻片段集合中包含命名实体和共现词的第二新闻片段,将第二新闻片段作为目标新闻片段。其中,第一新闻片段集合由多个与各识别词组的主题相同的第一新闻片段组成。
上述实施例,通过各识别词组的主题、与各识别词组的主题对应的命名实体和共现词,实现了对多个新闻片段的筛选,从多个新闻片段中准确筛选出了目标新闻片段。
在其中一个实施例中,如图7所示,在S210之后,包括:
S702:根据目标名称标识目标新闻;
S704:将标识后的目标新闻存入预设的新闻数据库。
服务器根据目标名称标识目标新闻,将标识后的目标新闻作为与目标名称对应的历史新闻数据,存入预设的新闻数据库,更新与目标名称对应的历史新闻数据。
上述实施例,根据目标名称标识目标新闻,将标识后的目标新闻存入预设的新闻数据库,通过这种方式,不断及时更新与目标名称对应的历史新闻数据,使根据历史新闻数据获取的数据更为准确。
下面通过一个实施例来详细说明本申请的方案。
服务器首先获取目标名称的命名实体,根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据,根据命名实体遍历历史新闻数据,识别历史新闻数据中包含命名实体的段落,提取段落中的词语,统计段落中的各词语与命名实体共同出现的次数,当段落中的词语与命名实体共同出现的次数大于预设的次数阈值时,确定段落中的词语为目标名称的共现词。然后获取预设的主题数据库中的主题词,根据主题词查询历史新闻数据,当历史新闻数据中存在与主题词对应的词语时,根据对应的主题词确定目标名称的主题。然后根据命名实体、共现词以及主题,构建多个识别词组,将待处理新闻拆分为多个新闻片段,获取新闻识别模型中的各识别词组的主题,根据各识别词组的主题,获取在各新闻片段中与识别词组的主题相同的第一新闻片段集合,根据与各识别词组的主题对应的命名实体和共现词,遍历第一新闻片段集合中的第一新闻片段,确定在第一新闻片段集合中包含命名实体和共现词的第二新闻片段,将第二新闻片段作为目标新闻片段,确定与目标新闻片段对应的待处理新闻为目标新闻。最后根据目标名称标识目标新闻,将标识后的目标新闻存入预设的新闻数据库。
应该理解的是,虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种新闻筛选的装置,包括:命名实体获取模块802、新闻获取模块804、数据获取模块806、构建模块808以及识别模型810,其中:
命名实体获取模块802,用于获取目标名称的命名实体;
新闻获取模块804,用于根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据;
数据获取模块806,用于根据命名实体查询历史新闻数据,获取目标名称的共现词与主题;
构建模块808,用于根据命名实体、共现词以及主题,构建多个识别词组;
识别模块810,用于根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻。
上述新闻筛选的装置,获取目标名称的命名实体,根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据,根据命名实体查询历史新闻数据,获取目标名称的共现词与主题,根据命名实体、共现词以及主题,构建多个识别词组,根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻,实现对目标新闻的准确获取,对待处理新闻的准确筛选。
在其中一个实施例中,数据获取模块还用于根据命名实体遍历历史新闻数据,识别历史新闻数据中包含命名实体的段落,提取段落中的词语,统计段落中的各词语与命名实体共同出现的次数,当段落中的词语与命名实体共同出现的次数大于预设的次数阈值时,确定段落中的词语为目标名称的共现词。
在其中一个实施例中,数据获取模块还用于获取预设的主题数据库中的主题词,根据主题词查询历史新闻数据,当历史新闻数据中存在与主题词对应的词语时,根据对应的主题词确定目标名称的主题。
在其中一个实施例中,识别模块还用于将待处理新闻拆分为多个新闻片段,根据新闻识别模型中的各识别词组匹配各新闻片段,根据匹配结果确定目标新闻片段,确定与目标新闻片段对应的待处理新闻为目标新闻。
在其中一个实施例中,识别模块还用于获取新闻识别模型中的各识别词组的主题,根据各识别词组的主题,获取在各新闻片段中与各识别词组的主题相同的第一新闻片段集合,根据与各识别词组的主题对应的命名实体和共现词,遍历第一新闻片段集合中的第一新闻片段,确定在第一新闻片段集合中包含命名实体和共现词的第二新闻片段,将第二新闻片段作为目标新闻片段。
在其中一个实施例中,新闻筛选的装置还包括存储模块,存储模块用于根据目标名称标识目标新闻,将标识后的目标新闻存入预设的新闻数据库。
关于新闻筛选的装置的具体限定可以参见上文中对于新闻筛选的方法的限定,在此不再赘述。上述新闻筛选的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储新闻数据、主题数据以及模型数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种新闻筛选的方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取目标名称的命名实体;
根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据;
根据命名实体查询历史新闻数据,获取目标名称的共现词与主题;
根据命名实体、共现词以及主题,构建多个识别词组;
根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻。
上述新闻筛选的计算机设备,获取目标名称的命名实体,根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据,根据命名实体查询历史新闻数据,获取目标名称的共现词与主题,根据命名实体、共现词以及主题,构建多个识别词组,根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻,实现对目标新闻的准确获取,对待处理新闻的准确筛选。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据命名实体遍历历史新闻数据;
识别历史新闻数据中包含命名实体的段落;
提取段落中的词语;
统计段落中的各词语与命名实体共同出现的次数;
当段落中的词语与命名实体共同出现的次数大于预设的次数阈值时,确定段落中的词语为目标名称的共现词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取预设的主题数据库中的主题词;
根据主题词查询历史新闻数据;
当历史新闻数据中存在与主题词对应的词语时,根据对应的主题词确定目标名称的主题。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将待处理新闻拆分为多个新闻片段;
根据新闻识别模型中的各识别词组匹配各新闻片段,根据匹配结果确定目标新闻片段;
确定与目标新闻片段对应的待处理新闻为目标新闻。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取新闻识别模型中的各识别词组的主题;
根据各识别词组的主题,获取在各新闻片段中与各识别词组的主题相同的第一新闻片段集合;
根据与各识别词组的主题对应的命名实体和共现词,遍历第一新闻片段集合中的第一新闻片段;
确定在第一新闻片段集合中包含命名实体和共现词的第二新闻片段,将第二新闻片段作为目标新闻片段。在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据目标名称标识目标新闻;
将标识后的目标新闻存入预设的新闻数据库。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取目标名称的命名实体;
根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据;
根据命名实体查询历史新闻数据,获取目标名称的共现词与主题;
根据命名实体、共现词以及主题,构建多个识别词组;
根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻。
上述新闻筛选的存储介质,获取目标名称的命名实体,根据命名实体查询预设的新闻数据库,获取与目标名称相应的历史新闻数据,根据命名实体查询历史新闻数据,获取目标名称的共现词与主题,根据命名实体、共现词以及主题,构建多个识别词组,根据各识别词组构建新闻识别模型,基于新闻识别模型识别待处理新闻确定目标新闻,实现对目标新闻的准确获取,对待处理新闻的准确筛选。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据命名实体遍历历史新闻数据;
识别历史新闻数据中包含命名实体的段落;
提取段落中的词语;
统计段落中的各词语与命名实体共同出现的次数;
当段落中的词语与命名实体共同出现的次数大于预设的次数阈值时,确定段落中的词语为目标名称的共现词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取预设的主题数据库中的主题词;
根据主题词查询历史新闻数据;
当历史新闻数据中存在与主题词对应的词语时,根据对应的主题词确定目标名称的主题。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将待处理新闻拆分为多个新闻片段;
根据新闻识别模型中的各识别词组匹配各新闻片段,根据匹配结果确定目标新闻片段;
确定与目标新闻片段对应的待处理新闻为目标新闻。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取新闻识别模型中的各识别词组的主题;
根据各识别词组的主题,获取在各新闻片段中与各识别词组的主题相同的第一新闻片段集合;
根据与各识别词组的主题对应的命名实体和共现词,遍历第一新闻片段集合中的第一新闻片段;
确定在第一新闻片段集合中包含命名实体和共现词的第二新闻片段,将第二新闻片段作为目标新闻片段。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据目标名称标识目标新闻;
将标识后的目标新闻存入预设的新闻数据库。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种新闻筛选的方法,所述方法包括:
获取目标名称的命名实体;
根据所述命名实体查询预设的新闻数据库,获取与所述目标名称相应的历史新闻数据;
根据所述命名实体查询所述历史新闻数据,获取所述目标名称的共现词与主题;
根据所述命名实体、所述共现词以及所述主题,构建多个识别词组;
根据各所述识别词组构建新闻识别模型,基于所述新闻识别模型识别待处理新闻确定目标新闻。
2.根据权利要求1所述的方法,其特征在于,所述根据所述命名实体查询所述历史新闻数据,获取所述目标名称的共现词与主题包括:
根据所述命名实体遍历所述历史新闻数据;
识别所述历史新闻数据中包含所述命名实体的段落;
提取所述段落中的词语;
统计所述段落中的各词语与所述命名实体共同出现的次数;
当所述段落中的词语与所述命名实体共同出现的次数大于预设的次数阈值时,确定所述段落中的词语为所述目标名称的共现词。
3.根据权利要求1所述的方法,其特征在于,所述根据所述命名实体查询所述历史新闻数据,获取所述目标名称的共现词与主题包括:
获取预设的主题数据库中的主题词;
根据所述主题词查询所述历史新闻数据;
当所述历史新闻数据中存在与所述主题词对应的词语时,根据对应的主题词确定所述目标名称的主题。
4.根据权利要求1所述的方法,其特征在于,所述根据各所述识别词组构建新闻识别模型,基于所述新闻识别模型识别待处理新闻确定目标新闻包括:
将所述待处理新闻拆分为多个新闻片段;
根据所述新闻识别模型中的各所述识别词组匹配各所述新闻片段,根据匹配结果确定目标新闻片段;
确定与所述目标新闻片段对应的待处理新闻为目标新闻。
5.根据权利要求4所述的方法,其特征在于,所述根据所述新闻识别模型中的各所述识别词组匹配各所述新闻片段,根据匹配结果确定目标新闻片段包括:
获取所述新闻识别模型中的各所述识别词组的主题;
根据各所述识别词组的主题,获取在各所述新闻片段中与各所述识别词组的主题相同的第一新闻片段集合;
根据与各所述识别词组的主题对应的命名实体和共现词,遍历所述第一新闻片段集合中的第一新闻片段;
确定在所述第一新闻片段集合中包含所述命名实体和共现词的第二新闻片段,将所述第二新闻片段作为目标新闻片段。
6.根据权利要求1所述的方法,其特征在于,在所述根据各所述识别词组构建新闻识别模型,基于所述新闻识别模型识别待处理新闻确定目标新闻之后,包括:
根据所述目标名称标识所述目标新闻;
将标识后的目标新闻存入所述预设的新闻数据库。
7.一种新闻筛选的装置,其特征在于,所述装置包括:
命名实体获取模块,用于获取目标名称的命名实体;
新闻获取模块,用于根据所述命名实体查询预设的新闻数据库,获取与所述目标名称相应的历史新闻数据;
数据获取模块,用于根据所述命名实体查询所述历史新闻数据,获取所述目标名称的共现词与主题;
构建模块,用于根据所述命名实体、所述共现词以及所述主题,构建多个识别词组;
识别模块,用于根据各所述识别词组构建新闻识别模型,基于所述新闻识别模型识别待处理新闻确定目标新闻。
8.根据权利要求7所述的装置,其特征在于,所述数据获取模块还用于根据所述命名实体遍历所述历史新闻数据,识别所述历史新闻数据中包含所述命名实体的段落,提取所述段落中的词语,统计所述段落中的各词语与所述命名实体共同出现的次数,当所述段落中的词语与所述命名实体共同出现的次数大于预设的次数阈值时,确定所述段落中的词语为所述目标名称的共现词。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201811089853.1A 2018-09-18 2018-09-18 新闻筛选的方法、装置、计算机设备和存储介质 Active CN109446336B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811089853.1A CN109446336B (zh) 2018-09-18 2018-09-18 新闻筛选的方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811089853.1A CN109446336B (zh) 2018-09-18 2018-09-18 新闻筛选的方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN109446336A true CN109446336A (zh) 2019-03-08
CN109446336B CN109446336B (zh) 2024-05-03

Family

ID=65530522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811089853.1A Active CN109446336B (zh) 2018-09-18 2018-09-18 新闻筛选的方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN109446336B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175234A (zh) * 2019-04-08 2019-08-27 北京百度网讯科技有限公司 未登录词识别方法、装置、计算机设备及存储介质
CN110968677A (zh) * 2019-12-20 2020-04-07 南京医睿科技有限公司 文本寻址的方法及装置、介质和电子设备
CN111062213A (zh) * 2019-11-19 2020-04-24 竹间智能科技(上海)有限公司 命名实体识别方法、装置、设备及介质
CN117708434A (zh) * 2024-01-09 2024-03-15 青岛睿哲信息技术有限公司 一种基于关键词的用户推荐浏览内容生成方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130332450A1 (en) * 2012-06-11 2013-12-12 International Business Machines Corporation System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources
US20140337308A1 (en) * 2013-05-10 2014-11-13 Gianmarco De Francisci Morales Method and system for displaying content relating to a subject matter of a displayed media program
CN104182504A (zh) * 2014-08-18 2014-12-03 合肥工业大学 一种新闻事件的动态跟踪和总结算法
CN105760439A (zh) * 2016-02-02 2016-07-13 西安交通大学 一种基于特定行为共现网络的人物共现关系图谱构建方法
CN106294765A (zh) * 2016-08-11 2017-01-04 乐视控股(北京)有限公司 处理新闻数据的方法及装置
CN106328147A (zh) * 2016-08-31 2017-01-11 中国科学技术大学 语音识别方法和装置
CN106503192A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的命名实体识别方法及装置
CN107403017A (zh) * 2017-08-09 2017-11-28 上海数旦信息技术有限公司 一种智能分析实时新闻对金融市场影响的方法
US20180075128A1 (en) * 2016-09-13 2018-03-15 Adobe Systems Incorporated Identifying Key Terms Related to an Entity

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130332450A1 (en) * 2012-06-11 2013-12-12 International Business Machines Corporation System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources
US20140337308A1 (en) * 2013-05-10 2014-11-13 Gianmarco De Francisci Morales Method and system for displaying content relating to a subject matter of a displayed media program
CN104182504A (zh) * 2014-08-18 2014-12-03 合肥工业大学 一种新闻事件的动态跟踪和总结算法
CN105760439A (zh) * 2016-02-02 2016-07-13 西安交通大学 一种基于特定行为共现网络的人物共现关系图谱构建方法
CN106294765A (zh) * 2016-08-11 2017-01-04 乐视控股(北京)有限公司 处理新闻数据的方法及装置
CN106328147A (zh) * 2016-08-31 2017-01-11 中国科学技术大学 语音识别方法和装置
US20180075128A1 (en) * 2016-09-13 2018-03-15 Adobe Systems Incorporated Identifying Key Terms Related to an Entity
CN106503192A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的命名实体识别方法及装置
CN107403017A (zh) * 2017-08-09 2017-11-28 上海数旦信息技术有限公司 一种智能分析实时新闻对金融市场影响的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
佘玉轩;熊;: "基于贝叶斯网络的故事线挖掘算法", 计算机工程, no. 03, 15 March 2018 (2018-03-15), pages 55 - 59 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175234A (zh) * 2019-04-08 2019-08-27 北京百度网讯科技有限公司 未登录词识别方法、装置、计算机设备及存储介质
CN110175234B (zh) * 2019-04-08 2022-02-25 北京百度网讯科技有限公司 未登录词识别方法、装置、计算机设备及存储介质
CN111062213A (zh) * 2019-11-19 2020-04-24 竹间智能科技(上海)有限公司 命名实体识别方法、装置、设备及介质
CN111062213B (zh) * 2019-11-19 2024-01-12 竹间智能科技(上海)有限公司 命名实体识别方法、装置、设备及介质
CN110968677A (zh) * 2019-12-20 2020-04-07 南京医睿科技有限公司 文本寻址的方法及装置、介质和电子设备
CN110968677B (zh) * 2019-12-20 2023-03-14 医渡云(北京)技术有限公司 文本寻址的方法及装置、介质和电子设备
CN117708434A (zh) * 2024-01-09 2024-03-15 青岛睿哲信息技术有限公司 一种基于关键词的用户推荐浏览内容生成方法

Also Published As

Publication number Publication date
CN109446336B (zh) 2024-05-03

Similar Documents

Publication Publication Date Title
CN109446336A (zh) 新闻筛选的方法、装置、计算机设备和存储介质
CN108595695B (zh) 数据处理方法、装置、计算机设备和存储介质
CN108304378B (zh) 文本相似度计算方法、装置、计算机设备和存储介质
CN110442603B (zh) 地址匹配方法、装置、计算机设备及存储介质
CN105550298B (zh) 一种关键词模糊匹配的方法及装置
US20210182043A1 (en) App pushing method, device, electronic device and computer-readable storage medium
CN108959644A (zh) 搜索排序方法、装置、计算机设备和存储介质
CN109086456B (zh) 数据索引方法及装置
CN108427736B (zh) 一种用于查询数据的方法
CN109657137A (zh) 舆情新闻分类模型构建方法、装置、计算机设备和存储介质
CN110334179A (zh) 问答处理方法、装置、计算机设备和存储介质
CN109726664B (zh) 一种智能表盘推荐方法、系统、设备及存储介质
TWI844091B (zh) 特徵匹配規則構建、特徵匹配方法、裝置、設備及介質
CN110377276B (zh) 源代码文件管理方法及设备
CN111274291B (zh) 用户访问数据的查询方法、装置、设备及介质
CN106569986B (zh) 字符串替换方法和装置
CN117453784A (zh) 配置文件转换方法、装置、设备及存储介质
CN113609279B (zh) 一种物料型号提取方法、装置及计算机设备
CN109635287A (zh) 政策力度分析的方法、装置、计算机设备和存储介质
CN110134664B (zh) 数据迁移路径的获取方法、装置和计算机设备
CN112445888B (zh) 一种信息抽取方法及相关设备
CN104899213B (zh) 一种解析组织机构名的方法和装置
CN109446335A (zh) 新闻主体判定的方法、装置、计算机设备和存储介质
CN109213490A (zh) 一种程序处理方法、装置以及相关设备
CN110263210A (zh) 自适应英语学习词库图谱管理方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant