CN109446335B

CN109446335B - 新闻主体判定的方法、装置、计算机设备和存储介质

Info

Publication number: CN109446335B
Application number: CN201811089343.4A
Authority: CN
Inventors: 郑子欧; 汪伟; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2024-05-03
Anticipated expiration: 2038-09-18
Also published as: CN109446335A

Abstract

本申请涉及机器学习技术领域，提供了一种新闻主体判定的方法、装置、计算机设备和存储介质。所述方法包括：获取预设的训练集中的对象名称和历史新闻数据，根据历史新闻数据获取对象名称的特征集合以及特征值集合，根据预设的历史新闻数据的标签、对象名称的特征集合以及特征值集合，确定历史新闻数据中新闻主体的判定模型集合，判定模型集合包含多个新闻主体的判定模型，根据预设的验证集，验证新闻主体的判定模型，新闻主体的判定模型属于新闻主体的判定模型集合，根据验证结果确定目标新闻主体判定模型，根据目标新闻主体判定模型确定测试集中待测试新闻数据的新闻主体。采用本方法能够实现对新闻主体的准确判定。

Description

新闻主体判定的方法、装置、计算机设备和存储介质

技术领域

本申请涉及机器学习技术领域，特别是涉及一种新闻主体判定的方法、装置、计算机设备和存储介质。

背景技术

在很多舆情新闻中，通常会提到许多个对象，我们需要对舆情新闻中提到的多个对象进行分析，确定这篇新闻的主体。目前常用的新闻主体判定的方式为，统计舆情新闻中的各个对象在新闻中出现的次数，以出现的次数最多的对象作为新闻的主体。

若仅使用对象在新闻中出现的次数作为统计依据，常常会出现判定新闻主体出错的情况。

发明内容

基于此，有必要针对上述技术问题，提供一种能够准确判定新闻主体的新闻主体判定的方法、装置、计算机设备和存储介质。

一种新闻主体判定的方法，所述方法包括：

获取预设的训练集中的对象名称和历史新闻数据；

根据历史新闻数据获取对象名称的特征集合以及特征值集合；

根据预设的历史新闻数据的标签、对象名称的特征集合以及特征值集合，确定历史新闻数据中新闻主体的判定模型集合，判定模型集合包含多个新闻主体的判定模型；

根据预设的验证集，验证新闻主体的判定模型，新闻主体的判定模型属于新闻主体的判定模型集合，根据验证结果确定目标新闻主体判定模型；

根据目标新闻主体判定模型确定测试集中待测试新闻数据的新闻主体。

在其中一个实施例中，获取预设的训练集中的对象名称和历史新闻数据包括：

训练训练集，筛选出训练集中出现的对象候选词；

将对象候选词与预设的对象进行匹配；

根据匹配度确定对象候选词中与预设的对象对应的对象名称。

在其中一个实施例中，根据历史新闻数据获取对象名称的特征集合以及特征值集合包括：

获取预设的词库中的举例类词；

根据对象名称遍历训练集中的新闻文本；

将新闻文本中对象名称与举例类词的位置关系作为位置特征集合；

当新闻文本中对象名称与举例类词不同时出现在一个句子中，计数一次，统计次数作为位置特征值集合。

获取历史新闻数据中的新闻文本，将新闻文本拆分为多个新闻片段；

根据预设的句法模型分析新闻片段，确定新闻片段中的谓语；

根据主谓关系以及动宾关系确定新闻片段中的主语和宾语作为结构特征集合；

统计新闻片段中的主语和宾语在新闻文本中出现的次数，以及出现次数占新闻文本中对象名称个数的比例作为结构特征值集合。

获取新闻片段中的关联词；

根据预设的关联词数据库和新闻片段中的关联词，确定新闻片段的关联词前后半句之间的分叙关系；

当分叙关系为递进关系或者转折关系时，提取递进或者转折的半句中的主语和/或宾语作为分叙特征集合；

当分叙关系为并列关系时，同时提取前后半句的主语和/或宾语作为分叙特征集合；

统计提取出的主语和宾语在新闻文本中出现的次数，以及出现次数占新闻文本中对象名称个数的比例作为分叙特征值集合。

在其中一个实施例中，根据预设的验证集，验证新闻主体的判定模型，新闻主体的判定模型属于新闻主体的判定模型集合，根据验证结果确定目标新闻主体判定模型包括：

获取预设的验证集中的验证名称和验证新闻数据；

根据验证新闻数据获取验证名称的特征集合和特征值集合；

将验证名称以及验证名称的特征集合和特征值集合作为输入，输入历史新闻数据中新闻主体的判定模型集合中各个新闻主体的判定模型；

根据输出结果匹配预设的验证新闻数据的标签；

根据匹配结果确定验证新闻数据中新闻主体的判定模型；

根据验证新闻数据中新闻主体的判定模型确定目标新闻主体判定模型。

一种新闻主体判定的装置，所述装置包括：

数据获取模块，用于获取预设的训练集中的对象名称和历史新闻数据；

特征获取模块，用于根据历史新闻数据获取对象名称的特征集合以及特征值集合；

处理模块，用于根据预设的历史新闻数据的标签、对象名称的特征集合以及特征值集合，确定历史新闻数据中新闻主体的判定模型集合，判定模型集合包含多个新闻主体的判定模型；

验证模块，用于根据预设的验证集，验证新闻主体的判定模型，新闻主体的判定模型属于新闻主体的判定模型集合，根据验证结果确定目标新闻主体判定模型；

判定模块，用于根据目标新闻主体判定模型确定测试集中待测试新闻数据的新闻主体。

在其中一个实施例中，验证模块还用于获取预设的验证集中的验证名称和验证新闻数据，根据验证新闻数据获取验证名称的特征集合和特征值集合，将验证名称以及验证名称的特征集合和特征值集合作为输入，输入历史新闻数据中新闻主体的判定模型集合中各个新闻主体的判定模型，根据输出结果匹配预设的验证新闻数据的标签，根据匹配结果确定验证新闻数据中新闻主体的判定模型，根据验证新闻数据中新闻主体的判定模型确定目标新闻主体判定模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取预设的训练集中的对象名称和历史新闻数据；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取预设的训练集中的对象名称和历史新闻数据；

上述新闻主体判定的方法、装置、计算机设备和存储介质，根据历史新闻数据获取对象名称的特征集合以及特征值集合，由于对象名称的特征集合以及特征值集合能代表对象名称在历史新闻数据中的特征，所以能由对象名称的特征集合以及特征值集合，结合预设的历史新闻数据的标签，实现对历史新闻数据中新闻主体的判定模型集合的准确获取，根据预设的验证集，验证历史新闻数据中新闻主体的判定模型集合中各个新闻主体的判定模型，从历史新闻数据中新闻主体的判定模型集合中筛选出目标新闻主体判定模型，根据目标新闻主体判定模型确定测试集中待测试新闻数据的新闻主体，能实现对待测试新闻数据的新闻主体的准确判定。

附图说明

图1为一个实施例中新闻主体判定的方法的应用场景图；

图2为一个实施例中新闻主体判定的方法的流程示意图；

图3为一个实施例中图2中步骤S202的子流程示意图；

图4为一个实施例中图2中步骤S204的子流程示意图；

图5为另一个实施例中图2中步骤S204的子流程示意图；

图6为另一个实施例中图2中步骤S204的子流程示意图；

图7为一个实施例中图2中步骤S208的子流程示意图；

图8为一个实施例中新闻主体判定的装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的新闻主体判定的方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。服务器104获取预设的训练集中的对象名称和历史新闻数据，根据历史新闻数据获取对象名称的特征集合以及特征值集合，根据预设的历史新闻数据的标签、对象名称的特征集合以及特征值集合，确定历史新闻数据中新闻主体的判定模型集合，判定模型集合包含多个新闻主体的判定模型，根据预设的验证集，验证新闻主体的判定模型，新闻主体的判定模型属于新闻主体的判定模型集合，根据验证结果确定目标新闻主体判定模型，根据目标新闻主体判定模型确定测试集中待测试新闻数据的新闻主体，推送待测试新闻数据的新闻主体至终端102。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种新闻主体判定的方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202：获取预设的训练集中的对象名称和历史新闻数据。

预设的训练集指的是已经事先搜集的新闻数据，服务器训练训练集，筛选出训练集中出现的对象候选词，将对象候选词与预设的对象进行匹配，根据匹配度确定对象候选词中与预设的对象对应的对象名称。其中，训练训练集指的是使用Bi-LSTM+CRF模型训练训练集，对象候选词指的是训练集在经过训练之后，被认为可能是对象的词，对象指的是新闻数据中的新闻对象，预设的对象可根据需要自行设置，对象名称指的是与预设的对象对应的名称。

S204：根据历史新闻数据获取对象名称的特征集合以及特征值集合。

服务器将历史新闻数据拆分为多篇新闻文本，分别获取在篇新闻文本中对象名称的特征集合以及特征值集合。对象名称的特征集合包括根据关联词类型、句子结构、出现频率和位置生成的特征，特征值集合指的是与特征集合中的特征对应的统计值集合。

S206：根据预设的历史新闻数据的标签、对象名称的特征集合以及特征值集合，确定历史新闻数据中新闻主体的判定模型集合，判定模型集合包含多个新闻主体的判定模型。

服务器将历史新闻数据拆分为多篇新闻文本，分别统计在每篇新闻文本中对象名称的特征集合以及特征值集合，根据每篇新闻文本中对象名称、对象名称的特征集合以及特征值集合，确定每篇新闻文本的候选主体判定模型，根据每篇新闻文本的候选主体判定模型匹配预设的历史新闻数据的标签中对应的新闻文本的标签，筛选出匹配度最高的候选主体判定模型，将匹配度最高的候选主体判定模型作为新闻文本的主体判定模型，从而根据新闻文本的主体判定模型确定历史新闻数据中新闻主体的判定模型集合。其中，预设的历史新闻数据的标签用于匹配新闻文本的候选主体判定模型，标签中包括历史新闻数据中各篇新闻文本的新闻主体信息，每篇新闻文本的判定模型会根据对象名称的特征集合以及特征值集合的不同而不完全相同，即历史新闻数据中新闻主体的判定模型的数量可以是多个。进一步的，判定模型可以为随机森林模型。

S208：根据预设的验证集，验证新闻主体的判定模型，新闻主体的判定模型属于新闻主体的判定模型集合，根据验证结果确定目标新闻主体判定模型。

服务器获取预设的验证集中的验证名称和验证新闻数据，根据验证新闻数据获取验证名称的特征集合以及特征值集合，将验证名称以及验证名称的特征集合和特征值集合作为输入，输入历史新闻数据中新闻主体的判定模型集合中的各个新闻主体的判定模型，根据判定模型的输出结果匹配预设的验证新闻数据的标签，选择与预设的验证新闻数据的标签匹配度最高的判定模型作为验证新闻数据中新闻主体的判定模型，根据验证新闻数据中新闻主体的判定模型确定目标新闻主体判定模型。

S210：根据目标新闻主体判定模型确定测试集中待测试新闻数据的新闻主体。

服务器获取测试集中的待测试新闻数据，待测试新闻数据指的是待确定新闻主体的新闻数据。服务器获取待测试新闻数据中对象名称的特征集合以及特征值集合，根据待测试新闻数据中对象名称、对象名称的特征集合以及特征值集合，匹配目标新闻主体判定模型，根据匹配结果确定待测试新闻数据的新闻主体。

上述新闻主体判定的方法，根据历史新闻数据获取对象名称的特征集合以及特征值集合，由于对象名称的特征集合以及特征值集合能代表对象名称在历史新闻数据中的特征，所以能由对象名称的特征集合以及特征值集合，结合预设的历史新闻数据的标签，实现对历史新闻数据中新闻主体的判定模型集合的准确获取，根据预设的验证集，验证历史新闻数据中新闻主体的判定模型集合中各个新闻主体的判定模型，从历史新闻数据中新闻主体的判定模型集合中筛选出目标新闻主体判定模型，根据目标新闻主体判定模型确定测试集中待测试新闻数据的新闻主体，能实现对待测试新闻数据的新闻主体的准确判定。

在其中一个实施例中，如图3所示，S202包括：

S302：训练训练集，筛选出训练集中出现的对象候选词；

S304：将对象候选词与预设的对象进行匹配；

S306：根据匹配度确定对象候选词中与预设的对象对应的对象名称。

服务器训练训练集，筛选出训练集中出现的对象候选词，将对象候选词与预设的对象进行匹配，根据匹配度确定对象候选词中与预设的对象对应的对象名称。其中，训练训练集指的是使用Bi-LSTM+CRF模型训练训练集，采用关联词+主题+命名实体的匹配方式将对象候选词与预设的对象进行匹配，分别匹配对象候选词和预设的对象的关联词、主题以及命名实体，根据匹配度确定对象候选词中与预设的对象对应的对象名称。关联词指的是分别与对象候选词和预设的对象在同一篇新闻文本中出现的词语，主题指的是常出现对象候选词和预设的对象的新闻文本对应的主题，命名实体指的是对象候选词和预设的对象的对象名称。当对象候选词与预设的对象的匹配度大于预设的匹配度阈值时，可确定对象候选词中与预设的对象对应的对象名称，匹配度阈值可根据需要自行设置。

上述实施例，通过训练训练集，筛选出训练集中出现的对象候选词，将对象候选词与预设的对象进行匹配，根据匹配度确定对象候选词中与预设的对象对应的对象名称，实现了对训练集中的对象名称的准确获取。

在其中一个实施例中，如图4所示，S204包括：

S402：获取预设的词库中的举例类词；

S404：根据对象名称遍历训练集中的新闻文本；

S406：将新闻文本中对象名称与举例类词的位置关系作为位置特征集合；

S408：当新闻文本中对象名称与举例类词不同时出现在一个句子中，计数一次，统计次数作为位置特征值集合。

服务器获取预设的词库中的举例类词，根据对象名称遍历训练集中的新闻文本，将新闻文本中对象名称与举例类词的位置关系作为位置特征集合，统计在新闻文本中对象名称与举例类词不出现在同一个句子中的次数作为位置特征值集合。其中，举例类词可通过嵌入词向量来进行扩展，常见的举例类词包括：例如，举例说明等。进一步的，可根据有指向性的举例句子统计在新闻文本中对象名称与举例类词不出现在同一个句子中的次数。对于有指向性的举例句子，可使用句向量进行匹配，并对应扩展不计次数的范围。举例说明：“以下是几个例子”指向后文，则对应范围为该句及后面一句，“上述例子中”指向前文，则范围为该句与前一句。

上述实施例，获取预设的词库中的举例类词，根据对象名称遍历训练集中的新闻文本，将新闻文本中对象名称与举例类词的位置关系作为位置特征集合，统计在新闻文本中对象名称与举例类词不出现在同一个句子中的次数作为位置特征值集合，实现了根据举例类词对训练集中的新闻文本的对象名称的位置进行区分。

在其中一个实施例中，如图5所示，S204包括：

S502：获取历史新闻数据中的新闻文本，将新闻文本拆分为多个新闻片段；

S504：根据预设的句法模型分析新闻片段，确定新闻片段中的谓语；

S506：根据主谓关系以及动宾关系确定新闻片段中的主语和宾语作为结构特征集合；

S508：统计新闻片段中的主语和宾语在新闻文本中出现的次数，以及出现次数占新闻文本中对象名称个数的比例作为结构特征值集合。

服务器获取历史新闻数据中的新闻文本，根据标点符号将新闻文本拆分为多个新闻片段，根据预设的句法模型分析新闻片段，确定新闻片段中的谓语，根据主谓关系以及动宾关系确定新闻片段中的主语和宾语作为结构特征集合，统计新闻片段中的主语和宾语在新闻文本中出现的次数，以及出现次数占新闻文本中对象名称个数的比例作为结构特征值集合。其中，预设的句法模型用于筛选新闻片段中的词语，根据新闻片段中的词语的位置和词性，确定新闻片段中的谓语。

上述实施例，依据预设的句法模型实现了对新闻文本中的新闻片段的分析，根据主谓关系以及动宾关系确定新闻片段中的主语和宾语，并将主语和宾语作为结构特征集合，统计新闻片段中的主语和宾语在新闻文本中出现的次数，以及出现次数占新闻文本中对象名称个数的比例，并将出现的次数和比例作为结构特征值集合，实现了根据预设的句法模型对新闻文本中新闻片段的分析，确定了新闻文本中新闻片段中的结构特征集合和结构特征值集合。

在其中一个实施例中，如图6所示，S204包括：

S602：获取历史新闻数据中的新闻文本，将新闻文本拆分为多个新闻片段；

S604：获取新闻片段中的关联词；

S606：根据预设的关联词数据库和新闻片段中的关联词，确定新闻片段的关联词前后半句之间的分叙关系；

S608：当分叙关系为递进关系或者转折关系时，提取递进或者转折的半句中的主语和/或宾语作为分叙特征集合；

S610：当分叙关系为并列关系时，同时提取前后半句的主语和/或宾语作为分叙特征集合；

S612：统计提取出的主语和宾语在新闻文本中出现的次数，以及出现次数占新闻文本中对象名称个数的比例作为分叙特征值集合。

服务器获取历史新闻数据中的新闻文本，将新闻文本拆分为多个新闻片段，获取新闻片段中的关联词，根据预设的关联词数据库和新闻片段中的关联词，确定新闻片段的关联词前后半句之间的分叙关系，当分叙关系为递进关系或者转折关系时，提取递进或者转折的半句中的主语和/或宾语作为分叙特征集合，当分叙关系为并列关系时，同时提取前后半句的主语和/或宾语作为分叙特征集合，统计提取出的主语和宾语在新闻文本中出现的次数，以及出现次数占新闻文本中对象名称个数的比例作为分叙特征值集合。其中，在预设的关联词数据库中，包括常见的关联词、常见的关联词搭配以及关联词和关联词搭配所表明的抽象关系。常见的抽象关系包括并列关系、转折关系以及递进关系。

上述实施例，根据预设的关联词数据库和新闻文本中的新闻片段，确定新闻片段的关联词前后半句之间的分叙关系，根据新闻片段的关联词前后半句之间的分叙关系，统计递进或者转折的半句中的主语和/或宾语以及并列句中的前后半句的主语和/或宾语作为分叙特征集合，实现了根据预设的关联词数据库对新闻文本中新闻片段的分析，确定在新闻文本中符合条件的新闻片段中的分叙特征集合和分叙特征值集合。

在其中一个实施例中，如图7所示，S208包括：

S702：获取预设的验证集中的验证名称和验证新闻数据；

S704：根据验证新闻数据获取验证名称的特征集合和特征值集合；

S706：将验证名称以及验证名称的特征集合和特征值集合作为输入，输入历史新闻数据中新闻主体的判定模型集合中各个新闻主体的判定模型；

S708：根据输出结果匹配预设的验证新闻数据的标签；

S710：根据匹配结果确定验证新闻数据中新闻主体的判定模型；

S712：根据验证新闻数据中新闻主体的判定模型确定目标新闻主体判定模型。

服务器获取预设的验证集中的验证名称和验证新闻数据，根据验证新闻数据获取验证名称的特征集合以及特征值集合，将验证名称以及验证名称的特征集合和特征值集合作为输入，输入历史新闻数据中新闻主体的判定模型集合中各个新闻主体的判定模型，根据判定模型的输出结果匹配预设的验证新闻数据的标签，选择与预设的验证新闻数据的标签匹配度最高的判定模型作为验证新闻数据中新闻主体的判定模型，根据验证新闻数据中新闻主体的判定模型确定目标新闻主体判定模型。其中，预设的验证新闻数据的标签用于匹配判定模型的输出结果，标签中包括验证新闻数据的新闻主体信息。

上述实施例，获取预设的验证集中的验证名称和验证新闻数据，通过预设的验证新闻数据的标签、验证名称和验证新闻数据，对历史新闻数据中新闻主体的判定模型集合中各个新闻主体的判定模型进行验证，根据验证结果确定目标新闻主体判定模型，通过验证集实现了对目标新闻主体判定模型的准确获取。

下面通过一个实施例来说明本申请的方案。

服务器首先训练训练集，筛选出训练集中出现的对象候选词，将对象候选词与预设的对象进行匹配，根据匹配度确定对象候选词中与预设的对象对应的对象名称。然后根据历史新闻数据获取对象名称的特征集合以及特征值集合，其中包括：获取预设的词库中的举例类词，根据对象名称遍历训练集中的新闻文本，将新闻文本中对象名称与举例类词的位置关系作为位置特征集合，当新闻文本中对象名称与举例类词不同时出现在一个句子中，计数一次，统计次数作为位置特征值集合。获取历史新闻数据中的新闻文本，将新闻文本拆分为多个新闻片段，根据预设的句法模型分析新闻片段，确定新闻片段中的谓语，根据主谓关系以及动宾关系确定新闻片段中的主语和宾语作为结构特征集合，统计新闻片段中的主语和宾语在新闻文本中出现的次数，以及出现次数占新闻文本中对象名称个数的比例作为结构特征值集合。获取历史新闻数据中的新闻文本，将新闻文本拆分为多个新闻片段，获取新闻片段中的关联词，根据预设的关联词数据库和新闻片段中的关联词，确定新闻片段的关联词前后半句之间的分叙关系，当分叙关系为递进关系或者转折关系时，提取递进或者转折的半句中的主语和/或宾语作为分叙特征集合，当分叙关系为并列关系时，同时提取前后半句的主语和/或宾语作为分叙特征集合，统计提取出的主语和宾语在新闻文本中出现的次数，以及出现次数占新闻文本中对象名称个数的比例作为分叙特征值集合。然后根据对象名称的特征集合以及特征值集合，确定历史新闻数据中新闻主体的判定模型集合，判定模型集合包含多个新闻主体的判定模型，获取预设的验证集中的验证名称和验证新闻数据，根据验证新闻数据获取验证名称的特征集合和特征值集合，将验证名称以及验证名称的特征集合和特征值集合作为输入，输入历史新闻数据中新闻主体的判定模型集合中各个新闻主体的判定模型，根据判定模型的输出结果匹配预设的验证新闻数据的标签，根据匹配结果确定验证新闻数据中新闻主体的判定模型，根据验证新闻数据中新闻主体的判定模型确定目标新闻主体判定模型。最后获取测试集中的待测试新闻数据，获取待测试新闻数据中对象名称的特征集合以及特征值集合，根据待测试新闻数据中对象名称、对象名称的特征集合以及特征值集合，匹配目标新闻主体判定模型，根据匹配结果确定待测试新闻数据的新闻主体。

应该理解的是，虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种新闻主体判定的装置，包括：数据获取模块802、特征获取模块804、处理模块806、验证模块808和判定模块810，其中：

数据获取模块802，用于获取预设的训练集中的对象名称和历史新闻数据；

特征获取模块804，用于根据历史新闻数据获取对象名称的特征集合以及特征值集合；

处理模块806，用于根据预设的历史新闻数据的标签、对象名称的特征集合以及特征值集合，确定历史新闻数据中新闻主体的判定模型集合，判定模型集合包含多个新闻主体的判定模型；

验证模块808，用于根据预设的验证集，验证新闻主体的判定模型，新闻主体的判定模型属于新闻主体的判定模型集合，根据验证结果确定目标新闻主体判定模型；

判定模块810，用于根据目标新闻主体判定模型确定测试集中待测试新闻数据的新闻主体。

上述新闻主体判定的装置，根据历史新闻数据获取对象名称的特征集合以及特征值集合，由于对象名称的特征集合以及特征值集合能代表对象名称在历史新闻数据中的特征，所以能由对象名称的特征集合以及特征值集合，结合预设的历史新闻数据的标签，实现对历史新闻数据中新闻主体的判定模型集合的准确获取，根据预设的验证集，验证历史新闻数据中新闻主体的判定模型集合中各个新闻主体的判定模型，从历史新闻数据中新闻主体的判定模型集合中筛选出目标新闻主体判定模型，根据目标新闻主体判定模型确定测试集中待测试新闻数据的新闻主体，能实现对待测试新闻数据的新闻主体的准确判定。

在其中一个实施例中，数据获取模块还用于训练训练集，筛选出训练集中出现的对象候选词，将对象候选词与预设的对象进行匹配，根据匹配度确定对象候选词中与预设的对象对应的对象名称。

在其中一个实施例中，特征获取模块还用于获取预设的词库中的举例类词，根据对象名称遍历训练集中的新闻文本，将新闻文本中对象名称与举例类词的位置关系作为位置特征集合，当新闻文本中对象名称与举例类词不同时出现在一个句子中，计数一次，统计次数作为位置特征值集合。

在其中一个实施例中，特征获取模块还用于获取历史新闻数据中的新闻文本，将新闻文本拆分为多个新闻片段，根据预设的句法模型分析新闻片段，确定新闻片段中的谓语，根据主谓关系以及动宾关系确定新闻片段中的主语和宾语作为结构特征集合，统计新闻片段中的主语和宾语在新闻文本中出现的次数，以及出现次数占新闻文本中对象名称个数的比例作为结构特征值集合。

在其中一个实施例中，特征获取模块还用于获取历史新闻数据中的新闻文本，将新闻文本拆分为多个新闻片段，获取新闻片段中的关联词，根据预设的关联词数据库和新闻片段中的关联词，确定新闻片段的关联词前后半句之间的分叙关系，当分叙关系为递进关系或者转折关系时，提取递进或者转折的半句中的主语和/或宾语作为分叙特征集合，当分叙关系为并列关系时，同时提取前后半句的主语和/或宾语作为分叙特征集合，统计提取出的主语和宾语在新闻文本中出现的次数，以及出现次数占新闻文本中对象名称个数的比例作为分叙特征值集合。

关于新闻主体判定的装置的具体限定可以参见上文中对于新闻主体判定的方法的限定，在此不再赘述。上述新闻主体判定的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练集数据、验证集数据、测试集数据、词库数据以及关联词数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种新闻主体判定的方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取预设的训练集中的对象名称和历史新闻数据；

上述新闻主体判定的计算机设备，根据历史新闻数据获取对象名称的特征集合以及特征值集合，由于对象名称的特征集合以及特征值集合能代表对象名称在历史新闻数据中的特征，所以能由对象名称的特征集合以及特征值集合，结合预设的历史新闻数据的标签，实现对历史新闻数据中新闻主体的判定模型集合的准确获取，根据预设的验证集，验证历史新闻数据中新闻主体的判定模型集合中各个新闻主体的判定模型，从历史新闻数据中新闻主体的判定模型集合中筛选出目标新闻主体判定模型，根据目标新闻主体判定模型确定测试集中待测试新闻数据的新闻主体，能实现对待测试新闻数据的新闻主体的准确判定。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

训练训练集，筛选出训练集中出现的对象候选词；

将对象候选词与预设的对象进行匹配；

获取预设的词库中的举例类词；

根据对象名称遍历训练集中的新闻文本；

获取新闻片段中的关联词；

获取预设的验证集中的验证名称和验证新闻数据；

根据验证新闻数据获取验证名称的特征集合和特征值集合；

根据输出结果匹配预设的验证新闻数据的标签；

根据匹配结果确定验证新闻数据中新闻主体的判定模型；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取预设的训练集中的对象名称和历史新闻数据；

上述新闻主体判定的存储介质，根据历史新闻数据获取对象名称的特征集合以及特征值集合，由于对象名称的特征集合以及特征值集合能代表对象名称在历史新闻数据中的特征，所以能由对象名称的特征集合以及特征值集合，结合预设的历史新闻数据的标签，实现对历史新闻数据中新闻主体的判定模型集合的准确获取，根据预设的验证集，验证历史新闻数据中新闻主体的判定模型集合中各个新闻主体的判定模型，从历史新闻数据中新闻主体的判定模型集合中筛选出目标新闻主体判定模型，根据目标新闻主体判定模型确定测试集中待测试新闻数据的新闻主体，能实现对待测试新闻数据的新闻主体的准确判定。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

训练训练集，筛选出训练集中出现的对象候选词；

将对象候选词与预设的对象进行匹配；

获取预设的词库中的举例类词；

根据对象名称遍历训练集中的新闻文本；

获取新闻片段中的关联词；

获取预设的验证集中的验证名称和验证新闻数据；

根据验证新闻数据获取验证名称的特征集合和特征值集合；

根据输出结果匹配预设的验证新闻数据的标签；

根据匹配结果确定验证新闻数据中新闻主体的判定模型；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种新闻主体判定的方法，所述方法包括：

获取预设的训练集中的对象名称和历史新闻数据；

根据所述历史新闻数据获取所述对象名称的特征集合以及特征值集合；所述特征集合包括分叙特征集合；所述特征值集合包括分叙特征值集合；

根据预设的历史新闻数据的标签、所述对象名称的特征集合以及特征值集合，确定所述历史新闻数据中新闻主体的判定模型集合，所述判定模型集合包含多个新闻主体的判定模型；

获取预设的验证集中的验证名称和验证新闻数据；

根据所述验证新闻数据获取所述验证名称的特征集合和特征值集合；

将所述验证名称以及验证名称的特征集合和特征值集合作为输入，输入所述历史新闻数据中新闻主体的判定模型集合中各个新闻主体的判定模型；

根据输出结果匹配预设的验证新闻数据的标签；

根据匹配结果确定所述验证新闻数据中新闻主体的判定模型；

根据所述验证新闻数据中新闻主体的判定模型确定目标新闻主体判定模型；

根据所述目标新闻主体判定模型确定测试集中待测试新闻数据的新闻主体；

其中，所述分叙特征集合通过以下方式得到：获取所述历史新闻数据中的新闻文本，将所述新闻文本拆分为多个新闻片段，获取所述新闻片段中的关联词，根据预设的关联词数据库和所述新闻片段中的关联词，确定所述新闻片段的关联词前后半句之间的分叙关系，当所述分叙关系为递进关系或者转折关系时，提取递进或者转折的半句中的主语和/或宾语作为分叙特征集合，当所述分叙关系为并列关系时，同时提取前后半句的主语和/或宾语作为所述分叙特征集合；

所述分叙特征值集合通过以下方式得到：统计提取出的主语和宾语在所述新闻文本中出现的次数，以及出现次数占所述新闻文本中所述对象名称个数的比例作为分叙特征值集合。

2.根据权利要求1所述的方法，其特征在于，所述获取预设的训练集中的对象名称和历史新闻数据包括：

训练所述训练集，筛选出所述训练集中出现的对象候选词；

将所述对象候选词与预设的对象进行匹配；

根据匹配度确定所述对象候选词中与所述预设的对象对应的对象名称。

3.根据权利要求1所述的方法，其特征在于，所述根据所述历史新闻数据获取所述对象名称的特征集合以及特征值集合包括：

获取预设的词库中的举例类词；

根据所述对象名称遍历所述训练集中的新闻文本；

将所述新闻文本中所述对象名称与所述举例类词的位置关系作为位置特征集合；

当所述新闻文本中所述对象名称与所述举例类词不同时出现在一个句子中，计数一次，统计次数作为位置特征值集合。

4.根据权利要求1所述的方法，其特征在于，所述根据所述历史新闻数据获取所述对象名称的特征集合以及特征值集合包括：

获取所述历史新闻数据中的新闻文本，将所述新闻文本拆分为多个新闻片段；

根据预设的句法模型分析所述新闻片段，确定所述新闻片段中的谓语；

根据主谓关系以及动宾关系确定所述新闻片段中的主语和宾语作为结构特征集合；统计所述新闻片段中的主语和宾语在所述新闻文本中出现的次数，以及出现次数占所述新闻文本中所述对象名称个数的比例作为结构特征值集合。

5.一种新闻主体判定的装置，其特征在于，所述装置包括：

特征获取模块，用于根据所述历史新闻数据获取所述对象名称的特征集合以及特征值集合；所述特征集合包括分叙特征集合；所述特征值集合包括分叙特征值集合；

处理模块，用于根据预设的历史新闻数据的标签、所述对象名称的特征集合以及特征值集合，确定所述历史新闻数据中新闻主体的判定模型集合，所述判定模型集合包含多个新闻主体的判定模型；

验证模块，用于获取预设的验证集中的验证名称和验证新闻数据，根据所述验证新闻数据获取所述验证名称的特征集合和特征值集合，将所述验证名称以及验证名称的特征集合和特征值集合作为输入，输入所述历史新闻数据中新闻主体的判定模型集合中各个新闻主体的判定模型，根据输出结果匹配预设的验证新闻数据的标签，根据匹配结果确定所述验证新闻数据中新闻主体的判定模型，根据所述验证新闻数据中新闻主体的判定模型确定目标新闻主体判定模型；

判定模块，用于根据所述目标新闻主体判定模型确定测试集中待测试新闻数据的新闻主体；

其中，所述特征获取模块，还用于获取所述历史新闻数据中的新闻文本，将所述新闻文本拆分为多个新闻片段，获取所述新闻片段中的关联词，根据预设的关联词数据库和所述新闻片段中的关联词，确定所述新闻片段的关联词前后半句之间的分叙关系，当所述分叙关系为递进关系或者转折关系时，提取递进或者转折的半句中的主语和/或宾语作为分叙特征集合，当所述分叙关系为并列关系时，同时提取前后半句的主语和/或宾语作为所述分叙特征集合，统计提取出的主语和宾语在所述新闻文本中出现的次数，以及出现次数占所述新闻文本中所述对象名称个数的比例作为分叙特征值集合。

6.根据权利要求5所述的装置，其特征在于，所述验证模块还用于获取预设的验证集中的验证名称和验证新闻数据，根据所述验证新闻数据获取所述验证名称的特征集合和特征值集合，将所述验证名称以及验证名称的特征集合和特征值集合作为输入，输入所述历史新闻数据中新闻主体的判定模型集合中各个新闻主体的判定模型，根据输出结果匹配预设的验证新闻数据的标签，根据匹配结果确定所述验证新闻数据中新闻主体的判定模型，根据所述验证新闻数据中新闻主体的判定模型确定目标新闻主体判定模型。

7.根据权利要求5所述的装置，其特征在于，所述特征获取模块，还用于获取预设的词库中的举例类词，根据所述对象名称遍历所述训练集中的新闻文本，将所述新闻文本中所述对象名称与所述举例类词的位置关系作为位置特征集合，当所述新闻文本中所述对象名称与所述举例类词不同时出现在一个句子中，计数一次，统计次数作为位置特征值集合。

8.根据权利要求5所述的装置，其特征在于，所述特征获取模块，还用于获取所述历史新闻数据中的新闻文本，将所述新闻文本拆分为多个新闻片段，根据预设的句法模型分析所述新闻片段，确定所述新闻片段中的谓语，根据主谓关系以及动宾关系确定所述新闻片段中的主语和宾语作为结构特征集合，统计所述新闻片段中的主语和宾语在所述新闻文本中出现的次数，以及出现次数占所述新闻文本中所述对象名称个数的比例作为结构特征值集合。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。