CN113496118B

CN113496118B - 一种新闻主体识别方法、设备和计算机可读存储介质

Info

Publication number: CN113496118B
Application number: CN202010266045.9A
Authority: CN
Inventors: 张佳旭; 孔庆超; 王婧宜; 彭鑫; 方省; 张西娜; 罗引; 王磊
Original assignee: Beijing Zhongke Wenge Technology Co ltd
Current assignee: Beijing Zhongke Wenge Technology Co ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2024-05-31
Anticipated expiration: 2040-04-07
Also published as: CN113496118A

Abstract

本发明公开了一种新闻主体识别方法、设备和计算机可读存储介质。该方法包括：获取待识别新闻文本，并对新闻文本进行预处理；利用预设的分词词典，对预处理后的新闻文本执行带词性标注的分词处理，得到多个被标注词性的分词；在词性被标注为主体的分词中查询预设的目标主体，并在新闻文本中提取目标主体对应的多种主体特征；将目标主体对应的多种主体特征输入预先训练的主体识别模型中，获取主体识别模型输出的识别结果。在本发明中，将目标主体对应的多种主体特征作为主体识别模型的输入，使主体识别模型根据目标主体对应的多种主体特征识别新闻文本的主体是否为目标主体，弥补了新闻主体识别的技术空白。

Description

一种新闻主体识别方法、设备和计算机可读存储介质

技术领域

本发明涉及互联网技术领域，尤其涉及一种新闻主体识别方法、设备和计算机可读存储介质。

背景技术

目前，以互联网为载体的网络新闻呈快速发展态势，越来越多的人喜欢通过网络获取新闻，网络新闻对受众的影响越来越大。然而，由于新闻的信息量较大，又缺少一种可以进行新闻主体识别的自动化方式，导致人们无法短时间内判断新闻内容是否围绕自己关注的主体展开，必须通过仔细阅读新闻内容，来确定新闻内容描述的主体是否为自己关注的主体。例如：新闻文本的内容为：“向日葵幼儿园和红太阳幼儿园倡导小朋友们要爱护花草树木，并且两个幼儿园一起带领小朋友们参加了爱护花草树木系列活动，并且对活动中表现出色的小朋友提出了表扬，电视台对此事进行了全程跟踪采访”，如果幼儿园是被关注的主体，则通过阅读新闻文本可以知道该新闻文本是围绕向日葵幼儿园和红太阳幼儿园展开的，也即是说该新闻文本的主体是幼儿园。然而，实际的新闻文本内容篇幅有长有短，都通过阅读新闻内容来确定主体，势必会花费大量的时间。这样，如何在节奏如此之快的环境之下，高效地、准确地从大量自然文本中结构化地提取其关键主体信息，识别新闻是否围绕着用户关注的主体展开，已经成为本领域技术人员亟待解决的问题，以便弥补新闻主体识别的技术空白。

发明内容

本发明的主要目的在于提供一种新闻主体识别方法、设备和计算机可读存储介质，以解决现有技术对新闻主体识别存在技术空白的问题。

针对上述技术问题，本发明实施例是通过以下技术方案来解决的：

本发明实施例提供了一种新闻主体识别方法，包括：获取待识别新闻文本，并对所述新闻文本进行预处理；利用预设的分词词典，对预处理后的所述新闻文本执行带词性标注的分词处理，得到多个被标注词性的分词；在词性被标注为主体的分词中查询预设的目标主体，并在所述新闻文本中提取所述目标主体对应的多种主体特征；将所述目标主体对应的多种主体特征输入预先训练的主体识别模型中，获取所述主体识别模型输出的识别结果；其中，所述识别结果为所述新闻文本的主体是所述目标主体或者所述新闻文本的主体不是所述目标主体。

其中，在所述利用预设的分词词典，对预处理后的所述新闻文本执行带词性标注的分词处理之前，包括：在所述分词词典中添加预设的一个或者多个新增主体；其中，在所述一个或者多个新增主体中包括所述目标主体；在添加所述多个新增主体之前，在所述分词词典中包括多个原始主体；所述在所述新闻文本中提取所述目标主体对应的多种主体特征，包括：确定所述新闻文本中出现的原始主体和新增主体的数量；在所述分词词典中的多个原始主体和多个新增主体中，确定所述新闻文本中是否仅出现了目标主体；确定所述新闻文本中出现的原始主体的数量以及出现次数。

其中，所述在所述新闻文本中提取所述目标主体对应的多种主体特征，包括：确定所述目标主体在所述新闻文本中的出现次数；在所述新闻文本中，确定出现过所述目标主体的语句的个数；将所述新闻文本划分为多个文本部分，确定所述目标主体分别在每个所述文本部分中的出现次数；确定所述新闻文本的文本标题中是否包括所述目标主体；利用预设的关键词提取算法，提取所述新闻文本中的关键词，并确定在所述新闻文本的关键词中是否出现所述目标主体；其中，如果所述目标主体出现在所述新闻文本的关键词中，则确定所述目标主体的在所述新闻文本的关键词中的出现次数；利用预设的摘要提取算法，提取所述新闻文本的摘要内容，并确定在所述新闻文本的摘要内容中是否出现所述目标主体；如果所述目标主体出现在所述新闻文本的摘要内容中，则确定所述目标主体在所述新闻文本的摘要内容中的出现次数；确定所述新闻文本中出现预设的一类特征词的次数和预设的二类特征词的次数。

其中，所述关键词提取算法为textrank算法；和/或，所述摘要提取算法为textrank算法。

其中，在所述将所述目标主体对应的多种主体特征输入预先训练的主体识别模型中之前，还包括：设置训练数据集、验证数据集和测试数据集；利用所述训练数据集对所述主体识别模型进行训练；利用所述验证数据集对所述主体识别模型进行验证；利用所述测试数据集确定所述主体识别模型的性能度量值；如果所述性能度量值大于预设的性能阈值，则确定所述主体识别模型收敛，反之，则继续利用所述训练数据集对所述主体识别模型进行训练；其中，所述设置训练数据集、验证数据集和测试数据集，包括：采集多个正样本文本和多个负样本文本；其中，所述正样本文本的主体为所述目标主体，所述负样本文本的主体不是所述目标主体；在每个所述正样本文本中提取所述目标主体对应的多种主体特征，将在每个所述正样本文本中提取的多种主体特征作为一个正样本数据；在每个所述负样本文本中提取所述目标主体对应的多种主体特征，将在每个所述负样本文本中提取的多种主体特征作为一个负样本数据；在多个所述正样本数据和多个所述负样本数据中，选择部分正样本数据和部分负样本数据作为训练数据集，并将剩余的正样本数据和/或负样本数据作为测试数据集；在所述训练数据集中，选择部分正样本数据和部分负样本数据作为验证数据集。

其中，在所述采集多个正样本文本和多个负样本文本之后，还包括：对所述多个正样本文本和多个负样本文本分别进行预处理；利用预设的分词词典，对预处理后的所述多个正样本文本和多个负样本文本分别执行分词处理；确定所述多个正样本文本中每个分词出现的频率；按照频率值从高到低的顺序，顺序获取前N个分词作为一类特征词，N为大于1的正整数；确定所述多个负样本文本中每个分词出现的频率；按照频率值从高到低的顺序，顺序获取前M个分词作为二类特征词，M为大于1的正整数。

其中，所述主体识别模型的性能度量值为所述主体识别模型的调和均值。

其中，所述主体识别模型为软间隔支持向量机SVM算法模型。

本发明实施例还提供了一种新闻主体识别设备，所述新闻主体识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述任一项所述的新闻主体识别方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有新闻主体识别程序，所述新闻主体识别程序被处理器执行时实现上述任一项所述的新闻主体识别方法的步骤。

本发明实施例的有益效果如下：

在本发明实施例中，将新闻文本中的主体抽象为多种主体特征，进而在分词处理后的新闻文本中提取目标主体对应的多种主体特征，将目标主体对应的多种主体特征作为主体识别模型的输入，使主体识别模型根据目标主体对应的多种主体特征识别新闻文本的主体是否为目标主体。通过本发明实施例弥补了新闻主体识别的技术空白，避免人工阅读新闻文本并分析新闻文本中的主体是否为目标主体，为用户带来的不便。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明一实施例的新闻主体识别方法的流程图；

图2是根据本发明一实施例的主体特征的提取步骤流程图；

图3是根据本发明一实施例的主体识别模型的训练步骤流程图；

图4是根据本发明一实施例的数据集的设置步骤流程图；

图5是根据本发明一实施例的新闻主体识别设备的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图及具体实施例，对本发明作进一步地详细说明。

本发明实施例的新闻主体识别旨在识别新闻是否围绕着用户关注的组织机构相关的实体(主体)展开。因此，新闻主体识别实质上是一个二分类问题，即，确定新闻文本的主体是用户关注的组织机构相关的实体，或者，确定新闻文本的主体不是用户关注的组织机构相关的实体。

本发明实施例可以应用在多个领域中。例如：在数据挖掘领域中，新闻主体识别能够比较准确且全面地评估新闻围绕着某个组织机构相关实体展开的概率。概率越高，表明该新闻的主体与组织机构相关实体越一致。

根据本发明的实施例，提供了一种新闻主体识别方法。如图1所示，为根据本发明一实施例的新闻主体识别方法的流程图。

步骤S101，获取待识别新闻文本，并对所述新闻文本进行预处理。

该预处理，包括但不限于：将繁体字的新闻文本转换为简体字的新闻文本以及删除新闻文本中的标点符号。该标点符号包括但不限于：字符、逗号、句号和叹号。进一步地，可以将标点符号的位置替换为空格。

步骤S102，利用预设的分词词典，对预处理后的所述新闻文本执行带词性标注的分词处理，得到多个被标注词性的分词。

该分词词典为预设的分词工具中固有的分词词典。该分词词典中的每个词语被预先标注词性。

该分词工具可以对新闻文本执行带词性标注的分词处理，即：在根据分词词典为新闻文本进行分词的过程中，为划分出的每个分词标注其词性。例如：该分词工具是结巴分词工具。

在所述分词词典中添加预设的一个或者多个新增主体；其中，在所述一个或者多个新增主体中包括所述目标主体；在添加所述一个或者多个新增主体之前，在所述分词词典中包括多个原始主体。进一步地，可以预设包含一个或者多个新增主体的新增主体词典，将该新增主体词典添加到分词词典之中。这样，在该分词词典中的主体包括新增主体和原始主体。其中，在划分出的分词为主体(原始主体或者新增主体)时，可以将该分词的词性标注为主体词性标签，如：nt。

主体是指组织机构对应的实体名称。例如：**大学、**研究所、**公司。

原始主体，是分词词典中固有的主体。由于分词词典中的原始主体的数量有限，不能涵盖所有的主体，利用原始主体无法精确切分一些专用词语。所以，向分词词典中添加新增主体，便于在新闻文中识别目标主体。其中，将原始主体作为为新增主体(尤其是目标主体)不相关的主体。

步骤S103，在词性被标注为主体的分词中查询预设的目标主体，并在所述新闻文本中提取所述目标主体对应的多种主体特征。

目标主体，是指用户关注的主体。在新闻文本中，可以包括一个或者多个目标主体，多个目标主体之间对应相同组织结构下的不同实体。例如：目标主体“第一医院”和“第二医院”是同属于医院这一组织机构的实体。一般而言，目标主体包含在新增主体之中。

主体特征，用于体现新闻文本的特征，以及目标主体在新闻文本中的出现位置和出现次数。

例如：多种主体特征包括：确定新闻文本中出现的原始主体和新增主体的数量，也即是确定新闻文本中出现的主体的数量；在分词词典中的多个原始主体和多个新增主体中，确定新闻文本中是否仅出现了目标主体，也即是确定目标主体是否为新闻文本中出现的唯一一个主体；确定新闻文本中出现的原始主体的数量以及出现次数，也即是确定新闻文本中出现的与无关的主体的数量和次数。

在对预处理后的所述新闻文本执行带词性标注的分词处理之后，在得到的多个分词中筛选出具有主体词性标签的词语，即主体；在筛选出的主体中，查询目标主体。

步骤S140，将所述目标主体对应的多种主体特征输入预先训练的主体识别模型中，获取所述主体识别模型输出的识别结果。

所述识别结果为所述新闻文本的主体是所述目标主体或者所述新闻文本的主体不是所述目标主体。

根据目标主体对应的多种主体特征构造特征向量，将该特征向量输入预先训练的主体识别模型中。在特征向量中，每个元素对应一个种类的主体特征，这样，在提取到多种主体特征之后，根据主体特征的种类，将主体特征作为特征向量对应种类的元素。

该主体识别模型为机器学习模型。进一步地，主体识别模型为分类决策函数模型。例如：主体识别模型为软间隔支持向量机(Support Vector Machine，简称SVM)算法模型。

在将目标主体对应的多种主体特征输入主体识别模型之前，需要利用预设的训练数据集、验证数据集和测试数据集，对主体识别模型进行训练，直到主体识别模型收敛为止。

提取的主体特征的种类可以在训练主体识别模型的过程中，根据主体识别模型的识别准确度不断调整，直到主体识别模型收敛之后，确定输入主体识别模型的主体特征的种类，作为需要在新闻文本中提取的主体特征的种类。

在本实施例中，将新闻文本中的主体抽象为多种主体特征，进而在分词处理后的新闻文本中提取目标主体对应的多种主体特征，将目标主体对应的多种主体特征作为主体识别模型的输入，使主体识别模型根据目标主体对应的多种主体特征识别新闻文本的主体是否为目标主体。通过本实施例弥补了新闻主体识别的技术空白，避免人工阅读新闻文本并分析新闻文本中的主体是否为目标主体，为用户带来的不便。

进一步地，本实施例可以高效地、准确地从大量新闻文本中识别出围绕目标主体展开的新闻文本，有效提高了新闻主体识别的效率，避免人工进行新闻主体识别造成的人力和时间上的浪费。

进一步地，本实施例首先对新闻文本进行主体特征抽取，然后基于抽取的主体特征构造特征向量，最后使用机器学习模型，达到识别新闻主体的目的。采用机器学习的方法对新闻文本进行主体识别，可以提高新闻主体识别的准确性和有效性，可以更好地服务于新闻工作。

下面针对提取目标主体对应的多种主体特征的步骤进行进一步地描述。

主体特征的种类可以在训练主体识别模型的过程中进行完善，以便使主体识别模型的识别结果更加准确。本发明实施例优选的，在新闻文本中提取以下多种主体特征：

在新闻文本中，目标主体出现的次数；目标主体出现在新闻文本的几句话中；目标主体分别在新闻文本的每个文本部分中的出现次数；目标主体是否出现在新闻文本的标题中；新闻文本中出现组织机构相关实体名称的次数；目标主体是否为新闻文本中的唯一机构；新闻文本中的无关机构的个数以及无关机构的出现次数；目标主体是否出现在新闻文本的关键词中以及目标主体在关键词中的出现次数；抽取主体是否出现在新闻文本的摘要中以及目标主体在摘要中的出现次数；新闻文本中的一类特征词出现次数以及二类特征词出现次数。

如图2所示，为根据本发明一实施例的主体特征的提取步骤流程图。

步骤S201，确定目标主体在新闻文本中的出现次数。

目标主体在新闻文本中的出现次数反映了目标主体在新闻文本中的重要程度。目标主体在新闻文本中的出现次数越多，表示目标主体在新闻文本中越重要。

在本实施例中，目标主体的数量可以是一个或者多个。

可以通过如下公式来确定目标主体在新闻文本中的出现次数count_sub：

其中，n表示目标主体的数量；i表示第i个目标主体；count()表示计数函数；count(subject_i)表示第i个目标主体在新闻文本中出现的次数。

例如：预先设置目标主体是幼儿园；事例新闻文本的内容为：“向日葵幼儿园和红太阳幼儿园倡导小朋友们要爱护花草树木，两个幼儿园一起带领小朋友们参加了爱护花草树木系列活动，并且对活动中表现出色的小朋友提出了表扬，电视台对此事进行了全程跟踪采访”，该新闻文本的主体包括“向日葵幼儿园”、“红太阳幼儿园”和“电视台”，只有“向日葵幼儿园”和“红太阳幼儿园”是幼儿园，那么，“向日葵幼儿园”和“红太阳幼儿园”都是目标主体，而“电视台”不是目标主体。那么，count(向日葵幼儿园)＝1；count(红太阳幼儿园)＝1；count_sub＝2。

步骤S202，在该新闻文本中，确定出现过所述目标主体的语句的个数。

确定目标主体出现在新闻文本的几句话中，可以反映目标主体在新闻文本中的分布状态。

可以通过如下公式来确定出现过目标主体的语句的个数count_sen：

其中，m表示新闻文本中的语句数量；j表示新闻文本中的第j个语句；sentence_i,j表示第i个目标实体是否在第j个语句中，如果在，则sentence_i,j为1，反之，则sentence_i,j为0。

例如：在事例新闻文本中，“向日葵幼儿园”和“红太阳幼儿园”都是目标主体，“向日葵幼儿园”仅在第一个语句中出现，“红太阳幼儿园”仅在第一个语句中出现，这样，count_sen＝2。

步骤S203，将该新闻文本划分为多个文本部分，确定所述目标主体分别在每个所述文本部分中的出现次数。

将新闻文本划分为多个文本部分，是因为目标主体在新闻文本中出现的位置会对主体的重要程度有影响，而且从文本的表达方式来看，目标主体出现在第一个文本部分和最后一个文本部分的可能性更大。

可以根据新闻文本中的语句数量或者段落数量，将新闻文本划分为多个文本部分。文本部分的数量可以根据需求而定，如4个文本部分。

例如：新闻文本中包括12句话，可以将新闻文本的每两句话划分为一个文本部分，将新闻文本平均分为4个文本部分。又如：新闻文本中包括8个段落，则将新闻文本按照段落的顺序，每两个自然段划分为一个文本部分，将新闻文本平均分为4个文本部分。

具体的，可以通过如下公式来确定目标主体分别在每个所述文本部分中的出现次数

其中，k表示第k个文本部分；part_ij表示第i个目标实体在新闻文本的第k个文本部分中出现的次数。例如：k＝1,2,3,4。

步骤S204，确定所述新闻文本的文本标题中是否包括所述目标主体。

在文本标题中包含目标主体，那么新闻文本围绕该目标主体展开的可能性比较大，所以，本实施例判别文本标题中是否包括目标主体。

如果在文本标题中包括目标主体，则标题特征标记为1；如果在文本标题中不包括目标主体，则将标题特征标记为0。

步骤S205，确定该新闻文本中出现的原始主体和新增主体的数量。

新闻文本中出现的原始主体和新增主体的数量，也即是新闻文本中出现主体(组织机构对应的实体名称)的数量。

具体的，可以通过如下公式来确定新闻文本中出现的原始主体和新增主体的数量count_entity：

count_entity＝count(entity)；

其中，count(entity)表示新闻文本中词性标签为主体的分词的数量，entity表示被标注为主体的分词。如：在对事例新闻文本进行分词之后，“向日葵幼儿园”、“红太阳幼儿园”和“电视台”被标注为nt，则count(entity)＝3。

步骤S206，在所述分词词典中的多个原始主体和多个新增主体中，确定该新闻文本中是否仅出现了目标主体。

确定该新闻文本中是否仅出现了目标主体，也即是确定目标主体是否为新闻文本中出现的唯一一个组织机构对应的实体名称。

如果确定该新闻文本中仅出现了目标主体，则将主体数量特征标记为1，反之，如果确定新闻文本中不仅包括目标主体，还包括其他主体，则将主体数量特征标记为0。例如：在事例新闻文本中，主体包括“向日葵幼儿园”、“红太阳幼儿园”和“电视台”，“向日葵幼儿园”和“红太阳幼儿园”都为目标主体，“电视台”不是目标主体，则主体数量特征标记为0。

步骤S207，确定该新闻文本中出现的原始主体的数量以及出现次数。

在新闻文本中与目标主体无关的主体越少，新闻文本越可能围绕目标主体展开。

可以通过如下公式来确定新闻文本中出现的原始主体的数量(个数)count_irrelevant1：

count_irrelevant1＝count(set(irrelevant_entity))；

其中，irrelevant_entity表示与目标主体无关的主体；set()为去重函数，在与目标主体无关的主体中去除相同的主体。

可以通过如下公式来确定新闻文本中出现的原始主体的出现次数count_irrelevant2：

count_irrelevant2＝count(irrelevant_entity)。

例如：在事例新闻文本中，如果“电视台”是分词工具的分词词典自带的原始主体，则“电视台”是目标主体的无关主体。

步骤S208，利用预设的关键词提取算法，提取该新闻文本中的关键词，并确定在该新闻文本的关键词中是否出现所述目标主体；其中，如果所述目标主体出现在所述新闻文本的关键词中，则确定所述目标主体的在该新闻文本的关键词中的出现次数。

如果在新闻文本的关键词中出现目标主体，则表示目标主体在该新闻文本中较为重要。

在本发明实施例中，关键词提取算法为textrank算法。

进一步地，由于新闻文本可能包括数量较多的关键词，所以，可以利用关键词提取算法，提取新闻文本中出现的前预设第一数量的关键词。如：提取前50个关键词。

在提取的多个关键词中(如50个关键词中)，确定是否出现目标主体，如果出现目标主体，则确定目标主体的出现次数。具体的，如果目标主体出现在关键词中，则将关键词特征标记为1，反之，则将关键词特征标记为0。

可以通过如下公式来确定所述目标主体的在该新闻文本的关键词中的出现次数count_key：

其中，subject_i_keys表示第i个目标主体在关键词中是否出现，出现则subject_i_keys为1，否则，subject_i_keys为0。

在本实施例中，是以提取出的所有关键词为基础，在这所有关键词中确定是否出现目标主体。

例如：在事例新闻文本中，textrank算法提取到如下关键词：“小朋友”、“幼儿园”、“爱护”、“全程”、“跟踪”、“表扬”、“活动”、“提出”、“倡导”、“参加”、“采访”、“进行”、“电视台”、“向日葵”、“红太阳”、“花草树木”、“带领”、“表现出色”，因此，在关键词中未出现目标主体“向日葵幼儿园”和“红太阳幼儿园”，将关键词特征标记为0，count_key＝0。

步骤S209，利用预设的摘要提取算法，提取该新闻文本的摘要内容，并确定在该新闻文本的摘要内容中是否出现所述目标主体；如果所述目标主体出现在该新闻文本的摘要内容中，则确定所述目标主体在该新闻文本的摘要内容中的出现次数。

摘要内容是新闻文本的集中体现，如果在新闻文本的摘要内容中出现目标主体，则表示目标主体在新闻文本中较为重要。

在本发明实施例中，所述摘要提取算法为textrank算法。进一步地，利用textrank算法在新闻文本中提取前预设第二数量的摘要内容。如：提取前5个摘要内容。

在提取出的多个摘要内容中(如5个摘要内容中)，确定是否出现目标主体，如果出现目标主体，则确定目标主体的出现次数。具体的，如果目标主体出现在摘要内容中，则将摘要特征标记为1，反之，则将摘要特征标记为0。

可以通过如下公式来确定所述目标主体的在该摘要内容中的出现次数count_abstract：

其中，subject_i_abstract表示第i个目标主体在关键词中是否出现，如果出现，则subject_i_abstract为1，反之，则subject_i_abstract为0。

在事例新闻文本中，textrank算法提取到如下摘要内容：“向日葵幼儿园和红太阳幼儿园倡导小朋友们要爱护花草树木，并且两个幼儿园一起带领小朋友们参加了爱护花草树木系列活动，并且对活动中表现出色的小朋友提出了表扬，电视台对此事进行了全程跟踪采访”，因此，在摘要内容中出现了目标主体“向日葵幼儿园”和“红太阳幼儿园”，将摘要特征标记为1，count_abstract＝2。

步骤S210，确定该新闻文本中出现预设的一类特征词的次数和预设的二类特征词的次数。

一类特征词是指在主体为目标主体的新闻文本中出现概率大的词语。

二类特征词是指在主体不是目标主体的新闻文本中出现概率大的词语。

可以通过如下公式确定该新闻文本中出现预设的一类特征词的次数

其中，key_word₁表示一类特征词。

可以通过如下公式确定该新闻文本中出现预设的二类特征词的次数

其中，key_word₂表示二类特征词。

在本发明实施例中，在主体特征的构造方面，通过引入textrank算法，提取了新闻文本的关键词和摘要内容，进而构造了有效特征，提高了主体识别模型的识别准确性。

本发明实施例在将目标主体对应的多种主体特征输入主体识别模型中之前，还需要对主体识别模型进行训练。

机器学习大多基于统计学习模型，新闻主体识别是一个二分类问题，可以通过提取主体特征构造分类器，这种方式避免了规则匹配的缺点，不再需要人工干预和专业知识，同时也可以提高预测的准确率和预测过程的智能化。

下面对主体识别模型的训练过程进行描述。如图3所示，为根据本发明一实施例的主体识别模型的训练步骤流程图。

步骤S301，设置训练数据集、验证数据集和测试数据集。

训练数据集包括多个被标注标签的样本数据。在多个样本数据中，包括：多个被标注第一标签的正样本数据和多个被标注第二标签的负样本数据。

验证数据集包括多个被标注标签的样本数据。在多个样本数据中，包括：多个被标注第一标签的正样本数据和多个被标注第二标签的负样本数据。

预测数据集包括多个被标注标签的样本数据。在多个样本数据中，包括：多个被标注第一标签的正样本数据和/或多个被标注第二标签的负样本数据。

正样本数据为正样本文本中提取的目标主体对应的多种主体特征。为该正样本数据标注的第一标签表示该正样本文本的主体是目标主体。第一标签可以使用1来表示。

负样本数据为负样本文本中提取的目标主体对应的多种主体特征。为该负样本数据标注的第二标签表示负样本文本的主体不是目标主体。第二标签可以使用0来表示。

对于如何设置训练数据集、验证数据集和测试数据集，将在后面进行详细的描述。

步骤S302，利用所述训练数据集对所述主体识别模型进行训练。

步骤S11，从训练数据集中获取一个样本数据。

步骤S12，将获取的样本数据输入主体识别模型，并获取主体识别模型输出的识别结果。识别结果为1表示样本数据的主体是目标主体。识别结果为0表示样本数据的主体不是目标主体。

步骤S13，将主体识别模型输出的识别结果与输入的样本数据的标签进行比较，如果正确，则直接跳转到步骤1S1，从训练数据集中获取下一个样本数据；如果错误，则调整主体识别模型中的参数，并跳转到步骤S11，从训练数据集中获取下一个样本数据。

步骤S303，利用所述验证数据集对所述主体识别模型进行验证。

步骤S21，在训练数据集训练主体识别模型之后，计算主体识别模型的第一F1值。

步骤S22，将验证数据集中的各个样本数据顺次输入主体识别模型，使所述主体识别模型分别对每个样本数据进行主体识别。

步骤S23，在主体识别模型识别验证数据集中的各个样本数据之后，将第一F1值与第二F1值进行比较。

步骤S24，判断第一F1值和第二F1值的差值是否小于预设的差值阈值；如果是，则执行步骤S25；如果否，则执行步骤S26。

步骤S25，判定主体识别模型已经收敛。

步骤S26，调整主体识别模型的超参数，重新利用训练数据集训练主体识别模型，转步骤S21。其中，主体识别模型的超参数例如是：惩罚系数和核函数。

步骤S304，利用所述测试数据集确定所述主体识别模型的性能度量值。

在本实施例中，所述主体识别模型的性能度量值可以为所述主体识别模型的调和均值。

步骤S305，判断所述性能度量值是否大于预设的性能阈值；如果是，则执行步骤S306；如果否，则执行步骤S302，继续利用所述训练数据集对所述主体识别模型进行训练。

步骤S306，如果所述性能度量值大于预设的性能阈值，则确定所述主体识别模型收敛。

在本实施例中，主体识别模型可以选择SVM算法模型。

由于SVM算法是一种小样本学习方法，此外SVM算法的结构损失可以提高模型的泛化性能，也可以提高模型的准确率。因此可以采用机器学习算法中的软间隔SVM算法模型来识别新闻主体。SVM算法模型是通过找到最大间隔超平面，将正负样本数据进行划分，从而将该问题转化为一个凸优化问题进行求解。可以按照8：2的比例将数据集中的样本数据划分为训练数据集和测试数据集。训练时使用五折交叉验证来验证主体识别模型的有效性。

由于样本数据存在正负样本数据不平衡的问题，所以在做交叉验证时需要进行分层抽样。下面对设置训练数据集、验证数据集和测试数据集的步骤进行进一步地描述。

如图4所示，为根据本发明一实施例的数据集的设置步骤流程图。

步骤S401，采集多个正样本文本和多个负样本文本；其中，所述正样本文本的主体为所述目标主体，所述负样本文本的主体不是所述目标主体。

可以从互联网中采集多个正样本文本和多个负样本文本。

在所述采集多个正样本文本和多个负样本文本之后，还包括：对多个正样本文本和多个负样本文本分别进行预处理；利用预设的分词词典，对预处理后的所述多个正样本文本和多个负样本文本分别执行分词处理；确定所述多个正样本文本中每个分词出现的频率；按照频率值从高到低的顺序，顺序获取前N个分词作为一类特征词，N为大于1的正整数；确定所述多个负样本文本中每个分词出现的频率；按照频率值从高到低的顺序，顺序获取前M个分词作为二类特征词，M为大于1的正整数。

步骤S402，在每个所述正样本文本中提取所述目标主体对应的多种主体特征，将在每个所述正样本文本中提取的多种主体特征作为一个正样本数据。

为每个所述正样本数据标注第一标签。

步骤S403，在每个所述负样本文本中提取所述目标主体对应的多种主体特征，将在每个所述负样本文本中提取的多种主体特征作为一个负样本数据。

为每个所述负样本数据标注第二标签。

步骤S404，在多个所述正样本数据和多个所述负样本数据中，选择部分正样本数据和部分负样本数据作为训练数据集，并将剩余的正样本数据和/或负样本数据作为测试数据集；在所述训练数据集中，选择部分正样本数据和部分负样本数据作为验证数据集。

本发明实施例可以针对新闻文本，采用机器学习的方法对新闻文本进行主体识别，从而提高新闻主体识别的准确性和有效性，可更好地服务于新闻工作的需求。

本实施例提供一种新闻主体识别设备。如图5所示，为根据本发明一实施例的新闻主体识别设备的结构图。

在本实施例中，所述新闻主体识别设备包括但不限于：处理器501和存储器502。

所述处理器501用于执行存储器502中存储的新闻主体识别程序，以实现上述所述的新闻主体识别方法。

具体而言，所述处理器501用于执行存储器502中存储的新闻主体识别程序，以实现以下步骤：获取待识别新闻文本，并对所述新闻文本进行预处理；利用预设的分词词典，对预处理后的所述新闻文本执行带词性标注的分词处理，得到多个被标注词性的分词；在词性被标注为主体的分词中查询预设的目标主体，并在所述新闻文本中提取所述目标主体对应的多种主体特征；将所述目标主体对应的多种主体特征输入预先训练的主体识别模型中，获取所述主体识别模型输出的识别结果；其中，所述识别结果为所述新闻文本的主体是所述目标主体或者所述新闻文本的主体不是所述目标主体。

其中，所述主体识别模型为软间隔支持向量机SVM算法模型。

本发明实施例还提供了一种计算机可存储介质。这里的计算机可存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。

当计算机可存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述的新闻主体识别方法。

具体而言，所述处理器用于执行存储器中存储的新闻主体识别程序，以实现以下步骤：获取待识别新闻文本，并对所述新闻文本进行预处理；利用预设的分词词典，对预处理后的所述新闻文本执行带词性标注的分词处理，得到多个被标注词性的分词；在词性被标注为主体的分词中查询预设的目标主体，并在所述新闻文本中提取所述目标主体对应的多种主体特征；将所述目标主体对应的多种主体特征输入预先训练的主体识别模型中，获取所述主体识别模型输出的识别结果；其中，所述识别结果为所述新闻文本的主体是所述目标主体或者所述新闻文本的主体不是所述目标主体。

其中，所述主体识别模型为软间隔支持向量机SVM算法模型。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种新闻主体识别方法，其特征在于，包括：

获取待识别新闻文本，并对所述新闻文本进行预处理；

利用预设的分词词典，对预处理后的所述新闻文本执行带词性标注的分词处理，得到多个被标注词性的分词；

在所述分词词典中添加预设的一个或者多个新增主体；其中，在所述一个或者多个新增主体中包括目标主体；在添加所述多个新增主体之前，在所述分词词典中包括多个原始主体；

在词性被标注为主体的分词中查询预设的目标主体，并在所述新闻文本中提取所述目标主体对应的多种主体特征，包括：确定所述新闻文本中出现的原始主体和新增主体的数量；在所述分词词典中的多个原始主体和多个新增主体中，确定所述新闻文本中是否仅出现了目标主体；确定所述新闻文本中出现的原始主体的数量以及出现次数；

将所述目标主体对应的多种主体特征输入预先训练的主体识别模型中，获取所述主体识别模型输出的识别结果；其中，所述识别结果为所述新闻文本的主体是所述目标主体或者所述新闻文本的主体不是所述目标主体。

2.根据权利要求1所述的方法，其特征在于，所述在所述新闻文本中提取所述目标主体对应的多种主体特征，包括：

确定所述目标主体在所述新闻文本中的出现次数；

在所述新闻文本中，确定出现过所述目标主体的语句的个数；

将所述新闻文本划分为多个文本部分，确定所述目标主体分别在每个所述文本部分中的出现次数；

确定所述新闻文本的文本标题中是否包括所述目标主体；

利用预设的关键词提取算法，提取所述新闻文本中的关键词，并确定在所述新闻文本的关键词中是否出现所述目标主体；其中，如果所述目标主体出现在所述新闻文本的关键词中，则确定所述目标主体的在所述新闻文本的关键词中的出现次数；

利用预设的摘要提取算法，提取所述新闻文本的摘要内容，并确定在所述新闻文本的摘要内容中是否出现所述目标主体；如果所述目标主体出现在所述新闻文本的摘要内容中，则确定所述目标主体在所述新闻文本的摘要内容中的出现次数；

确定所述新闻文本中出现预设的一类特征词的次数和预设的二类特征词的次数。

3.根据权利要求2所述的方法，其特征在于，

所述关键词提取算法为textrank算法；和/或，

所述摘要提取算法为textrank算法。

4.根据权利要求1所述的方法，其特征在于，在所述将所述目标主体对应的多种主体特征输入预先训练的主体识别模型中之前，还包括：

设置训练数据集、验证数据集和测试数据集；

利用所述训练数据集对所述主体识别模型进行训练；

利用所述验证数据集对所述主体识别模型进行验证；

利用所述测试数据集确定所述主体识别模型的性能度量值；如果所述性能度量值大于预设的性能阈值，则确定所述主体识别模型收敛，反之，则继续利用所述训练数据集对所述主体识别模型进行训练；

其中，所述设置训练数据集、验证数据集和测试数据集，包括：

采集多个正样本文本和多个负样本文本；其中，所述正样本文本的主体为所述目标主体，所述负样本文本的主体不是所述目标主体；

在每个所述正样本文本中提取所述目标主体对应的多种主体特征，将在每个所述正样本文本中提取的多种主体特征作为一个正样本数据；

在每个所述负样本文本中提取所述目标主体对应的多种主体特征，将在每个所述负样本文本中提取的多种主体特征作为一个负样本数据；

在多个所述正样本数据和多个所述负样本数据中，选择部分正样本数据和部分负样本数据作为训练数据集，并将剩余的正样本数据和/或负样本数据作为测试数据集；在所述训练数据集中，选择部分正样本数据和部分负样本数据作为验证数据集。

5.根据权利要求4所述的方法，其特征在于，在所述采集多个正样本文本和多个负样本文本之后，还包括：

对所述多个正样本文本和多个负样本文本分别进行预处理；

利用预设的分词词典，对预处理后的所述多个正样本文本和多个负样本文本分别执行分词处理；

确定所述多个正样本文本中每个分词出现的频率；按照频率值从高到低的顺序，顺序获取前N个分词作为一类特征词，N为大于1的正整数；

确定所述多个负样本文本中每个分词出现的频率；按照频率值从高到低的顺序，顺序获取前M个分词作为二类特征词，M为大于1的正整数。

6.根据权利要求4所述的方法，其特征在于，所述主体识别模型的性能度量值为所述主体识别模型的调和均值。

7.根据权利要求1～6中任一项所述的方法，其特征在于，所述主体识别模型为软间隔支持向量机SVM算法模型。

8.一种新闻主体识别设备，其特征在于，所述新闻主体识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1～7中任一项所述的新闻主体识别方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有新闻主体识别程序，所述新闻主体识别程序被处理器执行时实现如权利要求1～7中任一项所述的新闻主体识别方法的步骤。