CN111858903A

CN111858903A - 一种用于负面新闻预警的方法和装置

Info

Publication number: CN111858903A
Application number: CN202010529348.5A
Authority: CN
Inventors: 吴高升; 尹大胐; 王咏刚
Original assignee: Sinovation Ventures Beijing Enterprise Management Co ltd
Current assignee: Sinovation Ventures Beijing Enterprise Management Co ltd
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-10-30

Abstract

本申请提供了一种用于负面新闻预警的方法，所述方法包括：获得新闻信息，对所述新闻信息进行预处理，得到所述新闻信息对应的主题信息；根据所述主题信息，判断所述新闻信息是否为负面新闻；若所述新闻信息为负面新闻，识别所述新闻信息对应的关键实体；针对所述关键实体，利用构建的知识图谱进行检索，得到所述新闻信息对应的预警对象；确定所述新闻信息对应的预警信息，并将所述预警信息发送给所述预警对象。根据本申请的方案，能够实现对新闻这种非结构化数据的精准过滤和识别，且基于知识图谱的检索具有很好的拓展性，通过不断拓展知识图谱的实体关系，可以实现更多的风险监控。

Description

一种用于负面新闻预警的方法和装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种用于负面新闻预警的技术方案。

背景技术

随着自媒体时代的到来，网络新闻成为信息传递的一种重要载体，具有实时发布、传播速度快、影响面广、渠道多等特点，通过新闻往往能够在第一时间获得数据，例如，投资新闻是获取投资公司运营状况的第一手数据。一则网络新闻对于其关注者来说，可能是正面的也可能是负面的，能否及时获知负面新闻可能会影响机构的一些重大决策，因此如何进行负面新闻预警成为亟需解决的问题。然而，网络新闻的数量非常巨大，新闻数据又属于非结构化数据，因此很难通过简单的规则去准确判定网络新闻的正负面，现有技术中，通常通过一些关键词匹配或者简单机器学习的方法来判别负面新闻，但是该方案的准确率较低，并且人工维护成本高，且现有的新闻风险预警主要是针对新闻的正文部分来进行复杂的提取，操作过程非常复杂。

发明内容

本申请的目的是提供一种用于负面新闻预警的技术方案，从而能够通过对新闻信息进行监控获得第一手的负面新闻，并精准的推送负面新闻对应的预警信息。

根据本申请的一个实施例，提供一种用于负面新闻预警的方法，其中，所述方法包括：

获得新闻信息，对所述新闻信息进行预处理，得到所述新闻信息对应的主题信息；

根据所述主题信息，判断所述新闻信息是否为负面新闻；

若所述新闻信息为负面新闻，识别所述新闻信息对应的关键实体；

针对所述关键实体，利用构建的知识图谱进行检索，得到所述新闻信息对应的预警对象；

确定所述新闻信息对应的预警信息，并将所述预警信息发送给所述预警对象。

根据本申请的另一个实施例，还提供了一种用于负面新闻预警的装置，其中，所述装置包括：

用于获得新闻信息，对所述新闻信息进行预处理，得到所述新闻信息对应的主题信息的装置；

用于根据所述主题信息，判断所述新闻信息是否为负面新闻的装置；

用于若所述新闻信息为负面新闻，识别所述新闻信息对应的关键实体的装置；

用于针对所述关键实体，利用构建的知识图谱进行检索，得到所述新闻信息对应的预警对象的装置；

用于确定所述新闻信息对应的预警信息，并将所述预警信息发送给所述预警对象的装置。

根据本申请的另一个实施例，还提供了一种计算机设备，其中，所述计算机设备包括：存储器，用于存储一个或多个程序；一个或多个处理器，与所述存储器相连，当所述一个或多个程序被所述一个或者多个处理器执行时，使得所述一个或多个处理器执行如下操作：

根据所述主题信息，判断所述新闻信息是否为负面新闻；

根据本申请的另一个实施例，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序可被处理器执行如下操作：

根据所述主题信息，判断所述新闻信息是否为负面新闻；

根据本申请的另一个实施例，还提供了一种计算机程序产品，当所述计算机程序产品被设备执行时，使得所述设备执行如下操作：

根据所述主题信息，判断所述新闻信息是否为负面新闻；

与现有技术相比，本申请具有以下优点：能够通过先对新闻信息进行预处理获得新闻信息对应的主题信息，再对主题信息进行情感分析来判定新闻正负面，针对负面新闻可进一步结合命名实体识别以及知识图谱的技术来确定预警对象，并进行负面新闻预警，从而能够通过将自然语言处理(Natural Language Processing，NLP)和知识图谱技术相结合来实现负面新闻预警，能够实现对新闻这种非结构化数据的精准过滤和识别，且基于知识图谱的检索具有很好的拓展性，通过不断拓展知识图谱的实体关系，可以实现更多的风险监控；并且，由于先对新闻信息进行了预处理，使得仅需针对新闻信息对应的主题信息执行情感分析、命名实体识别及知识图谱检索，这能够在提升系统准确性的同时简化负面新闻预警的步骤，减少了人工维护的成本；此外，通过快速且准确的负面新闻预警，预警对象能够第一时间获取有效的预警信息，这能够使得预警对象及时知晓潜在的风险，对其进一步的决策具有辅助的作用。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了本申请一个实施例的用于负面新闻预警的方法的流程示意图；

图2示出了本申请一个示例的BERT模型的迭代训练流程图；

图3示出了本申请一个示例的知识图谱的构建和查询流程图；

图4示出了本申请一个示例的用于负面新闻预警的整体流程示意图；

图5示出了本申请一个实施例的用于负面新闻预警的装置的结构示意图；

图6示出了可被用于实施本申请中所述的各个实施例的示例性系统。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

在上下文中所称“设备”，是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备，其可以包括处理器与存储器，由处理器执行在存储器中预存的程序指令来执行预定处理过程，或是由专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)等硬件执行预定处理过程，或是由上述二者组合来实现。

本申请的技术方案主要由计算机设备来实现。其中，所述计算机设备包括网络设备和用户设备。所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。所述用户设备包括但不限于PC机、平板电脑、智能手机、IPTV、PDA、可穿戴设备等。其中，所述计算机设备可单独运行来实现本申请，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中，所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。

需要说明的是，上述计算机设备仅为举例，其他现有的或今后可能出现的计算机设备如可适用于本申请，也应包含在本申请保护范围以内，并以引用方式包含于此。

本文后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时，用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。

这里所公开的具体结构和功能细节仅仅是代表性的，并且是用于描述本申请的示例性实施例的目的。但是本申请可以通过许多替换形式来具体实现，并且不应当被解释成仅仅受限于这里所阐述的实施例。

应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指，否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是，这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在，而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

还应当提到的是，在一些替换实现方式中，所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说，取决于所涉及的功能/动作，相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。

下面结合附图对本申请作进一步详细描述。

图1示出了本申请一个实施例的用于负面新闻预警的方法的流程示意图。根据本实施例的方法包括步骤S11、步骤S12、步骤S13、步骤S14和步骤S15。在步骤S11中，计算机设备获得新闻信息，对所述新闻信息进行预处理，得到所述新闻信息对应的主题信息；在步骤S12中，计算机设备根据所述主题信息，判断所述新闻信息是否为负面新闻；在步骤S13中，若所述新闻信息为负面新闻，计算机设备识别所述新闻信息对应的关键实体；在步骤S14中，计算机设备针对所述关键实体，利用构建的知识图谱进行检索，得到所述新闻信息对应的预警对象；在步骤S15中，计算机设备确定所述新闻信息对应的预警信息，并将所述预警信息发送给所述预警对象。

在步骤S11中，计算机设备获得新闻信息，对所述新闻信息进行预处理，得到所述新闻信息对应的主题信息。本申请中并不限制所述新闻信息对应的新闻类型，如所述新闻信息可能为创投新闻、娱乐信息、体育新闻等任意新闻类型。在一些实施例中，可在互联网上相应的网站上获取新闻信息，在互联网上抓取的新闻信息中包括但不限于新闻的标题、摘要、正文、链接、新闻标签等。在一些实施例中，所述主题信息包括用于表征新闻主旨思想的任何信息，如新闻的标题信息、摘要信息、总结性内容等；在一些实施例中，对新闻信息进行预处理，来从新闻信息中提取主题信息，例如，从新闻信息中提取标题信息和摘要信息，又例如，从新闻信息的结尾提取新闻总结部分。在一些实施例中，将预处理得到的各种信息进行拼接，得到新闻信息对应的主题信息，例如，将预处理得到的标题信息和总结性内容进行拼接得到新闻信息对应的主题信息。

作为一种优选方案，所述步骤S11进一步包括步骤S111和步骤S112。在所述步骤S111中，计算机设备获得新闻信息，通过对所述新闻信息进行预处理来获得所述新闻信息对应的标题信息和摘要信息；在步骤S112中，计算机设备将所述标题信息和所述摘要信息进行拼接，得到所述新闻信息对应的主题信息。在一些实施例中，所述步骤S111进一步包括：获得新闻信息，提取所述新闻信息中的标题信息；检测所述新闻信息中是否存在摘要信息，若存在，提取所述新闻信息中摘要信息，否则，利用抽取式摘要生成算法来生成所述新闻信息对应的摘要信息。其中，本申请对具体采用哪种抽取式摘要生成算法并不作限制，作为一个示例，可采用Text Rank算法来从新闻信息的正文中得到摘要。可选地，也可在获得新闻信息之后，先检测新闻信息是否具有标题和摘要，若仅具有标题，则直接提取标题信息，并利用抽取式摘要生成算法来生成新闻信息对应的摘要信息，若同时具有标题和摘要，则直接提取标题信息和摘要信息。本申请意识到，由于长文本通常会分若干个段落，而每个段落的情感倾向不一定完全跟整个新闻一致，比如新闻本身是负面的，但是新闻中某个段落的描述却是正面的，这导致最终得出来的结论可能是错误的，并且长文本也会耗费更长的计算资源，并不是一个高效的方式。而基于该优先方案，仅需获得新闻信息对应的标题信息和摘要信息，由此能够避免长文本带来的不良效应，并且标题信息和摘要信息的结合能够大大降低计算量，且由于标题信息和摘要信息一般是新闻主旨的高度概括，因此对标题信息和摘要信息两个短文本的判定，具有更好的实际可操作性和价值，能够保证得到准确的判定结果。

在步骤S12中，计算机设备根据所述主题信息，判断所述新闻信息是否为负面新闻。在一些实施例中，负面新闻是指具有负面效果的新闻，该负面效果可能仅针对特定机构或个人，例如，针对创投公司A的负面新闻对该创投公司A的投资机构B来说具有负面效果。具体地，可采用多种方式来根据所述主题信息，判断所述新闻信息是否为负面新闻，例如，通过对主题信息执行语义分析来判断新闻信息是否为负面新闻，若通过语义分析确定该主题信息具有负面情感倾向则确定为负面新闻，否则确定为正面新闻，又例如，通过将主题信息与预设的多个负面关键词进行匹配来判断新闻信息是否为负面新闻，若匹配度高于或等于预定匹配度阈值，则确定为负面新闻，否则确定为正面新闻。

在一些实施例中，所述步骤S12进一步包括将所述主题信息输入至训练好的情感分析模型，得到所述情感分析模型输出的判定结果，其中，若所述判定结果大于或等于预定阈值，则所述新闻信息为负面新闻，若所述判断结果小于预定阈值，则所述新闻信息为正面新闻。在一些实施例中，所述情感分析模型是通过对新闻样本数据进行训练得到的，所述情感分析模型输出的判定结果用于指示新闻正负面。在一些实施例中，所述情感分析模型是利用BERT(Bidirectional Encoder Representation from Transformers，来自变压器的双向编码表示)预训练模型在新闻样本数据集上微调得到的，基于BERT预训练出来的模型具有精度高的特点，能够实现对新闻这种非结构化数据的精准过滤和识别。在一些实施例中，可基于实践经验，选取所述情感分析模型对应的预定阈值，来对新闻信息的正负面进行判定，例如，预定阈值为0.15，通过情感分析模型对主题信息中的文本进行识别，若情感分析模型输出的判定结果大于或等于0.15，则确定为负面新闻，否则确定为正面新闻。在一些实施例中，可基于预警对象的反馈来动态调整所述预定阈值，例如，若有超过预定比例的预警对象反馈预警不准确，则增大预定阈值。在一些实施例中，不同的新闻类型对应不同的预定阈值，或者，可针对特定预警对象(如投资公司等)设置不同的预定阈值。在一些实施例中，所述预定阈值设置为一个较低的取值(如0.15)，这是因为训练情感分析模型所使用的新闻样本数据中的正负样本可能不均衡，因此，为了提升负面新闻的识别覆盖率，调低预定阈值以得到更多的处于萌芽阶段的负面新闻。

在一些实施例中，所述方法还包括：根据已标注有正负面标签的多项新闻样本数据，构建第一训练集合和第一测试集合；根据所述第一训练集合和第一测试集合，并利用BERT预训练模型进行微调，来得到所述情感分析模型。该过程也即用BERT预训练模型来微调得到情感分析模型的BERT微调过程。在一些实施例中，所述新闻样本数据是指通过对收集到的新闻进行预处理获得的样本数据。在一些实施例中，BERT微调过程具体如下：首先，根据已标注有正负面标签的多项新闻样本数据，构建第一训练集合和第一测试集合，其中，可通过人工标注来为新闻样本数据标注正负面标签或者将新闻样本数据中已有的标签标注为新闻的正负面标签；之后，根据所述第一训练集合，利用BERT预训练模型进行训练，得到训练好的模型，根据所述第一测试集合，对所述训练好的模型进行部署预测，获得测试结果；根据所述测试结果对第一测试集合中预测错误的新闻样本数据进行纠错，然后再使用纠错后的新闻样本数据进行增量式的迭代训练，从而得到训练好的情感分析模型。图2示出了本申请一个示例的BERT模型的迭代训练流程图，该迭代训练流程(也即BERT微调过程)以创投新闻为例(也可用于其他任何类型的新闻)，包括收集创投新闻、数据标注、BERT模型训练、部署预测、结果反馈这五个部分，具体地，先收集来源于互联网的创投新闻，获得新闻样本数据，利用人工对新闻样本数据中的标题信息和/或摘要信息进行正负面标注，然后进行训练，训练的时候可使用BERT-wwm(BERT-whole word masking)中文预训练模型，优选地，为了在保证效果的前提下减小模型复杂度，可使用BERT 12层的模型，之后进行部署预测，写成接口，方便测试模型的准确性，最后是结果反馈，根据预测错误的新闻样本，对新闻样本进行重新纠错，然后再进行增量式的迭代训练。

在步骤S13中，若所述新闻信息为负面新闻，计算机设备识别所述新闻信息对应的关键实体。在一些实施例中，若所述新闻信息为负面新闻，对该负面新闻的主题信息进行识别，从主题信息中提取识别出来的至少一个关键实体。在一些实施例中，所述新闻信息为创投新闻，所述关键实体包括但不限于投资机构、公司、产品、人物、日期、机构等。例如，若新闻信息为负面的创投新闻，对该负面的创投新闻的主题信息进行识别，从主题信息中提取识别出来的投资机构、公司和人物。需要说明的是，若所述新闻信息为正面新闻，则结束流程。

在一些实施例中，所述步骤S13进一步包括：若所述新闻信息为负面新闻，将所述主题信息输入至训练好的命名实体识别模型，获得所述命名实体识别模型输出的、所述新闻信息对应的关键实体。在一些实施例中，用BERT预训练模型来微调一个创投新闻的命名实体识别模型，该命名实体识别模型能够识别文本中的关键实体，如投资机构、公司、产品、人物、日期、机构等，基于BERT预训练出来的模型具有精度高的特点，能够实现对新闻这种非结构化数据的精准过滤和识别。

在一些实施例中，所述方法还包括：根据已标注有识别对象的多项新闻样本数据，构建第二训练集合和第二测试集合；根据所述第二训练集合和第二测试集合，并利用BERT预训练模型进行微调，来得到所述命名实体识别模型。该过程也即用BERT预训练模型来微调得到命名实体识别模型的BERT微调过程，其实现方式与上述用于得到情感分析模型的BERT微调过程相同或者相似。作为一个示例，以创投新闻为例，BERT微调过程包括收集创投新闻、数据标注、BERT模型训练、部署预测、结果反馈这五个部分，具体地，先收集来源于互联网的创投新闻，获得新闻样本数据，利用字符串匹配、正则匹配和/或人工结合的方式对新闻样本数据中的标题部分和/或摘要部分进行标注，标注类型包括投资机构、公司、产品、人物、日期、机构这6大类别，根据标注后的新闻样本数据构建训练集合和测试集合，然后进行训练，训练的时候可使用BERT-wwm中文预训练模型，优选地，为了在保证效果的前提下减小模型复杂度，可使用BERT 12层的模型，之后进行部署预测，写成接口，方便测试模型的准确性，最后是结果反馈，根据预测错误的新闻样本，对新闻样本进行重新纠错，然后再进行增量式的迭代训练。

在步骤S14中，计算机设备针对所述关键实体，利用构建的知识图谱进行检索，得到所述新闻信息对应的预警对象。基于知识图谱的检索方法可拓展性好，通过不断拓展知识图谱的实体关系，可以实现更多的风险监控。在一些实施例中，预警对象包括但不限于关注新闻潜在风险的对象，或者新闻的负面可能影响到的对象，例如，针对创投新闻，其预警对象可能为投资机构和/或被投机构。在一些实施例中，先构建知识图谱，然后构建知识图谱实体映射表，用于把识别出来的实体映射到知识图谱的实体上。

在一些实施例中，所述步骤S14包括：利用构建的知识图谱实体映射表将所述关键实体映射到构建的知识图谱中的目标实体上；根据所述目标实体，利用所述知识图谱进行有向图检索，得到所述目标实体对应的预警对象。图3示出了本申请一个示例的知识图谱的构建和查询流程图，该示例以针对创投新闻的知识图谱的构建和查询为例，其中，根据投资机构信息、投资信息、企业信息，利用结构化数据构建知识图谱，查询过程中，针对识别出的人物实体和公司实体，先利用构建的知识图谱实体映射表进行实体映射，再利用构建的知识图谱进行搜索。作为基于图3的一个具体示例，利用结构化数据预先构建投资机构高管、投资机构、被投公司、被投公司的高管的知识图谱，然后构建知识图谱实体映射表，其中，投资机构和投资机构是拥有关系，投资机构和被投机构是投资轮次关系，被投公司和和被投资机构的高管也是拥有的关系；在步骤S13中识别得到的关键实体包括公司和人物，则在步骤S14中，针对识别得到的公司，经过知识图谱映射表找出知识图谱中相关的映射实体，然后通过有向图检索找出具有投资轮次关系的被投机构，然后去重，得到被投公司，而针对识别得到的人物，首先根据实体链接技术进行消歧，然后通过有向图检索查找出相应公司，然后根据相应公司找到具有投资轮次关系的投资机构，然后去重。

在步骤S15中，计算机设备确定所述新闻信息对应的预警信息，并将所述预警信息发送给所述预警对象。在一些实施例中，所述预警信息包括任何用于提示潜在风险的警示信息，如新闻信息本身、新闻信息的链接地址、新闻信息对应的主题信息、预警风险等级信息等，优选地，所述预警信息包括知识图谱的推导路径，以方便追踪。在一些实施例中，可通过电子邮件、信息推送等方式来将预警信息发送给预警对象。例如，在步骤S14中已识别得到负面创投新闻对应的预警对象为投资机构B，在步骤S15中，确定所述新闻信息对应的预警信息包括新闻信息以及知识图谱的推导路径，并将预警信息邮件推送至投资机构B的邮箱。

在一些实施例中，所述将所述预警信息发送给所述预警对象，包括：确定所述预警对象所关联的负责人员，并将所述预警信息发送至所述负责人员。例如，预先建立投资机构负责人与所涉及到的公司之间的关联关系，确定预警对象所关联的投资机构负责人，并将预警信息推送给该投资机构负责人。由此，能够根据机构负责人的订阅或者负责情况，推送相应的预警信息给相关的机构负责人。

图4示出了本申请一个示例的用于负面新闻预警的整体流程示意图(以创投新闻为例)。具体地，首先在互联网上收集创投新闻，对该创投新闻进行预处理，获得该创投新闻对应的主题信息，之后根据该主题信息进行负面新闻识别，当识别到该创投新闻为负面新闻时，进行负面新闻主体判定，来识别得到该创投新闻对应的公司和人物，之后利用构建的知识图谱，针对识别得到的公司进行相关公司图谱检索，且针对识别得到的人物进行相关人物图谱检索，由此识别得到需要发出预警的投资机构，最后将新闻信息对应的预警信息推送给投资机构相关负责人。上述流程也可以用于创投新闻以外的其他新闻，实际应用中，可针对不同类型新闻或者不同领域定制其对应的负面新闻预警流程。基于上述流程，能够通过利用神经网络对新闻中的主题信息进行情感分析和实体识别，利用知识图谱进行有向图搜索，查找出对机构构成的潜在风险关系，并进行预警，这种实现方法提升了对新闻这种非结构化数据精准的判别程度，具有很高可拓展性。

图5示出了本申请一个实施例的用于负面新闻预警的装置的结构示意图。该用于负面新闻预警的装置(以下简称为“预警装置”)包括第一装置11、第二装置12、第三装置13、第四装置14和第五装置15。

第一装置11用于获得新闻信息，对所述新闻信息进行预处理，得到所述新闻信息对应的主题信息。本申请中并不限制所述新闻信息对应的新闻类型，如所述新闻信息可能为创投新闻、娱乐信息、体育新闻等任意新闻类型。在一些实施例中，可在互联网上相应的网站上获取新闻信息，在互联网上抓取的新闻信息中包括但不限于新闻的标题、摘要、正文、链接、新闻标签等。在一些实施例中，所述主题信息包括用于表征新闻主旨思想的任何信息，如新闻的标题信息、摘要信息、总结性内容等；在一些实施例中，对新闻信息进行预处理，来从新闻信息中提取主题信息，例如，从新闻信息中提取标题信息和摘要信息，又例如，从新闻信息的结尾提取新闻总结部分。在一些实施例中，将预处理得到的各种信息进行拼接，得到新闻信息对应的主题信息，例如，将预处理得到的标题信息和总结性内容进行拼接得到新闻信息对应的主题信息。

作为一种优选方案，第一装置11进一步包括第一单元(图未示)和第二单元(图未示)。第一单元用于获得新闻信息，通过对所述新闻信息进行预处理来获得所述新闻信息对应的标题信息和摘要信息；第二单元用于将所述标题信息和所述摘要信息进行拼接，得到所述新闻信息对应的主题信息。在一些实施例中，第一单元进一步用于：获得新闻信息，提取所述新闻信息中的标题信息；检测所述新闻信息中是否存在摘要信息，若存在，提取所述新闻信息中摘要信息，否则，利用抽取式摘要生成算法来生成所述新闻信息对应的摘要信息。其中，本申请对具体采用哪种抽取式摘要生成算法并不作限制，作为一个示例，可采用Text Rank算法来从新闻信息的正文中得到摘要。可选地，也可在获得新闻信息之后，先检测新闻信息是否具有标题和摘要，若仅具有标题，则直接提取标题信息，并利用抽取式摘要生成算法来生成新闻信息对应的摘要信息，若同时具有标题和摘要，则直接提取标题信息和摘要信息。本申请意识到，由于长文本通常会分若干个段落，而每个段落的情感倾向不一定完全跟整个新闻一致，比如新闻本身是负面的，但是新闻中某个段落的描述却是正面的，这导致最终得出来的结论可能是错误的，并且长文本也会耗费更长的计算资源，并不是一个高效的方式。而基于该优先方案，仅需获得新闻信息对应的标题信息和摘要信息，由此能够避免长文本带来的不良效应，并且标题信息和摘要信息的结合能够大大降低计算量，且由于标题信息和摘要信息一般是新闻主旨的高度概括，因此对标题信息和摘要信息两个短文本的判定，具有更好的实际可操作性和价值，能够保证得到准确的判定结果。

第二装置12用于根据所述主题信息，判断所述新闻信息是否为负面新闻。在一些实施例中，负面新闻是指具有负面效果的新闻，该负面效果可能仅针对特定机构或个人，例如，针对创投公司A的负面新闻对该创投公司A的投资机构B来说具有负面效果。具体地，可采用多种方式来根据所述主题信息，判断所述新闻信息是否为负面新闻，例如，通过对主题信息执行语义分析来判断新闻信息是否为负面新闻，若通过语义分析确定该主题信息具有负面情感倾向则确定为负面新闻，否则确定为正面新闻，又例如，通过将主题信息与预设的多个负面关键词进行匹配来判断新闻信息是否为负面新闻，若匹配度高于或等于预定匹配度阈值，则确定为负面新闻，否则确定为正面新闻。

在一些实施例中，第二装置12进一步用于将所述主题信息输入至训练好的情感分析模型，得到所述情感分析模型输出的判定结果，其中，若所述判定结果大于或等于预定阈值，则所述新闻信息为负面新闻，若所述判断结果小于预定阈值，则所述新闻信息为正面新闻。在一些实施例中，所述情感分析模型是通过对新闻样本数据进行训练得到的，所述情感分析模型输出的判定结果用于指示新闻正负面。在一些实施例中，所述情感分析模型是利用BERT预训练模型在新闻样本数据集上微调得到的，基于BERT预训练出来的模型具有精度高的特点，能够实现对新闻这种非结构化数据的精准过滤和识别。在一些实施例中，可基于实践经验，选取所述情感分析模型对应的预定阈值，来对新闻信息的正负面进行判定，例如，预定阈值为0.15，通过情感分析模型对主题信息中的文本进行识别，若情感分析模型输出的判定结果大于或等于0.15，则确定为负面新闻，否则确定为正面新闻。在一些实施例中，可基于预警对象的反馈来动态调整所述预定阈值，例如，若有超过预定比例的预警对象反馈预警不准确，则增大预定阈值。在一些实施例中，不同的新闻类型对应不同的预定阈值，或者，可针对特定预警对象(如投资公司等)设置不同的预定阈值。在一些实施例中，所述预定阈值设置为一个较低的取值(如0.15)，这是因为训练情感分析模型所使用的新闻样本数据中的正负样本可能不均衡，因此，为了提升负面新闻的识别覆盖率，调低预定阈值以得到更多的处于萌芽阶段的负面新闻。

在一些实施例中，所述预警装置还包括：用于根据已标注有正负面标签的多项新闻样本数据，构建第一训练集合和第一测试集合的装置；用于根据所述第一训练集合和第一测试集合，并利用BERT预训练模型进行微调，来得到所述情感分析模型的装置。该过程也即用BERT预训练模型来微调得到情感分析模型的BERT微调过程。在一些实施例中，所述新闻样本数据是指通过对收集到的新闻进行预处理获得的样本数据。在一些实施例中，BERT微调过程具体如下：首先，根据已标注有正负面标签的多项新闻样本数据，构建第一训练集合和第一测试集合，其中，可通过人工标注来为新闻样本数据标注正负面标签或者将新闻样本数据中已有的标签标注为新闻的正负面标签；之后，根据所述第一训练集合，利用BERT预训练模型进行训练，得到训练好的模型，根据所述第一测试集合，对所述训练好的模型进行部署预测，获得测试结果；根据所述测试结果对第一测试集合中预测错误的新闻样本数据进行纠错，然后再使用纠错后的新闻样本数据进行增量式的迭代训练，从而得到训练好的情感分析模型。图2示出了本申请一个示例的BERT模型的迭代训练流程图，该迭代训练流程(也即BERT微调过程)以创投新闻为例(也可用于其他任何类型的新闻)，包括收集创投新闻、数据标注、BERT模型训练、部署预测、结果反馈这五个部分，具体地，先收集来源于互联网的创投新闻，获得新闻样本数据，利用人工对新闻样本数据中的标题信息和/或摘要信息进行正负面标注，然后进行训练，训练的时候可使用BERT-wwm中文预训练模型，优选地，为了在保证效果的前提下减小模型复杂度，可使用BERT 12层的模型，之后进行部署预测，写成接口，方便测试模型的准确性，最后是结果反馈，根据预测错误的新闻样本，对新闻样本进行重新纠错，然后再进行增量式的迭代训练。

第三装置13用于若所述新闻信息为负面新闻，识别所述新闻信息对应的关键实体。在一些实施例中，若所述新闻信息为负面新闻，对该负面新闻的主题信息进行识别，从主题信息中提取识别出来的至少一个关键实体。在一些实施例中，所述新闻信息为创投新闻，所述关键实体包括但不限于投资机构、公司、产品、人物、日期、机构等。例如，若新闻信息为负面的创投新闻，对该负面的创投新闻的主题信息进行识别，从主题信息中提取识别出来的投资机构、公司和人物。需要说明的是，若所述新闻信息为正面新闻，则结束流程。

在一些实施例中，第三装置13进一步用于：若所述新闻信息为负面新闻，将所述主题信息输入至训练好的命名实体识别模型，获得所述命名实体识别模型输出的、所述新闻信息对应的关键实体。在一些实施例中，用BERT预训练模型来微调一个创投新闻的命名实体识别模型，该命名实体识别模型能够识别文本中的关键实体，如投资机构、公司、产品、人物、日期、机构等，基于BERT预训练出来的模型具有精度高的特点，能够实现对新闻这种非结构化数据的精准过滤和识别。

在一些实施例中，所述预警装置还包括：用于根据已标注有识别对象的多项新闻样本数据，构建第二训练集合和第二测试集合的装置；用于根据所述第二训练集合和第二测试集合，并利用BERT预训练模型进行微调，来得到所述命名实体识别模型的装置。该过程也即用BERT预训练模型来微调得到命名实体识别模型的BERT微调过程，其实现方式与上述用于得到情感分析模型的BERT微调过程相同或者相似。作为一个示例，以创投新闻为例，BERT微调过程包括收集创投新闻、数据标注、BERT模型训练、部署预测、结果反馈这五个部分，具体地，先收集来源于互联网的创投新闻，获得新闻样本数据，利用字符串匹配、正则匹配和/或人工结合的方式对新闻样本数据中的标题部分和/或摘要部分进行标注，标注类型包括投资机构、公司、产品、人物、日期、机构这6大类别，根据标注后的新闻样本数据构建训练集合和测试集合，然后进行训练，训练的时候可使用BERT-wwm中文预训练模型，优选地，为了在保证效果的前提下减小模型复杂度，可使用BERT 12层的模型，之后进行部署预测，写成接口，方便测试模型的准确性，最后是结果反馈，根据预测错误的新闻样本，对新闻样本进行重新纠错，然后再进行增量式的迭代训练。

第四装置14用于针对所述关键实体，利用构建的知识图谱进行检索，得到所述新闻信息对应的预警对象。基于知识图谱的检索方法可拓展性好，通过不断拓展知识图谱的实体关系，可以实现更多的风险监控。在一些实施例中，预警对象包括但不限于关注新闻潜在风险的对象，或者新闻的负面可能影响到的对象，例如，针对创投新闻，其预警对象可能为投资机构和/或被投机构。在一些实施例中，先构建知识图谱，然后构建知识图谱实体映射表，用于把识别出来的实体映射到知识图谱的实体上。

在一些实施例中，第四装置14用于：利用构建的知识图谱实体映射表将所述关键实体映射到构建的知识图谱中的目标实体上；根据所述目标实体，利用所述知识图谱进行有向图检索，得到所述目标实体对应的预警对象。图3示出了本申请一个示例的知识图谱的构建和查询流程图，该示例以针对创投新闻的知识图谱的构建和查询为例，其中，根据投资机构信息、投资信息、企业信息，利用结构化数据构建知识图谱，查询过程中，针对识别出的人物实体和公司实体，先利用构建的知识图谱实体映射表进行实体映射，再利用构建的知识图谱进行搜索。作为基于图3的一个具体示例，利用结构化数据预先构建投资机构高管、投资机构、被投公司、被投公司的高管的知识图谱，然后构建知识图谱实体映射表，其中，投资机构和投资机构是拥有关系，投资机构和被投机构是投资轮次关系，被投公司和和被投资机构的高管也是拥有的关系；第三装置13识别得到的关键实体包括公司和人物，则第四装置14针对识别得到的公司，经过知识图谱映射表找出知识图谱中相关的映射实体，然后通过有向图检索找出具有投资轮次关系的被投机构，然后去重，得到被投公司，而针对识别得到的人物，首先根据实体链接技术进行消歧，然后通过有向图检索查找出相应公司，然后根据相应公司找到具有投资轮次关系的投资机构，然后去重。

第五装置15用于确定所述新闻信息对应的预警信息，并将所述预警信息发送给所述预警对象。在一些实施例中，所述预警信息包括任何用于提示潜在风险的警示信息，如新闻信息本身、新闻信息的链接地址、新闻信息对应的主题信息、预警风险等级信息等，优选地，所述预警信息包括知识图谱的推导路径，以方便追踪。在一些实施例中，可通过电子邮件、信息推送等方式来将预警信息发送给预警对象。例如，第四装置14已识别得到负面创投新闻对应的预警对象为投资机构B，第五装置15确定所述新闻信息对应的预警信息包括新闻信息以及知识图谱的推导路径，并将预警信息邮件推送至投资机构B的邮箱。

根据本申请的方案，填补了现有技术中应用自然语言处理和知识图谱技术来实现负面新闻预警的空白，能够通过先对新闻信息进行预处理获得新闻信息对应的主题信息，再对主题信息进行情感分析来判定新闻正负面，针对负面新闻可进一步结合命名实体识别以及知识图谱的技术来确定预警对象，并进行负面新闻预警，从而能够通过将自然语言处理和知识图谱技术相结合来实现负面新闻预警，能够实现对新闻这种非结构化数据的精准过滤和识别，且基于知识图谱的检索具有很好的拓展性，通过不断拓展知识图谱的实体关系，可以实现更多的风险监控；并且，由于先对新闻信息进行了预处理，使得仅需针新闻信息对应的主题信息执行情感分析、命名实体识别及知识图谱检索，这能够在提升系统准确性的同时简化负面新闻预警的步骤，减少了人工维护的成本；此外，通过快速且准确的负面新闻预警，预警对象能够第一时间获取有效的预警信息，这能够使得预警对象及时知晓潜在的风险，对其进一步的决策具有辅助的作用。

本申请还提供了一种计算机设备，其中，所述计算机设备包括：存储器，用于存储一个或多个程序；一个或多个处理器，与所述存储器相连，当所述一个或多个程序被所述一个或者多个处理器执行时，使得所述一个或多个处理器执行本申请所述的用于负面新闻预警的方法。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序可被处理器执行本申请所述的用于负面新闻预警的方法。

本申请还提供了一种计算机程序产品，当所述计算机程序产品被设备执行时，使得所述设备执行本申请所述的用于负面新闻预警的方法。

在一些实施例中，系统1000能够作为本申请实施例中的任意一个处理设备。在一些实施例中，系统1000可包括具有指令的一个或多个计算机可读介质(例如，系统存储器或NVM/存储设备1020)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本申请中所述的动作的一个或多个处理器(例如，(一个或多个)处理器1005)。

对于一个实施例，系统控制模块1010可包括任意适当的接口控制器，以向(一个或多个)处理器1005中的至少一个和/或与系统控制模块1010通信的任意适当的设备或组件提供任意适当的接口。

系统控制模块1010可包括存储器控制器模块1030，以向系统存储器1015提供接口。存储器控制器模块1030可以是硬件模块、软件模块和/或固件模块。

系统存储器1015可被用于例如为系统1000加载和存储数据和/或指令。对于一个实施例，系统存储器1015可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，系统存储器1015可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，系统控制模块1010可包括一个或多个输入/输出(I/O)控制器，以向NVM/存储设备1020及(一个或多个)通信接口1025提供接口。

例如，NVM/存储设备1020可被用于存储数据和/或指令。NVM/存储设备1020可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备1020可包括在物理上作为系统1000被安装在其上的设备的一部分的存储资源，或者其可被该设备访问而不必作为该设备的一部分。例如，NVM/存储设备1020可通过网络经由(一个或多个)通信接口1025进行访问。

(一个或多个)通信接口1025可为系统1000提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。系统1000可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。

对于一个实施例，(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器(例如，存储器控制器模块1030)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，系统1000可以但不限于是：服务器、工作站、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中，系统1000可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，系统1000包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种用于负面新闻预警的方法，其中，所述方法包括：

根据所述主题信息，判断所述新闻信息是否为负面新闻；

2.根据权利要求1所述的方法，其中，所述获得新闻信息，对所述新闻信息进行预处理，得到所述新闻信息对应的主题信息，包括：

获得新闻信息，通过对所述新闻信息进行预处理来获得所述新闻信息对应的标题信息和摘要信息；

将所述标题信息和所述摘要信息进行拼接，得到所述新闻信息对应的主题信息。

3.根据权利要求2所述的方法，其中，所述获得新闻信息，通过对所述新闻信息进行预处理来获得所述新闻信息对应的标题信息和摘要信息，包括：

获得新闻信息，提取所述新闻信息中的标题信息；

检测所述新闻信息中是否存在摘要信息，若存在，提取所述新闻信息中摘要信息，否则，利用抽取式摘要生成算法来生成所述新闻信息对应的摘要信息。

4.根据权利要求1至3中任一项所述的方法，其中，所述根据所述主题信息，判断所述新闻信息是否为负面新闻，包括：

将所述主题信息输入至训练好的情感分析模型，得到所述情感分析模型输出的判定结果，其中，若所述判定结果大于或等于预定阈值，则所述新闻信息为负面新闻，若所述判断结果小于预定阈值，则所述新闻信息为正面新闻。

5.根据权利要求4所述的方法，其中，所述方法还包括：

根据已标注有正负面标签的多项新闻样本数据，构建第一训练集合和第一测试集合；

根据所述第一训练集合和第一测试集合，并利用BERT预训练模型进行微调，来得到所述情感分析模型。

6.根据权利要求1至4中任一项所述的方法，其中，所述若所述新闻信息为负面新闻，识别所述新闻信息对应的关键实体，包括：

若所述新闻信息为负面新闻，将所述主题信息输入至训练好的命名实体识别模型，获得所述命名实体识别模型输出的、所述新闻信息对应的关键实体。

7.根据权利要求6所述的方法，其中，所述方法还包括：

根据已标注有识别对象的多项新闻样本数据，构建第二训练集合和第二测试集合；

根据所述第二训练集合和第二测试集合，并利用BERT预训练模型进行微调，来得到所述命名实体识别模型。

8.根据权利要求1至7中任一项所述的方法，其中，所述针对所述关键实体，利用构建的知识图谱进行检索，得到所述新闻信息对应的预警对象，包括：

利用构建的知识图谱实体映射表将所述关键实体映射到构建的知识图谱中的目标实体上；

根据所述目标实体，利用所述知识图谱进行有向图检索，得到所述目标实体对应的预警对象。

9.根据权利要求1至8中任一项所述的方法，其中，所述将所述预警信息发送给所述预警对象，包括：

确定所述预警对象所关联的负责人员，并将所述预警信息发送至所述负责人员。

10.一种用于负面新闻预警的装置，其中，所述装置包括：

11.根据权利要求10所述的装置，其中，所述用于根据所述主题信息，判断所述新闻信息是否为负面新闻的装置，用于：

12.根据权利要求10或11所述的装置，其中，所述用于若所述新闻信息为负面新闻，识别所述新闻信息对应的关键实体的装置，包括：

13.根据权利要求10至12中任一项所述的装置，其中，所述用于针对所述关键实体，利用构建的知识图谱进行检索，得到所述新闻信息对应的预警对象的装置，包括：

14.一种计算机设备，其中，所述计算机设备包括：

存储器，用于存储一个或多个程序；

一个或多个处理器，与所述存储器相连，

当所述一个或多个程序被所述一个或者多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至9中任一项所述的方法。

15.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序可被处理器执行如权利要求1至9中任一项所述的方法。