CN106844341A

CN106844341A - 基于人工智能的新闻摘要提取方法及装置

Info

Publication number: CN106844341A
Application number: CN201710016516.9A
Authority: CN
Inventors: 闭玮; 刘志慧; 曹宇慧; 周古月; 石磊; 何径舟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-01-10
Filing date: 2017-01-10
Publication date: 2017-06-13
Anticipated expiration: 2037-01-10
Also published as: CN106844341B

Abstract

本发明提出一种基于人工智能的新闻摘要提取方法及装置，其中，方法包括：基于新闻事件的关键词检索得到新闻事件的新闻簇，从新闻簇包括的所有新闻中获取新闻事件的核心新闻，将新闻簇包括的所有新闻按照句子进行拆分，获取每两个句子之间的语义相似度，基于每两个句子之间的语义相似度从核心新闻中选取重要句子，按照重要句子在核心新闻中原文的顺序进行拼接，形成新闻事件的摘要。本实施例中，从同一新闻事件的所有新闻中选取核心新闻，再从核心新闻中按照句子的重要性选取出形成摘要的重要句子，并且按照原文顺序进行拼接，从而可以避免出现逻辑错乱以及语义不同的问题。

Description

基于人工智能的新闻摘要提取方法及装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种基于人工智能的新闻摘要提取方法及装置。

背景技术

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中，人工智能最重要的方面就是语音识别技术。

随着网络技术的发展，世界各地的各类新闻可以通过各种媒体发布给互联网用户。对于同一个新闻事件，各种媒体对应的门户网站会编辑出不同的报道，门户网站发出的报道的侧重点一般会存在一定的差异，但是所有的报道中也会存在或多或少的重合信息。对于不同的互联网用户而言，对新闻事件的关注点会不同。对于一个互联网用户来说，可能需要阅读多篇报道才能从中提取出自己想要的信息，这就会导致用户的阅读效率较差。

为了帮助用户提高新闻阅读的效率，可以对同一新闻事件的多篇新闻进行聚合，去除多篇新闻中的冗余信息，提取描述新闻事件的摘要。但是，在形成新闻事件的摘要时多篇新闻报道具有平等的重要性，从而使得多篇文章中抽取出来的句子拼接在一起，经常出现逻辑错乱或者语义不同的问题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于人工智能的新闻摘要提取方法，用于解决现有形成新闻事件的摘要时由于多篇新闻报道具有平等的重要性，导致从多篇文章中抽取出来的句子拼接在一起，经常出现逻辑错乱或者语义不同的问题。

本发明的第二个目的在于提出一种基于人工智能的新闻摘要提取装置。

本发明的第三个目的在于提出另一种基于人工智能的新闻摘要提取装置。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种基于人工智能的新闻摘要提取方法，包括：

基于新闻事件的关键词检索得到所述新闻事件的新闻簇；

从所述新闻簇包括的所有新闻中获取所述新闻事件的核心新闻；

将所述新闻簇包括的所有新闻按照句子进行拆分，获取每两个句子之间的语义相似度；

基于每两个句子之间的所述语义相似度从所述核心新闻中选取重要句子；

按照所述重要句子在所述核心新闻中原文的顺序进行拼接，形成所述新闻事件的摘要。

本发明实施例的基于人工智能的新闻摘要提取方法，通过从同一新闻事件的所有新闻中选取核心新闻，再从核心新闻中按照句子的重要性选取出形成摘要的重要句子，并且按照原文顺序进行拼接，从而可以避免出现逻辑错乱以及语义不同的问题。

为达上述目的，本发明第二方面实施例提出了一种基于人工智能的新闻摘要提取装置，包括：

检索模块，用于基于新闻事件的关键词检索得到所述新闻事件的新闻簇；

获取模块，用于从所述新闻簇包括的所有新闻中获取所述新闻事件的核心新闻；

相似度获取模块，用于将所述新闻簇包括的所有新闻按照句子进行拆分，获取每两个句子之间的语义相似度；

选取模块，用于基于每两个句子之间的所述语义相似度从所述核心新闻中选取重要句子；

拼接模块，用于按照所述重要句子在所述核心新闻中原文的顺序进行拼接，形成所述新闻事件的摘要。

本发明实施例的基于人工智能的新闻摘要提取装置，通过从同一新闻事件的所有新闻中选取核心新闻，再从核心新闻中按照句子的重要性选取出形成摘要的重要句子，并且按照原文顺序进行拼接，从而可以避免出现逻辑错乱以及语义不同的问题。

为达上述目的，本发明第三方面实施例提出了另一种基于人工智能的新闻摘要提取装置，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为：基于新闻事件的关键词检索得到所述新闻事件的新闻簇；从所述新闻簇包括的所有新闻中获取所述新闻事件的核心新闻；将所述新闻簇包括的所有新闻按照句子进行拆分，获取每两个句子之间的语义相似度；基于每两个句子之间的所述语义相似度从所述核心新闻中选取重要句子；按照所述重要句子在所述核心新闻中原文的顺序进行拼接，形成所述新闻事件的摘要。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器端的处理器被执行时，使得服务器端能够执行一种基于人工智能的新闻摘要提取方法，所述方法包括：基于新闻事件的关键词检索得到所述新闻事件的新闻簇；从所述新闻簇包括的所有新闻中获取所述新闻事件的核心新闻；将所述新闻簇包括的所有新闻按照句子进行拆分，获取每两个句子之间的语义相似度；基于每两个句子之间的所述语义相似度从所述核心新闻中选取重要句子；按照所述重要句子在所述核心新闻中原文的顺序进行拼接，形成所述新闻事件的摘要。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行一种基于人工智能的新闻摘要提取方法，所述方法包括：基于新闻事件的关键词检索得到所述新闻事件的新闻簇；从所述新闻簇包括的所有新闻中获取所述新闻事件的核心新闻；将所述新闻簇包括的所有新闻按照句子进行拆分，获取每两个句子之间的语义相似度；基于每两个句子之间的所述语义相似度从所述核心新闻中选取重要句子；按照所述重要句子在所述核心新闻中原文的顺序进行拼接，形成所述新闻事件的摘要。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例提供的一种基于人工智能的新闻摘要提取方法的流程示意图；

图2为本发明实施例提供的一种核心新闻的获取方法的流程示意图；

图3为本发明实施例提供的另一种基于人工智能的新闻摘要提取方法的流程示意图；

图4为本发明实施例提供的一种新闻簇的示意图；

图5为本发明实施例提供的一种基于带权的无向图从核心新闻中选取重要句子的流程示意图；

图6为本发明实施例提供的另一种基于带权的无向图从核心新闻中选取重要句子的流程示意图；

图7为本发明实施例提供的一种从核心新闻中选取出重要句子示意图；

图8为本发明实施例提供的一种基于人工智能的新闻摘要提取装置的结构示意图；

图9为本发明实施例提供的一种获取模块的结构示意图；

图10为本发明实施例提供的一种选取模块的结构示意图；

图11为本发明实施例提供的另一种基于人工智能的新闻摘要提取装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于人工智能的新闻摘要提取方法及装置。

图1为本发明实施例所提供的一种基于人工智能的新闻摘要提取方法的流程示意图。该基于人工智能的新闻摘要提取方法包括以下步骤：

S101、基于新闻事件的关键词检索得到新闻事件的新闻簇。

实际应用中，当一个新闻事件发生后，会有多个门户网站对该新闻事件进行报道。当用户需要了解该新闻事件时，可以基于新闻事件的关键词进行搜索。本实施例中，在获取到用户输入的新闻事件的关键词之后，可以基于该新闻事件的关键词搜索到与关键词相关的新闻，然后利用相关的新闻形成该新闻事件的新闻簇。

例如，新闻事件为“雾霾红色预警”，当用户根据输入“雾霾成分”、“空气污染”、“指数破表”、“雾霾防治”、“雾霾危害”、和/或“学生挺课”等关键词时，就可以获取到与“雾霾红色预警”这一新闻事件相关的新闻，从而形成该新闻事件的新闻簇。

S102、从新闻簇包括的所有新闻中获取新闻事件的核心新闻。

一般情况下，在很多关于同一新闻事件的新闻报道中，经常会有某篇新闻报道最为详尽，可以涵盖了用户对于该新闻事件所需要了解的大部分信息点，本实施例中，将新闻簇中涵盖了用户试图了解该新闻事件的大部分信息点的新闻报道，称为该新闻事件的核心新闻。在获取到新闻事件的新闻簇之后，可以获取新闻簇中每个新闻的特征集合，然后根据该特征集合得到每个新闻的重要性，然后选择重要性最高的新闻作为核心新闻。

图2为本发明实施例提供的一种核心新闻的获取方法的流程示意图。

S201、获取新闻簇中每个新闻的特征集合。

从新闻簇中每个新闻中提取出该新闻的特征集合，其中，特征集合中可以包括：新闻字数、新闻关键词覆盖面、新闻阅读量、新闻与新闻簇中其它新闻的语义相关性等多维特征。

S202、对每个特征集合中的各特征打分。

进一步地，可以通过构建好的机器学习的模型，然后将每个特征集合中各特征输入到机器学习的模型进行打分。

S203、将每个特征集合中的各特征打分后按照各特征对应的权重进行加权，得到每个新闻的重要性。

本实施例中，预设可以为不同的特征设置一个权重，权重越大说明对应的特征越重要。在获取到每个特征集合中各特征的打分后，针对每个特征集合，可以将各特征的打分与各特征对应的权重进行加权，然后得到每个特征集合的打分，进而根据每个特征集合的打分，确定出每个特征集合对应的新闻的重要性。新闻的重要性可以通过特征集合的打分进行体现。特征集合的打分越高，说明对应新闻越重要。

S204、选择重要性最高的新闻作为核心新闻。

在获取到新闻簇中每个新闻的重要性后，可以从所有的新闻中选择重要性最高的新闻作为新闻事件的核心新闻。

S103、将新闻簇包括的所有新闻按照句子进行拆分，获取每两个句子之间的语义相似度。

由于新闻事件的摘要是有多个句子构成的，本实施例中，将同一新闻事件的新闻簇中所包括的所有新闻按照句子进行拆分，然后可以获取每两个句子之间的语义相似度。本实施例中，可以基于至少一种语义相似度算法来计算两个句子之间的中间语义相似度，然后将计算得到两个句子之间的中间语义相似度进行加权，将加权后的结果作为两个句子之间的语义相似度。本实施例中，通过多种语义相似度算法来计算两个句子之间的语义相似度，通过加权处理后最终得到两个句子的语义相似度可以提高计算精度，有利用从新闻中提取较为准确的摘要。

可以采用基于词法特征的语义相似度算法、基于语义特征的语义相似度算法和/或基于词形特征算法的语义相似度算法，来计算两个句子之间的中间语义相似度，然后将计算得到的所有中间语义相似度，各自与对应算法的权重进行加权，得到两个句子之间的语义相似度。再例如，可以采用词频-逆文档率(term frequency–inverse documentfrequency，简称TF-IDF)和/或者Word2Vec(https://zh.wikipedia.org/wiki/Word2vec)得到的词向量加权后得到句子向量，然后利用余弦相似度计算两个句子之间的语义相似度。

S104、基于每两个句子之间的语义相似度从核心新闻中选取重要句子。

实际应用中，一个句子与其他句子之间的语义相似度越高，说明该句子在新闻事件的多篇新闻报道中出现的概率越大，说明该句子的重要程度越高，在获取到每个句子与其他句子之间的语义相似度之后，可以确定出每个句子的重要程度，进而可以根据句子的重要程度。进一步地，根据每个句子的重要程度从核心新闻中选取出部分句子作为重要句子。

S105、按照重要句子在核心新闻中原文的顺序进行拼接，形成新闻事件的摘要。

本实施例中，首先从新闻簇中选取出核心新闻，然后在根据每两个句子之间的语义相似度，确定出句子的重要程度，再根据句子的重要程度从核心新闻中选取重要句子，然后按照重要句子在核心新闻中原文的顺序，将重要句子进行拼接，形成新闻事件的摘要。由于将重要句子按照原文顺序进行拼接，使得形成的新闻事件的摘要，避免出现逻辑错乱以及语义不同的问题。

本实施例提供的基于人工智能的新闻摘要提取方法，基于新闻事件的关键词检索得到新闻事件的新闻簇，从新闻簇包括的所有新闻中获取新闻事件的核心新闻，将新闻簇包括的所有新闻按照句子进行拆分，获取每两个句子之间的语义相似度，基于每两个句子之间的语义相似度从核心新闻中选取重要句子，按照重要句子在核心新闻中原文的顺序进行拼接，形成新闻事件的摘要。本实施例中，从同一新闻事件的所有新闻中选取核心新闻，再从核心新闻中按照句子的重要性选取出形成摘要的重要句子，并且按照原文顺序进行拼接，从而可以避免出现逻辑错乱以及语义不同的问题。

图3为本发明实施例提供的另一种基于人工智能的新闻摘要提取方法的流程示意图。该基于人工智能的新闻摘要提取方法包括以下步骤：

S301、基于新闻事件的关键词检索得到新闻事件的新闻簇。

S302、从新闻簇包括的所有新闻中获取新闻事件的核心新闻。

S303、将新闻簇包括的所有新闻按照句子进行拆分，获取每两个句子之间的语义相似度。

关于S301～303的介绍，可参见上述实施例中相关内容的记载，此处不再赘述。

S304、以核心新闻中的一个句子为顶点节点构建新闻簇的无向图。

其中，无向图中将新闻簇中的每个句子作为一个节点，在每两个句子之间形成连线。

本实施例中，在获取到核心新闻后，可以以核心新闻为中心，为新闻簇构建无向图。具体地，将新闻簇中每个句子作为一个节点，选择核心新闻中一个句子为顶点节点，然后建立该顶点节点与其他节点之间的连线，形成新闻簇的无向图。

举例说明，新闻簇中包括4篇报道，分别为报道1、报道2、报道3和报道4。其中，报道4确定为核心新闻。图4为本发明实施例提供的一种新闻簇的示意图。图4中报道1为包括句子a、句子b和句子c；报道2为包括句子A、句子B和句子C；报道3为包括句子Ⅰ、句子Ⅱ和句子Ⅲ；报道4为包括句子1、句子2、句子3、句子4和句子5。图4中选择核心新闻即报道4中的句子1为顶点节点，然后建立句子1与其他节点之间的连线。图中形成的无向图为新闻簇的全连接的无向图，即新闻簇中所包括的所有的句子之间相互连接。

实际应用中，一个句子可能同时出现在多篇新闻报道中，也可能同时出现在一篇新闻报道中，如图4所示，核心新闻即报道4中的句子1同时出现在报道1、报道2和报道3中。图4中通过虚线圈标记句子1，以及与句子1相同的其他报道中的句子，即报道4中的句子3、报道1中的句子c、报道2中的句子B，报道3中的句子Ⅰ为与句子1相同的句子。

S305、利用每两个句子之间的语义相似度形成带权的无向图。

具体地，在获取到新闻簇的无向图后，需要利用获取到两个句子之间语义相似度作为无向图中两个句子之间的连线上的边权，形成带权的无向图。带权的无向图中每条连线上有边权，该边权为该连线连接的两个句子的语义相似度。图4中仅一条连线为示例，在该连线上标记有边权w_i。示例的连线为句子C与句子3之间的连线，这该连线上的边权w_i为句子C与句子3之间的语义相似度。

S306、基于带权的无向图从核心新闻中选取出重要句子。

图5为本发明实施例提供的一种基于带权的无向图从核心新闻中选取重要句子的流程示意图。所述基于带权的无向图从核心新闻中选取重要句子具体包括以下步骤：

S401、从带权的无向图中，获取每个句子的与其直接相连的其他句子之间所有连线上的边权。

当利用句子之间的语义相似度对无向图的边标记权重后，就可以获取到带权的无向图。本实施例中，可以基于获取到的带权的无向图，获取到每个句子的与其直接相连的其他句子之间所有连线上的边权，也就是说，针对每个句子，可以获取与该句子直接相连的各条连线上的边权。在图4的基础上，以句子a为例进行解释说明。其他句子均与句子a直接相连，则句子a的所有连线上的边权，即句子a与其他各句子之间的语义相似度。

S402、对每个句子的所有连线上的边权进行相加，得到该句子的重要程度。

进一步地，可以对每个句子的所有连线上的边权进行相加，然后利用相加后的结果来表征该句子的重要程度。

S403、对新闻簇中所有句子的重要程度进行排序。

进一步地，在获取到每个句子的重要程度后，就可以按照重要程度对新闻簇中所有句子进行排序。

S404、从所有句子中选择出重要程度超过预设的阈值的句子作为候选句子。

本实施例中，可以预先设置一个阈值，在对所有句子进行排序后，可以从所有句子中选出重要程度超出预设的阈值的句子，将选出的重要程度超出预设的阈值的句子作为候选句子。

S405、从候选句子中选择来源于核心新闻的句子作为重要句子。

进一步地，候选句子可能包括新闻簇中所有新闻中的句子，为了避免形成的摘要出现逻辑混乱或者语义不同的问题，本实施例中，从候选句子中选择来源于核心新闻中的句子作为用于形成摘要的重要句子。具体地，每个句子中可以包括一个标识，通过该标识可以得知该句子的来源。在识别出每个候选句子的来源后，可以从候选句子中选择来源于核心新闻的句子，作为形成摘要的重要句子。

在图4的基础之上，当一个候选句子为句子B时，该句子B中可以携带一个报道2的标识，该表示可以为报道的网址，或者标题名称或者发布门户等。当识别出该候选句子B来源于报道2后，则选择重要句子时屏蔽掉句子B。

本实施例中，为了避免出现摘要逻辑混乱或者语义不同的问题，首先从新闻簇中确定出了核心新闻，然后从核心新闻中选择出重要句子形成摘要，因此可以只计算核心新闻中每个句子的重要程度，然后按照重要程度来选择重要句子。图6为本发明实施例提供的另一种基于带权的无向图从核心新闻中选取重要句子的流程示意图。所述基于带权的无向图从核心新闻中选取重要句子具体包括以下步骤：

S501、从带权的无向图中，获取核心新闻中每个句子的与其直接相连的其他句子之间所有连线上的边权。

具体地，在利用句子之间的语义相似度获取到带权的无向图后，可以从带权的无向图中，获取到核心新闻中每个句子的与其直接相连的其他句子之间所有连线上的边权，也就是说，针核心新闻中对每个句子，可以获取与该句子直接相连的各条连线上的边权。在图4的基础上，以句子1为例进行解释说明。其他句子均与句子1直接相连，则句子1的所有连线上的边权，即句子1与其他各句子之间的语义相似度。

S502、将核心新闻中每个句子的所有连线上的边权进行相加，得到该句子的重要程度。

进一步地，可以对核心新闻中每个句子的所有连线上的边权进行相加，然后利用相加后的结果来表征该句子的重要程度。

S503、对核心新闻中所有句子按照重要程度进行排序。

进一步地，在获取到核心新闻中每个句子的重要程度后，就可以按照重要程度对核心新闻中所有句子进行排序。本实施例中，由于在形成摘要时，仅从核心新闻中提取重要的句子，在得到带权的无向图后，只计算核心新闻中每个句子的重要程度，能够降低运算量，提高提取摘要的效率。

S504、从核心新闻所有句子中选择出重要程度超过预设的阈值的句子作为重要句子。

本实施例中，可以预先设置一个阈值，在对核心新闻所有句子，按照重要程度进行排序后，可以从所有句子中选出重要程度超出预设的阈值的句子，将选出的重要程度超出预设的阈值的句子作为重要句子。

图7为本发明实施例提供的一种从核心新闻中选取出重要句子示意图。图7中为从新闻簇中，按照图5和图6所提供的方法，所有核心新闻中选取出的重要句子，图7中句子2、句子3和句子5为从核心新闻中选取出来的重要句子。图7中省略了新闻簇的无向图。

S307、按照重要句子在核心新闻中原文的顺序进行拼接，形成新闻事件的摘要。

一般情况下，按照重要程度排序后的重要句子的顺序，与在核心新闻中原文的顺序不一致，为了保证逻辑的顺畅，本实施例中，按照重要句子在核心新闻中原文的顺序进行拼接，然后形成新闻事件的摘要。例如，图7中重要句子按照重要程度排序后的顺序为句子3、句子5和句子2，然而重要句子在核心新闻原文顺序为句子2、句子3和句子5。当获取到重要句子后如果按照重要程度排序，直接将句子进行拼接，形成的摘要可能就会出现逻辑混乱的问题。为了避免上述问题，在获取到重要句子后，则按照重要句子在核心新闻原文中的顺序进拼接。

图8为本发明实施例提供的一种基于人工智能的新闻摘要提取装置的结构示意图。该基于人工智能的新闻摘要提取装置包括：检索模块11、获取模块12、相似度获取模块13、选取模块14和拼接模块15。

其中，检索模块11，用于基于新闻事件的关键词检索得到所述新闻事件的新闻簇。

获取模块12，用于从所述新闻簇包括的所有新闻中获取所述新闻事件的核心新闻。

相似度获取模块13，用于将所述新闻簇包括的所有新闻按照句子进行拆分，获取每两个句子之间的语义相似度。

选取模块14，用于基于每两个句子之间的所述语义相似度从所述核心新闻中选取重要句子。

拼接模块15，用于按照所述重要句子在所述核心新闻中原文的顺序进行拼接，形成所述新闻事件的摘要。

图9为本发明实施例提供的一种获取模块的结构示意图。获取模块12包括：第一获取单元121、第二获取单元122和新闻选择单元123。

其中，第一获取单元121，用于获取所述新闻簇中每个新闻的特征集合。

第二获取单元122，用于根据所述特征集合得到每个新闻的重要性。

新闻选择单元123，用于选择重要性最高的新闻作为所述核心新闻。

进一步地，第二获取单元122，具体用于对每个特征集合中的各特征打分，将每个特征集合中的各特征打分后按照各特征对应的权重进行加权，得到每个新闻的重要性。

进一步地，相似度获取模块13，具体用于按照至少一种语义相似度算法计算每个句子与其他句子之间的中间语义相似度，对得到的所述中间语义相似度进行加权，得到每个句子与所述其他句子之间的所述语义相似度。

图10为本发明实施例提供的一种选取模块的结构示意图。选取模块14包括：构建单元141、形成单元142和句子选取单元143。

构建单元141，用于以所述核心新闻中的一个句子为顶点节点构建所述新闻簇的无向图；所述无向图中将所述新闻簇中的每个句子作为一个节点，在每两个句子之间形成连线。

形成单元142，用于利用每两个句子之间的所述语义相似度形成带权的所述无向图。

句子选取单元143，用于基于带权的所述无向图从所述核心新闻中选取重要句子。

进一步地，形成单元142，具体用于利用两个句子之间的所述语义相似度作为所述无向图中两个句子之间的连线上的边权，形成带权的所述无向图。

进一步地，句子选取单元143，具体用于：

从带权的所述无向图中，获取每个句子的与其直接相连的其他句子之间所有连线上的边权；

对每个句子的所有连线上的边权进行相加，得到该句子的重要程度；

对所述新闻簇中所有句子按照重要程度进行排序；

从所有句子中选择出重要程度超过预设的阈值的句子作为候选句子；

从所述候选句子中选择来源于所述核心新闻的句子作为所述重要句子。

进一步地，句子选取单元143，具体用于：

从带权的所述无向图中，获取所述核心新闻中每个句子的与其直接相连的其他句子之间所有连线上的边权；

将所述核心新闻中每个句子的所有连线上的边权进行相加，得到该句子的重要程度；

对所述核心新闻中所有句子按照重要程度进行排序；

从所述核心新闻中所有句子中选择出重要程度超过预设的阈值的句子作为所述重要句子。

本实施例提供的基于人工智能的新闻摘要提取装置，基于新闻事件的关键词检索得到新闻事件的新闻簇，从新闻簇包括的所有新闻中获取新闻事件的核心新闻，将新闻簇包括的所有新闻按照句子进行拆分，获取每两个句子之间的语义相似度，基于每两个句子之间的语义相似度从核心新闻中选取重要句子，按照重要句子在核心新闻中原文的顺序进行拼接，形成新闻事件的摘要。本实施例中，从同一新闻事件的所有新闻中选取核心新闻，再从核心新闻中按照句子的重要性选取出形成摘要的重要句子，并且按照原文顺序进行拼接，从而可以避免出现逻辑错乱以及语义不同的问题。

图11为本发明实施例提供的另一种基于人工智能的新闻摘要提取装置的结构示意图。该基于人工智能的新闻摘要提取装置包括：

存储器21、处理器22及存储在存储器21上并可在处理器22上运行的计算机程序。

处理器22执行所述程序时实现上述实施例中提供的基于人工智能的新闻摘要提取方法。

进一步地，基于人工智能的新闻摘要提取装置还包括：

通信接口23，用于存储器21和处理器22之间的通信。

存储器21，用于存放可在处理器22上运行的计算机程序。

存储器21可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

处理器22，用于执行所述程序时实现上述实施例所述的基于人工智能的语音特征提取方法。

如果存储器21、处理器22和通信接口23独立实现，则通信接口21、存储器21和处理器22可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器21、处理器22及通信接口23，集成在一块芯片上实现，则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。

处理器22可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于人工智能的新闻摘要提取方法，其特征在于，包括：

基于新闻事件的关键词检索得到所述新闻事件的新闻簇；

2.根据权利要求1所述的基于人工智能的新闻摘要提取方法，其特征在于，所述从所述新闻簇包括的所有新闻中获取所述新闻事件的核心新闻，包括：

获取所述新闻簇中每个新闻的特征集合；

根据所述特征集合得到每个新闻的重要性；

选择重要性最高的新闻作为所述核心新闻。

3.根据权利要求2所述的基于人工智能的新闻摘要提取方法，其特征在于，所述根据所述特征集合得到每个新闻的重要性，包括：

对每个特征集合中的各特征打分；

将每个特征集合中的各特征打分后按照各特征对应的权重进行加权，得到每个新闻的重要性。

4.根据权利要求1所述的基于人工智能的新闻摘要提取方法，其特征在于，所述获取每两个句子之间的语义相似度，包括：

按照至少一种语义相似度算法计算每个句子与其他句子之间的中间语义相似度；

对得到的所述中间语义相似度进行加权，得到每个句子与所述其他句子之间的所述语义相似度。

5.根据权利要求4所述的基于人工智能的新闻摘要提取方法，其特征在于，所述基于每两个句子之间的所述语义相似度从所述核心新闻中选取中重要句子，包括：

以所述核心新闻中的一个句子为顶点节点构建所述新闻簇的无向图；所述无向图中将所述新闻簇中的每个句子作为一个节点，在每两个句子之间形成连线；

利用每两个句子之间的所述语义相似度形成带权的所述无向图；

基于带权的所述无向图从所述核心新闻中选取重要句子。

6.根据权利要求5所述的基于人工智能的新闻摘要提取方法，其特征在于，所述利用每两个句子之间的所述语义相似度形成带权的所述无向图，包括：

利用两个句子之间的所述语义相似度作为所述无向图中两个句子之间的连线上的边权，形成带权的所述无向图。

7.根据权利要求6所述的基于人工智能的新闻摘要提取方法，其特征在于，所述基于带权的所述无向图从所述核心新闻中选取重要句子，包括：

对所述新闻簇中所有句子按照重要程度进行排序；

8.根据权利要求6所述的基于人工智能的新闻摘要提取方法，其特征在于，所述基于带权的所述无向图从所述核心新闻中选取重要句子，包括：

对所述核心新闻中所有句子按照重要程度进行排序；

9.一种基于人工智能的新闻摘要提取装置，其特征在于，包括：

10.根据权利要求9所述的基于人工智能的新闻摘要提取装置，其特征在于，所述获取模块，包括：

第一获取单元，用于获取所述新闻簇中每个新闻的特征集合；

第二获取单元，用于根据所述特征集合得到每个新闻的重要性；

新闻选择单元，用于选择重要性最高的新闻作为所述核心新闻。

11.根据权利要求10所述的基于人工智能的新闻摘要提取装置，其特征在于，所述第二获取单元，具体用于对每个特征集合中的各特征打分，将每个特征集合中的各特征打分后按照各特征对应的权重进行加权，得到每个新闻的重要性。

12.根据权利要求9所述的基于人工智能的新闻摘要提取装置，其特征在于，所述相似度获取模块，具体用于按照至少一种语义相似度算法计算每个句子与其他句子之间的中间语义相似度，对得到的所述中间语义相似度进行加权，得到每个句子与所述其他句子之间的所述语义相似度。

13.根据权利要求12所述的基于人工智能的新闻摘要提取方法，其特征在于，所述选取模块，包括：

构建单元，用于以所述核心新闻中的一个句子为顶点节点构建所述新闻簇的无向图；所述无向图中将所述新闻簇中的每个句子作为一个节点，在每两个句子之间形成连线；

形成单元，用于利用每两个句子之间的所述语义相似度形成带权的所述无向图；

句子选取单元，用于基于带权的所述无向图从所述核心新闻中选取重要句子。

14.根据权利要求13所述的基于人工智能的新闻摘要提取装置，其特征在于，所述形成单元，具体用于利用两个句子之间的所述语义相似度作为所述无向图中两个句子之间的连线上的边权，形成带权的所述无向图。

15.根据权利要求14所述的基于人工智能的新闻摘要提取装置，其特征在于，所述句子选取单元，具体用于：

对所述新闻簇中所有句子按照重要程度进行排序；

16.根据权利要求14所述的基于人工智能的新闻摘要提取装置，其特征在于，所述句子选取单元，具体用于：

对所述核心新闻中所有句子按照重要程度进行排序；

17.一种基于人工智能的新闻摘要提取装置，其特征在于，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8中任一项所述的基于人工智能的新闻摘要提取方法。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一项所述的基于人工智能的新闻摘要提取方法。