CN112015888B

CN112015888B - 摘要信息提取方法和摘要信息提取系统

Info

Publication number: CN112015888B
Application number: CN201910472250.8A
Authority: CN
Inventors: 刘畅; 张阳; 谢奕; 杨双全; 郑灿祥; 季昆鹏; 张雪婷; 熊云
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2023-08-18
Anticipated expiration: 2039-05-31
Also published as: CN112015888A

Abstract

本发明提供一种摘要信息提取方法和摘要信息提取系统，其中方法包括：获取用户针对目标兴趣点标注的N个文本信息，所述N为大于或等于1的整数；从所述N个文本信息中筛选所述目标兴趣点的备选摘要信息；判断所述备选摘要信息是否符合预设的无效摘要规则；若所述备选摘要信息不符合所述无效摘要规则，则将所述备选摘要信息标注为所述目标兴趣点的摘要信息。本发明中，通过筛选出备选摘要信息，并将不符合无效摘要规则的备选摘要信息标注为该目标兴趣点的摘要信息，使得目标兴趣点的摘要信息得以提取。并且，由于最终提取的摘要信息经过了有效性验证，使得所提取的摘要信息能够准确体现该目标兴趣点，提高了摘要信息提取的准确性。

Description

摘要信息提取方法和摘要信息提取系统

技术领域

本发明涉及互联网技术领域，尤其涉及一种摘要信息提取方法和摘要信息提取系统。

背景技术

随着移动互联网技术的发展，互联网信息给人们的生活带来了便利，提高了人们的工作效率。人们除了使用互联网信息，在使用互联网信息的过程中，还会产生其他各种数据。例如，用户使用地图类应用程序(Application，简称APP)或者其他APP里的地图功能查找位置信息时，会输入位置关键字进行搜索，系统会根据关键字搜索位置信息并返回对应的位置信息。如果用户发现系统的返回结果有误或者缺失，用户可以自己标注该位置的位置信息。这样，在同一位置上，可能标注有来源于不同用户的多个信息。可见，现有技术中存在由于信息来源的随机性而导致信息较为繁杂，从而导致信息不够准确的问题。

发明内容

本发明实施例提供一种摘要信息提取方法和摘要信息提取系统，以解决现有技术中存在由于信息来源的随机性而导致信息较为繁杂，从而导致信息不够准确的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种摘要信息提取方法，包括：

获取用户针对目标兴趣点标注的N个文本信息，所述N为大于或等于1的整数；

从所述N个文本信息中筛选所述目标兴趣点的备选摘要信息；

判断所述备选摘要信息是否符合预设的无效摘要规则；

若所述备选摘要信息不符合所述无效摘要规则，则将所述备选摘要信息标注为所述目标兴趣点的摘要信息。

第二方面，本发明实施例提供了一种摘要信息提取系统，包括：

获取模块，用于获取用户针对目标兴趣点标注的N个文本信息，所述N为大于或等于1的整数；

筛选模块，用于从所述N个文本信息中筛选所述目标兴趣点的备选摘要信息；

判断模块，用于判断所述备选摘要信息是否符合预设的无效摘要规则；

第一标注模块，用于若所述备选摘要信息不符合所述无效摘要规则，则将所述备选摘要信息标注为所述目标兴趣点的摘要信息。

第三方面，本发明实施例提供了另一种摘要信息提取系统，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器执行所述计算机程序时，实现本发明实施例第一方面中的摘要信息提取方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例第一方面中的摘要信息提取方法中的步骤。

本发明实施例中，通过从目标兴趣点的多个文本信息中筛选出备选摘要信息，并将不符合无效摘要规则的备选摘要信息标注为该目标兴趣点的摘要信息，使得目标兴趣点的摘要信息得以提取。并且，由于最终提取的摘要信息经过了有效性验证，使得所提取的摘要信息能够准确体现该目标兴趣点，提高了摘要信息提取的准确性。

附图说明

图1是本发明实施例提供的一种摘要信息提取方法的流程示意图；

图2是本发明实施例提供的一种摘要信息提取系统的结构示意图；

图3是本发明实施例提供的另一种摘要信息提取系统的结构示意图；

图4是本发明实施例提供的另一种摘要信息提取系统的结构示意图；

图5是本发明实施例提供的另一种摘要信息提取系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种摘要信息提取方法，该方法可应用于摘要信息提取系统，包括以下步骤：

步骤101：获取用户针对目标兴趣点标注的N个文本信息。

上述目标兴趣点可以是地图类APP中的目标地理位置，也可以是互联网上的目标图片、目标音乐等互联网资源，等等。若目标兴趣点为目标地理位置，则上述N个文本信息为用户针对该目标地理位置标注的位置信息。上述N为大于或等于1的整数，上述N个文本信息可理解为用户针对该目标地理位置标注的全部文本信息。

一般的，用户针对目标兴趣点标注的文本信息具有短文本、数量多、噪音多、用户行为习惯不同等特点，也就是说，同一兴趣点可能标注有来源于不同用户的多个文本信息。而由于信息来源存在随机性，这使得同一兴趣点的文本信息较为繁杂，该兴趣点的文本信息不够准确，从而无法作为有效的互联网资源为公众所使用。

该步骤中，摘要信息提取系统可以获取用户针对目标兴趣点标注的全部文本信息。

步骤102：从所述N个文本信息中筛选所述目标兴趣点的备选摘要信息。

该步骤中，摘要信息提取系统可以从步骤101所获取的文本信息中，筛选出目标兴趣点的备选摘要信息。

其中，如果用户针对目标兴趣点标注的文本信息只有一个，也就是说，N为1，则即可将该文本信息作为目标兴趣点的备选摘要信息。如果用户针对目标兴趣点标注的文本信息有多个，则可将目标兴趣点的全部文本信息中出现频率最高的文本信息作为目标兴趣点的备选摘要信息。如果用户针对目标兴趣点标注的文本信息有多个，还可以从多个文本信息中总结和抽取部分信息作为目标兴趣点的备选摘要信息。

步骤103：判断所述备选摘要信息是否符合预设的无效摘要规则。

该步骤中，摘要信息提取系统可以对备选摘要信息进行进一步的分析，以判断该备选摘要信息是否符合预设的无效摘要规则。这里，无效摘要规则是指提前设置好的表征备选摘要信息不能作为有效摘要信息的规则。若备选摘要信息不符合无效摘要规则，则该备选摘要信息可以作为目标兴趣点的有效摘要信息；若备选摘要信息符合无效摘要规则，则该备选摘要信息不可以作为目标兴趣点的摘要信息，或者说，该备选摘要信息为不可用的无效信息。

一般的，符合无效摘要规则的文本信息往往不能真实体现目标兴趣点区别于其他兴趣点的特征，从而使得这样的文本信息无法被公众所辨识或使用。例如，若目标兴趣点为目标地理位置，则对于包含有“某某路”、“某某街”、“某某村”或“某某省”等信息的文本信息来说，由于无法真实体现目标地理位置区别于其他兴趣点的特征，不能作为该目标地理位置的摘要信息，因此，包含有这些信息的文本信息可视为无效的信息，其符合预设的无效摘要规则。

本发明实施例中，通过判断备选摘要信息是否符合预设的无效摘要规则，使得所提取的摘要信息经过了有效性验证，从而使得所提取的摘要信息能够准确体现该目标兴趣点，提高了摘要信息提取的准确性和有效性。

步骤104：若所述备选摘要信息不符合所述无效摘要规则，则将所述备选摘要信息标注为所述目标兴趣点的摘要信息。

该步骤中，摘要信息提取系统可以将不符合无效摘要规则的备选摘要信息标注为目标兴趣点的摘要信息，从而完成了对目标兴趣点的摘要信息的提取。

可选的，在所述判断所述备选摘要信息是否符合预设的无效摘要规则之后，所述方法还包括：

若所述备选摘要信息符合所述无效摘要规则，则将所述备选摘要信息标注为无效的信息。

该实施方式中，当备选摘要信息符合无效摘要规则时，摘要信息提取系统可以将备选摘要信息标注为无效的信息。将备选摘要信息标注为无效的信息之后，公众在使用互联网查询该目标兴趣点时，不会将无效的信息显示出来，从而减少无效信息的堆积与拥堵，有利于提高互联网信息的质量。

需要说明的是，在将备选摘要信息标注为无效的信息之后，若该目标兴趣点还存在其他文本信息，则可从其他文本信息中重新筛选该目标兴趣点的备选摘要信息，并再次判断该重新筛选出的备选摘要信息是否符合预设的无效摘要规则，以此类推，直至为该目标兴趣点提取到有效的摘要信息，或者，用户为该目标兴趣点标注的全部文本信息均为不可用的无效信息。

可选的，所述方法还包括：

设置无效摘要规则库，所述无效摘要规则库中存储有无效摘要后缀信息、无效摘要关键字信息中的至少一种；

所述判断所述备选摘要信息是否符合预设的无效摘要规则的步骤，包括：

若所述备选摘要信息包括所述无效摘要后缀信息、所述无效摘要关键字信息中的至少一种，则判定所述备选摘要信息符合所述无效摘要规则；

若所述备选摘要信息均不包括所述无效摘要后缀信息和所述无效摘要关键字信息，则判定所述备选摘要信息不符合所述无效摘要规则。

该实施方式中，通过预先设置无效摘要规则库，即可将备选摘要信息与无效摘要规则库中存储的相关信息进行比对，实现对备选摘要信息的判定。

可选的，所述N为大于1的整数；

所述从所述N个文本信息中筛选所述目标兴趣点的备选摘要信息的步骤，包括：

对所述N个文本信息进行分词，得到所述N个文本信息的语义词；

基于所述N个文本信息的语义词，计算所述N个文本信息中每个文本信息的项权重TF-IDF；

基于每个文本信息的项权重和每个文本信息的标注次数，从所述N个文本信息中筛选所述目标兴趣点的备选摘要信息。

该实施方式提供了一种从N个文本信息中筛选目标兴趣点的备选摘要信息的方法，具体如下：

摘要信息提取系统可对N个文本信息进行分词，以得到N个文本信息的语义词。其中，分词的粒度可以包括以下三种：其一，基本词粒度，该种分词粒度是基于语义完整的最小粒度，适宜于最基础的应用；其二，混排粒度，该种分词粒度是基于不产生歧义的最大粒度，适宜于对语义表达能力要求较高的应用；其三，子短语粒度，该种分词粒度可将混排粒度中的短语提取出来。由于用户对目标兴趣点标注的N个文本信息的质量参差不齐，因此优先采用基本词粒度对N个文本信息进行分词。

在得到N个文本信息的语义词之后，摘要信息提取系统可基于N个文本信息的语义词计算N个文本信息中每个文本信息的项权重(Term Frequency– Inverse DocumentFrequency，简称TF-IDF)。

TF-IDF是一种用于信息检索与数据挖掘的常用加权技术，其中，TF表示词频(TermFrequency)，IDF表示逆文本频率指数(Inverse Document Frequency)。文档中出现频率高的词，就可以作为特征，频率作为权重。但是对于冠词和介词，出现的频率要比普通的词要高，并且大部分的文档中，也都会大量出现这些词，所以这些词虽然出现的频率高，但是不适合作为特征。TF-IDF的基本思想是，若词在一篇文档中的频率越高(即项频)，则越重要，若词在大部分文档中出现的频率越高(即反比例文档频率)，则越不重要。项频和反比例文档频率的乘积，就是TF-IDF编码的每个特征分量的权重。定义TF-IDF权重的公式：

其中，w_i,j是二元组(k_i,d_j)的项权重。(1+log(f_i,j))是项频，f_i,j表示第j个文档的第i个词的频率，对数函数作用是平滑。是反比例文档频率，N是常数，n_i是第i个词的全部文档频率。

在计算得到每个文本信息的TF-IDF权重后，摘要信息提取系统可基于每个文本信息的项权重和每个文本信息的标注次数，从N个文本信息中筛选目标兴趣点的备选摘要信息。

可选的，所述基于每个文本信息的项权重和每个文本信息的标注次数，从所述N个文本信息中筛选所述目标兴趣点的备选摘要信息的步骤，包括：

基于每个文本信息的项权重和每个文本信息的标注次数，计算每个文本信息的得分；

将所述N个文本信息中得分最高的文本信息作为所述目标兴趣点的备选摘要信息。

该实施方式中，摘要信息提取系统可基于每个文本信息的项权重和每个文本信息的标注次数，计算每个文本信息的相似性矩阵，文本信息的项权重越高，表示其相似度越高，再通过sum(项权重*标注次数)，求出每个文本信息的得分。再将N个文本信息中得分最高的文本信息选取为目标兴趣点的备选摘要信息。上述文本相似度的计算采用了TF-IDF的欧氏距离，并进行聚类，从得分最高的类里，选择最合适的文本信息作为备选摘要信息。

需要说明的是，摘要信息提取系统还可通过一些数据标注规则对TF-IDF计算所采用的模型以及相似性矩阵计算所采用的模型进行训练，还可通过一些数据标注规则确定TF-IDF计算的欧氏距离等参数。

综上所述，本发明实施例中，通过从目标兴趣点的多个文本信息中筛选出备选摘要信息，并将不符合无效摘要规则的备选摘要信息标注为该目标兴趣点的摘要信息，使得目标兴趣点的摘要信息得以提取。并且，由于最终提取的摘要信息经过了有效性验证，使得所提取的摘要信息能够准确体现该目标兴趣点，提高了摘要信息提取的准确性。

如图2所示，本发明实施例提供一种摘要信息提取系统200，包括：

获取模块201，用于获取用户针对目标兴趣点标注的N个文本信息，所述N为大于或等于1的整数；

筛选模块202，用于从所述N个文本信息中筛选所述目标兴趣点的备选摘要信息；

判断模块203，用于判断所述备选摘要信息是否符合预设的无效摘要规则；

第一标注模块204，用于若所述备选摘要信息不符合所述无效摘要规则，则将所述备选摘要信息标注为所述目标兴趣点的摘要信息。

可选的，如图3所示，摘要信息提取系统200还包括：

第二标注模块205，用于若所述备选摘要信息符合所述无效摘要规则，则将所述备选摘要信息标注为无效的信息。

可选的，如图4所示，摘要信息提取系统200还包括：

设置模块206，用于设置无效摘要规则库，所述无效摘要规则库中存储有无效摘要后缀信息、无效摘要关键字信息中的至少一种；

判断模块203具体用于：

可选的，所述N为大于1的整数；

筛选模块202具体用于：

可选的，筛选模块202具体用于：

可选的，所述目标兴趣点为目标地理位置，所述N个文本信息为用户针对所述目标地理位置标注的位置信息。

需要说明的是，方法实施例中任意实施方式都可以被本实施例中的摘要信息提取系统200所实现，以及达到相同的有益效果，为避免重复，此处不再赘述。

如图5所示，本发明实施例还提供的另一种摘要信息提取系统500，该摘要信息提取系统500包括存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序；处理器502执行所述计算机程序时，实现如下步骤：

从所述N个文本信息中筛选所述目标兴趣点的备选摘要信息；

判断所述备选摘要信息是否符合预设的无效摘要规则；

在图5中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器502代表的一个或多个处理器和存储器501代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。处理器502负责管理总线架构和通常的处理，存储器501可以存储处理器502在执行指令时所使用的数据。

可选的，处理器502执行所述计算机程序时，还实现：

可选的，所述N为大于1的整数；

处理器502执行所述计算机程序时，还实现：

可选的，处理器502执行所述计算机程序时，还实现：

需要说明的是，方法实施例中任意实施方式都可以被本实施例中的摘要信息提取系统500所实现，以及达到相同的有益效果，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述传输方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其他的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种摘要信息提取方法，其特征在于，包括：

从所述N个文本信息中筛选所述目标兴趣点的备选摘要信息；

判断所述备选摘要信息是否符合预设的无效摘要规则；

若所述备选摘要信息不符合所述无效摘要规则，则将所述备选摘要信息标注为所述目标兴趣点的摘要信息；

所述N为大于1的整数；

2.根据权利要求1所述的方法，其特征在于，在所述判断所述备选摘要信息是否符合预设的无效摘要规则之后，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述基于每个文本信息的项权重和每个文本信息的标注次数，从所述N个文本信息中筛选所述目标兴趣点的备选摘要信息的步骤，包括：

5.根据权利要求1或2所述的方法，其特征在于，所述目标兴趣点为目标地理位置，所述N个文本信息为用户针对所述目标地理位置标注的位置信息。

6.一种摘要信息提取系统，其特征在于，包括：

第一标注模块，用于若所述备选摘要信息不符合所述无效摘要规则，则将所述备选摘要信息标注为所述目标兴趣点的摘要信息；

所述N为大于1的整数；

所述筛选模块具体用于：

7.根据权利要求6所述的系统，其特征在于，还包括：

第二标注模块，用于若所述备选摘要信息符合所述无效摘要规则，则将所述备选摘要信息标注为无效的信息。

8.根据权利要求6或7所述的系统，其特征在于，还包括：

设置模块，用于设置无效摘要规则库，所述无效摘要规则库中存储有无效摘要后缀信息、无效摘要关键字信息中的至少一种；

所述判断模块具体用于：

9.根据权利要求6所述的系统，其特征在于，所述筛选模块具体用于：

10.根据权利要求6或7所述的系统，其特征在于，所述目标兴趣点为目标地理位置，所述N个文本信息为用户针对所述目标地理位置标注的位置信息。

11.一种摘要信息提取系统，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至5中任一项所述的摘要信息提取方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5中任一项所述的摘要信息提取方法中的步骤。