CN110110033A

CN110110033A - 信息提取方法、装置、计算机设备和存储介质

Info

Publication number: CN110110033A
Application number: CN201810083656.2A
Authority: CN
Inventors: 范玉顺; 张峻旗; 周婧雯
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-01-29
Filing date: 2018-01-29
Publication date: 2019-08-09

Abstract

本发明提供一种信息提取方法、装置、计算机设备和存储介质，该方法包括：获取待研究对象集合中的每个待研究对象与特性关键词库中的每个特性在所有识别区域内共同出现的次数；针对每个待研究对象和每个特性，根据所述待研究对象与所述特性共同出现的次数，与所述待研究对象在所有识别区域内出现的总次数的商值，确定所述待研究对象相对于所述特性的置信度。该方法可以通过相应的数据获取到待研究对象的特性信息，相比传统技术，其大大提高了待研究对象的信息提取效率。

Description

信息提取方法、装置、计算机设备和存储介质

技术领域

本发明涉及数据分析领域，特别是涉及一种信息提取方法、装置、计算机设备和存储介质。

背景技术

随着互联网的不断发展，各种数据成爆炸式增长，如何从这些海量数据中提取有用的信息成为人们的研究对象。以旅游数据为例，互联网上存在海量有关旅游的游记文本，如何从这些海量的游记文本中提取有关景点的特性信息，作为人们旅行前的景点参考因素，成为人们重点的研究对象。

传统技术中，用户经常通过手动依次浏览海量的游记文本中的每个游记文本，从而从每个游记文本中提取有关景点的特性信息，例如查看该景点是否清幽、是否排队、价格是否低廉等特性。

但是，传统技术所述的方法提取信息的效率较低。

发明内容

基于此，有必要针对传统技术所述的方法提取信息的效率较低的问题，提供一种信息提取方法、装置、计算机设备和存储介质。

第一方面，本发明实施例提供一种信息提取方法，所述方法包括：

获取待研究对象集合中的每个待研究对象与特性关键词库中的每个特性在同一识别区域内共同出现的次数；其中，所述特性关键词库中包括N个用于表征待研究对象特征的特性，每个特性对应至少一个关键词；

针对每个待研究对象和每个特性，根据所述待研究对象与所述特性在同一识别区域内共同出现的次数，与所述待研究对象在所有识别区域内出现的总次数的商值，确定所述待研究对象相对于所述特性的置信度。

本实施例提供的信息提取方法，通过获取待研究对象集合中的每个待研究对象与特性关键词库中的每个特性在同一识别区域内共同出现的次数，并根据获取到的待研究对象与特性在同一识别区域内共同出现的次数，与该待研究对象在所有识别区域内出现的总次数的商值，确定该待研究对象相对于该特性的置信度。由于本实施例中，计算机设备可以通过相应的数据获取到待研究对象的特性信息，相比传统技术中手动提取待研究对象的特性信息的方式，其大大提高了待研究对象的信息提取效率；另外，本实施例在确定待研究对象的特性信息时，是基于待研究对象在所有识别区域内出现的总次数，以及结合了待研究对象与每个特性在同一识别区域内共同出现的规律确定的待研究对象相对于某个特性的置信度，其数据参考依据比较准确，也比较合理，因此，基于这些数据确定的待研究对象的特性信息比较准确，从而为用户提供了更加便捷和准确的信息参考依据。另外，本实施例提供的信息提取方法，是通过置信度来反映待研究对象与特性之间的关系的，由于置信度是具体的、量化的值，因此，这种展示方式更直观，更便于用户对待研究对象进行判断与分析。

在其中一个实施例中，所述获取待研究对象集合中的每个待研究对象与特性关键词库中的每个特性在同一识别区域内共同出现的次数，包括：

获取所述待研究对象集合中的每个所述待研究对象在每个识别区域内出现的次数；

获取所述特性关键词库中的每个特性在每个识别区域内出现的次数；其中，一个特性在一个识别区域内出现的次数等于所述一个特性对应的每个关键词在所述一个识别区域内出现的次数之和；

根据每个所述待研究对象在每个识别区域内出现的次数、每个所述特性在每个识别区域内出现的次数，获取每个所述待研究对象与每个所述特性在同一识别区域内共同出现的次数。

本实施例提供的信息提取方法，通过分别获取待研究对象集合中的每个待研究对象在每个识别区域内出现的次数、特性关键词库中每个特性在每个识别区域内出现的次数，并根据获取到的每个待研究对象在每个识别区域内出现的次数和每个特性在每个识别区域内出现的次数，获取每个待研究对象与每个特性在同一识别区域内共同出现的次数。由于获取的每个待研究对象和每个特性在同一识别区域内共同出现的次数，是根据每个待研究对象在每个识别区域内出现的次数和每个特性在每个识别区域内出现的次数获取的，其所基于的数据参考比较合理和准确，因此，计算机设备获取到的每个待研究对象与每个特性在同一识别区域内共同出现的次数的准确度更高，从而进一步提高了计算机设备最后所确定的每个待研究对象相对于每个特性的置信度的准确率。同时，在获取特性关键词库中每个特性在每个识别区域内出现的次数时，计算机设备排除了每个特性对应的干扰关键词对每个特性对应的关键词的干扰，从而使得获取到的每个特性在每个识别区域内出现的次数的准确率更高，进而使得计算机确定的每个待研究对象相对于每个特性的置信度的准确率更高。

在其中一个实施例中，所述获取所述待研究对象集合中的每个所述待研究对象在每个识别区域内出现的次数，包括：

获取第一矩阵，所述第一矩阵中的α_i,j表征第j个待研究对象在第i个识别区域内出现的次数，所述i和j均为大于0的整数。

在其中一个实施例中，所述获取所述特性关键词库中的每个特性在每个识别区域内出现的次数，包括：

获取第二矩阵，所述第二矩阵中的β_i,n表征第n个特性在第i个识别区域内出现的次数，所述n为大于0且小于等于N的整数。

在其中一个实施例中，所述根据每个所述待研究对象在每个识别区域内出现的次数、每个所述特性在每个识别区域内出现的次数，获取每个所述待研究对象与每个所述特性在同一识别区域内共同出现的次数，包括：

根据公式得到每个所述待研究对象与每个所述特性在同一识别区域内共同出现的次数，其中，所述y_j,n表征第n个特性与所述第j个待研究对象在同一识别区域内共同出现的次数。

在其中一个实施例中，所述针对每个待研究对象和每个特性，根据所述待研究对象与所述特性在同一识别区域内共同出现的次数，与所述待研究对象在所有识别区域内出现的总次数的商值，确定所述待研究对象相对于所述特性的置信度，包括：

根据公式：得到第三矩阵，所述第三矩阵中的x_j,n表征第n个特性与所述第j个待研究对象在所有识别区域内共同出现的总次数；

根据所述第三矩阵中的x_j,n、第j个待研究对象在所有识别区域内出现的总次数以及公式：得到第四矩阵，所述第四矩阵中的h_j,n表征第j 个待研究对象相对于所述第n个特性的置信度。

本实施例提供的信息提取方法，计算机设备通过获取第一矩阵和第二矩阵，并根据获取到的第一矩阵和第二矩阵计算每个待研究对象与每个特性在同一识别区域内共同出现的次数，再根据计算得到的每个待研究对象与每个特性在同一识别区域内共同出现的次数计算第三矩阵，再根据计算得到的第三矩阵以及第j个待研究对象在所有识别区域内出现的总次数计算第四矩阵，从而得到每个待研究对象相对于每个特性的置信度。采用矩阵的计算方式，更方便于计算机设备计算每个待研究对象相对于每个特性的置信度，简化了计算的过程。

在其中一个实施例中，所述方法还包括：

根据公式：对所述第四矩阵进行归一化操作，得到第五矩阵，所述第五矩阵的表征第j个待研究对象相对于所述第n个特性的归一化后的置信度；

根据所述第五矩阵中的每个元素的值，绘制雷达图，所述雷达图用于表征每个待研究对象相对于每个特性的置信度高低趋势。

本实施例提供的信息提取方法，通过对第四矩阵进行归一化操作，得到第五矩阵，并根据得到的第五矩阵中的每个元素的值，绘制雷达图。由于雷达图的展现方式更直观，这样，采用本实施例提供的信息提取方法，使得计算机设备向用户展示的每个待研究对象的特性信息更直观。

在其中一个实施例中，所述一个特性对应的每个关键词在所述一个识别区域内出现的次数之和的获取方式包括：

获取所述一个特性对应的每个关键词在所述一个识别区域内出现的第一次数；其中，所述第一次数包括所述一个特性对应的每个关键词在所述一个识别区域内出现的次数以及所述一个特性对应的干扰关键词在所述一个识别区域内出现的次数之和，所述干扰关键词为携带有所述一个特性对应的关键词以及否定词标识的词语；

将所述第一次数与所述一个特性对应的干扰关键词在所述一个识别区域内出现的次数的差值，确定为所述一个特性对应的每个关键词在所述一个识别区域内出现的次数之和。

在其中一个实施例中，所述待研究对象为旅游景点，所述识别区域为游记文本。

第二方面，本发明实施例提供一种信息提取装置，所述装置包括：

获取模块，所述获取模块用于获取待研究对象集合中的每个待研究对象与特性关键词库中的每个特性在同一识别区域内共同出现的次数；其中，所述特性关键词库中包括N个用于表征待研究对象特征的特性，每个特性对应至少一个关键词；

确定模块，所述确定模块用于针对每个待研究对象和每个特性，根据所述待研究对象与所述特性在同一识别区域内共同出现的次数，与所述待研究对象在所有识别区域内出现的总次数的商值，确定所述待研究对象相对于所述特性的置信度。

第三方面，本发明实施例提供一种计算机设备，包括存储器、处理器，所述存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例中所述方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例中所述的方法的步骤。

本实施例提供的信息提取装置、计算机设备和存储介质，能够通过获取待研究对象集合中的每个待研究对象与特性关键词库中的每个特性在同一识别区域内共同出现的次数，并根据获取到的待研究对象与特性在同一识别区域内共同出现的次数，与该待研究对象在所有识别区域内出现的总次数的商值，确定该待研究对象相对于该特性的置信度。由于本实施例中，计算机设备可以通过相应的数据获取到待研究对象的特性信息，相比传统技术中手动提取待研究对象的特性信息的方式，其大大提高了待研究对象的信息提取效率；另外，本实施例在确定待研究对象的特性信息时，是基于待研究对象在所有识别区域内出现的总次数，以及结合了待研究对象与每个特性在同一识别区域内共同出现的规律确定的待研究对象相对于某个特性的置信度，其数据参考依据比较准确，也比较合理，因此，基于这些数据确定的待研究对象的特性信息比较准确，从而为用户提供了更加便捷和准确的信息参考依据。另外，本实施例提供的信息提取方法，是通过置信度来反映待研究对象与特性之间的关系的，由于置信度是具体的、量化的值，因此，这种展示方式更直观，更便于用户对待研究对象进行判断与分析。

附图说明

图1为一实施例提供的信息提取方法的流程示意图；

图1a为一个实施例提供的一种计算机设备的内部结构示意图；

图2为另一实施例提供的信息提取方法的流程示意图；

图3为另一实施例提供的信息提取方法的流程示意图；

图4为另一实施例提供的信息提取方法的流程示意图；

图5为另一实施例提供的信息提取方法的流程示意图；

图6为另一实施例提供的故宫特性雷达图；

图7为一实施例提供的一种信息提取装置的结构示意图；

图8为另一实施例提供的一种信息提取装置的结构示意图；

图9为另一实施例提供的一种信息提取装置的结构示意图；

图10为另一实施例提供的一种信息提取装置的结构示意图。

具体实施方式

本发明实施例提供的信息提取方法，可以适用于如图1a所示的计算机设备。该计算机设备包括通过系统总线连接的处理器、存储器，该存储器中存储有计算机程序，处理器执行该计算机程序时可以执行下述方法实施例的步骤。可选的，该计算机设备还可以包括网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器，该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。

随着互联网技术的不断发展，用户常常借助互联网工具获取自己想要的信息，以作为自己决策某一件事情的参考。例如，用户想去旅游，但是又不清楚各个景点的相关信息，此时，用户便可以借助互联网工具，通过互联网上提供的各种海量数据(该数据可以为游记文本，也可以为游记视频，当然还可以为游记音频)，并从这些海量的数据中提取游客对各个景点的评价(该评价是多方面的，可以通过特性信息来反映，例如，该特性信息可以为交通是否拥堵、价格是否便宜、历史是否悠久等)，将提取到的各个景点的不同特性信息作为自己出门旅游前的景点考虑因素。

以数据为游记文本为例，传统技术中，用户通过手动依次浏览海量的游记文本中的每个游记文本，从而从每个游记文本中提取有关景点的特性信息。但是，这种方式效率较低，且准确率也较低。

本发明提供的信息提取方法、装置、计算机设备及可读存储介质，可以应用于从海量数据中提取待研究对象的相关信息的场景中，通过相应的算法从海量的数据(该数据在本发明中为识别区域)中得到每个待研究对象相对于每个特性的置信度，从而提取到待研究对象的相关信息，大大提高了信息提取的效率。

可选的，上述待研究对象可以为旅游景点、楼盘或酒店等，识别区域为描述待研究对象的数据，所述数据可以为文本、视频以及音频等。当待研究对象为旅游景点时，对应的识别区域可以为游记文本、游记视频以及游记音频等；当待研究对象为楼盘时，对应的识别区域可以为楼盘宣传文本、楼盘宣传视频以及楼盘宣传音频等，即待研究对象不同，对应的识别区域也不同。上述待研究对象的相关信息可以为待研究对象的特性信息，例如，当待研究对象为旅游景点时，该特性信息可以为该旅游景点附近的交通是否拥堵、旅游景点的门票价格是否便宜、该旅游景点的历史是否悠久等。

需要说明的是，下述方法实施例的执行主体可以是信息提取装置，该装置可以通过软件、硬件或者软硬件结合的方式实现成为上述计算机设备的部分或者全部。可选的，该计算机设备可以为个人计算机PC(personal computer)、便携式设备、服务器等具有数据处理功能、且可以与外部设备或者用户交互的电子设备，本实施例对计算机设备的具体形式并不做限定。下述方法实施例的执行主体以计算机设备为例来进行说明。

为了使本发明的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本发明实施例中的技术方案的进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

图1为一实施例提供的信息提取方法的流程示意图。本实施例涉及的是计算机设备通过待研究对象与特性在同一识别区域内共同出现的次数，以及待研究对象在所有识别区域内出现的总次数，确定待研究对象相对于某个特性的置信度的具体过程。如图1所示，该方法包括：

S101、获取待研究对象集合中的每个待研究对象与特性关键词库中的每个特性在同一识别区域内共同出现的次数；其中，特性关键词库中包括N个用于表征待研究对象特征的特性，每个特性对应至少一个关键词。

具体的，本实施例中的待研究对象可以为旅游景点、楼盘以及酒店，当然，也可以为其它对象，所述待研究对象集合可以预先配置在计算机设备中的，还可以是外部设备传输给计算机设备的。可选的，在预先配置待研究对象集合时，可以根据某一地区包含的所有待研究对象来进行配置。例如，当待研究对象为旅游景点时，可以选取北京地区所有的旅游景点，并将北京地区的所有旅游景点配置在旅游景点集合中，当然也可以将其它地区或者范围更大的地区的所有旅游景点配置到待研究对象集合中，本实施例对此不做限制。

其中，上述识别区域的数量大于等于1，为了获取更精准的提取结果，通常选取的识别区域的数量是非常庞大的，且在预先选取识别区域时，可以根据待研究对象的内容，选取相应的识别区域。

其中，上述特性关键词库可以预先配置在计算机设备中的，该特性关键词库中的特性用来表征待研究对象的特征，每个待研究对象可以通过N个特性来表征其特征，这N个特性通常是待研究对象重点关注的特征。由于不同的待研究对象重点关注的特征不同，因此，不同的待研究对象对应的N个特性也相应的有所不同。在预先配置特性关键词库时，可以根据待研究对象的内容，配置相应重点关注的特性。其中，特性可以为正向的特性，也可以为反向的特性，即在配置特性关键词库时，可以将这N个特性配置为正向的特性，也可以将这 N个特性配置为反向的特性，还可以将这N个特性中的一部分配置为正向的特性，剩余部分配置为反向的特性。为了便于用户理解计算机设备提取的结果，在配置特性关键词库时，可以将每个待研究对象对应的N个特性全部配置为相同方向的特性，如配置的N个特性均为正向的特性。

以N个特性均为正向的特性为例，当待研究对象为旅游景点时，特性关键词库中配置的特性可以包括不需要排队、价格便宜、卫生干净、交通畅通等；当待研究对象为楼盘时，特性关键词库中配置的特性可以包括价格便宜、周边配套齐全、人文环境良好、治安良好、户型合理等。其中，N个特性中的每个特性对应至少一个关键词，例如，上述旅游景点对应的交通畅通这个特性对应的关键词可以包括车很少、不堵、畅通、通畅、不拥堵以及车不多等，在此，本实施例不再一一列举。

在实际情况下，待研究对象和某一个或者多个特性可能同时出现在同一个识别区域内，因此，基于该规律，本实施例中计算机设备可以获取上述待研究对象集合中的每个待研究对象与上述特性关键词库中的每个特性在同一识别区域内共同出现的次数。以待研究对象集合包括旅游景点A和旅游景点B，并且假设上述特性关键词库中包括三个特性，分别为：不需要排队、价格便宜、卫生干净，另外，假设共有3个游记文本为例，说明计算机设备获取上述待研究对象集合中的每个待研究对象与上述特性关键词库中的每个特性在同一识别区域内共同出现的次数的过程。具体的，针对待研究对象集合中的A，计算机设备需分别获取A和不需要排队在第1个游记文本内共同出现的次数，A和价格便宜在第1个游记文本内共同出现的次数，A和卫生干净在第1个游记文本内共同出现的次数；还需要分别获取A和不需要排队在第2个游记文本内共同出现的次数，A和价格便宜在第2个游记文本内共同出现的次数，A和卫生干净在第2个游记文本内共同出现的次数；另外，还需要分别获取A和不需要排队在第3个游记文本内共同出现的次数，A和价格便宜在第3个游记文本内共同出现的次数，A和卫生干净在第3个游记文本内共同出现的次数。同样的，针对待研究对象集合中的B，计算机设备需分别获取B和不需要排队在第1个游记文本内共同出现的次数，B和价格便宜在第1个游记文本内共同出现的次数， B和卫生干净在第1个游记文本内共同出现的次数；还需要分别获取B和不需要排队在第2个游记文本内共同出现的次数，B和价格便宜在第2个游记文本内共同出现的次数，B和卫生干净在第2个游记文本内共同出现的次数；另外，还需要分别获取B和不需要排队在第3个游记文本内共同出现的次数，B和价格便宜在第3个游记文本内共同出现的次数，B和卫生干净在第3个游记文本内共同出现的次数。

需要说明的是，上述每个待研究对象与每个特性在同一识别区域内共同出现的次数，可以是计算机设备采用某种提取算法得到，还可以是通过其他外部处理设备获取到，本实施例对获取每个待研究对象与每个特性在同一识别区域内共同出现的次数的方式不做限制，只要能够获取到待研究对象集合中的每个待研究对象与特性关键词库中的每个特性在同一识别区域内共同出现的次数即可。

S102、针对每个待研究对象和每个特性，根据所述待研究对象与所述特性在同一识别区域内共同出现的次数，与所述待研究对象在所有识别区域内出现的总次数的商值，确定所述待研究对象相对于所述特性的置信度。

具体的，在计算机设备获取到每个待研究对象与每个特性在同一识别区域内共同出现的次数之后，针对每个待研究对象和每个特性，计算机设备便可以根据获取到的待研究对象与特性在同一识别区域内共同出现的次数，与该待研究对象在所有识别区域内出现的总次数的商值，确定该待研究对象相对于该特性的置信度。其中，置信度可以为可信度，置信度的值越大，说明该待研究对象相对于该特性的可信度越高，反之，置信度的值越小，说明该待研究对象相对于该特性的可信度越低。

可选的，针对每个待研究对象，计算机设备可以分别对该待研究对象和每个特性在同一识别区域内共同出现的次数进行求和，并分别根据求和结果，与该待研究对象在所有识别区域内出现的总次数的商值，确定该待研究对象相对于每个特性的置信度。当然，计算机设备还可以分别对该待研究对象和每个特性在同一识别区域内共同出现的次数进行其它计算，并分别根据计算结果，与该待研究对象在所有识别区域内出现的总次数的商值，确定该待研究对象相对于每个特性的置信度。

继续以上述S101中的例子，且计算机设备根据待研究对象和每个特性在同一识别区域内共同出现的次数之和，与该待研究对象在所有识别区域内出现的总次数的商值，确定该待研究对象相对于每个特性的置信度为例，介绍计算机设备确定每个待研究对象相对于每个特性的置信度的过程。具体的，针对待研究对象集合中的A，计算机设备根据获取到的A和不需要排队在第1个游记文本内共同出现的次数、A和不需要排队在第2个游记文本内共同出现的次数、以及A和不需要排队在第3个游记文本内共同出现的次数之和，和A在3个游记文本内出现的总次数的商值，确定A相对于不需要排队的置信度；计算机设备根据获取到的A和价格便宜在第1个游记文本内共同出现的次数、A和价格便宜在第2个游记文本内共同出现的次数、A和价格便宜在第3个游记文本内共同出现的次数之和，和A在3个游记文本内出现的总次数的商值，确定A相对于价格便宜的置信度，计算机设备根据获取到的A和卫生干净在第1个游记文本内共同出现的次数、A和卫生干净在第2个游记文本内共同出现的次数、A 和卫生干净在第3个游记文本内共同出现的次数之和，和A在3个游记文本内出现的总次数的商值，确定A相对于卫生干净的置信度。针对待研究对象集合中的B，计算机设备确定B相对于不需要排队、价格便宜以及卫生干净的置信度的过程可以参照上述确定待研究对象集合中A相对于不需要排队、价格便宜以及卫生干净的置信度的确定过程。

在计算机设备确定每个待研究对象相对于每个特性的置信度之后，计算机设备可以将该置信度通过信息的形式发送给用户的终端设备，还可以将该置信度通过显示屏显示给用户，从而使得用户可以通过计算机设备获知每个待研究对象相对于每个特性的置信度，进而了解到每个待研究对象在每个特性方面的信息，便于用户对待研究对象进行判断与选择。

图2为另一实施例提供的信息提取方法的流程示意图。本实施例涉及的是计算机设备获取待研究对象集合中的每个待研究对象与特性关键词库中的每个特性在同一识别区域内共同出现的次数的具体过程。在上述实施例的基础上，可选的，如图2所示，上述S101具体可以包括：

S201、获取所述待研究对象集合中的每个所述待研究对象在每个识别区域内出现的次数。

具体的，计算机设备在每个识别区域内，分别获取待研究对象集合中的每个待研究对象出现的次数。通常，计算机设备是通过关键词匹配的方式来获取每个待研究对象在每个识别区域内出现的次数。以待研究对象为旅游景点，且旅游景点集合中的旅游景点1为故宫为例，介绍计算机设备获取每个待研究对象在每个识别区域内出现的次数，具体的：计算机设备通过在每个识别区域内匹配关键词“故宫”，以获取故宫在每个识别区域内出现的次数，若计算机设备在识别区域1内未匹配到故宫，则获取到故宫在识别区域1内出现的次数为0，若计算机设备在识别区域1内匹配到故宫5次，则获取到故宫在识别区域1内出现的次数为5。对于每个识别区域，分别采用上述方法进行关键词“故宫”的匹配，从而可以获取到故宫在每个识别区域内出现的次数。对于旅游景点集合中的其它旅游景点，如何获取在每个识别区域内出现的次数，可以参照上述获取故宫在每个识别区域内出现的次数的过程。

可选的，计算机设备获取到的每个待研究对象在每个识别区域内出现的次数可以为矩阵的形式，也可以为列表的形式，还可以为其它形式，本实施例对此不做限制。

S202、获取所述特性关键词库中的每个特性在每个识别区域内出现的次数；其中，一个特性在一个识别区域内出现的次数等于所述一个特性对应的每个关键词在所述一个识别区域内出现的次数之和。

具体的，一个特性可以对应至少一个关键词，以待研究对象为旅游景点，且特性关键词库中包含的特性的个数N等于5为例，预先配置的特性关键词库可以为如表1所示的词库。

表1特性关键词库

从表1可以看出，每个特性对应了多个关键词，这样，在获取一个特性在一个识别区域内出现的次数时，通过分别获取该特性对应的每个关键词在该识别区域内出现的次数，将获取到的每个关键词在该识别区域内出现的次数求和，从而将每个关键词在该识别区域内出现的次数之和作为该特性在该识别区域内出现的次数。例如，表1中的交通畅通在一个识别区域内出现的次数等于交通畅通对应的关键词车很少、不堵、畅通、通畅、不拥堵以及车不多在一个识别区域内分别出现的次数之和。

需要说明的是，计算机设备获取每个关键词在一个识别区域内出现的次数的过程可以参照上述计算机设备获取待研究对象在一个识别区域内出现的次数的过程，其也利用到了关键词匹配技术，本实施例在此不再赘述。

在计算机设备获取一个特性对应的每个关键词在一个识别区域内出现的次数时，由于在该识别区域内可能存在某个关键词对应的干扰关键词，这样，计算机设备获取到的某个关键词在一个识别区域内出现的次数中包含了干扰关键词在该识别区域内出现的次数，从而导致获取到的关键词出现的次数不准确。因此，在获取每个关键词在一个识别区域内出现的次数时，计算机设备需要筛掉每个关键词对应的干扰关键词在一个识别区域内出现的次数。

基于上述计算机设备需要筛掉每个关键词对应的干扰关键词在一个识别区域内出现的次数，上述S202中“所述一个特性对应的每个关键词在所述一个识别区域内出现的次数之和”的获取方式可以包括：获取所述一个特性对应的每个关键词在所述一个识别区域内出现的第一次数；将所述第一次数与所述一个特性对应的干扰关键词在所述一个识别区域内出现的次数的差值，确定为所述一个特性对应的每个关键词在所述一个识别区域内出现的次数之和。其中，所述第一次数包括所述一个特性对应的每个关键词在所述一个识别区域内出现的次数以及所述一个特性对应的干扰关键词在所述一个识别区域内出现的次数之和。

其中，干扰关键词为携带有一个特性对应的关键词以及否定词标识的词语，例如，特性“环境清幽”对应的某个关键词为“清幽”，那么特性“环境清幽”对应的干扰关键词可以为“不清幽”。“清幽”在一个识别区域内出现的次数等于“清幽”在一个识别区域内出现的第一次数与“不清幽”在该识别区域内出现的次数的差值。通过这种获取方式，可以使得计算机设备获取到的一个特性对应的每个关键词在一个识别区域内出现的次数准确率更高。

可选的，计算机设备获取到的每个特性在每个识别区域内出现的次数可以为矩阵的形式，也可以为列表的形式，还可以为其它形式，本实施例对此不做限制。

需要说明的是，计算机设备可以先执行S201，再执行S202，也可以先执行 S202，再执行S201，还可以同时执行S201和S202，本实施例对S201和S202 的执行顺序不做限制。

S203、根据每个所述待研究对象在每个识别区域内出现的次数、每个所述特性在每个识别区域内出现的次数，获取每个所述待研究对象与每个所述特性在同一识别区域内共同出现的次数。

可选的，针对同一识别区域，计算机设备可以将每个待研究对象在该识别区域内出现的次数与每个特性在该识别区域内出现的次数的算数平均值，确定为每个待研究对象与每个特性在该识别区域内共同出现的次数。可选的，计算机设备还可以对每个待研究对象在每个识别区域内出现的次数、每个特性在每个识别区域内出现的次数做其他的处理，得到每个待研究对象与每个特性在同一识别区域内共同出现的次数，本实施例对此并不做限定。下述图3所示的方法实施例中也介绍了该共同出现的次数的另一种获取方式，具体参见下述实施例。

可选的，计算机设备获取到的每个待研究对象与每个特性在同一识别区域内共同出现的次数可以为矩阵的形式，也可以为列表的形式，还可以为其它形式，本实施例对此不做限制。

图3为另一实施例提供的信息提取方法的流程示意图。本实施例涉及的是计算机设备确定每个待研究对象相对于每个特性的置信度的另一过程。如图3 所示，该方法包括下述S301、S302、S303、S304以及S305，其中，S301为上述计算机设备获取每个待研究对象在每个识别区域内出现的次数的可选的实现方式，S302可以为上述计算机设备获取每个特性在每个识别区域内出现的次数的可选的实现方式，S303可以为上述计算机设备获取每个待研究对象与每个特性在同一识别区域内共同出现的次数的可选的实现方式，S304-S305可以为上述计算机设备确定每个待研究对象相对于每个特性的置信度的可选的实现方式，具体过程参见图3，该方法包括：

S301、获取第一矩阵，所述第一矩阵中的α_i,j表征第j个待研究对象在第i 个识别区域内出现的次数，所述i和j均为大于0的整数。

具体的，第一矩阵包括i行和j列，不同的行对应了不同的识别区域，不同的列对应了不同的待研究对象，第一矩阵表征了每个待研究对象在每个识别区域内出现的次数。需要说明的是，第一矩阵中的α_i,j的获取过程可以参照上述实施例中计算机设备获取每个待研究对象在每个识别区域内出现的次数的获取过程，本实施例在此不再赘述。

S302、获取第二矩阵，所述第二矩阵中的β_i,n表征第n个特性在第i个识别区域内出现的次数，所述n为大于0且小于等于N的整数。

具体的，第二矩阵包括i行和n列，不同的行对应不同的识别区域，不同的列对应不同的特性，第二矩阵表征了每个特性在每个识别区域内出现的次数。需要说明的是，第二矩阵中的β_i,n的获取过程可以参照上述实施例中计算机设备获取每个特性在每个识别区域内出现的次数的获取过程，本实施例在此不再赘述。

S303：根据公式1：得到每个所述待研究对象与每个所述特性在同一识别区域内共同出现的次数，其中，所述y_j,n表征第n个特性与所述第 j个待研究对象在同一识别区域内共同出现的次数。

具体的，在计算机设备获取到第一矩阵和第二矩阵后，可以根据公式或者通过对上述公式进行相应的运算以及变型，得到每个待研究对象与每个特性在同一识别区域内共同出现的次数。基于该公式，计算机设备得到的每个待研究对象与每个特性在同一识别区域内共同出现的次数更准确。

S304、根据公式2：得到第三矩阵，所述第三矩阵中的x_j,n表征第 n个特性与所述第j个待研究对象在所有识别区域内共同出现的总次数。

具体的，第三矩阵包括j行和n列，不同的行对应不同的待研究对象，不同的列对应不同的特性，第三矩阵表征了每个待研究对象和每个特性在所有识别区域内共同出现的总次数。在计算机设备得到每个待研究对象与每个特性在同一识别区域内共同出现的次数之后，计算机设备将每个识别区域内的每个待研究对象与每个特性共同出现的次数相加，即可得到每个待研究对象与每个特性在所有识别区域内共同出现的总次数。

S305、根据所述第三矩阵中的x_j,n、第j个待研究对象在所有识别区域内出现的总次数以及公式3：得到第四矩阵，所述第四矩阵中的h_j,n表征第j个待研究对象相对于所述第n个特性的置信度。

具体的，第四矩阵包含j行和n列，不同的行对应不同的待研究对象，不同的列对应不同的特性，第四矩阵表征了每个待研究对象相对于每个特性的置信度。在获取到第三矩阵后，计算机设备可以根据获取到的第三矩阵、第j个待研究对象在所有识别区域内出现的总次数以及公式或者通过对该公式进行相应的运算以及变型，得到第四矩阵。

图4为另一实施例提供的信息提取方法的流程示意图。为了能够直观得向用户展示每个待研究对象相对于每个特性的置信度，可以将每个待研究对象相对于每个特性的置信度通过图形的方式展示出来，在如图3所示实施例的基础上，可选的，如图4所示，在S305之后，该方法还包括：

S401、根据公式4：对所述第四矩阵进行归一化操作，得到第五矩阵，所述第五矩阵的表征第j个待研究对象相对于所述第n个特性的归一化后的置信度。

具体的，第五矩阵包括j行和n列，不同的行对应不同的待研究对象，不同的列对应不同的特性，第五矩阵表征了每个待研究对象相对于每个特性的归一化后的置信度。为了便于绘制雷达图，可选的，在得到第四矩阵后，计算机设备便可以根据公式或者通过对该公式进行相应的运算以及变型，得到第五矩阵。

S402、根据所述第五矩阵中的每个元素的值，绘制雷达图，所述雷达图用于表征每个待研究对象相对于每个特性的置信度高低趋势。

具体的，在得到第五矩阵后，计算机设备可以根据第五矩阵中的每个元素的值，通过matlab或者python，绘制雷达图。可选的，由于第五矩阵中的不同的行对应了不同的待研究对象，基于此，计算机设备可以根据每行包括的元素，绘制该行对应的待研究对象的雷达图。通常，由于待研究对象的数量比较庞大，因此，每个待研究对象分别对应一幅雷达图，即一幅雷达图中展示了一个待研究对象相对于每个特性的置信度，当然，在待研究对象的数量较少时，也可以将每个待研究对象相对于每个特性的置信度绘制在一幅雷达图上，本实施在此不做限制。

为了便于本领域技术人员的理解，以待研究对象为旅游景点，旅游景点重点关注的N个特性分别为畅通、宽敞、静谧、干净、历史、设施、安检和便宜，且识别区域为游记文本为例介绍本发明提供的信息提取方法，具体的，如图5 所示，该方法包括：

S501、获取第一矩阵，所述第一矩阵中的α_i,j表征第j个旅游景点在第i个游记文本内出现的次数，所述i和j均为大于0的整数。

S502、获取第二矩阵，所述第二矩阵中的β_i,n表征第n个特性在第i个游记文本内出现的次数，所述n为大于0且小于等于N的整数。

S503、根据公式1：得到每个所述旅游景点与每个所述特性在同一游记文本内共同出现的次数，其中，所述y_j,n表征第n个特性与所述第j 个旅游景点在同一游记文本内共同出现的次数。

S504、根据公2：得到第三矩阵，所述第三矩阵中的x_j,n表征第n 个特性与所述第j个旅游景点在所有游记文本内共同出现的总次数。

S505、根据所述第三矩阵中的x_j,n、第j个旅游景点在所有游记文本内出现的总次数以及公式3：得到第四矩阵，所述第四矩阵中的h_j,n表征第j个旅游景点相对于所述第n个特性的置信度。

S506、根据公式4：对所述第四矩阵进行归一化操作，得到第五矩阵，所述第五矩阵的表征第j个旅游景点相对于所述第n个特性的归一化后的置信度。

S507、根据所述第五矩阵中的每个元素的值，绘制雷达图，所述雷达图用于表征每个旅游景点相对于每个特性的置信度高低趋势。

示例性的，以某个旅游景点为故宫为例，根据第五矩阵中故宫所在行的每个元素的值，绘制出如图6所示的雷达图。图6中的雷达图由5个圆环组成，由内往外每个圆环代表的置信度分别为0.2、0.4、0.6、0.8、1。从如图9所示雷达图上，用户可以直观得了解到故宫相关的特性信息，以作为用户是否要去故宫旅游的参考因素。例如，用户可以从如图6所示的雷达图上，直观得看到故宫相对于特性“干净”的置信度是0.6，故宫相对于特性“畅通”的置信度在0.5 左右，即故宫的卫生较干净，故宫的交通不拥堵也不畅通。

本实施例提供的信息提取方法，通过根据获取到的第一矩阵和第二矩阵，计算每个旅游景点与每个特性在同一游记文本内出现的次数，再根据计算得到的每个旅游景点与每个特性在同一游记文本内出现的次数，计算得到第三矩阵，并根据第三矩阵以及第j个旅游景点在所有游记文本内出现的总次数，计算第四矩阵，再对第四矩阵进行归一化操作，得到第五矩阵，最后根据第五矩阵中的每个元素的值，绘制每个旅游景点相对于每个特性的雷达图。由于本实施例中，计算机设备可以通过相应的数据获取到旅游景点的特性信息，相比传统技术中手动从所有游记文本中提取旅游景点的特性信息的方法，其大大提高了旅游景点的信息提取效率；并且，在计算每个旅游景点相对于每个特性的置信度时，计算机所依据的数据比较合理和准确，从而提高了计算机设备计算的结果的准确率，同时，计算机设备在计算的过程中获取的相应的数据均采用矩阵的形式，其大大简化了计算的过程；另外，计算机设备将计算得到的每个旅游景点相对于每个特性的置信度，通过雷达图的方式展示出来，其展示方式更直观，更便于用户对旅游景点进行判断与分析。

图7为一实施例提供的一种信息提取装置的结构示意图。如图7所示，该装置可以包括：获取模块10和确定模块12。

具体的，获取模块10，用于获取待研究对象集合中的每个待研究对象与特性关键词库中的每个特性在同一识别区域内共同出现的次数；其中，所述特性关键词库中包括N个用于表征待研究对象特征的特性，每个特性对应至少一个关键词。

确定模块12，用于针对每个待研究对象和每个特性，根据所述待研究对象与所述特性在同一识别区域内共同出现的次数，与所述待研究对象在所有识别区域内出现的总次数的商值，确定所述待研究对象相对于所述特性的置信度。

本实施例提供的信息提取装置，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

图8为另一实施例提供的一种信息提取装置的结构示意图。在上述如图7 所示的实施例的基础上，如图8所示，上述获取模块10，包括：第一获取单元 101、第二获取单元102和第三获取单元103。

具体的，第一获取单元101，用于获取所述待研究对象集合中的每个所述待研究对象在每个识别区域内出现的次数。

第二获取单元102，用于获取所述特性关键词库中的每个特性在每个识别区域内出现的次数；其中，一个特性在一个识别区域内出现的次数等于所述一个特性对应的每个关键词在所述一个识别区域内出现的次数之和；

第三获取单元103，用于根据每个所述待研究对象在每个识别区域内出现的次数、每个所述特性在每个识别区域内出现的次数，获取每个所述待研究对象与每个所述特性在同一识别区域内共同出现的次数。

在其中一个实施例中，第一获取单元101，具体用于获取第一矩阵，所述第一矩阵中的α_i,j表征第j个待研究对象在第i个识别区域内出现的次数，所述i 和j均为大于0的整数；

在其中一个实施例中，第二获取单元102，具体用于获取第二矩阵，所述第二矩阵中的β_i,n表征第n个特性在第i个识别区域内出现的次数，所述n为大于0 且小于等于N的整数。

在其中一个实施例中，第三获取单元103，具体用于根据公式得到每个所述待研究对象与每个所述特性在同一识别区域内共同出现的次数，其中，所述y_j,n表征第n个特性与所述第j个待研究对象在同一识别区域内共同出现的次数。

图9为另一实施例提供的一种信息提取装置的结构示意图。在上述如图8 所示的实施例的基础上，如图9所示，上述确定模块12，包括：第一计算单元 121和第二计算单元122。

具体的，第一计算单元121，用于根据公式：得到第三矩阵，所述第三矩阵中的x_j,n表征第n个特性与所述第j个待研究对象在所有识别区域内共同出现的总次数；

第二计算单元122，用于根据所述第三矩阵中的x_j,n、第j个待研究对象在所有识别区域内出现的总次数以及公式：得到第四矩阵，所述第四矩阵中的h_j,n表征第j个待研究对象相对于所述第n个特性的置信度。

图10为另一实施例提供的一种信息提取装置的结构示意图。在上述如图9 所示的实施例的基础上，如图10所示，上述确定模块12，还包括：第三计算单元123和绘制单元124。

具体的，第三计算单元123，用于根据公式：对所述第四矩阵进行归一化操作，得到第五矩阵，所述第五矩阵的表征第j个待研究对象相对于所述第n个特性的归一化后的置信度。

绘制单元124，用于根据所述第五矩阵中的每个元素的值，绘制雷达图，所述雷达图用于表征每个待研究对象相对于每个特性的置信度高低趋势。

在其中一个实施例中，所述第二获取单元102，具体用于获取所述一个特性对应的每个关键词在所述一个识别区域内出现的第一次数；其中，所述第一次数包括所述一个特性对应的每个关键词在所述一个识别区域内出现的次数以及所述一个特性对应的干扰关键词在所述一个识别区域内出现的次数之和，所述干扰关键词为携带有所述一个特性对应的关键词以及否定词标识的词语；将所述第一次数与所述一个特性对应的干扰关键词在所述一个识别区域内出现的次数的差值，确定为所述一个特性对应的每个关键词在所述一个识别区域内出现的次数之和。

关于信息提取装置的具体限定可以参见上文中对于信息提取方法的限定，在此不再赘述。上述信息提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

上述图1a为一实施例提供的一种计算机设备的内部结构示意图。该计算机设备可以是终端，如图1a所示，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述信息提取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图1a中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器，所述存储器上存储有可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取所述待研究对象集合中的每个所述待研究对象在每个识别区域内出现的次数；获取所述特性关键词库中的每个特性在每个识别区域内出现的次数；其中，一个特性在一个识别区域内出现的次数等于所述一个特性对应的每个关键词在所述一个识别区域内出现的次数之和；根据每个所述待研究对象在每个识别区域内出现的次数、每个所述特性在每个识别区域内出现的次数，获取每个所述待研究对象与每个所述特性在同一识别区域内共同出现的次数。

根据公式：对所述第四矩阵进行归一化操作，得到第五矩阵，所述第五矩阵的表征第j个待研究对象相对于所述第n个特性的归一化后的置信度；根据所述第五矩阵中的每个元素的值，绘制雷达图，所述雷达图用于表征每个待研究对象相对于每个特性的置信度高低趋势。

获取所述一个特性对应的每个关键词在所述一个识别区域内出现的第一次数；其中，所述第一次数包括所述一个特性对应的每个关键词在所述一个识别区域内出现的次数以及所述一个特性对应的干扰关键词在所述一个识别区域内出现的次数之和，所述干扰关键词为携带有所述一个特性对应的关键词以及否定词标识的词语；将所述第一次数与所述一个特性对应的干扰关键词在所述一个识别区域内出现的次数的差值，确定为所述一个特性对应的每个关键词在所述一个识别区域内出现的次数之和。

在一个实施例中，所述待研究对象为旅游景点，所述识别区域为游记文本。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

根据公式：得到第三矩阵，所述第三矩阵中的x_j,n表征第n个特性与所述第j个待研究对象在所有识别区域内共同出现的总次数；根据所述第三矩阵中的x_j,n、第j个待研究对象在所有识别区域内出现的总次数以及公式：得到第四矩阵，所述第四矩阵中的h_j,n表征第j个待研究对象相对于所述第n个特性的置信度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM (ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus) 直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种信息提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待研究对象集合中的每个待研究对象与特性关键词库中的每个特性在同一识别区域内共同出现的次数，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取所述待研究对象集合中的每个所述待研究对象在每个识别区域内出现的次数，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取所述特性关键词库中的每个特性在每个识别区域内出现的次数，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据每个所述待研究对象在每个识别区域内出现的次数、每个所述特性在每个识别区域内出现的次数，获取每个所述待研究对象与每个所述特性在同一识别区域内共同出现的次数，包括：

6.根据权利要求5所述的方法，其特征在于，所述针对每个待研究对象和每个特性，根据所述待研究对象与所述特性在同一识别区域内共同出现的次数，与所述待研究对象在所有识别区域内出现的总次数的商值，确定所述待研究对象相对于所述特性的置信度，包括：

根据所述第三矩阵中的x_j,n、第j个待研究对象在所有识别区域内出现的总次数以及公式：得到第四矩阵，所述第四矩阵中的h_j,n表征第j个待研究对象相对于所述第n个特性的置信度。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求2-7任一项所述的方法，其特征在于，所述一个特性对应的每个关键词在所述一个识别区域内出现的次数之和的获取方式包括：

9.根据权利要求1-7任一项所述的方法，其特征在于，所述待研究对象为旅游景点，所述识别区域为游记文本。

10.一种信息提取装置，其特征在于，所述装置包括：

11.一种计算机设备，包括存储器、处理器，所述存储器上存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。