CN105573984A

CN105573984A - 社会经济指标的识别方法及装置

Info

Publication number: CN105573984A
Application number: CN201510958286.9A
Authority: CN
Inventors: 汪平仄; 张涛; 龙飞
Original assignee: Xiaomi Inc
Current assignee: Beijing Xiaomi Technology Co Ltd; Xiaomi Inc
Priority date: 2015-12-18
Filing date: 2015-12-18
Publication date: 2016-05-11
Anticipated expiration: 2035-12-18
Also published as: CN105573984B

Abstract

本公开提供了一种社会经济指标的识别方法和装置，属于移动互联网领域。该方法包括：获取待识别的文本集合；获取待识别的社会政治实体名称；从该文本集合中获取多个第一文本；从该多个第一文本中，获取多个第一地点名称；从该多个第一文本中，获取多个第一时间；从该多个第一文本中，获取多个第一数量词；对于每个第一文本，生成该第一文本的社会经济指标项，该第一文本的社会经济指标项包括该第一文本的第一地点名称、第一时间、第一数量词及该第一文本中的社会经济指标名称。本公开的技术方案实现了对待识别文本集合的社会经济指标的自动识别，节约了人力、财力资源，同时也大大缩小了识别社会经济指标所需的时间。

Description

社会经济指标的识别方法及装置

技术领域

本公开涉及移动互联网领域，尤其涉及一种社会经济指标的识别方法及装置。

背景技术

社会经济指标一般包括两部分的内容，其一为社会经济指标名称，如“国内生产总值”、“货币总量”、“固定资产投资额”等，其二为社会经济指标值，如“518942.1亿”等，社会经济指标一般具有较大的分析价值，因此有必要对齐进行识别，然而，与名称、号码等传统识别对象不同的是，社会经济指标中的社会经济指标名和社会经济指标值在文本中可能并不相邻，这就导致识别的难度加大，传统的识别方式难以实现对社会经济指标的识别。

由于社会经济指标的特殊性，相关技术中，一般采用人工的方式进行社会经济指标的识别和整理，然而这样的方法不仅需要耗费大量的人力、财力，同时需要耗费大量的时间，效率较低，因此，目前亟需一种可以自动识别社会经济指标的方法。

发明内容

为克服相关技术中存在的问题，本公开提供一种社会经济指标的识别方法及装置。

根据本公开实施例的第一方面，提供一种社会经济指标的识别方法，包括：

获取待识别的文本集合，所述文本集合包括多个文本；

获取待识别的社会政治实体名称；

从所述文本集合中获取多个第一文本，所述第一文本包括所述社会政治实体名称及社会经济指标名称集合中的任一社会经济指标名称；

从所述多个第一文本中，获取多个第一地点名称，每个第一地点名称为预设地点名称集合中的地点名称；

从所述多个第一文本中，获取多个第一时间；

从所述多个第一文本中，获取多个第一数量词；

对于每个第一文本，生成所述第一文本的社会经济指标项，所述第一文本的社会经济指标项包括所述第一文本的第一地点名称、第一时间、第一数量词及所述第一文本中的社会经济指标名称。

在第一方面的第一种可能的实施方式中，从所述文本集合中获取多个第一文本之前，所述方法还包括：

根据所述社会政治实体名称及预设社会经济指标句法模式，从所述文本集合中，获取多个待过滤的社会经济指标名称；

根据预设社会经济指标名称后缀词表，对所述多个待过滤的社会经济指标名称进行筛选，得到所述社会经济指标名称集合，所述社会经济指标名称集合中的社会经济指标名称包括所述预设社会经济指标名称后缀词表中的任一社会经济指标名称后缀。

在第一方面的第二种可能的实施方式中，从所述多个第一文本中，获取多个第一地点名称包括：

对于每个第一文本，若所述第一文本中包含多个第二地点名称，则从所述多个第二地点名称中，将与所述第一文本中的社会经济指标名称距离最近的第二地点名称获取为所述第一文本的第一地点名称。

在第一方面的第三种可能的实施方式中，从所述多个第一文本中，获取多个第一时间包括：

对于每个第一文本，若所述第一文本中包含多个第二时间，则从所述多个第二时间中，将与所述第一文本中的社会经济指标名称距离最近的第二时间获取为所述第一文本的第一时间。

在第一方面的第四种可能的实施方式中，从所述多个第一文本中，获取多个第一数量词包括：

对于每个第一文本，检测所述第一文本中是否包含第二数量词，所述第二数量词为百分比数量词；

若所述第一文本中包含所述第二数量词，则检测所述第一文本中的社会经济指标名称是否包含预设字段；

若所述第一文本中的社会经济指标名称不包含预设字段，则过滤掉所述第二数量词，并将剩余的数量词获取为所述第一文本中的第一数量；

若所述第一文本中的社会经济指标名称包含所述预设字段，则将所述第二数量词获取为所述第一文本中的第一数量词。

在第一方面的第五种可能的实施方式中，从所述多个第一文本中，获取多个第一数量词包括：

对于每个第一文本，若所述第一文本中包括多个第三数量词时，检测所述多个第三数量词两两之间的比值是否超过第一预设阈值；

若所述多个第三数量词两两之间的比值超过所述第一预设阈值，则过滤掉所述多个第三数量词两两之间较小的数量词，并将剩余的所述第三数量词获取为所述第一文本中的第一数量词。

在第一方面的第六种可能的实施方式中，从所述多个第一文本中，获取多个第一数量词包括：

对于每个第一文本，检测所述第一文本中包括的第四数量词的数目是否大于第二预设阈值；

若所述第一文本中包括的所述第四数量词的数目大于所述第二预设阈值，则获取指定数量词区间，使得所述第一文本中不小于第三预设阈值数目的所述第四数量词位于所述指定数量词区间内；

过滤掉所述第一文本中不在所述指定数量词区间内的所述第四数量词，并将剩余的所述第四数量词获取为所述第一文本中包括的第一数量词。

在第一方面的第七种可能的实施方式中，从所述多个第一文本中，获取多个第一数量词包括：

对于每个第一文本，若所述第一文本包括多个第五数量词，且所述多个第五数量词出现的概率不同，则将出现概率最大的第五数量词获取为所述第一文本的第一数量词；

或者，

对于每个第一文本，若所述第一文本包括所述多个第五数量词，且所述多个第五数量词出现的概率相同，则计算所述多个第五数量词的平均值，并将所述多个第五数量词的平均值获取为所述第一文本中的第一数量词。

在第一方面的第八种可能的实施方式中，对于每个第一文本，生成所述第一文本的社会经济指标项之后，所述方法还包括：

对于每一个社会经济指标名称，生成所述社会经济指标名称的多个三元组集合，每一个三元组集合包括所述第一时间、所述第一地点名称及所述第一数量词；

对于所述多个三元组集合，获取每一个第一数量词的单位所属的待标准化单位类别；

统计每一个待标准化单位类别对应的所述第一数量词的数目；

获取指定单位类别，所述指定单位类别为对应所述第一数量词的数目最多的待标准化单位类别；

过滤掉单位不属于所述指定单位类别的第一数量词对应的社会经济指标项；

对属于所述指定单位类别的第一数量词进行单位标准化处理；

生成所述第一文本的标准社会经济指标项，所述标准社会经济指标项包括所述第一文本的第一地点名称、第一时间、经过单位标准化处理的第一数量词及所述第一文本中的社会经济指标名称。

在第一方面的第九种可能的实施方式中，所述社会经济指标名称集合包括多个社会经济指标名称和所述多个社会经济指标名称的变形。

根据本公开实施例的第二方面，提供一种社会经济指标的识别装置，包括：

文本集合获取模块，用于获取待识别的文本集合，所述文本集合包括多个文本；

名称获取模块，用于获取待识别的社会政治实体名称；

第一文本获取模块，用于从所述文本集合获取模块获取的所述文本集合中获取多个第一文本，所述第一文本包括所述名称获取模块获取的所述社会政治实体名称及社会经济指标名称集合中的任一社会经济指标名称；

地点获取模块，用于从所述第一文本获取模块获取的所述多个第一文本中，获取多个第一地点名称，每个第一地点名称为预设地点名称集合中的地点名称；

时间获取模块，用于从所述第一文本获取模块获取的所述多个第一文本中，获取多个第一时间；

数量词获取模块，用于从所述第一文本获取模块获取的所述多个第一文本中，获取多个第一数量词；

生成模块，用于对于每个第一文本，生成所述第一文本的社会经济指标项，所述第一文本的社会经济指标项包括所述地点获取模块获取的所述第一文本的第一地点名称、所述时间获取模块获取的所述第一文本的第一时间、所述数量词获取模块获取的所述第一文本的第一数量词及所述第一文本中的社会经济指标名称。

在第二方面的第一种可能的实施方式中，所述装置还包括：

指标名称获取模块，用于根据所述名称获取模块获取的所述社会政治实体名称及预设社会经济指标句法模式，从所述文本集合获取模块获取的所述文本集合中，获取多个待过滤的社会经济指标名称；

筛选模块，用于根据预设社会经济指标名称后缀词表，对所述指标名称获取模块获取的所述多个待过滤的社会经济指标名称进行筛选，得到所述社会经济指标名称集合，所述社会经济指标名称集合中的社会经济指标名称包括所述预设社会经济指标名称后缀词表中的任一社会经济指标名称后缀。

在第二方面的第二种可能的实施方式中，所述地点获取模块用于：

对于所述第一文本获取模块获取的每个第一文本，若所述第一文本中包含多个第二地点名称，则从所述多个第二地点名称中，将与所述第一文本中的社会经济指标名称距离最近的第二地点名称获取为所述第一文本的第一地点名称。

在第二方面的第三种可能的实施方式中，所述时间获取模块用于：

对于所述第一文本获取模块获取的每个第一文本，若所述第一文本中包含多个第二时间，则从所述多个第二时间中，将与所述第一文本中的社会经济指标名称距离最近的第二时间获取为所述第一文本的第一时间。

在第二方面的第四种可能的实施方式中，所述数量词获取模块用于：

对于所述第一文本获取模块获取的每个第一文本，检测所述第一文本中是否包含第二数量词，所述第二数量词为百分比数量词；

在第二方面的第五种可能的实施方式中，所述数量词获取模块用于：

对于所述第一文本获取模块获取的每个第一文本，若所述第一文本中包括多个第三数量词时，检测所述多个第三数量词两两之间的比值是否超过第一预设阈值；

在第二方面的第六种可能的实施方式中，所述数量词获取模块用于：

对于所述第一文本获取模块获取的每个第一文本，检测所述第一文本中包括的第四数量词的数目是否大于第二预设阈值；

在第二方面的第七种可能的实施方式中，所述数量词获取模块用于：

对于所述第一文本获取模块获取的每个第一文本，若所述第一文本包括多个第五数量词，且所述多个第五数量词出现的概率不同，则将出现概率最大的第五数量词获取为所述第一文本的第一数量词；

或者，

对于所述第一文本获取模块获取的每个第一文本，若所述第一文本包括所述多个第五数量词，且所述多个第五数量词出现的概率相同，则计算所述多个第五数量词的平均值，并将所述多个第五数量词的平均值获取为所述第一文本中的第一数量词。

在第二方面的第八种可能的实施方式中，所述装置还包括：

集合生成模块，用于对于每一个社会经济指标名称，生成所述社会经济指标名称的多个三元组集合，每一个三元组集合包括所述第一时间、所述第一地点名称及所述第一数量词；

单位类别获取模块，用于对于所述集合生成模块生成的所述多个三元组集合，获取每一个第一数量词的单位所属的待标准化单位类别；

统计模块，用于统计每一个待标准化单位类别对应的所述第一数量词的数目；

指定单位类别获取模块，用于获取指定单位类别，所述指定单位类别为对应所述第一数量词的数目最多的待标准化单位类别；

过滤模块，用于过滤掉单位不属于所述指定单位类别的第一数量词对应的社会经济指标项；

标准化模块，用于对属于所述指定单位类别的第一数量词进行单位标准化处理；

指标项生成模块，用于生成所述第一文本的标准社会经济指标项，所述标准社会经济指标项包括所述第一文本的第一地点名称、第一时间、经过单位标准化处理的第一数量词及所述第一文本中的社会经济指标名称。

在第二方面的第九种可能的实施方式中，所述社会经济指标名称集合包括多个社会经济指标名称和所述多个社会经济指标名称的变形。

根据本公开实施例的第三方面，提供一种社会经济指标的识别装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取待识别的文本集合，所述文本集合包括多个文本；

获取待识别的社会政治实体名称；

从所述多个第一文本中，获取多个第一时间；

从所述多个第一文本中，获取多个第一数量词；

本公开的实施例提供的技术方案可以包括以下有益效果：

根据社会政治实体名称及社会经济指标名称集合中包含的多个社会经济指标名称，按照预设方法从待识别文本集合中生成社会经济指标项，该社会经济指标项包括时间、地点名称、社会经济指标名称以及社会经济指标值，从而实现了对待识别文本集合的社会经济指标的自动识别，节约了人力、财力资源，同时也大大缩小了识别社会经济指标所需的时间。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种社会经济指标的识别方法的流程图。

图2是根据一示例性实施例示出的一种社会经济指标的识别方法的流程图。

图3是根据一示例性实施例示出的一种社会经济指标的识别装置的框图。

图4是根据一示例性实施例示出的一种社会经济指标的识别装置的框图。

图5是根据一示例性实施例示出的一种社会经济指标的识别装置500的框图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种社会经济指标的识别方法的流程图，如图1所示，该社会经济指标的识别方法用于服务器中，包括以下步骤。

在步骤101中，服务器获取待识别的文本集合，该文本集合包括多个文本。

在步骤102中，服务器获取待识别的社会政治实体名称。

在步骤103中，服务器从该文本集合中获取多个第一文本，该第一文本包括该社会政治实体名称及社会经济指标名称集合中的任一社会经济指标名称。

在步骤104中，服务器从该多个第一文本中，获取多个第一地点名称，每个第一地点名称为预设地点名称集合中的地点名称。

在步骤105中，服务器从该多个第一文本中，获取多个第一时间。

在步骤106中，服务器从该多个第一文本中，获取多个第一数量词。

在步骤107中，服务器对于每个第一文本，生成该第一文本的社会经济指标项，该第一文本的社会经济指标项包括该第一文本的第一地点名称、第一时间、第一数量词及该第一文本中的社会经济指标名称。

综上所述，本实施例提供的社会经济指标的识别方法，根据社会政治实体名称及社会经济指标名称集合中包含的多个社会经济指标名称，按照预设方法从待识别文本集合中生成社会经济指标项，该社会经济指标项包括时间、地点名称、社会经济指标名称以及社会经济指标值，从而实现了对待识别文本集合的社会经济指标的自动识别，节约了人力、财力资源，同时也大大缩小了识别社会经济指标所需的时间。

在第一种可能的实施方式中，从该文本集合中获取多个第一文本之前，上述社会经济指标的识别方法还包括：

根据该社会政治实体名称及预设社会经济指标句法模式，从该文本集合中，获取多个待过滤的社会经济指标名称；

根据预设社会经济指标名称后缀词表，对该多个待过滤的社会经济指标名称进行筛选，得到该社会经济指标名称集合，该社会经济指标名称集合中的社会经济指标名称包括该预设社会经济指标名称后缀词表中的任一社会经济指标名称后缀。

在第二种可能的实施方式中，从该多个第一文本中，获取多个第一地点名称包括：

对于每个第一文本，若该第一文本中包含多个第二地点名称，则从该多个第二地点名称中，将与该第一文本中的社会经济指标名称距离最近的第二地点名称获取为该第一文本的第一地点名称。

在第三种可能的实施方式中，从该多个第一文本中，获取多个第一时间包括：

对于每个第一文本，若该第一文本中包含多个第二时间，则从该多个第二时间中，将与该第一文本中的社会经济指标名称距离最近的第二时间获取为该第一文本的第一时间。

在第四种可能的实施方式中，从该多个第一文本中，获取多个第一数量词包括：

对于每个第一文本，检测该第一文本中是否包含第二数量词，该第二数量词为百分比数量词；

若该第一文本中包含该第二数量词，则检测该第一文本中的社会经济指标名称是否包含预设字段；

若该第一文本中的社会经济指标名称不包含预设字段，则过滤掉该第二数量词，并将剩余的数量词获取为该第一文本中的第一数量；

若该第一文本中的社会经济指标名称包含该预设字段，则将该第二数量词获取为该第一文本中的第一数量词。

在第五种可能的实施方式中，从该多个第一文本中，获取多个第一数量词包括：

对于每个第一文本，若该第一文本中包括多个第三数量词时，检测该多个第三数量词两两之间的比值是否超过第一预设阈值；

若该多个第三数量词两两之间的比值超过该第一预设阈值，则过滤掉该多个第三数量词两两之间较小的数量词，并将剩余的该第三数量词获取为该第一文本中的第一数量词。

在第六种可能的实施方式中，从该多个第一文本中，获取多个第一数量词包括：

对于每个第一文本，检测该第一文本中包括的第四数量词的数目是否大于第二预设阈值；

若该第一文本中包括的该第四数量词的数目大于该第二预设阈值，则获取指定数量词区间，使得该第一文本中不小于第三预设阈值数目的该第四数量词位于该指定数量词区间内；

过滤掉该第一文本中不在该指定数量词区间内的该第四数量词，并将剩余的该第四数量词获取为该第一文本中包括的第一数量词。

在第七种可能的实施方式中，从该多个第一文本中，获取多个第一数量词包括：

对于每个第一文本，若该第一文本包括多个第五数量词，且该多个第五数量词出现的概率不同，则将出现概率最大的第五数量词获取为该第一文本的第一数量词；

或者，

对于每个第一文本，若该第一文本包括该多个第五数量词，且该多个第五数量词出现的概率相同，则计算该多个第五数量词的平均值，并将该多个第五数量词的平均值获取为该第一文本中的第一数量词。

在第八种可能的实施方式中，对于每个第一文本，生成该第一文本的社会经济指标项之后，上述社会经济指标的识别方法还包括：

对于每一个社会经济指标名称，生成该社会经济指标名称的多个三元组集合，每一个三元组集合包括该第一时间、该第一地点名称及该第一数量词；

对于该多个三元组集合，获取每一个第一数量词的单位所属的待标准化单位类别；

统计每一个待标准化单位类别对应的该第一数量词的数目；

获取指定单位类别，该指定单位类别为对应该第一数量词的数目最多的待标准化单位类别；

过滤掉单位不属于该指定单位类别的第一数量词对应的社会经济指标项；

对属于该指定单位类别的第一数量词进行单位标准化处理；

生成该第一文本的标准社会经济指标项，该标准社会经济指标项包括该第一文本的第一地点名称、第一时间、经过单位标准化处理的第一数量词及该第一文本中的社会经济指标名称。

在第九种可能的实施方式中，该社会经济指标名称集合包括多个社会经济指标名称和该多个社会经济指标名称的变形。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图2是根据一示例性实施例示出的一种社会经济指标的识别方法的流程图，如图2所示，该社会经济指标的识别方法包括以下步骤。

在步骤201中，获取待识别的文本集合，该文本集合包括多个文本。

需要说明的是，上述步骤201的执行主体为服务器，同样地，下述步骤202至216的执行主体也为服务器，本公开在以下的叙述中对此将不再赘述。

本公开提供了一种可以自动识别社会经济指标的方法，其中上述社会经济指标包括社会经济指标名称和社会经济指标值，实际应用中，互联网的一些文本可能会包含上述社会经济指标，因此，在进行后续步骤之前，需要从互联网中获取待识别的文本集合，该待识别的文本集合中可以包括多个文本，上述待识别的文本集合中的多个文本可以为网页文本，新闻文本、博客文本等，本公开对上述文本集合的内容不做具体限定，具体实施时，可以利用网络爬虫技术，按照技术人员预先设定的规则，从网页数据库、资源数据库等目标数据库中，自动地抓取互联网中的文本，上述规则可以为抓取目标数据库中所有的文本，也可以按照技术人员设定的网页地址抓取文本，本公开对上述预设规则的内容不做具体限定。

另外，步骤201可以在步骤202之前执行，也可以在步骤202之后执行，对步骤201的执行时机本公开不做具体限定。

在步骤202中，获取待识别的社会政治实体名称。

具体地，上述社会政治实体可以为社会实体或政治实体，例如，社会实体可以为“苹果公司”、“小米科技有限责任公司”等，政治实体可以为“美国”、“中国”等。

实际应用中，社会经济指标往往与社会政治实体相关联，实际上，脱离了社会政治实体，社会经济指标可能没有意义，例如，若社会经济指标名称为“国内生产总值”，则其必须对应于某一政治实体才有意义，例如“中国的国内生产总值”，若社会经济指标名称为“手机年销售额”，其也必须对应于某一社会政治实体，例如“A公司的手机年销售额”，当然，上述举例仅仅是示例性的，实际应用中，社会经济指标名称与社会政治实体在文本中可能并不相邻。

服务器可以获取社会政治实体名称集合，并获取上述社会政治实体名称集合中的所有待识别的社会政治实体名称，此外，服务器也可以根据技术人员的设定获取某一个或多个待识别的社会政治实体名称，对此，本公开不做具体限定。

在步骤203中，根据该社会政治实体名称及预设社会经济指标句法模式，从该文本集合中，获取多个待过滤的社会经济指标名称。

在本公开的一个实施例中，识别社会经济指标可以包括两个部分，其一为识别社会经济指标名称，其二为识别社会经济指标值，步骤203及步骤204即为上述识别社会经济指标的第一部分，也即是识别社会经济指标名称的部分，而步骤205至步骤209即为上述识别社会经济指标的第二部分，也即是识别社会经济指标值的部分，步骤203和步骤204在识别社会经济指标名称时得到的社会经济指标名称集合可以应用于后续社会经济指标值的识别过程中。

具体地，包含社会经济指标的文本往往具有某些特定的句法模式，例如：<社会政治实体>的<社会经济指标名称><是|为|达到|突破><社会经济指标值>，因此，可以根据该社会政治实体名称及预设社会经济指标句法模式从文本集合中获取待过滤的社会经济指标名称，其中，上述预设社会经济指标句法模式可以通过以下方式获得，即计算机获取大量包含社会经济指标名称的文本，并按照预设建模方式，根据上述大量包含社会经济指标名称的文本的内容构建上述预设社会经济指标句法模式，或者，可以由技术人员根据本领域先验知识编撰整理上述预设社会经济指标句法模式，对此，本公开不作具体限定。

若某一文本符合上述预设社会经济指标句法模式，且该文本包含步骤202中获取的社会政治实体名称以及某一社会经济指标名称，则将该文本中的该社会经济指标名称获取为待过滤的社会经济名称，具体地，服务器可以利用社会经济名称词典来判断文本中是否包含社会经济指标名称。

例如，上述文本集合中的某一文本可以为“A公司的手机销售额是1000万元”，这一文本符合预设社会经济指标句法模式，且，这一文本包含社会政治实体名称“A公司”，则在步骤203中，按照预设社会经济指标句法模式定位“手机销售额”为待过滤的社会经济指标名称。

然而，步骤203的获取过程并不能保证获取到的待过滤的社会经济指标名称一定为正确的社会经济指标名称，因此，在步骤203之后，还需要进行步骤204以对步骤203中获取的待过滤的社会经济指标名称进行筛选。

在步骤204中，根据预设社会经济指标名称后缀词表，对该多个待过滤的社会经济指标名称进行筛选，得到社会经济指标名称集合，该社会经济指标名称集合中的社会经济指标名称包括该预设社会经济指标名称后缀词表中的任一社会经济指标名称后缀。

发明人意识到，正确的社会经济指标名称往往含有某些社会经济指标名称后缀，例如“值”、“额”、“指数”、“系数”等，因此可以利用预设社会经济指标名称后缀词表对该多个待过滤的社会经济指标名称进行筛选，上述预设社会经济指标名称后缀词表包含多个社会经济指标名称后缀，例如，上述“手机销售额”包含社会经济指标名称后缀“额”，而“植物盆栽”则不包含社会经济指标名称后缀，因此，在步骤204中即可将“植物盆栽”筛选掉。

经过筛选，可以得到社会经济指标名称集合，该社会经济指标名称集合包含多个正确的社会经济指标名称，进一步地，该社会经济指标名称集合包含的多个社会经济指标名称与上述社会政治实体相关联。实际应用中，上述文本集合的多个文本可能包含多个社会经济指标名称，然而，这些社会经济指标名称不一定都与上述社会政治实体对应，例如“国内生产总值”与“A公司”即不对应，由于上述社会经济指标名称集合包含的多个社会经济指标名称与上述社会政治实体对应，则在后续利用该社会经济指标名称集合识别社会经济指标值的过程中，不需要识别不与上述社会政治实体对应的社会经济指标值，使得识别更具有针对性，耗费的时间较少。

此外，实际应用中，某些文本包含的社会经济指标名称可能不是标准的社会经济指标名称，而是标准社会经济指标名称的变形，例如：标准社会经济指标名称为“水稻总产量”，而某些文本中可能会使用“水稻总产”这一变形社会经济指标名称，但这二者描述的是同一个意思，因此，该社会经济指标名称集合不仅包括多个社会经济指标名称，还可以包括该多个社会经济指标名称的变形，此外，上述变形除了为标准社会经济指标名称剥离结尾字的变形外，还可以包括标准社会经济指标名称简写变形、标准社会经济指标名称外文变形等其他变形形式，对此本公开不做具体限定。

需要说明的是，在本公开的另一些实施例中，社会经济指标名称集合还可以由技术人员或者计算机等根据本领域先验知识编撰整理而成，在这种情况下，可以不执行步骤203及步骤204，并由步骤205至步骤209同时进行社会经济指标名称和社会经济指标值的识别，由于是否执行步骤203及步骤204对下述步骤205至步骤209没有影响，因此，本公开以执行步骤203及步骤204为例对下述步骤205至步骤209进行说明。

在步骤205中，从该文本集合中获取多个第一文本，该第一文本包括该社会政治实体名称及该社会经济指标名称集合中的任一社会经济指标名称。

根据该社会经济指标名称集合和该社会政治实体名称可以从上述文本集合中获取多个第一文本，具体地，本公开提供两种获取多个第一文本的方式。

第一种方式，对于社会经济指标名称集合中的每一个社会经济指标名称，均遍历查询上述文本集合中的所有文本是否该社会经济指标名称，并将包含该社会经济指标名称和该社会政治实体名称的文本获取为第一文本，例如，社会经济指标名称集合可以包括“手机销售额、年销售额、固定资产总额、年销售额增幅”四个社会经济指标名称，而社会政治实体名称可以为“A公司”，则首先在上述文本集合中遍历查找并获取包含“A公司”和“手机销售额”的文本，而后在上述文本集合中遍历查找并获取包含“A公司”和“年销售额”的文本，并以此类推，从而在上述文本集合中获取多个第一文本。

第二种方式，对于文本集合中的每一个文本，检测该文本是否包含该社会政治实体名称及该社会经济指标名称集合中的任一社会经济指标名称，例如，上述文本集合可以包含以下五个文本，分别为：“A公司的植物盆栽是1000盆”、“A公司的手机销售额是1000万元”、“A公司的年销售额是8000万元”、“A公司的固定资产总额是1亿美元”、“中国人民喜欢睡懒觉”，社会经济指标名称集合可以包括“手机销售额、年销售额、固定资产总额、年销售额增幅”四个社会经济指标名称，而社会政治实体名称可以为“A公司”，则首先查询“A公司的植物盆栽是1000盆”是否包含“A公司”这一社会政治实体名称及是否包含“手机销售额、年销售额、固定资产总额、年销售额增幅”中的任一个社会经济指标名称，而后查询“A公司的手机销售额是1000万元”是否包含“A公司”这一社会政治实体名称及是否包含“手机销售额、年销售额、固定资产总额、年销售额增幅”中的任一个社会经济指标名称，并以此类推，利用该方法也可以从上述文本集合中获取多个第一文本。

在步骤206中，从该多个第一文本中，获取多个第一地点名称，每个第一地点名称为预设地点名称集合中的地点名称。

发明人意识到，社会经济指标除了与社会政治实体相关联以外，其还与时间及地点高度相关，譬如，“A公司的手机销售额”根据不同的时间、地点，其取值也各不相同，如，“2014年，A公司在北京的手机销售额为2000万元”、“2015年，A公司在华盛顿的手机销售额为1亿美元”等。因此，有必要在识别社会经济指标的同时，识别与该社会经济指标对应的地点名称和时间。步骤206即是对地点名称的识别获取步骤。

一般而言，与社会经济指标名称对应的地点名称一般出现在包含该社会经济指标名称的第一文本的上下文中，因此，在获取多个第一文本之后，即可从每个第一文本中获取与该第一文本中社会经济指标名称对应的地点名称，在有些情况下，第一文本仅包含一个地点名称，此时，可以直接将该地点名称获取为第一文本的第一地点名称，然而，在另一些情况下，该第一文本可以包含多个地点名称，也即是多个第二地点名称，例如，第一文本可以为“2015年，A公司在中国的市场表现良好，尤其是在北京、上海、广州等一线城市的市场占有率进一步扩大，其中，在北京的手机销售额达到1000万元”，显然，该第一文本包括“中国”、“北京”、“上海”、“广州”多个第二地点名称，此时，该第一文本中距社会经济指标名称距离最近的第二地点名称为该社会经济指标名称对应的地点名称的可能性最大，因此，可以将距社会经济指标名称距离最近的第二地点名称获取为该第一文本的第一地点名称，这里的距离最近指的是二者在第一文本中相隔的字符最少，在上述举例中，显然“北京”距“手机销售额”的距离最近，因此，可以将其获取为上述举例中第一文本的第一地点名称。

在步骤207中，从该多个第一文本中，获取多个第一时间。

步骤207即是对第一文本中社会经济指标名称对应的时间的识别获取步骤。需要说明的是，步骤207可以在步骤206之前执行，也可以在步骤206之后执行，还可以与步骤206同时执行，对步骤207的执行时机本公开不做具体限定。

与步骤206类似的，与社会经济指标名称对应的时间一般出现在包含该社会经济指标名称的第一文本的上下文中，因此，在获取多个第一文本之后，即可从每个第一文本中获取与该第一文本中社会经济指标名称对应的时间，在有些情况下，第一文本仅包含一个时间，此时，可以直接将该时间获取为第一文本的第一时间，然而，在另一些情况下，该第一文本可以包含多个时间，也即是多个第二时间，例如，第一文本可以为“在2010年，A公司的Reid先生提出了向中国在1950年时的经济政策学习的构想，并提出了A公司2011年-2016年的第一个五年计划，在该计划的推动下，A公司2015年的资产总额达到了5000亿美元”，显然，该第一文本包括“2010年”、“1950年”、“2011年”、“2016年”及“2015年”多个第二时间，此时，该第一文本中距社会经济指标名称距离最近的第二时间为该社会经济指标名称对应的时间的可能性最大，因此，可以将距社会经济指标名称距离最近的第二时间获取为该第一文本的第一时间，在上述举例中，显然“2015年”距“资产总额”的距离最近，因此，可以将其获取为上述举例中第一文本的第一时间。

在步骤208中，从该多个第一文本中，获取多个第一数量词。

如上述所述的，社会经济指标不仅包括社会经济指标名称，还包括社会经济指标值，在识别社会经济指标时，有必要对这两部分内容都进行识别，其中，社会经济指标值一般为数量词，例如“1000万元”、“1亿美元”、“5000亿美元”等，因此，可以通过获取每一个第一文本中的第一数量词来实现对社会经济指标值的识别。

需要说明的是，上述步骤208可以在步骤206或步骤207执行前后的任一时机执行，也可以与步骤206或步骤207同时执行，还可以与步骤206和步骤207这二者同时执行，对于步骤208的执行时机本公开不做具体限定。

此外，发明人在实施本公开的过程中发现，第一文本中的数量词不一定都是社会经济指标值，还可能是编号等其他值，或者，第一文本中的数量词不一定都是正确的社会经济指标值，或者，第一文本中可能包含多个数量词，在这几种情况下，在获取第一文本中的第一数量词之前，都需要对第一文本的数量词进行过滤筛选，从而提高第一数量词的准确性，如下所述为第一文本中数量词过滤的几种方法。

在第一种过滤方法中，对于每个第一文本，检测该第一文本中是否包含第二数量词，该第二数量词为百分比数量词；若该第一文本中包含该第二数量词，则检测该第一文本中的社会经济指标名称是否包含预设字段；若该第一文本中的社会经济指标名称不包含预设字段，则过滤掉该第二数量词，并将剩余的数量词获取为该第一文本中的第一数量；若该第一文本中的社会经济指标名称包含该预设字段，则将该第二数量词获取为该第一文本中的第一数量词，当然第二文本还可以为其他形式的数量词，在这种情况下，上述预设字段为该第二数量词对应的社会经济指标名称中可能包含的字段，对此本公开不做具体限定。

上述第二数量词为百分比数量词，该第二数量词可以为含有“％”的数量词，也可以为含有“百分之”的数量词，还可以为含有“percent”的数量词，对于该第二数量词的具体形式本公开不做具体限定。上述预设字段为对应的社会经济指标值为百分值的社会经济指标名称中可能含有的字段，如“增幅”、“率”、“比”等，实际应用中，该预设字段可以由技术人员或计算机等根据本领域先验知识预先进行设定，对此本公开不做具体限定。

显然地，第一文本中包含第二数量词，但对应的社会经济指标名称却不包含预设字段，则说明该第二数量词的正确性较低，因此，需要将其过滤掉，并将第一文本中包含的其他数量词获取为该第一文本中的第一数量词，另外，第一文本中包含第二数量词，且对应的社会经济指标名称包含预设字段，则说明该第二数量词正确的概率较大，因此么可以将其获取为该第一文本中的第一数量词。

例如：该第一文本可以为“A公司的X先生十分迷信，尤其迷信数字8％的神秘力量，因此，他将公司新版手机命名为8％，他声称，由于8％的神秘力量，新版手机上市后，A公司在北京的手机销售额一举超过了2000万元”，显然，在该第一文本中包含数量词“8％”和“2000万元”，其中“8％”为第二数量词，也即是百分比数量词，但是该第一文本中的社会经济指标名称“手机销售额”不包含预设字段，则说明“8％”的正确性较低，因此，可以将其过滤掉，并将剩下的“2000万元”获取为该第一文本的第一数量词。

在第二种过滤方法中，对于每个第一文本，若该第一文本中包括多个第三数量词时，检测该多个第三数量词两两之间的比值是否超过第一预设阈值；若该多个第三数量词两两之间的比值超过该第一预设阈值，则过滤掉该多个第三数量词两两之间较小的数量词，并将剩余的该第三数量词获取为该第一文本中的第一数量词。

需要说明的是，上述“第三数量词”仅仅是为了方便说明而对“数量词”进行的编号，其表示的是第一文本中包含的数量词，除此以外不包含其他特殊含义，下文所述的“第四数量词”、“第五数量词”与“第三数量词”的情形类似，本公开在下文中将不再做同样的解释说明。

如上所述的，第一文本中可能包含编号等数量词，这些数量词不为社会经济指标值，而且编号等数量词较社会经济指标值而言往往小得多，因此可以通过检测第一文本中的数量词，也即是第三数量词，两两之间的比值是否超过第一预设阈值来判断上述第三数量词之中是否包含编号等数量词，显然地，若比值超过第一预设阈值，说明这两个相比的第三数量词大小差距较大，因此，其中较小的数量词为编号等数量词的可能性很大，故而可以将其过滤掉，并将剩下的第三数量词获取为第一文本的第一数量词。需要说明的是，上述第一预设阈值可以由技术人员进行设定，本公开对此不做具体限定。

为方便读者理解，下面本公开将对上述第二种过滤方式进行举例说明，例如：第一文本可以为“A公司Reid先生在会议中发表讲话，他指出：1、各位员工工作积极性很高，2、由于北京的手机销售额超过了1000万元，因此所有华裔员工放假半年”，显然，在上述第一文本中包含第三数量词“1”、“2”及“1000万元”，将他们两两相比，比值分别为“1000”、“500”和“2”，按照对第一预设阈值的预先设定，“1000”和“500”均超过了预设阈值，因此将“1”和“2”过滤掉，并将剩下的“1000万元”获取为上述第一文本的第一数量词。

在第三种过滤方法中，对于每个第一文本，检测该第一文本中包括的第四数量词的数目是否大于第二预设阈值；若该第一文本中包括的该第四数量词的数目大于该第二预设阈值，则获取指定数量词区间，使得该第一文本中不小于第三预设阈值数目的该第四数量词位于该指定数量词区间内；过滤掉该第一文本中不在该指定数量词区间内的该第四数量词，并将剩余的该第四数量词获取为该第一文本中包括的第一数量词。

如上所述的，第一文本中可能包含多个数量词，也即是包含多个第四数量词，若第一文本中的第四数量词的数目较多，也即是大于第二预设阈值，则有必要对第四数量词进行筛选，过滤掉某些过大或过小的数量词，并将剩下的数量词获取为第一文本的第一数量词，这样做，一方面可以增强获取的第一数量词的正确率，另一方面可以减少第一数量词的数目，从而简化后续步骤，需要说明的是，上述第二预设阈值可以由技术人员进行设定，本公开对此不做具体限定。

具体地，当检测到第一文本中的第四数量词的数目大于第二预设阈值时，获取指定数量词区间，使得该第一文本中不小于第三预设阈值数目的该第四数量词位于该指定数量词区间内，并将该第一文本中不在该指定数量词区间内的第四数量词过滤掉，需要说明的是，上述第二预设阈值可以由技术人员进行设定，本公开对此不做具体限定。

例如，第一文本可以为“关于本季度在北京的手机销售额A公司还没有正式公开，但是一些分析人士各自给出了销售额的预期值，其中B给出的预期值为1000万元，C给出的预期值为1200万元，D给出的预期值为1300万元，E给出的预期值为100万元，F给出的预期值为2000万元”，显然，上述第一文本中包含的第四数量词为“1000万元”、“1200万元”、“1300万元”、“100万元”、“2000万元”，若第二预设阈值为4，则上述第一文本中第四数量词的数目超过了第二预设阈值，则此时需要获取指定数量词区间，使得该第一文本中不小于第三预设阈值数目的第四数量词位于该指定数量词区间内，假设上述第三预设阈值为3，则该指定数量词区间可以为999万元至1301万元，2000万元和100万元不在上述指定数量词区间内，因此可以将其过滤掉，并将剩下的“1000万元”、“1200万元”、“1300万元”获取为该第一文本的第一数量词。

在第四种过滤方法中，对于每个第一文本，若该第一文本包括多个第五数量词，且该多个第五数量词出现的概率不同，则将出现概率最大的第五数量词获取为该第一文本的第一数量词；或者，对于每个第一文本，若该第一文本包括该多个第五数量词，且该多个第五数量词出现的概率相同，则计算该多个第五数量词的平均值，并将该多个第五数量词的平均值获取为该第一文本中的第一数量词。

如上所述的，第一文本中可能包含多个数量词，也即是包含多个第五数量词，在这种情况下，除了可以采用第三种过滤方法过滤掉一些过大或者过小的数量词外，还可以采用第四种过滤方法，过滤掉出现概率较小的第五数量词，或者，在出现概率相同时，按照求平均数的方法获取第一数量值。

例如，第一文本可以为：“2015年，A公司在北京的手机销售额为1000万元，有些分析人士认为达成1000万元的销售额与Reid先生最新的公司发展策略有关，也有些分析人士认为1000万元的销售额与外界预期的1200万元的销售额存在一定的差距，这说明A公司在北京的市场表现疲软”，显然，上述第一文本中包含的第五数量词为“1000万元”和“1200万元”，且其出现的概率不同，其中“1000万元”出现的概率最大，因此，可以将其获取为上述第一文本的第一数量值；第一文本还可以为“关于2015年A公司在北京的手机销售额，根据计算方法的不同，A公司给出了四个数值，分别为1000万元、2000万元和3000万元”，显然，上述第一文本中包含的第五数量词为“1000万元”、“2000万元”和“3000万元”，且其出现的概率相同，因此可以将上述三个第五数量词的平均值，也即是2000万元，获取为第一文本的第一数量词。

需要说明的是，再执行步骤208时，可以使用上述四种过滤方法的至少一种对第一文本中的数量词进行过滤，当然，也可以不对第一文本中的数量词进行过滤，对此本公开不做具体限定。

在步骤209中，对于每个第一文本，生成该第一文本的社会经济指标项，该第一文本的社会经济指标项包括该第一文本的第一地点名称、第一时间、第一数量词及该第一文本中的社会经济指标名称。

在上述步骤中，对每一个第一文本均获取了其中的第一地点名称、第一时间、第一数量词和社会经济指标名称，在步骤209中，需要根据上述第一地点名称、第一时间、第一数量词和社会经济指标名称生成该第一文本的社会经济指标项，如该社会经济指标项可以为(2015年，北京，手机销售额，1000万元)等，当然，上述社会经济指标项还可以为其他形式，对此，本公开不做具体限定。

如上所述的，到步骤209为止，本公开已经获取了与该社会政治实体对应的多个社会经济指标项，即已经实现了对社会经济指标的识别，服务器获取该多个社会经济指标项后将其存储至社会经济指标数据库中，当技术人员需要对社会经济指标进行查询或分析时，可以通过访问上述社会经济数据库以获取上述多个社会经济指标项。当然，在步骤209之后，为了进一步过滤掉价值较低的社会经济指标项，以及对社会经济指标性中的数量词进行单位标准化处理，可以继续执行步骤210至步骤216的内容。

在步骤210中，对于每一个社会经济指标名称，生成该社会经济指标名称的多个三元组集合，每一个三元组集合包括该第一时间、该第一地点名称及该第一数量词。

由于上述步骤209中生成的社会经济指标项中，对于每一个社会经济指标名称而言，其对应的第一数量词的单位可能并不一致，如，手机销售额的对应数量词的单位可能为元、美元等，且有些数量词的单位与社会经济指标名称也不对应，如，一些第一文本中，手机销售额的对应数量词的单位可能为吨、公斤等，因此，有必要过滤掉单位与社会经济指标名称不对应的数量词，同时将剩下的数量词的单位标准化，从而利于对社会经济指标的分析。

为达到这一目的，在步骤210中，首先需要对每一个社会经济指标名称均生成三元组集合，例如，对于手机销售额而言，该三元组集合为{2015年，北京，1000万元}，当然，上述三元组集合还可以为其他形式，对此本公开不做具体限定。

在步骤211中，对于该多个三元组集合，获取每一个第一数量词的单位所属的待标准化单位类别。

实际应用中，每一个单位均可以对应于一个待标准化单位类别，例如，元和美元可以对应于货币单位类别，吨、公斤可以对应于重量单位类别，在步骤211中，对于每一个三元组合中，均获取第一数量词的单位所属的待标准化单位类别有利于分析该第一数量词对应的社会经济指标名称公知的单位类别。

在步骤212中，统计每一个待标准化单位类别对应的该第一数量词的数目。

例如，对于手机销售额而言，其对应的三元组集合可以包括：

{2015年，北京，1000万元}；

{2014年，北京，2000万美元}；

{2013年，上海，1200万欧元}；

{2012年，天津，1000吨}；

显然，这些三元组集合中第一数量词单位所属的待标准化单位类别分别为货币单位类别和重量单位类别，其中货币单位类别对应的第一数量词的数目为3，而重量单位类别对应的第一数量词的数目为1。

在步骤213中，获取指定单位类别，该指定单位类别为对应该第一数量词的数目最多的待标准化单位类别。

如上所述的举例，由于货币单位类别对应的第一数量词的数目为3，而重量单位类别对应的第一数量词的数目为1，因此指定单位类别为货币单位类别，该货币单位类别也即是上文所述的社会经济指标名称，也即是手机销售额，公知的单位类别。

在步骤214中，过滤掉单位不属于该指定单位类别的第一数量词对应的社会经济指标项。

显然地，第一数量词的单位若不属于指定单位类别，也即是社会经济指标名称公知的单位类别，则其不具有分析价值，因此需要将这类型的第一数量词对应的社会指标项过滤掉。

如上述的举例，手机销售额的三元组集合{2012年，天津，1000吨}中第一数量词1000吨的单位不为指定单位类别，因此其不具有分析价值，故将其对应的社会经济指标项(2012年，天津，手机销售额，1000吨)过滤掉。

在步骤215中，对属于该指定单位类别的第一数量词进行单位标准化处理。

为了后续分析方便，需要将属于该指定单位类别的第一数量词进行单位标准化处理，如上述举例，手机销售额对应的第一数量词分别为1000万元、2000万美元，1200万欧元，将其按照当时的汇率把单位统一为“万元”，也即是“1000万元”、“12000万元”和“9600万元”。

在步骤216中，生成该第一文本的标准社会经济指标项，该标准社会经济指标项包括该第一文本的第一地点名称、第一时间、经过单位标准化处理的第一数量词及该第一文本中的社会经济指标名称。

通过上述步骤，服务器可以获取与多个第一文本对应的多个标准社会经济指标项，如上述举例的，该标准社会经济指标项可以为(2015年，北京，手机销售额，1000万元)、(2014年，北京，手机销售额，12000万元)和(2013年，上海，手机销售额，9600万欧元)，当然，上述标准社会经济指标项还可以为其他形式，本公开对此不做具体限定。

需要说明的是，上述步骤210至步骤216并不是必选步骤，在实际应用中，也可以不执行步骤210至步骤216，对此，本公开不做具体限定。

图3是根据一示例性实施例示出的一种社会经济指标的识别装置300的框图。参照图3，该装置包括文本集合获取模块301、名称获取模块302、第一文本获取模块303、地点获取模块304、时间获取模块305、数量词获取模块306和生成模块307。

该文本集合获取模块301，用于获取待识别的文本集合，该文本集合包括多个文本。

该名称获取模块302，用于获取待识别的社会政治实体名称。

该第一文本获取模块303，用于从该文本集合获取模块301获取的该文本集合中获取多个第一文本，该第一文本包括该名称获取模块获取的该社会政治实体名称及社会经济指标名称集合中的任一社会经济指标名称。

该社会经济指标名称集合包括多个社会经济指标名称和该多个社会经济指标名称的变形。

该地点获取模块304，用于从该第一文本获取模块303获取的该多个第一文本中，获取多个第一地点名称，每个第一地点名称为预设地点名称集合中的地点名称。

在本公开的一个实施例中，该地点获取模块304用于，对于该第一文本获取模块303获取的每个第一文本，若该第一文本中包含多个第二地点名称，则从该多个第二地点名称中，将与该第一文本中的社会经济指标名称距离最近的第二地点名称获取为该第一文本的第一地点名称。

该时间获取模块305，用于从该第一文本获取模块303获取的该多个第一文本中，获取多个第一时间。

在本公开的一个实施例中，该时间获取模块305用于，对于该第一文本获取模块303获取的每个第一文本，若该第一文本中包含多个第二时间，则从该多个第二时间中，将与该第一文本中的社会经济指标名称距离最近的第二时间获取为该第一文本的第一时间。

该数量词获取模块306，用于从该第一文本获取模块303获取的该多个第一文本中，获取多个第一数量词。

在本公开的一个实施例中，该数量词获取模块306用于，对于该第一文本获取模块303获取的每个第一文本，检测该第一文本中是否包含第二数量词，该第二数量词为百分比数量词；

在本公开的一个实施例中，该数量词获取模块306用于，对于该第一文本获取模块获取的每个第一文本，若该第一文本中包括多个第三数量词时，检测该多个第三数量词两两之间的比值是否超过第一预设阈值；

在本公开的一个实施例中，该数量词获取模块306用于，对于该第一文本获取模块获取的每个第一文本，检测该第一文本中包括的第四数量词的数目是否大于第二预设阈值；

在本公开的一个实施例中，该数量词获取模块306用于，对于该第一文本获取模块获取的每个第一文本，若该第一文本包括多个第五数量词，且该多个第五数量词出现的概率不同，则将出现概率最大的第五数量词获取为该第一文本的第一数量词；

或者，

对于该第一文本获取模块获取的每个第一文本，若该第一文本包括该多个第五数量词，且该多个第五数量词出现的概率相同，则计算该多个第五数量词的平均值，并将该多个第五数量词的平均值获取为该第一文本中的第一数量词。

该生成模块307，用于对于每个第一文本，生成该第一文本的社会经济指标项，该第一文本的社会经济指标项包括该地点获取模块304获取的该第一文本的第一地点名称、该时间获取模块305获取的该第一文本的第一时间、该数量词获取模块306获取的该第一文本的第一数量词及该第一文本中的社会经济指标名称。

参见图4，在本发明的另一个实施例中，还提供了另一种社会经济指标的识别装置400，该装置基于上述图3的实施例结构，还包括指标名称获取模块308、筛选模块309、集合生成模块310、单位类别获取模块311、统计模块312、指定单位类别获取模块313、过滤模块314、标准化模块315和指标项生成模块316。

该指标名称获取模块308，用于根据该名称获取模块302获取的该社会政治实体名称及预设社会经济指标句法模式，从该文本集合获取模块获取的该文本集合中，获取多个待过滤的社会经济指标名称。

该筛选模块309，用于根据预设社会经济指标名称后缀词表，对该指标名称获取模块308获取的该多个待过滤的社会经济指标名称进行筛选，得到该社会经济指标名称集合，该社会经济指标名称集合中的社会经济指标名称包括该预设社会经济指标名称后缀词表中的任一社会经济指标名称后缀。

该集合生成模块310，用于对于每一个社会经济指标名称，生成该社会经济指标名称的多个三元组集合，每一个三元组集合包括该第一时间、该第一地点名称及该第一数量词。

该单位类别获取模块311，用于对于该集合生成模块310生成的该多个三元组集合，获取每一个第一数量词的单位所属的待标准化单位类别。

该统计模块312，用于统计每一个待标准化单位类别对应的该第一数量词的数目。

该指定单位类别获取模块313，用于获取指定单位类别，该指定单位类别为对应该第一数量词的数目最多的待标准化单位类别。

该过滤模块314，用于过滤掉单位不属于该指定单位类别的第一数量词对应的社会经济指标项。

该标准化模块315，用于对属于该指定单位类别的第一数量词进行单位标准化处理。

该指标项生成模块316，用于生成该第一文本的标准社会经济指标项，该标准社会经济指标项包括该第一文本的第一地点名称、第一时间、经过单位标准化处理的第一数量词及该第一文本中的社会经济指标名称。

综上所述，本实施例提供的社会经济指标的识别装置，根据社会政治实体名称及社会经济指标名称集合中包含的多个社会经济指标名称，按照预设方法从待识别文本集合中生成社会经济指标项，该社会经济指标项包括时间、地点名称、社会经济指标名称以及社会经济指标值，从而实现了对待识别文本集合的社会经济指标的自动识别，节约了人力、财力资源，同时也大大缩小了识别社会经济指标所需的时间。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种社会经济指标的识别装置500的框图。例如，装置500可以被提供为一服务器。参照图5，装置500包括处理组件522，其进一步包括一个或多个处理器，以及由存储器532所代表的存储器资源，用于存储可由处理部件522的执行的指令，例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件522被配置为执行指令，以执行下述方法：获取待识别的文本集合，该文本集合包括多个文本；获取待识别的社会政治实体名称；从该文本集合中获取多个第一文本，该第一文本包括该社会政治实体名称及社会经济指标名称集合中的任一社会经济指标名称；从该多个第一文本中，获取多个第一地点名称，每个第一地点名称为预设地点名称集合中的地点名称；从该多个第一文本中，获取多个第一时间；从该多个第一文本中，获取多个第一数量词；对于每个第一文本，生成该第一文本的社会经济指标项，该第一文本的社会经济指标项包括该第一文本的第一地点名称、第一时间、第一数量词及该第一文本中的社会经济指标名称。

装置500还可以包括一个电源组件526被配置为执行装置500的电源管理，一个有线或无线网络接口550被配置为将装置500连接到网络，和一个输入输出(I/O)接口558。装置500可以操作基于存储在存储器532的操作系统，例如WindowsServer^TM，MacOSX^TM，Unix^TM,Linux^TM，FreeBSD^TM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种社会经济指标的识别方法，其特征在于，所述方法包括：

获取待识别的文本集合，所述文本集合包括多个文本；

获取待识别的社会政治实体名称；

从所述多个第一文本中，获取多个第一时间；

从所述多个第一文本中，获取多个第一数量词；

2.根据权利要求1所述的方法，其特征在于，从所述文本集合中获取多个第一文本之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，从所述多个第一文本中，获取多个第一地点名称包括：

4.根据权利要求1所述的方法，其特征在于，从所述多个第一文本中，获取多个第一时间包括：

5.根据权利要求1所述的方法，其特征在于，从所述多个第一文本中，获取多个第一数量词包括：

6.根据权利要求1所述的方法，其特征在于，从所述多个第一文本中，获取多个第一数量词包括：

7.根据权利要求1所述的方法，其特征在于，从所述多个第一文本中，获取多个第一数量词包括：

8.根据权利要求1所述的方法，其特征在于，从所述多个第一文本中，获取多个第一数量词包括：

或者，

9.根据权利要求1所述的方法，其特征在于，对于每个第一文本，生成所述第一文本的社会经济指标项之后，所述方法还包括：

10.根据权利要求1所述的方法，其特征在于，所述社会经济指标名称集合包括多个社会经济指标名称和所述多个社会经济指标名称的变形。

11.一种社会经济指标的识别装置，其特征在于，所述装置包括：

名称获取模块，用于获取待识别的社会政治实体名称；

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

13.根据权利要求11所述的装置，其特征在于，所述地点获取模块用于：

14.根据权利要求11所述的装置，其特征在于，所述时间获取模块用于：

15.根据权利要求11所述的装置，其特征在于，所述数量词获取模块用于：

16.根据权利要求11所述的装置，其特征在于，所述数量词获取模块用于：

17.根据权利要求11所述的装置，其特征在于，所述数量词获取模块用于：

18.根据权利要求11所述的装置，其特征在于，所述数量词获取模块用于：

或者，

19.根据权利要求11所述的装置，其特征在于，所述装置还包括：

20.根据权利要求11所述的装置，其特征在于，所述社会经济指标名称集合包括多个社会经济指标名称和所述多个社会经济指标名称的变形。

21.一种社会经济指标的识别装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取待识别的文本集合，所述文本集合包括多个文本；

获取待识别的社会政治实体名称；

从所述多个第一文本中，获取多个第一时间；

从所述多个第一文本中，获取多个第一数量词；