CN105320739A

CN105320739A - 信息提取方法及装置

Info

Publication number: CN105320739A
Application number: CN201510609435.0A
Authority: CN
Inventors: 袁小欢
Original assignee: Shenzhen Longrise Technology Co Ltd
Current assignee: Shenzhen Longrise Technology Co Ltd
Priority date: 2015-09-22
Filing date: 2015-09-22
Publication date: 2016-02-10

Abstract

本发明公开了一种信息提取方法，包括以下步骤：通过预设的文档模板采集统计信息，其中，所述文档模板中预设有相应的标识符；基于所述标识符对所述文档模板中采集的统计信息进行提取。本发明还公开了一种信息提取装置。本发明由于在采集信息时利用带有标识符的文档模板来进行数据收集，可根据所述标识符完成批量数据的提取处理，而无需人工输入来整理出各项数据，极大地提高了统计信息的提取效率，且准确性更高。

Description

信息提取方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种信息提取方法及装置。

背景技术

目前，一些政府部门、教育机构或者其他机构在统计人员资料、客户资料时，一般都只是收集统计的大量非结构化文本数据。当后续工作人员需要根据收集的数据提取出不同类别的数据进行综合性统计时，需要手动把这些非结构化的数据转化成结构化的数据再进行统计。如果需要统计的数据量较大，甚至需要工作人员根据收集的非结构化文本数据通过电脑手动输入各项数据以完成数据的统计，导致工作人员的工作量非常大，工作效率低，且容易出错。

发明内容

本发明的主要目的在于提供一种信息提取方法及装置，旨在提高统计信息的提取效率及准确性。

为实现上述目的，本发明提供的一种信息提取方法，所述方法包括以下步骤：

通过预设的文档模板采集统计信息，其中，所述文档模板中预设有相应的标识符；

基于所述标识符对所述文档模板中采集的统计信息进行提取。

优选地，所述文档模板为xml格式的word文档模板或excel文档模板。

优选地，所述通过预设的文档模板采集统计信息的步骤之前还包括：

根据统计信息的文本类型预设文档模板，所述文档模板中针对所述统计信息中的不同文本区域设置对应的标识符。

优选地，所述基于所述标识符对所述文档模板中采集的统计信息进行提取的步骤包括：

识别所述文档模板中的各个标识符，获取所述统计信息中需提取信息的目标文本区域对应的目标标识符；

根据所述目标标识符提取出所述文档模板中的所述目标文本区域对应的统计信息。

此外，为实现上述目的，本发明还提供一种信息提取装置，所述信息提取装置包括：

采集模块，用于通过预设的文档模板采集统计信息，其中，所述文档模板中预设有相应的标识符；

提取模块，用于基于所述标识符对所述文档模板中采集的统计信息进行提取。

优选地，所述信息提取装置还包括：

设定模块，用于根据统计信息的文本类型预设文档模板，所述文档模板中针对所述统计信息中的不同文本区域设置对应的标识符。

优选地，所述提取模块还用于：

识别所述文档模板中的各个标识符，获取所述统计信息中需提取信息的目标文本区域对应的目标标识符；根据所述目标标识符提取出所述文档模板中的所述目标文本区域对应的统计信息。

本发明提出的一种信息提取方法及装置，利用预设有相应标识符的文档模板来采集统计信息，并在提取信息时基于所述标识符对所述文档模板中采集的统计信息进行提取。由于在采集信息时利用带有标识符的文档模板来进行数据收集，可根据所述标识符完成批量数据的提取处理，而无需人工输入来整理出各项数据，极大地提高了统计信息的提取效率，且准确性更高。

附图说明

图1为本发明信息提取方法第一实施例的流程示意图；

图2为本发明信息提取方法第二实施例的流程示意图；

图3为本发明信息提取装置第一实施例的功能模块示意图；

图4为本发明信息提取装置第二实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种信息提取方法。

参照图1，图1为本发明信息提取方法第一实施例的流程示意图。

在第一实施例中，该信息提取方法包括：

步骤S10，通过预设的文档模板采集统计信息，其中，所述文档模板中预设有相应的标识符；

本实施例中，在需要采集信息如统计各种客户资料等时，可提供预设的文档模板供待统计人员填写、录入信息，并通过该预设的文档模板采集统计信息。其中，所述文档模板中预设有相应的标识符，所述文档模板可以为可扩展标记语言(eXtensibleMarkupLanguage，简称xml)格式的word文档模板或excel文档模板，在此不作限定。

可扩展标记语言(xml)是一种简单的数据存储语言，使用一系列简单的标记描述数据，而这些标记可以用方便的方式建立。可扩展标记语言(xml)与Access,Oracle和SQLServer等数据库不同，数据库提供了更强有力的数据存储和分析能力，例如：数据索引、排序、查找、相关一致性等。本实施例中针对可扩展标记语言(xml)可以很方便的建立标记来描述数据的特点，在采集信息时利用带有标识符的xml格式word文档模板或excel文档模板来进行数据收集，通过xml格式word文档模板或excel文档模板采集的待统计人员录入的统计信息不仅包括统计数据本身，还包括对应的标识符，以形成结构化的统计数据。

需要说明的是，本实施例中，所述文档模板可根据实际应用中不同类型信息的采集需要设定对应的xml格式word文档模板或excel文档模板，也可以直接从云端服务器获取预先制作好的xml格式word文档模板或excel文档模板，在此不作限定。

步骤S20，基于所述标识符对所述文档模板中采集的统计信息进行提取。

在利用带有标识符的xml格式word文档模板或excel文档模板完成统计信息的采集后，后续若需要提取不同的统计信息，即可利用xml格式word文档模板或excel文档模板中的不同标识符提取出对应的统计信息，而无需人工手动输入，十分方便。且能根据不同的标识符对多个xml格式word文档模板或excel文档模板中的统计信息进行批量提取处理，效率更高，还能避免因人工手动输入造成的统计错误。

本实施例利用预设有相应标识符的文档模板来采集统计信息，并在提取信息时基于所述标识符对所述文档模板中采集的统计信息进行提取。由于在采集信息时利用带有标识符的文档模板来进行数据收集，可根据所述标识符完成批量数据的提取处理，而无需人工输入来整理出各项数据，极大地提高了统计信息的提取效率，且准确性更高。

如图2所示，本发明第二实施例提出一种信息提取方法，在上述实施例的基础上，在上述步骤S10之前还包括：

步骤S30，根据统计信息的文本类型预设文档模板，所述文档模板中针对所述统计信息中的不同文本区域设置对应的标识符。

本实施例中在采集统计信息之前，首先根据需要统计信息的文本类型预设文档模板，如当需要统计信息的文本类型主要为文字类信息时，可预设xml格式的word文档模板来采集统计信息；当需要统计信息的文本类型主要为表格类信息时，可预设xml格式的excel文档模板来采集统计信息。

进一步地，所述文档模板中针对所述统计信息中的不同文本区域设置对应的标识符。如在所述统计信息中的不同文本区域待采集的分别是客户姓名、年龄、电话等信息时，可针对待采集的客户姓名、年龄、电话等信息在所述文档模板中所处的不同文本区域设置对应的标识符a、b、c。这样，在利用所述文档模板完成统计信息的采集后，即可利用所述文档模板中不同的标识符提取出所述文档模板中不同文本区域采集的信息。

在一种实施方式中，上述步骤S20可以包括：

本实施例中，在对所述文档模板中采集的统计信息进行提取时，可先识别所述文档模板中的各个标识符，获取所述统计信息中需提取信息的目标文本区域对应的目标标识符。如可识别所述文档模板中不同文本区域对应设置的标识符a、b、c，当待提取的目标信息为客户姓名信息时，获取利用所述文档模板提取的统计信息中客户姓名信息所处的文本区域对应的标识符a。再根据所述目标标识符提取出所述文档模板中的所述目标文本区域对应的统计信息。如获取到所述目标标识符为标识符a时，即可根据标识符a提取出所述文档模板中标识符a对应的目标文本区域中的客户姓名信息。这样，本实施例中可利用所述文档模板中不同的标识符提取出所述文档模板中不同文本区域采集的信息，更加灵活、实用。

本发明进一步提供一种信息提取装置。

参照图3，图3为本发明信息提取装置第一实施例的功能模块示意图。

在第一实施例中，该信息提取装置包括：

采集模块01，用于通过预设的文档模板采集统计信息，其中，所述文档模板中预设有相应的标识符；

提取模块02，用于基于所述标识符对所述文档模板中采集的统计信息进行提取。

如图4所示，本发明第二实施例提出一种信息提取装置，在上述实施例的基础上，还包括：

设定模块03，用于根据统计信息的文本类型预设文档模板，所述文档模板中针对所述统计信息中的不同文本区域设置对应的标识符。

在一种实施方式中，上述提取模块02可以用于：

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种信息提取方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的信息提取方法，其特征在于，所述文档模板为xml格式的word文档模板或excel文档模板。

3.如权利要求1或2所述的信息提取方法，其特征在于，所述通过预设的文档模板采集统计信息的步骤之前还包括：

4.如权利要求3所述的信息提取方法，其特征在于，所述基于所述标识符对所述文档模板中采集的统计信息进行提取的步骤包括：

5.一种信息提取装置，其特征在于，所述信息提取装置包括：

6.如权利要求5所述的信息提取装置，其特征在于，所述文档模板为xml格式的word文档模板或excel文档模板。

7.如权利要求5或6所述的信息提取装置，其特征在于，还包括：

8.如权利要求7所述的信息提取装置，其特征在于，所述提取模块还用于：