CN105320739A - 信息提取方法及装置 - Google Patents
信息提取方法及装置 Download PDFInfo
- Publication number
- CN105320739A CN105320739A CN201510609435.0A CN201510609435A CN105320739A CN 105320739 A CN105320739 A CN 105320739A CN 201510609435 A CN201510609435 A CN 201510609435A CN 105320739 A CN105320739 A CN 105320739A
- Authority
- CN
- China
- Prior art keywords
- document template
- information
- identifier
- statistical information
- described document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种信息提取方法,包括以下步骤:通过预设的文档模板采集统计信息,其中,所述文档模板中预设有相应的标识符;基于所述标识符对所述文档模板中采集的统计信息进行提取。本发明还公开了一种信息提取装置。本发明由于在采集信息时利用带有标识符的文档模板来进行数据收集,可根据所述标识符完成批量数据的提取处理,而无需人工输入来整理出各项数据,极大地提高了统计信息的提取效率,且准确性更高。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种信息提取方法及装置。
背景技术
目前,一些政府部门、教育机构或者其他机构在统计人员资料、客户资料时,一般都只是收集统计的大量非结构化文本数据。当后续工作人员需要根据收集的数据提取出不同类别的数据进行综合性统计时,需要手动把这些非结构化的数据转化成结构化的数据再进行统计。如果需要统计的数据量较大,甚至需要工作人员根据收集的非结构化文本数据通过电脑手动输入各项数据以完成数据的统计,导致工作人员的工作量非常大,工作效率低,且容易出错。
发明内容
本发明的主要目的在于提供一种信息提取方法及装置,旨在提高统计信息的提取效率及准确性。
为实现上述目的,本发明提供的一种信息提取方法,所述方法包括以下步骤:
通过预设的文档模板采集统计信息,其中,所述文档模板中预设有相应的标识符;
基于所述标识符对所述文档模板中采集的统计信息进行提取。
优选地,所述文档模板为xml格式的word文档模板或excel文档模板。
优选地,所述通过预设的文档模板采集统计信息的步骤之前还包括:
根据统计信息的文本类型预设文档模板,所述文档模板中针对所述统计信息中的不同文本区域设置对应的标识符。
优选地,所述基于所述标识符对所述文档模板中采集的统计信息进行提取的步骤包括:
识别所述文档模板中的各个标识符,获取所述统计信息中需提取信息的目标文本区域对应的目标标识符;
根据所述目标标识符提取出所述文档模板中的所述目标文本区域对应的统计信息。
此外,为实现上述目的,本发明还提供一种信息提取装置,所述信息提取装置包括:
采集模块,用于通过预设的文档模板采集统计信息,其中,所述文档模板中预设有相应的标识符;
提取模块,用于基于所述标识符对所述文档模板中采集的统计信息进行提取。
优选地,所述文档模板为xml格式的word文档模板或excel文档模板。
优选地,所述信息提取装置还包括:
设定模块,用于根据统计信息的文本类型预设文档模板,所述文档模板中针对所述统计信息中的不同文本区域设置对应的标识符。
优选地,所述提取模块还用于:
识别所述文档模板中的各个标识符,获取所述统计信息中需提取信息的目标文本区域对应的目标标识符;根据所述目标标识符提取出所述文档模板中的所述目标文本区域对应的统计信息。
本发明提出的一种信息提取方法及装置,利用预设有相应标识符的文档模板来采集统计信息,并在提取信息时基于所述标识符对所述文档模板中采集的统计信息进行提取。由于在采集信息时利用带有标识符的文档模板来进行数据收集,可根据所述标识符完成批量数据的提取处理,而无需人工输入来整理出各项数据,极大地提高了统计信息的提取效率,且准确性更高。
附图说明
图1为本发明信息提取方法第一实施例的流程示意图;
图2为本发明信息提取方法第二实施例的流程示意图;
图3为本发明信息提取装置第一实施例的功能模块示意图;
图4为本发明信息提取装置第二实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种信息提取方法。
参照图1,图1为本发明信息提取方法第一实施例的流程示意图。
在第一实施例中,该信息提取方法包括:
步骤S10,通过预设的文档模板采集统计信息,其中,所述文档模板中预设有相应的标识符;
本实施例中,在需要采集信息如统计各种客户资料等时,可提供预设的文档模板供待统计人员填写、录入信息,并通过该预设的文档模板采集统计信息。其中,所述文档模板中预设有相应的标识符,所述文档模板可以为可扩展标记语言(eXtensibleMarkupLanguage,简称xml)格式的word文档模板或excel文档模板,在此不作限定。
可扩展标记语言(xml)是一种简单的数据存储语言,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立。可扩展标记语言(xml)与Access,Oracle和SQLServer等数据库不同,数据库提供了更强有力的数据存储和分析能力,例如:数据索引、排序、查找、相关一致性等。本实施例中针对可扩展标记语言(xml)可以很方便的建立标记来描述数据的特点,在采集信息时利用带有标识符的xml格式word文档模板或excel文档模板来进行数据收集,通过xml格式word文档模板或excel文档模板采集的待统计人员录入的统计信息不仅包括统计数据本身,还包括对应的标识符,以形成结构化的统计数据。
需要说明的是,本实施例中,所述文档模板可根据实际应用中不同类型信息的采集需要设定对应的xml格式word文档模板或excel文档模板,也可以直接从云端服务器获取预先制作好的xml格式word文档模板或excel文档模板,在此不作限定。
步骤S20,基于所述标识符对所述文档模板中采集的统计信息进行提取。
在利用带有标识符的xml格式word文档模板或excel文档模板完成统计信息的采集后,后续若需要提取不同的统计信息,即可利用xml格式word文档模板或excel文档模板中的不同标识符提取出对应的统计信息,而无需人工手动输入,十分方便。且能根据不同的标识符对多个xml格式word文档模板或excel文档模板中的统计信息进行批量提取处理,效率更高,还能避免因人工手动输入造成的统计错误。
本实施例利用预设有相应标识符的文档模板来采集统计信息,并在提取信息时基于所述标识符对所述文档模板中采集的统计信息进行提取。由于在采集信息时利用带有标识符的文档模板来进行数据收集,可根据所述标识符完成批量数据的提取处理,而无需人工输入来整理出各项数据,极大地提高了统计信息的提取效率,且准确性更高。
如图2所示,本发明第二实施例提出一种信息提取方法,在上述实施例的基础上,在上述步骤S10之前还包括:
步骤S30,根据统计信息的文本类型预设文档模板,所述文档模板中针对所述统计信息中的不同文本区域设置对应的标识符。
本实施例中在采集统计信息之前,首先根据需要统计信息的文本类型预设文档模板,如当需要统计信息的文本类型主要为文字类信息时,可预设xml格式的word文档模板来采集统计信息;当需要统计信息的文本类型主要为表格类信息时,可预设xml格式的excel文档模板来采集统计信息。
进一步地,所述文档模板中针对所述统计信息中的不同文本区域设置对应的标识符。如在所述统计信息中的不同文本区域待采集的分别是客户姓名、年龄、电话等信息时,可针对待采集的客户姓名、年龄、电话等信息在所述文档模板中所处的不同文本区域设置对应的标识符a、b、c。这样,在利用所述文档模板完成统计信息的采集后,即可利用所述文档模板中不同的标识符提取出所述文档模板中不同文本区域采集的信息。
在一种实施方式中,上述步骤S20可以包括:
识别所述文档模板中的各个标识符,获取所述统计信息中需提取信息的目标文本区域对应的目标标识符;
根据所述目标标识符提取出所述文档模板中的所述目标文本区域对应的统计信息。
本实施例中,在对所述文档模板中采集的统计信息进行提取时,可先识别所述文档模板中的各个标识符,获取所述统计信息中需提取信息的目标文本区域对应的目标标识符。如可识别所述文档模板中不同文本区域对应设置的标识符a、b、c,当待提取的目标信息为客户姓名信息时,获取利用所述文档模板提取的统计信息中客户姓名信息所处的文本区域对应的标识符a。再根据所述目标标识符提取出所述文档模板中的所述目标文本区域对应的统计信息。如获取到所述目标标识符为标识符a时,即可根据标识符a提取出所述文档模板中标识符a对应的目标文本区域中的客户姓名信息。这样,本实施例中可利用所述文档模板中不同的标识符提取出所述文档模板中不同文本区域采集的信息,更加灵活、实用。
本发明进一步提供一种信息提取装置。
参照图3,图3为本发明信息提取装置第一实施例的功能模块示意图。
在第一实施例中,该信息提取装置包括:
采集模块01,用于通过预设的文档模板采集统计信息,其中,所述文档模板中预设有相应的标识符;
本实施例中,在需要采集信息如统计各种客户资料等时,可提供预设的文档模板供待统计人员填写、录入信息,并通过该预设的文档模板采集统计信息。其中,所述文档模板中预设有相应的标识符,所述文档模板可以为可扩展标记语言(eXtensibleMarkupLanguage,简称xml)格式的word文档模板或excel文档模板,在此不作限定。
可扩展标记语言(xml)是一种简单的数据存储语言,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立。可扩展标记语言(xml)与Access,Oracle和SQLServer等数据库不同,数据库提供了更强有力的数据存储和分析能力,例如:数据索引、排序、查找、相关一致性等。本实施例中针对可扩展标记语言(xml)可以很方便的建立标记来描述数据的特点,在采集信息时利用带有标识符的xml格式word文档模板或excel文档模板来进行数据收集,通过xml格式word文档模板或excel文档模板采集的待统计人员录入的统计信息不仅包括统计数据本身,还包括对应的标识符,以形成结构化的统计数据。
需要说明的是,本实施例中,所述文档模板可根据实际应用中不同类型信息的采集需要设定对应的xml格式word文档模板或excel文档模板,也可以直接从云端服务器获取预先制作好的xml格式word文档模板或excel文档模板,在此不作限定。
提取模块02,用于基于所述标识符对所述文档模板中采集的统计信息进行提取。
在利用带有标识符的xml格式word文档模板或excel文档模板完成统计信息的采集后,后续若需要提取不同的统计信息,即可利用xml格式word文档模板或excel文档模板中的不同标识符提取出对应的统计信息,而无需人工手动输入,十分方便。且能根据不同的标识符对多个xml格式word文档模板或excel文档模板中的统计信息进行批量提取处理,效率更高,还能避免因人工手动输入造成的统计错误。
本实施例利用预设有相应标识符的文档模板来采集统计信息,并在提取信息时基于所述标识符对所述文档模板中采集的统计信息进行提取。由于在采集信息时利用带有标识符的文档模板来进行数据收集,可根据所述标识符完成批量数据的提取处理,而无需人工输入来整理出各项数据,极大地提高了统计信息的提取效率,且准确性更高。
如图4所示,本发明第二实施例提出一种信息提取装置,在上述实施例的基础上,还包括:
设定模块03,用于根据统计信息的文本类型预设文档模板,所述文档模板中针对所述统计信息中的不同文本区域设置对应的标识符。
本实施例中在采集统计信息之前,首先根据需要统计信息的文本类型预设文档模板,如当需要统计信息的文本类型主要为文字类信息时,可预设xml格式的word文档模板来采集统计信息;当需要统计信息的文本类型主要为表格类信息时,可预设xml格式的excel文档模板来采集统计信息。
进一步地,所述文档模板中针对所述统计信息中的不同文本区域设置对应的标识符。如在所述统计信息中的不同文本区域待采集的分别是客户姓名、年龄、电话等信息时,可针对待采集的客户姓名、年龄、电话等信息在所述文档模板中所处的不同文本区域设置对应的标识符a、b、c。这样,在利用所述文档模板完成统计信息的采集后,即可利用所述文档模板中不同的标识符提取出所述文档模板中不同文本区域采集的信息。
在一种实施方式中,上述提取模块02可以用于:
识别所述文档模板中的各个标识符,获取所述统计信息中需提取信息的目标文本区域对应的目标标识符;根据所述目标标识符提取出所述文档模板中的所述目标文本区域对应的统计信息。
本实施例中,在对所述文档模板中采集的统计信息进行提取时,可先识别所述文档模板中的各个标识符,获取所述统计信息中需提取信息的目标文本区域对应的目标标识符。如可识别所述文档模板中不同文本区域对应设置的标识符a、b、c,当待提取的目标信息为客户姓名信息时,获取利用所述文档模板提取的统计信息中客户姓名信息所处的文本区域对应的标识符a。再根据所述目标标识符提取出所述文档模板中的所述目标文本区域对应的统计信息。如获取到所述目标标识符为标识符a时,即可根据标识符a提取出所述文档模板中标识符a对应的目标文本区域中的客户姓名信息。这样,本实施例中可利用所述文档模板中不同的标识符提取出所述文档模板中不同文本区域采集的信息,更加灵活、实用。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种信息提取方法,其特征在于,所述方法包括以下步骤:
通过预设的文档模板采集统计信息,其中,所述文档模板中预设有相应的标识符;
基于所述标识符对所述文档模板中采集的统计信息进行提取。
2.如权利要求1所述的信息提取方法,其特征在于,所述文档模板为xml格式的word文档模板或excel文档模板。
3.如权利要求1或2所述的信息提取方法,其特征在于,所述通过预设的文档模板采集统计信息的步骤之前还包括:
根据统计信息的文本类型预设文档模板,所述文档模板中针对所述统计信息中的不同文本区域设置对应的标识符。
4.如权利要求3所述的信息提取方法,其特征在于,所述基于所述标识符对所述文档模板中采集的统计信息进行提取的步骤包括:
识别所述文档模板中的各个标识符,获取所述统计信息中需提取信息的目标文本区域对应的目标标识符;
根据所述目标标识符提取出所述文档模板中的所述目标文本区域对应的统计信息。
5.一种信息提取装置,其特征在于,所述信息提取装置包括:
采集模块,用于通过预设的文档模板采集统计信息,其中,所述文档模板中预设有相应的标识符;
提取模块,用于基于所述标识符对所述文档模板中采集的统计信息进行提取。
6.如权利要求5所述的信息提取装置,其特征在于,所述文档模板为xml格式的word文档模板或excel文档模板。
7.如权利要求5或6所述的信息提取装置,其特征在于,还包括:
设定模块,用于根据统计信息的文本类型预设文档模板,所述文档模板中针对所述统计信息中的不同文本区域设置对应的标识符。
8.如权利要求7所述的信息提取装置,其特征在于,所述提取模块还用于:
识别所述文档模板中的各个标识符,获取所述统计信息中需提取信息的目标文本区域对应的目标标识符;根据所述目标标识符提取出所述文档模板中的所述目标文本区域对应的统计信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510609435.0A CN105320739A (zh) | 2015-09-22 | 2015-09-22 | 信息提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510609435.0A CN105320739A (zh) | 2015-09-22 | 2015-09-22 | 信息提取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105320739A true CN105320739A (zh) | 2016-02-10 |
Family
ID=55248126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510609435.0A Pending CN105320739A (zh) | 2015-09-22 | 2015-09-22 | 信息提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105320739A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912735A (zh) * | 2016-06-28 | 2016-08-31 | 浪潮软件股份有限公司 | 一种文本文件的并行解析过滤方法 |
CN106227712A (zh) * | 2016-07-28 | 2016-12-14 | 浪潮通用软件有限公司 | 一种基于可扩展标记语言实现数据快速换转文档的方法 |
CN109902280A (zh) * | 2019-01-21 | 2019-06-18 | 新疆恒致达信息技术有限公司 | 学生信息的录入方法、装置、计算机设备和存储介质 |
CN113761840A (zh) * | 2021-09-08 | 2021-12-07 | 中信建投证券股份有限公司 | 智能文档处理方法、系统、计算机设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005018117A (ja) * | 2003-06-23 | 2005-01-20 | Yamatake Corp | データ収集装置 |
CN101667172A (zh) * | 2009-09-14 | 2010-03-10 | 成都市科陆洲电子有限公司 | 一种利用word制作电子报表的方法 |
CN102193940A (zh) * | 2010-03-11 | 2011-09-21 | 龙旗科技(上海)有限公司 | 一种对二维表格进行特征分析和数据提取的方法 |
CN103778234A (zh) * | 2014-01-26 | 2014-05-07 | 北京恒华伟业科技股份有限公司 | 报表的生成方法及装置 |
-
2015
- 2015-09-22 CN CN201510609435.0A patent/CN105320739A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005018117A (ja) * | 2003-06-23 | 2005-01-20 | Yamatake Corp | データ収集装置 |
CN101667172A (zh) * | 2009-09-14 | 2010-03-10 | 成都市科陆洲电子有限公司 | 一种利用word制作电子报表的方法 |
CN102193940A (zh) * | 2010-03-11 | 2011-09-21 | 龙旗科技(上海)有限公司 | 一种对二维表格进行特征分析和数据提取的方法 |
CN103778234A (zh) * | 2014-01-26 | 2014-05-07 | 北京恒华伟业科技股份有限公司 | 报表的生成方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912735A (zh) * | 2016-06-28 | 2016-08-31 | 浪潮软件股份有限公司 | 一种文本文件的并行解析过滤方法 |
CN106227712A (zh) * | 2016-07-28 | 2016-12-14 | 浪潮通用软件有限公司 | 一种基于可扩展标记语言实现数据快速换转文档的方法 |
CN109902280A (zh) * | 2019-01-21 | 2019-06-18 | 新疆恒致达信息技术有限公司 | 学生信息的录入方法、装置、计算机设备和存储介质 |
CN113761840A (zh) * | 2021-09-08 | 2021-12-07 | 中信建投证券股份有限公司 | 智能文档处理方法、系统、计算机设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107992490B (zh) | 一种数据处理方法以及数据处理设备 | |
CN107861942A (zh) | 一种基于深度学习的电力疑似投诉工单识别方法 | |
CN104391881B (zh) | 一种基于分词算法的日志解析方法及系统 | |
CN104346319B (zh) | 检查文档样式的方法及系统 | |
CN105468744B (zh) | 一种实现税务舆情分析和全文检索的大数据平台 | |
DE102014204827A1 (de) | Auflösen ähnlicher Entitäten aus einer Transaktionsdatenbank | |
CN105320739A (zh) | 信息提取方法及装置 | |
CN107545038B (zh) | 一种文本分类方法与设备 | |
DE102012221251A1 (de) | Semantisches und kontextbezogenes Durchsuchen von Wissensspeichern | |
CN104504086A (zh) | 网页页面的聚类方法和装置 | |
CN106844782B (zh) | 一种面向网络的多通道大数据采集系统及方法 | |
CN102831149B (zh) | 样本分析方法、装置 | |
KR102345410B1 (ko) | 빅데이터 지능형 수집 방법 및 장치 | |
CN112364014A (zh) | 数据查询方法、装置、服务器及存储介质 | |
CN113420116A (zh) | 医疗文档的分析方法、装置、设备及介质 | |
CN112434049A (zh) | 表格数据存储方法、装置、存储介质及电子装置 | |
CN103257961A (zh) | 书目消重的方法、装置及系统 | |
CN104331507B (zh) | 机器数据类别自动发现和分类的方法及装置 | |
CN109993381B (zh) | 基于知识图谱的需求管理应用方法、装置、设备及介质 | |
CN104484451A (zh) | 网页页面信息的提取方法和装置 | |
CN112328812B (zh) | 基于自调参数的领域知识抽取方法与系统、电子设备 | |
CN110866217A (zh) | 一种交叉报表的识别方法、装置、存储介质及电子设备 | |
DE102009050681A1 (de) | Verfahren und Vorrichtung zum Erkennen und Klassifizieren von Dokumentteilen eines rechnerverfügbaren Dokuments durch schrittweises Lernen aus mehreren Trainingsmengen | |
CN112948583A (zh) | 数据的分类方法及装置、存储介质、电子装置 | |
CN106933929B (zh) | 调整数据表连接的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 518057 Shenzhen Software Park, Nanshan District high tech Industrial Park, Guangdong, China,, 6 401-402 Applicant after: Yongxing Shenzhen Polytron Technologies Inc Address before: 518057 Shenzhen Software Park, Nanshan District high tech Industrial Park, Guangdong, China,, 6 401-402 Applicant before: Shenzhen Longrise Technology Co., Ltd. |
|
COR | Change of bibliographic data | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160210 |