CN104750801A - 一种结构化文档的生成方法和系统 - Google Patents

一种结构化文档的生成方法和系统 Download PDF

Info

Publication number
CN104750801A
CN104750801A CN201510129472.1A CN201510129472A CN104750801A CN 104750801 A CN104750801 A CN 104750801A CN 201510129472 A CN201510129472 A CN 201510129472A CN 104750801 A CN104750801 A CN 104750801A
Authority
CN
China
Prior art keywords
structured document
document
keyword
structured
rank
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510129472.1A
Other languages
English (en)
Inventor
支俊辉
贾楠
余洁玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huadi Computer Group Co Ltd
Original Assignee
Huadi Computer Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huadi Computer Group Co Ltd filed Critical Huadi Computer Group Co Ltd
Priority to CN201510129472.1A priority Critical patent/CN104750801A/zh
Publication of CN104750801A publication Critical patent/CN104750801A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本文明公开了一种结构化文档的生成方法和装置,所述方法包括:采集非结构化文档;提取所述非结构化文档的属性;设定并提取所述非结构化文档的关键词;利用所述属性和所述关键词构建与所述非结构化文档对应的结构化文档。本发明通过提取非结构化文档的包括但不限于文档名称、文档页数、发布日期、文档格式、文档作者、文档发布单位、文档批准单位、文档版本等属性和基于自定义规则提取的关键词,并利用所提取的属性和关键词来构建与所述非结构化文档相对应的结构化文档,形成一套完整的结构化文档,克服了传统非结构化文档普遍以文本形式存在、不利于实际操作和应用的缺点,通过结构化文档实现对原有的非结构化文档内容的管理和应用。

Description

一种结构化文档的生成方法和系统
技术领域
本发明属于信息处理和检索技术领域,具体涉及一种结构化文档的生成方法和系统。
背景技术
随着网络的普及,信息已成为生活和工作必不可少的组成部分。庞大的信息量,需要更加有效的信息处理技术,而对庞大信息量的利用,则需要高效的信息检索技术。文档,作为一种传统的信息存储方式,承载了大量、种类繁多的信息。各级政府,以及行业领域都存在大量的文档资料,但绝大多数机构或组织的文档资料仍是以非结构化文本形式存在,尤其中各家单位的业素材只能以非结构化文档的方式进行保存。这种形式不利于文档资料内容的理解与宣贯,更不利于长期稳定的推广与实施,很难表现出其应用的利用价值。同时,对于非结构化文档而言,无论是阅读或是检索均不方便,很难发挥出这些非结构化文档应有的价值。
因此,迫切需要对这些非结构化文档进行向结构化文档的转化,将非结构化文档转化为最贴近原来文档意思表达的结构化文档,并对这些结构化文档进行管理,从而更加有效、方便的完成对所需信息的读取和检索。
目前,现有技术中对非结构化文档的处理方式,大多仅能针对非结构化文档的版本、编号等周边信息进行结构化处理,实现非结构化文档向结构化文档的转换,很难涉及到非结构化文档本身的描述内容,因此,现有技术无法真正实现对文档的内容处理和检索。
发明内容
本发明实施例的目的是提供一种结构化文档的生成方法和系统,通过基于自定义规则,将非结构化文档生成或转换为结构化文档,形成一套完整的结构化文档,通过结构化文档实现对原有的非结构化文档内容的管理和应用。
根据本发明的一个方面,提供了一种结构化文档的生成方法,所述方法包括:
采集非结构化文档;
提取所述非结构化文档的属性;
设定并提取所述非结构化文档的关键词;
利用所述属性和所述关键词构建与所述非结构化文档对应的结构化文档。
上述方案中,所述设定并提取所述非结构化文档的关键词,进一步包括:
预设自定义规则,在所述规则中预设关键词的级别;
根据所述自定义规则从所述非结构化文档中提取关键词。
上述方案中,所述关键词的级别包括:首要关键词级别、次要关键词级别、一般关键词级别。
上述方案中,所述非结构化文档的属性至少包括:文档名称、文档页数、发布日期、文档格式、文档作者、文档发布单位、文档批准单位、文档版本。
根据本发明的另一个方面,还提供了一种结构化文档的生成装置,所述装置包括:
采集模块,用于采集非结构化文档;
属性提取模块,与所述采集模块相连,用于提取所述非结构化文档的属性;
关键词提取模块,与所述采集模块相连,用于设定并提取所述非结构化文档的关键词;
构建模块,与所述属性提取模块和所述关键词提取模块相连,用于利用所述属性和所述关键词构建与所述非结构化文档对应的结构化文档。
上述方案中,所述关键词提取模块包括:
规则预设子模块,用于预设自定义规则,在所述规则中预设关键词的级别;
提取子模块,用于根据所述自定义规则从所述非结构化文档中提取关键词。
上述方案中,所述关键词的级别包括:首要关键词级别、次要关键词级别、一般关键词级别。
上述方案中,所述非结构化文档的属性至少包括:文档名称、文档页数、发布日期、文档格式、文档作者、文档发布单位、文档批准单位、文档版本。
本文明实施例所公开的结构化文档生成方法,包括:采集非结构化文档;提取所述非结构化文档的属性;设定并提取所述非结构化文档的关键词;利用所述属性和所述关键词构建与所述非结构化文档对应的结构化文档。本发明通过提取非结构化文档的包括但不限于文档名称、文档页数、发布日期、文档格式、文档作者、文档发布单位、文档批准单位、文档版本等属性和基于自定义规则提取的关键词,并利用所提取的属性和关键词来构建与所述非结构化文档相对应的结构化文档,形成一套完整的结构化文档,克服了传统非结构化文档普遍以文本形式存在、不利于实际操作和应用的缺点,通过结构化文档实现对原有的非结构化文档内容的管理和应用,更加充分发挥其应用与使用价值。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一实施例的结构化文档的生成方法流程示意图;
图2为本发明第二实施例的结构化文档的生成方法流程示意图;
图3为本发明第三实施例的结构化文档的生成装置结构示意图;
图4为图3所示关键词提取子模块的内部结构示意图。
具体实施方式
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面详细描述本发明的实施方式,通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本发明通过提取非结构化文档的属性和关键词,利用所提取的属性和关键词来构建与所述非结构化文档相对应的结构化文档,所述属性通常包括但不限于文档名称、文档页数、发布日期、文档格式、文档作者、文档发布单位、文档批准单位、文档版本等外部基本属性,是对原有的非结构化文档的属性描述,所述关键词基于自定义规则进行提取,是对原有的非结构化文档的内容描述。通过表达了属性描述的属性值和表达了内容描述的关键词共同构建结构化文档,形成一套完整的结构化文档,克服了传统非结构化文档普遍以文本形式存在、不利于实际操作和应用的缺点,更加充分发挥其应用与使用价值。下面结合具体的实施例及其附图,对本发明作详细的说明。
图1是本发明实施例的结构化文档的生成方法的流程图。
如图1所示,本实施例的结构化文档的生成方法,包括如下步骤:
步骤S11,采集非结构化文档。
本步骤中,非结构化文档采集过程,是将需要转换为结构化文档的非结构化文档收集上来,同时要确保文档完整清晰,具备可读性。对于非电子的文档,可以通过扫描、录入等方式将其转化为电子文档。这里的收集,可以是放置到一个特定的数据库中,或建立一个完整的树状文件夹。同时,可以对所收集的文档进行补步或简单的分类存放,并根据分类情况对所述非结构化文档赋予相应的外部属性值。
步骤S12,提取所述非结构化文档的属性。
本步骤中,所述非结构化文档的属性至少包括:文档名称、文档页数、发布日期、文档格式、文档作者、文档发布单位、文档批准单位、文档版本,上述各类属性可以根据需要进行任意选择和组合,也不仅仅限于上述属性,还可以是在采集的过程中添加的外部属性。
步骤S13,设定并提取所述非结构化文档的关键词。
本步骤中,设定和提取所述非结构化文档,进一步包括如下步骤:
步骤S131,预设自定义规则,在所述规则中预设关键词的级别。
本步骤中,进行自定义的内容,包括但不限于关键词的选取,在具体的实现中,从关键词的领域、分类等方面,设定关键词的选取规则。可以根据需要设定所述非结构化文档的关键词级别数,如三个级别,或四个级别。例如,当设定为三个级别时,可以是首要关键词级别、次要关键词级别,一般关键词级别,每个关键词级别中可以包括若干关键词,如每个级别中三个关键词或四个关键词。
步骤S132,根据所述自定义规则从所述非结构化文档中提取关键词。
在步骤S131设定完关键词提取的自定义规则后,从所述非结构化文档中提取关键词。
步骤S14,利用所述属性和所述关键词构建与所述非结构化文档对应的结构化文档。
本实施例的结构化文档生成方法,通过提取非结构化文档的包括但不限于文档名称、文档页数、发布日期、文档格式、文档作者、文档发布单位、文档批准单位、文档版本等属性和基于自定义规则提取的关键词,并利用所提取的属性和关键词来构建与所述非结构化文档相对应的结构化文档,形成一套完整的结构化文档,克服了传统非结构化文档普遍以文本形式存在、不利于实际操作和应用的缺点,通过结构化文档实现对原有的非结构化文档内容的管理和应用,更加充分发挥其应用与使用价值。
图2所示的本发明第二实施例的结构化文档的生成方法流程示意图。
如图2所示,本实施例的结构化文档的生成方法,是针对一篇《儿童学前教育分析报告》的非结构化文档,现在要将这篇非结构化文档生成或转换为结构化文档,包括如下步骤:
步骤S21,提取非结构文档《儿童学前教育分析报告》。
本步骤中,将所提取的非结构文档《儿童学前教育分析报告》储存在非结构化文档数据库中,同时确保文档完整清晰,具备可读性。
步骤S22,提取所述文档的属性,所提取的属性包括:文档名称、文档页数、发布日期、文档格式、文档作者、文档发布单位、文档批准单位、文档版本。
步骤S23,设定自定义规则,在自定义规则中设定三个关键词级别分别为首要关键词级别、次要关键词级别,一般关键词级别,每个关键词级别中设定为三个关键词,则依据所述设定的自定义规则提取出它的关键词分别为:
首要关键词:儿童、学前、教育;
次要关键词:心理、幼师、发育;
一般关键词:幼儿园、学前班、父母。
步骤S24,利用所述属性和所述关键词构建与所述非结构化文档对应的结构化文档。
构建文档结构化文档过程主要是将需要转换为结构化文档的非结构化文档的外部基本属性和自定义的三级关键词作为文档的结构化文档素材,将其转化为文档结构化文档。表1示出了所构建的结构化文档的基本结构。
表1
序号 类别 二级分类 数据内容
1 外部基本属性 文档名称 儿童学前教育分析报告
2 外部基本属性 文档页数 89
3 外部基本属性 发布日期 2014年10月10日
4 外部基本属性 文档格式 纸质
5 外部基本属性 文档作者 张三
6 外部基本属性 文档发布单位 XXX出版社
7 外部基本属性 文档批准单位 XXX出版社
8 外部基本属性 文档版本 3
9 自定义关键词 首要关键词1 儿童
10 自定义关键词 首要关键词2 学前
11 自定义关键词 首要关键词3 教育
12 自定义关键词 次要关键词1 心理
13 自定义关键词 次要关键词2 幼师
14 自定义关键词 次要关键词3 发育
15 自定义关键词 一般关键词1 幼儿园
16 自定义关键词 一般关键词2 学前班
17 自定义关键词 一般关键词3 父母
从表1中可以看出,通过所提取的属性和关键词,生成了结构化文档。生成结构化文档后,利用建立的上述关键词体系,通过设定的关键词条件对文档进行相应的检索。
本实施例通过提取包括但不限于非结构化文档的文档名称、文档页数、发布日期、文档格式、文档作者、文档发布单位、文档批准单位、文档版本等属性和基于自定义规则提取的关键词,并利用所提取的属性和关键词来构建与所述非结构化文档相对应的结构化文档,形成一套完整的结构化文档,克服了传统非结构化文档普遍以文本形式存在、不利于实际操作和应用的缺点,通过结构化文档实现对原有的非结构化文档内容的管理和应用,更加充分发挥其应用与使用价值。
图3所示为本发明第三实施例的结构化文档的生成装置示意图;图4所示为图3所示关键词提取子模块的内部结构示意图。
如图3所示,本实施例所述的结构化文档的生成装置,包括:
采集模块1,用于采集非结构化文档。
采集模块1采集非结构化文档时,将需要转换为结构化文档的非结构化文档收集上来,同时确保文档完整清晰,具备可读性。对于非电子的文档,可以通过扫描、录入等方式将其转化为电子文档。这里的收集,可以是放置到一个特定的数据库中,或建立一个完整的树状文件夹。同时,可以对所收集的文档进行补步或简单的分类存放,并根据分类情况对所述非结构化文档赋予相应的外部属性值。
属性提取模块2,与所述采集模块相连,用于提取所述非结构化文档的属性。
所述非结构化文档的属性至少包括:文档名称、文档页数、发布日期、文档格式、文档作者、文档发布单位、文档批准单位、文档版本,上述各类属性可以根据需要进行任意选择和组合,也不仅仅限于上述属性,还可以是在采集的过程中添加的外部属性。
关键词提取模块3,与所述采集模块相连,用于设定并提取所述非结构化文档的关键词。
如图4所示,所述关键词提取模块3,进一步包括:
规则预设子模块31,用于预设自定义规则,在所述规则中预设关键词的级别。规则预设子模块31可以根据需要设定所述非结构化文档的关键词级别数,如三个级别,或四个级别。例如,当设定为三个级别时,可以是首要关键词级别、次要关键词级别,一般关键词级别,每个关键词级别中可以包括若干关键词,如每个级别中三个关键词或四个关键词。
提取子模块32,用于根据所述自定义规则从所述非结构化文档中提取关键词。
构建模块4,与所述属性提取模块和所述关键词提取模块相连,用于利用所述属性和所述关键词构建与所述非结构化文档对应的结构化文档。
本实施例的结构化文档的生成装置,通过提取非结构化文档的包括但不限于文档名称、文档页数、发布日期、文档格式、文档作者、文档发布单位、文档批准单位、文档版本等属性和基于自定义规则提取的关键词,并利用所提取的属性和关键词来构建与所述非结构化文档相对应的结构化文档,形成一套完整的结构化文档,克服了传统非结构化文档普遍以文本形式存在、不利于实际操作和应用的缺点,通过结构化文档实现对原有的非结构化文档内容的管理和应用,更加充分发挥其应用与使用价值。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种结构化文档的生成方法,其特征在于,所述方法包括:
采集非结构化文档;
提取所述非结构化文档的属性;
设定并提取所述非结构化文档的关键词;
利用所述属性和所述关键词构建与所述非结构化文档对应的结构化文档。
2.根据权利要求1所述的结构化文档的生成方法,其特征在于,所述设定并提取所述非结构化文档的关键词,进一步包括:
预设自定义规则,在所述规则中预设关键词的级别;
根据所述自定义规则从所述非结构化文档中提取关键词。
3.根据权利要求2所述的结构化文档的生成方法,其特征在于,所述关键词的级别包括:首要关键词级别、次要关键词级别、一般关键词级别。
4.根据权利要求1至3任一项所述的结构化文档的生成方法,其特征在于,所述非结构化文档的属性至少包括:文档名称、文档页数、发布日期、文档格式、文档作者、文档发布单位、文档批准单位、文档版本。
5.一种结构化文档的生成装置,其特征在于,所述装置包括:
采集模块,用于采集非结构化文档;
属性提取模块,与所述采集模块相连,用于提取所述非结构化文档的属性;
关键词提取模块,与所述采集模块相连,用于设定并提取所述非结构化文档的关键词;
构建模块,与所述属性提取模块和所述关键词提取模块相连,用于利用所述属性和所述关键词构建与所述非结构化文档对应的结构化文档。
6.根据权利要求5所述的结构化文档的生成装置,其特征在于,所述关键词提取模块包括:
规则预设子模块,用于预设自定义规则,在所述规则中预设关键词的级别;
提取子模块,用于根据所述自定义规则从所述非结构化文档中提取关键词。
7.根据权利要求6所述的结构化文档的生成方法,其特征在于,所述关键词的级别包括:首要关键词级别、次要关键词级别、一般关键词级别。
8.根据权利要求5至7任一项所述的结构化文档的生成方法,其特征在于,所述非结构化文档的属性至少包括:文档名称、文档页数、发布日期、文档格式、文档作者、文档发布单位、文档批准单位、文档版本。
CN201510129472.1A 2015-03-24 2015-03-24 一种结构化文档的生成方法和系统 Pending CN104750801A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510129472.1A CN104750801A (zh) 2015-03-24 2015-03-24 一种结构化文档的生成方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510129472.1A CN104750801A (zh) 2015-03-24 2015-03-24 一种结构化文档的生成方法和系统

Publications (1)

Publication Number Publication Date
CN104750801A true CN104750801A (zh) 2015-07-01

Family

ID=53590485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510129472.1A Pending CN104750801A (zh) 2015-03-24 2015-03-24 一种结构化文档的生成方法和系统

Country Status (1)

Country Link
CN (1) CN104750801A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106230768A (zh) * 2016-06-16 2016-12-14 北京数智源科技股份有限公司 结构化视频管理系统
CN106446207A (zh) * 2016-09-30 2017-02-22 北京美到家科技有限公司 美妆库建库方法、个性化美妆辅助方法及其装置
CN107562921A (zh) * 2017-09-13 2018-01-09 张贝贝 一种按涉及借壳上市主题的pdf文件切割方法
CN108108342A (zh) * 2017-11-07 2018-06-01 汉王科技股份有限公司 结构化文本的生成方法、检索方法及装置
CN110263345A (zh) * 2019-06-26 2019-09-20 北京百度网讯科技有限公司 关键词提取方法、装置及存储介质
CN112488642A (zh) * 2020-11-20 2021-03-12 中国电建集团华东勘测设计研究院有限公司 一种基于结构化标签并以对象为核心的云端文件管理方法
CN115759035A (zh) * 2022-12-09 2023-03-07 成都明途科技有限公司 文本处理方法、装置、电子设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477568A (zh) * 2009-02-12 2009-07-08 清华大学 一种结构化数据和非结构化数据综合检索的方法
CN101853288A (zh) * 2010-05-19 2010-10-06 马晓普 基于文档实时监控可配置的全文检索服务系统
CN102346730A (zh) * 2010-07-30 2012-02-08 汉王科技股份有限公司 电子阅读器中显示目录的方法和装置
US20120278336A1 (en) * 2011-04-29 2012-11-01 Malik Hassan H Representing information from documents
CN103279506A (zh) * 2013-05-15 2013-09-04 云南电力试验研究院(集团)有限公司电力研究院 一种基于电力技术杂志论文非结构化数据提取的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477568A (zh) * 2009-02-12 2009-07-08 清华大学 一种结构化数据和非结构化数据综合检索的方法
CN101853288A (zh) * 2010-05-19 2010-10-06 马晓普 基于文档实时监控可配置的全文检索服务系统
CN102346730A (zh) * 2010-07-30 2012-02-08 汉王科技股份有限公司 电子阅读器中显示目录的方法和装置
US20120278336A1 (en) * 2011-04-29 2012-11-01 Malik Hassan H Representing information from documents
CN103279506A (zh) * 2013-05-15 2013-09-04 云南电力试验研究院(集团)有限公司电力研究院 一种基于电力技术杂志论文非结构化数据提取的方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106230768A (zh) * 2016-06-16 2016-12-14 北京数智源科技股份有限公司 结构化视频管理系统
CN106446207A (zh) * 2016-09-30 2017-02-22 北京美到家科技有限公司 美妆库建库方法、个性化美妆辅助方法及其装置
CN107562921A (zh) * 2017-09-13 2018-01-09 张贝贝 一种按涉及借壳上市主题的pdf文件切割方法
CN108108342A (zh) * 2017-11-07 2018-06-01 汉王科技股份有限公司 结构化文本的生成方法、检索方法及装置
CN108108342B (zh) * 2017-11-07 2021-09-03 汉王科技股份有限公司 结构化文本的生成方法、检索方法及装置
CN110263345A (zh) * 2019-06-26 2019-09-20 北京百度网讯科技有限公司 关键词提取方法、装置及存储介质
CN110263345B (zh) * 2019-06-26 2023-09-05 北京百度网讯科技有限公司 关键词提取方法、装置及存储介质
CN112488642A (zh) * 2020-11-20 2021-03-12 中国电建集团华东勘测设计研究院有限公司 一种基于结构化标签并以对象为核心的云端文件管理方法
CN112488642B (zh) * 2020-11-20 2024-03-12 中国电建集团华东勘测设计研究院有限公司 一种基于结构化标签并以对象为核心的云端文件管理方法
CN115759035A (zh) * 2022-12-09 2023-03-07 成都明途科技有限公司 文本处理方法、装置、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN104750801A (zh) 一种结构化文档的生成方法和系统
Mühleisen et al. Web Data Commons-Extracting Structured Data from Two Large Web Corpora.
Tangherlini The folklore macroscope: Challenges for a computational folkloristics
CN105701091B (zh) 一种基于语义的pdf文档的处理方法及处理装置
Drinkwater et al. The use of Optical Character Recognition (OCR) in the digitisation of herbarium specimen labels
Kumar et al. Discovering knowledge landscapes: an epistemic analysis of business and management field in Malaysia
CN102317943A (zh) 一种全文搜索的方法和装置
CN106354860A (zh) 基于标签集的信息资源自动贴标签并自动推送的方法
Brach et al. Why Are We Still Producing Paper Floras? 1
CN109614594B (zh) 一种将题目文档解析为题库数据的方法
Marhold et al. The future of botanical monography: Report from an international workshop, 12–16 March 2012, Smolenice, Slovak Republic
CN104636845A (zh) 一种带有云档案库的档案管理系统
CN109902215A (zh) 一种交易匹配的方法及系统
CN102999487B (zh) 一种数字出版资源语义增强描述系统及其方法
CN110852376B (zh) 用于识别生物种类的方法及系统
Molteno Digital repositories: making Africa’s intelligentsia visible
CN104008098A (zh) 基于多义性关键词的文本过滤方法及装置
KR20130092220A (ko) 소셜 시그널 기반의 온라인 미디어 재조직화 장치
CN105653660A (zh) 一种检索关键字的联想方法及装置
Tang Visualizing interdisciplinary citations to and from information and library science publications
Pani et al. An Approach to Multimedia Content Management.
Searcy et al. The Steven West Williams Herbarium: An Early 19th Century Plant Collection From Deerfield, Massachusetts
Hirokawa et al. Semi-automatic construction of metadata from a series of web documents
Kraemer Creating offline-capable web applications with real-time data synchronization by authoring HTML
Strötgen New information infrastructures for textbook research at the Georg Eckert Institute

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150701