CN103136258A - 知识条目的提取方法和装置 - Google Patents

知识条目的提取方法和装置 Download PDF

Info

Publication number
CN103136258A
CN103136258A CN2011103906550A CN201110390655A CN103136258A CN 103136258 A CN103136258 A CN 103136258A CN 2011103906550 A CN2011103906550 A CN 2011103906550A CN 201110390655 A CN201110390655 A CN 201110390655A CN 103136258 A CN103136258 A CN 103136258A
Authority
CN
China
Prior art keywords
knowledge entry
content
rule
metadata
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103906550A
Other languages
English (en)
Other versions
CN103136258B (zh
Inventor
李少明
翟因为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201110390655.0A priority Critical patent/CN103136258B/zh
Publication of CN103136258A publication Critical patent/CN103136258A/zh
Application granted granted Critical
Publication of CN103136258B publication Critical patent/CN103136258B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种知识条目的提取方法,包括:提供控件以接受用户输入内容资源;以预设的规则从内容资源中识别知识条目的内容;将内容提取为知识条目。本发明提供了一种知识条目的提取装置,包括:控件模块,用于提供控件以接受用户输入内容资源;识别模块,用于以预设的规则从内容资源中识别知识条目的内容;提取模块,用于将内容提取为知识条目。本发明提高了处理知识条目的效率。

Description

知识条目的提取方法和装置
技术领域
本发明涉及数字出版领域,具体而言,涉及知识条目的提取方法和装置。
背景技术
在数字化出版中,将传统的内容资源通过结构化提取操作,转换成知识条目,知识条目的结构可以包括:元数据、标引数据和条目数据。元数据可以包括:标题、Id、作者、创建时间;标引数据可以包括:分类、出处、所属项目;条目数据可以包括:条头、正文、释义。
目前的数字出版领域中,知识条目信息分散在不同的内容资源之中,知识条目内容收集和整理工作是通过繁杂的手工方式来进行的。具体来说,是通过分析历史排版文件、网页或者桌面应用程序等内容资源的内容,手工识别并获取知识条目内容,然后在文档编辑软件中对知识条目内容进行整理,最后将整理后的知识条目内容入库。该方法的具体步骤如下:
步骤1、分析知识条目内容资源的内容,确定要提取知识条目内容的资源位置。知识条目内容可能来自不同的内容资源,如历史排版文件的章节、一封邮件的正文或一个网页的段落。
步骤2、收集知识条目内容。将步骤1定位的知识条目内容(文字、图片等)手工拷贝到文档编辑软件,并添加知识条目内容的标注信息,如作者、出处、引用文献、相关知识条目等。
步骤3、将收集到的多个知识条目按照不同的专题,分类整理成多份文档,并将这些文档导出或发布。
基于上述方法的知识条目内容处理系统,必须首先分析内容资源的内容,逐个知识条目地识别内容,并以手工的方式获取内容和添加标引数据。这样的操作方式比较繁琐,容易遗漏有用的信息。另一方面,上述方法一般采用Word等专有的编辑软件整理知识条目,仅对知识条目的内容进行整理,而忽略了知识条目之间的内在联系。现有方法无法标识出知识条目之间的引用关系。如果一个知识条目被多个知识条目引用,被引用知识条目内容会重复出现。而且,当修改被引用知识条目时,引用知识条目并不能同步更新。
综上所述,该方法无法有效和方便地获取知识条目内容,并且不能保留知识条目之间的内在联系,从而给知识条目的复用、重组带来了困难。
发明内容
本发明旨在提供一种知识条目的提取方法和装置,以解决相关技术上述的问题。
在本发明的实施例中,提供了一种知识条目的提取方法,包括:提供控件以接受用户输入内容资源;以预设的规则从内容资源中识别知识条目的内容;将内容提取为知识条目。
在本发明的实施例中,提供了一种知识条目的提取装置,包括:控件模块,用于提供控件以接受用户输入内容资源;识别模块,用于以预设的规则从内容资源中识别知识条目的内容;提取模块,用于将内容提取为知识条目。
本发明上述实施例的知识条目的提取方法和装置根据规则自动地识别和获取不同内容资源的知识条目的内容,所以解决了相关技术获取知识条目内容费时费力容易出错的问题,提高了处理知识条目的效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明实施例的用于收集和整理知识条目内容的方法的流程图;
图2示出了根据本发明实施例的用于收集和整理知识条目内容的装置的示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
图1示出了根据本发明实施例的用于收集和整理知识条目内容的方法的流程图,包括:
步骤S10,提供控件以接受用户输入内容资源;
步骤S20,以预设的规则从内容资源中识别知识条目的内容;
步骤S30,将内容提取为知识条目。
相关技术依靠人工方式分析内容资源的内容和获取知识条目内容,容易出错,且费时费力。根据规则自动地识别和获取不同内容资源的知识条目的内容,而规则很容易通过计算机编程来实现,所以解决了相关技术获取知识条目内容费时费力容易出错的问题,提高了处理知识条目的效率。
知识条目还可以选择不同的格式(TEXT、HTML、PDF)批量导出。进一步地,导出的知识条目还可以导入到知识库,或者与在线存储系统进行同步。
优选地,步骤S10包括:控件呈现编辑界面;控件在编辑界面中接受用户的鼠标拖拽操作所输入的内容资源。
优选地,步骤S20包括:获取内容资源的原始内容;识别原始内容的类型;读取类型对应的规则;以所读取的规则从原始内容中识别知识条目的内容。
优选地,根据原始内容的格式特征确定原始内容的类型是HTML文件、XML文件、txt文件、或doc文件。
优选地,识别原始内容的类型是xml文件,规则包括元数据规则和内容数据规则,以所读取的规则从原始内容中识别知识条目的内容包括:根据元数据规则在原始内容中识别知识条目的元数据,根据内容数据规则在原始内容中识别知识条目的正文。
根据元数据规则在原始内容中识别元数据可以包括识别xml文件中<title>标签中的内容为知识条目的元数据中的标题,<author>标签中的内容为知识条目的元数据中的作者字段。根据内容数据规则在原始内容中识别正文包括识别xml文件中<body>标签中的内容为知识条目的正文。
元数据规则可以用于提取知识条目的元数据中的标题、修改日期字段、来源字段等,内容数据规则用于提取知识条目的正文。每个字段的提取规则可以根据不同数据格式用不同方式描述,如XML数据用XPath描述,普通文本数据用正则表达式描述。完整的提取规则用XML格式描述和存储。例如,维基百科知识条目的数据提取规则如下所示:
又例如,识别原始内容的类型是txt文件,规则可以包括:提取第一段文字为知识条目的元数据中的标题字段,提取后续文字为知识条目的内容属性。
例如,识别原始内容的类型是doc文件,规则可以包括:提取特定字体和字号的文字为知识条目的元数据中的标题字段,提取另一字体和字号的文字为知识条目的内容属性。
例如,识别原始内容的类型是html文件的规则如下,可以通过字体去确定条目元数据内容。
Figure BSA00000625376500061
以上多种内容资源有着不同的内容收集方式,分别实现相应的收集功能。
优选地,步骤S30包括:创建唯一标识;分别将各个标识、相关联的元数据和正文各自构建为一个知识条目。
优选地,步骤S30还包括:识别当前知识条目中的热词;将当前知识条目的正文与其他知识条目的元数据中的标题进行匹配,若能匹配则在正文的匹配文字处创建指向标题的链接;为知识条目添加标引数据项。
例如,创建的知识条目文档是XML文件,这种格式包含了知识条目的元数据、正文和标引数据项,如下所示:
优选地,本方法还包括:提供编辑工具以接受对知识条目的修改;编辑工具包括以下至少一个功能:允许通过当前知识条目的元数据中的名称引用其它知识条目;允许选中文字直接创建新的知识条目;允许鼠标拖拽一个知识条目的元数据中的标题至当前知识条目的内部之中,并在当前知识条目中创建一个包含标记以链接标题;允许鼠标拖拽一个知识条目的元数据中的标题或被拖拽的知识条目的正文至当前知识条目的内部之中,如果当前知识条目的元数据中的标题或当前知识条目的正文被修改,则相应地更新被拖拽的知识条目的内容中。
例如创建一个包含标记以链接标题,实施例如下:
Figure BSA00000625376500081
通过采用上述方式,多个知识条目的内容中包含同一个知识条目时,无须拷贝被包含知识条目的内容。当被包含知识条目更新内容时,也无须更新其它知识条目的内容。删除一个知识条目时,编辑工具会同步更新引用或包含该知识条目的其它知识条目内容。
该优先实施例的操作方法很简单,很容易通过普通用户来执行。
利用上述方法收集整理的知识条目可以批量导出或入到数据库,为后端的数字出版、网站发布系统提供统一的数据格式,实现数字出版业的自动流程。
另外,在本发明的实施例中还可以包含步骤:在编辑工具中对知识条目内容进行文本查找,以加快定位知识条目的效率;显示当前知识条目的引用知识条目与被引用知识条目,以方便对相关知识条目进行查看与修改;与在线存储系统连接,实时同步知识条目内容。
图2示出了根据本发明实施例的用于收集和整理知识条目内容的装置的示意图,包括:
控件模块10,用于提供控件以接受用户输入内容资源;
识别模块20,用于以预设的规则从内容资源中识别知识条目的内容;
提取模块30,用于将内容提取为知识条目。
本提取装置提高了处理知识条目的效率。
从以上的描述中可以看出,本发明上述的实施例提高了处理知识条目的效率。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种知识条目的提取方法,其特征在于,包括:
提供控件以接受用户输入内容资源;
以预设的规则从所述内容资源中识别知识条目的内容;
将所述内容提取为所述知识条目。
2.根据权利要求1所述的方法,其特征在于,提供控件以接受用户输入内容资源包括:
所述控件呈现编辑界面;
所述控件在所述编辑界面中接受用户的鼠标拖拽操作所输入的内容资源。
3.根据权利要求1所述的方法,其特征在于,以预设的规则从所述内容资源中识别知识条目的内容包括:
获取所述内容资源的原始内容;
识别所述原始内容的类型;
读取所述类型对应的规则;
以所读取的规则从所述原始内容中识别所述知识条目的内容。
4.根据权利要求3所述的方法,其特征在于,根据所述原始内容的格式特征确定所述原始内容的类型是HTML文件、XML文件、txt文件、或doc文件。
5.根据权利要求3所述的方法,其特征在于,识别所述原始内容的类型是xml文件,所述规则包括元数据规则和内容数据规则,以所读取的规则从所述原始内容中识别所述知识条目的内容包括:
根据所述元数据规则在所述原始内容中识别所述知识条目的元数据,根据所述内容数据规则在所述原始内容中识别所述知识条目的正文。
6.根据权利要求5所述的方法,其特征在于,将所述内容提取为所述知识条目包括:
创建唯一标识;
分别将各个所述标识、相关联的元数据和正文各自构建为一个知识条目。
7.根据权利要求6所述的方法,其特征在于,将所述内容提取为所述知识条目还包括:
识别当前所述知识条目中的热词;
将所述当前知识条目的正文与其他所述知识条目的元数据中的标题进行匹配,若能匹配则在所述正文的匹配文字处创建指向所述标题的链接;
为所述知识条目添加标引数据项。
8.根据权利要求1所述的方法,其特征在于,还包括:
提供编辑工具以接受对所述知识条目的修改;
所述编辑工具包括以下至少一个功能:
允许通过当前所述知识条目的元数据中的名称引用其它所述知识条目;
允许选中文字直接创建新的知识条目;
允许鼠标拖拽一个所述知识条目的元数据中的标题至当前所述知识条目的内部之中,并在所述当前知识条目中创建一个包含标记以链接所述标题;
允许鼠标拖拽一个所述知识条目的元数据中的标题或所述被拖拽的知识条目的正文至当前所述知识条目的内部之中,如果所述当前知识条目的元数据中的标题或所述当前知识条目的正文被修改,则相应地更新所述被拖拽的知识条目的内容中。
9.一种知识条目的提取装置,其特征在于,包括:
控件模块,用于提供控件以接受用户输入内容资源;
识别模块,用于以预设的规则从所述内容资源中识别知识条目的内容;
提取模块,用于将所述内容提取为所述知识条目。
10.根据权利要求9所述的装置,其特征在于,所述规则包括元数据规则和内容数据规则,所述识别模块根据所述元数据规则在所述原始内容中识别元数据,根据所述内容数据规则在所述原始内容中识别正文。
CN201110390655.0A 2011-11-30 2011-11-30 知识条目的提取方法和装置 Expired - Fee Related CN103136258B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110390655.0A CN103136258B (zh) 2011-11-30 2011-11-30 知识条目的提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110390655.0A CN103136258B (zh) 2011-11-30 2011-11-30 知识条目的提取方法和装置

Publications (2)

Publication Number Publication Date
CN103136258A true CN103136258A (zh) 2013-06-05
CN103136258B CN103136258B (zh) 2016-08-17

Family

ID=48496092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110390655.0A Expired - Fee Related CN103136258B (zh) 2011-11-30 2011-11-30 知识条目的提取方法和装置

Country Status (1)

Country Link
CN (1) CN103136258B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991083A (zh) * 2017-03-20 2017-07-28 珠海格力电器股份有限公司 一种电子文档处理的方法及装置
CN110765239A (zh) * 2019-10-29 2020-02-07 腾讯科技(深圳)有限公司 热词识别方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050010860A1 (en) * 2000-02-23 2005-01-13 Yuval Weiss Systems and methods for generating and providing previews of electronic files such as Web files
CN101673256A (zh) * 2008-09-11 2010-03-17 北大方正集团有限公司 一种基于文字流的文章元数据信息自动抽取方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050010860A1 (en) * 2000-02-23 2005-01-13 Yuval Weiss Systems and methods for generating and providing previews of electronic files such as Web files
CN101673256A (zh) * 2008-09-11 2010-03-17 北大方正集团有限公司 一种基于文字流的文章元数据信息自动抽取方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张红春: "中文维基百科的结构化信息抽取及词语相关度计算", 《CNKI数据库》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991083A (zh) * 2017-03-20 2017-07-28 珠海格力电器股份有限公司 一种电子文档处理的方法及装置
CN110765239A (zh) * 2019-10-29 2020-02-07 腾讯科技(深圳)有限公司 热词识别方法、装置及存储介质
CN110765239B (zh) * 2019-10-29 2023-03-28 腾讯科技(深圳)有限公司 热词识别方法、装置及存储介质

Also Published As

Publication number Publication date
CN103136258B (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
US10067931B2 (en) Analysis of documents using rules
CN101361063A (zh) 支持基于规则的文档内容挖掘的系统与方法
US20080306941A1 (en) System for automatically extracting by-line information
US10042880B1 (en) Automated identification of start-of-reading location for ebooks
CN101432733A (zh) 利用来自搜索的所检索数据来增加电子文档的内容
Elizarov et al. Scientific documents ontologies for semantic representation of digital libraries
CN109446410A (zh) 知识点推送方法、装置及计算机可读存储介质
Tiepmar et al. A new implementation for canonical text services
CN102959538A (zh) 给文档编索引
US8584007B2 (en) Information processing method, information processing apparatus, and program
CN103136258A (zh) 知识条目的提取方法和装置
KR101798475B1 (ko) 다중 플랫폼 지원 다국어 웹문서 출판 시스템
CN107301180A (zh) 一种文档结构的分析方法和装置
Bień The IMPACT project Polish Ground-Truth texts as a DjVu corpus
Rupp et al. Flexible interfaces in the application of language technology to an eScience corpus
US8170270B2 (en) Universal reader
Burget Hierarchies in html documents: Linking text to concepts
Lommel et al. Tbx-min: a simplified tbx-based approach to representing bilingual glossaries
Salmon-Alt et al. Towards a Reference Annotation Framework.
Olivié et al. Issues in Automatic Learning Object Indexation
Bel et al. Mining and exploiting domain-specific corpora in the PANACEA platform
Chun-Long et al. Extraction technology of blog comments based on functional semantic units
Hung-Ngo et al. A visualizing annotation tool for semi-automatically building a bilingual corpus
Chang Feature-Based Summarization Method for a Large Opinion Documents Collection
Singh A mechanism to provide language-encoding support and an nlp friendly editor

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160817

Termination date: 20191130