CN105320716A - 数字出版物的自动标注方法 - Google Patents
数字出版物的自动标注方法 Download PDFInfo
- Publication number
- CN105320716A CN105320716A CN201410562853.4A CN201410562853A CN105320716A CN 105320716 A CN105320716 A CN 105320716A CN 201410562853 A CN201410562853 A CN 201410562853A CN 105320716 A CN105320716 A CN 105320716A
- Authority
- CN
- China
- Prior art keywords
- paragraph
- page
- key word
- digital publication
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明提供一种数字出版物的自动标注方法。包括如下步骤:解析文档:采用解析工具将pdf文档的页面进行解析,并将解析后数据合理的存储方便分词等后续处理调用;提取关键字:对照现有的关键字表,以段落为单位对文档的每一页的每一段进行关键字提取,并存入计算机系统;同义词归并:以段落为单位,在计算机系统内,对段落关键字进行同义词归并得到最终关键词;权值计算:利用计算机系统,为最终的关键字进行权值计算,并保存;带标注的电子文档:将得到的关键字及相关信息与页面数据关联形成标注信息,得到带标注的电子文档。本发明方法能够对数字出版物提供标注信息的查看,实现数字出版物的带标注预览和阅读方式,能够方便读者快速有效的查看文档中的主题信息。
Description
技术领域
本发明涉及数字出版物技术领域,尤其涉及到一种通过对数字出版文档内容进行分词处理,提取内部关键字获取标注信息的数字出版物的自动标注方法。
背景技术
网络的普及和发展使得数字出版物逐渐流行,但目前的数字出版物只提供单纯的版面阅读,甚至只是对纸质出版物的一种简单备份,还没有一个对电子出版物的内容进行提炼标注的形式来快速获取或者展现内容要素。
一方面,本模块提出的数字出版物的标注提供一种新的阅读和获取信息要素的方式;另一方面,这种标注为网络电子文档添加了标签,能为电子文档之间建立概念网络、本体库的建立提供有效的数据支撑。
发明内容
本发明所要解决的技术问题是正对上述存在的技术不足,提供一种对数字出版物提供标注信息的查看,实现数字出版物的带标注预览和阅读方式,能够方便读者快速有效的查看文档中的主题信息的数字出版物的自动标注方法。
本发明解决其技术问题所采用的技术方案是:
数字出版物的自动标注方法,其特征在于,包括如下步骤:
解析文档:在计算机系统中,采用解析工具将pdf文档的页面进行解析,解析之后可以获取到pdf文档的所有页面数据,通过目录、段落特征识别出目录页以及页面段落,并将这些数据合理的存储方便分词等后续处理调用。
提取关键字:对照现有的关键字表,以段落为单位对文档的每一页的每一段进行关键字提取,并存入计算机系统。
同义词归并:以段落为单位,在计算机系统内,对段落关键字进行同义词归并得到最终关键词。
权值计算:利用计算机系统,为最终的关键字进行权值计算,并保存。
带标注的电子文档:将得到的关键字及相关信息与页面数据关联形成标注信息,得到带标注的电子文档。
在上述方案中,所述的解析文档步骤中,对解析数据的再识具体为:对解析工具获取的解析数据,主要完成对文本行内容表示和目录页、段落开始于结束位置的识别;其中:
文本行表示:根据每行的每一个文字的两个定位点信息。将获取的页面数据流以“行”为单位存储到一个自定义行对象中,并将一整页的行数据存储到一页Arraylisl<>中,通过访问可以获取每一行中每一个字的内容和定位点信息。
目录页识别:根据目录格式的特性,对同一特殊字符出现超过10个的判定为目录页。
段落识别:根据段落格式的特性,每段开始都有2个汉字的空格即两个空个字符位,段落的结束刚好是下一段落开始前一行。
在上述方案中,所述的提取关键字具体为:采用ansj分词组件对pdf内容按段落分词并抽取出段落关键字。
在上述方案中,所述的同义词归并具体为:把抽取出的段落关键字通过同义词归并组件xsimilarity,进行两两对比计算词语前的相似度归并同义信息,减少标注信息冗余。
在上述方案中,所述的权值计算具体为:通过ansj提供的权值计算接口获取关键字权值,并将关键字和权值信息按段落关联方式存储。
在上述方案中,所述的带标注的电子文档具体为:将关键字和权值信息取出,按照段落相关的方式提供给用户查看。
本发明的原理是采用工具对pdf文档进行解析,在计算机系统中,对解析后的信息使用ansj组件按段落抽取关键字,对抽取出来的关键字使用xsimilarity组件两两对比进行同义词归并,采用ansj组件接口计算关键字权值存储数据库中,最后在电子文档中可以查看段落的带权重标注信息。
本发明的有益效果是:
能够对数字出版物提供标注信息的查看,实现数字出版物的带标注预览和阅读方式,能够方便读者快速有效的查看文档中的主题信息。
同时能为电子文档之间建立概念网络、本体库的建立提供有效的数据支撑。
附图说明
图1是本发明实施例的流程图。
具体实施方式
下面结合具体实施方式,对本发明作进一步的说明:
如图1所示的数字出版物的自动标注方法,包括如下步骤:
解析文档:采用解析工具将pdf文档的页面进行解析,解析之后可以获取到pdf文档的所有页面数据,通过目录、段落特征识别出目录页以及页面段落,并将这些数据合理的存储方便分词等后续处理调用。
提取关键字:对照现有的关键字表,以段落为单位对文档的每一页的每一段进行关键字提取,并存入计算机系统。
同义词归并:以段落为单位,在计算机系统内,对段落关键字进行同义词归并得到最终关键词。
权值计算:利用计算机系统,为最终的关键字进行权值计算,并保存。
带标注的电子文档:将得到的关键字及相关信息与页面数据关联形成标注信息,得到带标注的电子文档。
在本实施例中,所述的解析文档步骤中,对解析数据的再识具体为:对解析工具获取的解析数据,主要完成对文本行内容表示和目录页、段落开始于结束位置的识别;其中:
文本行表示:根据每行的每一个文字的两个定位点信息。将获取的页面数据流以“行”为单位存储到一个自定义行对象中,并将一整页的行数据存储到一页Arraylisl<>中,通过访问可以获取每一行中每一个字的内容和定位点信息。
目录页识别:根据目录格式的特性,对同一特殊字符出现超过10个的判定为目录页。
段落识别:根据段落格式的特性,每段开始都有2个汉字的空格即两个空个字符位,段落的结束刚好是下一段落开始前一行。
所述的提取关键字具体为:采用ansj分词组件对pdf内容按段落分词并抽取出段落关键字。
所述的同义词归并具体为:把抽取出的段落关键字通过同义词归并组件xsimilarity,进行两两对比计算词语前的相似度归并同义信息,减少标注信息冗余。
所述的权值计算具体为:通过ansj提供的权值计算接口获取关键字权值,并将关键字和权值信息按段落关联方式存储。
所述的带标注的电子文档具体为:将关键字和权值信息取出,按照段落相关的方式提供给用户查看。
本发明实施例是采用工具对pdf文档进行解析,在计算机系统中,对解析后的信息使用ansj组件按段落抽取关键字,对抽取出来的关键字使用xsimilarity组件两两对比进行同义词归并,采用ansj组件接口计算关键字权值存储数据库中,最后在电子文档中可以查看段落的带权重标注信息。
本发明的保护范围并不限于上述的实施例,显然,本领域的技术人员可以对本发明进行各种改动和变形而不脱离本发明的范围和精神。倘若这些改动和变形属于本发明权利要求及其等同技术的范围内,则本发明的意图也包含这些改动和变形在内。
Claims (6)
1.数字出版物的自动标注方法,其特征在于,包括如下步骤:
解析文档:在计算机系统中,采用解析工具将pdf文档的页面进行解析,解析之后可以获取到pdf文档的所有页面数据,通过目录、段落特征识别出目录页以及页面段落,并将这些数据合理的存储方便分词等后续处理调用;
提取关键字:对照现有的关键字表,以段落为单位对文档的每一页的每一段进行关键字提取,并存入计算机系统;
同义词归并:以段落为单位,在计算机系统内,对段落关键字进行同义词归并得到最终关键词;
权值计算:利用计算机系统,为最终的关键字进行权值计算,并保存;
带标注的电子文档:将得到的关键字及相关信息与页面数据关联形成标注信息,得到带标注的电子文档。
2.如权利要求1所述的数字出版物的自动标注方法,其特征在于:所述的解析文档步骤中,对解析数据的再识具体为:对解析工具获取的解析数据,主要完成对文本行内容表示和目录页、段落开始于结束位置的识别;其中:
文本行表示:根据每行的每一个文字的两个定位点信息。
3.将获取的页面数据流以“行”为单位存储到一个自定义行对象中,并将一整页的行数据存储到一页Arraylisl<>中,通过访问可以获取每一行中每一个字的内容和定位点信息;
目录页识别:根据目录格式的特性,对同一特殊字符出现超过10个的判定为目录页;
段落识别:根据段落格式的特性,每段开始都有2个汉字的空格即两个空个字符位,段落的结束刚好是下一段落开始前一行;
如权利要求1所述的数字出版物的自动标注方法,其特征在于:所述的提取关键字具体为:采用ansj分词组件对pdf内容按段落分词并抽取出段落关键字。
4.如权利要求1所述的数字出版物的自动标注方法,其特征在于:所述的同义词归并具体为:把抽取出的段落关键字通过同义词归并组件xsimilarity,进行两两对比计算词语前的相似度归并同义信息,减少标注信息冗余。
5.如权利要求1所述的数字出版物的自动标注方法,其特征在于:所述的权值计算具体为:通过ansj提供的权值计算接口获取关键字权值,并将关键字和权值信息按段落关联方式存储。
6.如权利要求1所述的数字出版物的自动标注方法,其特征在于:所述的带标注的电子文档具体为:将关键字和权值信息取出,按照段落相关的方式提供给用户查看。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410562853.4A CN105320716A (zh) | 2014-10-22 | 2014-10-22 | 数字出版物的自动标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410562853.4A CN105320716A (zh) | 2014-10-22 | 2014-10-22 | 数字出版物的自动标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105320716A true CN105320716A (zh) | 2016-02-10 |
Family
ID=55248115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410562853.4A Pending CN105320716A (zh) | 2014-10-22 | 2014-10-22 | 数字出版物的自动标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105320716A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273391A (zh) * | 2016-04-08 | 2017-10-20 | 北京国双科技有限公司 | 文书推荐方法和装置 |
WO2020133186A1 (zh) * | 2018-12-28 | 2020-07-02 | 深圳市世强元件网络有限公司 | 一种文档信息提取方法、存储介质及终端 |
-
2014
- 2014-10-22 CN CN201410562853.4A patent/CN105320716A/zh active Pending
Non-Patent Citations (4)
Title |
---|
常平梅: "一种多本体支持的语义标注模型的研究", 《中国优秀硕士学位论文全文数据库》 * |
李济洪等: "汉语框架语义角色的自动标注", 《软件学报》 * |
毛平: "基于领域本体的文本信息语义检索研究", 《中国优秀硕士学位论文全文数据库》 * |
魏慧斌: "基于XML的古籍信息标注", 《汕头大学学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273391A (zh) * | 2016-04-08 | 2017-10-20 | 北京国双科技有限公司 | 文书推荐方法和装置 |
WO2020133186A1 (zh) * | 2018-12-28 | 2020-07-02 | 深圳市世强元件网络有限公司 | 一种文档信息提取方法、存储介质及终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109062874B (zh) | 财政数据的获取方法、终端设备及介质 | |
CN108874928B (zh) | 简历数据信息解析处理方法、装置、设备及存储介质 | |
CN110083805B (zh) | 一种将Word文件转换为EPUB文件的方法及系统 | |
KR101435265B1 (ko) | 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법 | |
CN102053991B (zh) | 用于多语言文档检索的方法及系统 | |
US20120278705A1 (en) | System and Method for Automatically Extracting Metadata from Unstructured Electronic Documents | |
CN102270206A (zh) | 一种有效网页内容的抓取方法及装置 | |
CN107341143B (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
CN106980664B (zh) | 一种双语可比较语料挖掘方法及装置 | |
CN102541948A (zh) | 用于提取文档结构的方法和装置 | |
CN104699785A (zh) | 一种论文相似度检测方法 | |
US10152540B2 (en) | Linking thumbnail of image to web page | |
CN102523533A (zh) | 视频内容关联的在线视频广告管理方法 | |
CN101008940A (zh) | 自动处理字体缺失的方法与装置 | |
CN111078839A (zh) | 一种用于裁判文书的结构化处理方法及处理装置 | |
CN110704608A (zh) | 文本主题生成方法、装置和计算机设备 | |
JP2009506394A5 (zh) | ||
CN104252446A (zh) | 计算装置、文件内容一致性验证系统及方法 | |
CN105608137A (zh) | 一种提取身份标识的方法和装置 | |
US20120109638A1 (en) | Electronic device and method for extracting component names using the same | |
CN105320716A (zh) | 数字出版物的自动标注方法 | |
CN108334800B (zh) | 印章图像的处理装置、方法以及电子设备 | |
CN105573981A (zh) | 一种提取中文人名地名的方法及装置 | |
CN105574004A (zh) | 一种网页去重方法和设备 | |
Bień | The IMPACT project Polish Ground-Truth texts as a DjVu corpus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160210 |
|
RJ01 | Rejection of invention patent application after publication |