CN110737855A - 一种不可复制文字网页内文字的提取方法 - Google Patents

一种不可复制文字网页内文字的提取方法 Download PDF

Info

Publication number
CN110737855A
CN110737855A CN201910826556.9A CN201910826556A CN110737855A CN 110737855 A CN110737855 A CN 110737855A CN 201910826556 A CN201910826556 A CN 201910826556A CN 110737855 A CN110737855 A CN 110737855A
Authority
CN
China
Prior art keywords
characters
character
extracting
document
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910826556.9A
Other languages
English (en)
Inventor
赵廷江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201910826556.9A priority Critical patent/CN110737855A/zh
Publication of CN110737855A publication Critical patent/CN110737855A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种不可复制文字网页内文字的提取方法,步骤一、提取文字的排版设计;步骤二、网页内图像的提取;步骤三、图片内文字的转换;步骤四、图片中提取出文字的校对修订;步骤五、提取过程中文件的清理,新建一个文字提取文件夹,新建一个文档命名为文字提取文档,本发明涉及计算机技术领域。该不可复制文字网页内文字的提取方法,使用者在需要对网页内文字进行提取时,只需通过软件后台进行设定,即可自动对需要提取的文字进行转化提取,可以快速的将使用者需要提取的出文字进行提取,并且提取出来的文本为经过校对排版后的文本,无需使用者后期过多的润色加工,可以快速获取使用者需求的信息,节约了使用者的时间。

Description

一种不可复制文字网页内文字的提取方法
技术领域
本发明涉及计算机技术领域,具体为一种不可复制文字网页内文字的提取方法。
背景技术
网页是构成网站的基本元素,是承载各种网站应用的平台,通俗地说,您的网站就是由网页组成的,如果您只有域名和虚拟主机而没有制作任何网页的话,您的客户仍旧无法访问您的网站,网页是一个包含HTML标签的纯文本文件,它可以存放在世界某个角落的某一台计算机中,是万维网中的一页,网页通常用图像档来提供图画,网页要通过网页浏览器来阅读,文字与图片是构成一个网页的两个最基本的元素,你可以简单地理解为:文字,就是网页的内容,图片,就是网页的美观,除此之外,网页的元素还包括动画、音乐、程序等等,在网页上点击鼠标右键,选择菜单中的查看源文件,就可以通过记事本看到网页的实际内容,可以看到网页实际上只是一个纯文本文件,它通过各式各样的标记对页面上的文字、图片、表格、声音等元素进行描述(例如字体、颜色、大小),而浏览器则对这些标记进行解释并生成页面,于是就得到你现在所看到的画面,为什么在源文件看不到任何图片,网页文件中存放的只是图片的链接位置,而图片文件与网页文件是互相独立存放的,甚至可以不在同一台计算机,网页通常有以下元素:文字资料图像档案Applet超链接网页的合成体为网站,一个网站的开始点为首页,当你每次上网时,都会在历史记录里留下记录,并且被保存在浏览器的缓存文件夹里,删除时只要右键删除就可以了。
人们在进行学习或者偏写时需要查阅一些资料,有时需要对网页上的文字进行复制,但是现有的一部分网页内的文字都处于不可复制状态,复制完成之后,内部含有大量的乱码,需要大量的时间进行调整才可得到完整无误的文字信息,耗费了使用者大量的时间,降低了工作效率。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种不可复制文字网页内文字的提取方法,解决了现有的一部分网页内的文字都处于不可复制状态,复制完成之后,内部含有大量的乱码,需要大量的时间进行调整才可得到完整无误的文字信息,耗费了使用者大量的时间,降低了工作效率的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种不可复制文字网页内文字的提取方法,具体包括以下步骤:
步骤一、提取文字的排版设计:新建一个文字提取文件夹,并且在文件夹内新建一个空文档命名为文字提取文档,在文字提取文档内输入字符X,设定好X的字号和字体;
步骤二、网页内图像的提取:打开需要提取内部文字信息的网页,后台通过系统自带的截图工具选定网页中文字段,按照每六行一次的顺序对网页中的文字进行截图,根据先后顺序从1、2…N进行编号后保存到步骤一中的文字提取文件夹内,并且按照序号的从小到大进行排序;
步骤三、图片内文字的转换:将步骤二中文字提取文件夹内编过号的图片格式转换为PDF格式,并且通过PDF文件的文字识别提取功能首先对序号为1的PDF文件进行文字提取,提取出来的文字剪切到步骤一中新建的文字提取文档内,后依次对序号为2、3…N的PDF文件内的文字信息进行提取,并且将提取的文字依次剪切粘贴在文字提取文档内上一个序号PDF文件提取出的文字后方,进行排列;
步骤四、图片中提取出文字的校对修订:选中步骤一种事先设定好的字符X,通过格式刷对文字提取文档内步骤三中粘贴的文字进行字号和字体的统一,之后通过文档的文档校对功能对文档内的文字进行纠错,将文档内的乱码全部进行删除处理,并且将未处理完毕的疑似错误文字进行标红处理,并且将文档中的空格全部标注为红色*号,此时网页内的文字提取完毕;
步骤五、提取过程中文件的清理:将步骤三中转换完毕的PDF图片进行统一删除处理,并且将回收站内的文件进行粉碎,完成收尾工作。
优选的,所述步骤一中字符X的具体型号根据使用者的需求自行调整。
优选的,所述步骤二中截图选择行数可根据网页内文字清晰度进行自行调整。
优选的,所述步骤三中进行PDF格式转换的软件使用者根据自身使用习惯进行选择。
优选的,所述步骤四中的乱码为非中英文文字和符号。
优选的,所述步骤一中的字符X在步骤四完成之后进行删除。
优选的,所述步骤四中校对完成的文字进行首行缩进处理。
优选的,所述步骤四中标红的文字使用者后期自行进行处理。
(三)有益效果
本发明提供了一种不可复制文字网页内文字的提取方法。与现有技术相比,具备以下有益效果:
(1)、该不可复制文字网页内文字的提取方法,通过在步骤一、提取文字的排版设计:新建一个文字提取文件夹,并且在文件夹内新建一个空文档命名为文字提取文档,在文字提取文档内输入字符X,步骤一中的字符X在步骤四完成之后进行删除,设定好X的字号和字体,步骤一中字符X的具体型号根据使用者的需求自行调整,步骤二、网页内图像的提取:打开需要提取内部文字信息的网页,后台通过系统自带的截图工具选定网页中文字段,按照每六行一次的顺序对网页中的文字进行截图,步骤二中截图选择行数可根据网页内文字清晰度进行自行调整,根据先后顺序从1、2…N进行编号后保存到步骤一中的文字提取文件夹内,并且按照序号的从小到大进行排序,步骤三、图片内文字的转换:将步骤二中文字提取文件夹内编过号的图片格式转换为PDF格式,步骤三中进行PDF格式转换的软件使用者根据自身使用习惯进行选择,并且通过PDF文件的文字识别提取功能首先对序号为1的PDF文件进行文字提取,提取出来的文字剪切到步骤一中新建的文字提取文档内,后依次对序号为2、3…N的PDF文件内的文字信息进行提取,并且将提取的文字依次剪切粘贴在文字提取文档内上一个序号PDF文件提取出的文字后方,进行排列,使用者在需要对网页内文字进行提取时,只需通过软件后台进行设定,即可自动对需要提取的文字进行转化提取,可以快速的将使用者需要提取的出文字进行提取,并且提取出来的文本为经过校对排版后的文本,无需使用者后期过多的润色加工,可以快速获取使用者需求的信息,节约了使用者的时间。
(2)、该不可复制文字网页内文字的提取方法,通过在步骤四、图片中提取出文字的校对修订:选中步骤一种事先设定好的字符X,通过格式刷对文字提取文档内步骤三中粘贴的文字进行字号和字体的统一,之后通过文档的文档校对功能对文档内的文字进行纠错,将文档内的乱码全部进行删除处理,步骤四中的乱码为非中英文文字和符号,并且将未处理完毕的疑似错误文字进行标红处理,并且将文档中的空格全部标注为红色*号,步骤四中标红的文字使用者后期自行进行处理,此时网页内的文字提取完毕,步骤四中校对完成的文字进行首行缩进处理,提取出来的文本,经过校对处理,将文本内的乱码删除,并且根据使用者的需求事先进行字号和字体的更改,对于系统不能判断是否为错误的文本进行标红处理,使用者后期自行对文本进行简单的更改即可,可以防止系统误操作将文档中重要信息删除。
(3)、该不可复制文字网页内文字的提取方法,通过在步骤五、提取过程中文件的清理:将步骤三中转换完毕的PDF图片进行统一删除处理,并且将回收站内的文件进行粉碎,完成收尾工作,在文字提取完毕后,将文字提取过程中产生的图片和PDF文件全部进行删除处理,可以快速的将文字提取中产生的缓存文件出去,不会对系统产生负担。
附图说明
图1为本发明的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种技术方案:一种不可复制文字网页内文字的提取方法,具体包括以下步骤:
步骤一、提取文字的排版设计:新建一个文字提取文件夹,并且在文件夹内新建一个空文档命名为文字提取文档,在文字提取文档内输入字符X,步骤一中的字符X在步骤四完成之后进行删除,设定好X的字号和字体,步骤一中字符X的具体型号根据使用者的需求自行调整;
步骤二、网页内图像的提取:打开需要提取内部文字信息的网页,后台通过系统自带的截图工具选定网页中文字段,按照每六行一次的顺序对网页中的文字进行截图,步骤二中截图选择行数可根据网页内文字清晰度进行自行调整,根据先后顺序从1、2…N进行编号后保存到步骤一中的文字提取文件夹内,并且按照序号的从小到大进行排序;
步骤三、图片内文字的转换:将步骤二中文字提取文件夹内编过号的图片格式转换为PDF格式,步骤三中进行PDF格式转换的软件使用者根据自身使用习惯进行选择,并且通过PDF文件的文字识别提取功能首先对序号为1的PDF文件进行文字提取,提取出来的文字剪切到步骤一中新建的文字提取文档内,后依次对序号为2、3…N的PDF文件内的文字信息进行提取,并且将提取的文字依次剪切粘贴在文字提取文档内上一个序号PDF文件提取出的文字后方,进行排列;
步骤四、图片中提取出文字的校对修订:选中步骤一种事先设定好的字符X,通过格式刷对文字提取文档内步骤三中粘贴的文字进行字号和字体的统一,之后通过文档的文档校对功能对文档内的文字进行纠错,将文档内的乱码全部进行删除处理,步骤四中的乱码为非中英文文字和符号,并且将未处理完毕的疑似错误文字进行标红处理,并且将文档中的空格全部标注为红色*号,步骤四中标红的文字使用者后期自行进行处理,此时网页内的文字提取完毕,步骤四中校对完成的文字进行首行缩进处理;
步骤五、提取过程中文件的清理:将步骤三中转换完毕的PDF图片进行统一删除处理,并且将回收站内的文件进行粉碎,完成收尾工作。
进行文字的提取时,新建一个文字提取文件夹,并且在文件夹内新建一个空文档命名为文字提取文档,在文字提取文档内输入字符X,设定好X的字号和字体,打开需要提取内部文字信息的网页,后台通过系统自带的截图工具选定网页中文字段,按照每六行一次的顺序对网页中的文字进行截图,根据先后顺序从1、2…N进行编号后保存到文字提取文件夹内,并且按照序号的从小到大进行排序,将文字提取文件夹内编过号的图片格式转换为PDF格式,并且通过PDF文件的文字识别提取功能首先对序号为1的PDF文件进行文字提取,提取出来的文字剪切到新建的文字提取文档内,后依次对序号为2、3…N的PDF文件内的文字信息进行提取,并且将提取的文字依次剪切粘贴在文字提取文档内上一个序号PDF文件提取出的文字后方,进行排列,选中步骤一种事先设定好的字符X,通过格式刷对文字提取文档内粘贴的文字进行字号和字体的统一,之后通过文档的文档校对功能对文档内的文字进行纠错,将文档内的乱码全部进行删除处理,并且将未处理完毕的疑似错误文字进行标红处理,并且将文档中的空格全部标注为红色*号,此时网页内的文字提取完毕,将转换完毕的PDF图片进行统一删除处理,并且将回收站内的文件进行粉碎,完成收尾工作。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种不可复制文字网页内文字的提取方法,其特征在于:具体包括以下步骤:
步骤一、提取文字的排版设计:新建一个文字提取文件夹,并且在文件夹内新建一个空文档命名为文字提取文档,在文字提取文档内输入字符X,设定好X的字号和字体;
步骤二、网页内图像的提取:打开需要提取内部文字信息的网页,后台通过系统自带的截图工具选定网页中文字段,按照每六行一次的顺序对网页中的文字进行截图,根据先后顺序从1、2…N进行编号后保存到步骤一中的文字提取文件夹内,并且按照序号的从小到大进行排序;
步骤三、图片内文字的转换:将步骤二中文字提取文件夹内编过号的图片格式转换为PDF格式,并且通过PDF文件的文字识别提取功能首先对序号为1的PDF文件进行文字提取,提取出来的文字剪切到步骤一中新建的文字提取文档内,后依次对序号为2、3…N的PDF文件内的文字信息进行提取,并且将提取的文字依次剪切粘贴在文字提取文档内上一个序号PDF文件提取出的文字后方,进行排列;
步骤四、图片中提取出文字的校对修订:选中步骤一种事先设定好的字符X,通过格式刷对文字提取文档内步骤三中粘贴的文字进行字号和字体的统一,之后通过文档的文档校对功能对文档内的文字进行纠错,将文档内的乱码全部进行删除处理,并且将未处理完毕的疑似错误文字进行标红处理,并且将文档中的空格全部标注为红色*号,此时网页内的文字提取完毕;
步骤五、提取过程中文件的清理:将步骤三中转换完毕的PDF图片进行统一删除处理,并且将回收站内的文件进行粉碎,完成收尾工作。
2.根据权利要求1所述的一种不可复制文字网页内文字的提取方法,其特征在于:所述步骤一中字符X的具体型号根据使用者的需求自行调整。
3.根据权利要求1所述的一种不可复制文字网页内文字的提取方法,其特征在于:所述步骤二中截图选择行数可根据网页内文字清晰度进行自行调整。
4.根据权利要求1所述的一种不可复制文字网页内文字的提取方法,其特征在于:所述步骤三中进行PDF格式转换的软件使用者根据自身使用习惯进行选择。
5.根据权利要求1所述的一种不可复制文字网页内文字的提取方法,其特征在于:所述步骤四中的乱码为非中英文文字和符号。
6.根据权利要求1所述的一种不可复制文字网页内文字的提取方法,其特征在于:所述步骤一中的字符X在步骤四完成之后进行删除。
7.根据权利要求1所述的一种不可复制文字网页内文字的提取方法,其特征在于:所述步骤四中校对完成的文字进行首行缩进处理。
8.根据权利要求1所述的一种不可复制文字网页内文字的提取方法,其特征在于:所述步骤四中标红的文字使用者后期自行进行处理。
CN201910826556.9A 2019-09-03 2019-09-03 一种不可复制文字网页内文字的提取方法 Pending CN110737855A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910826556.9A CN110737855A (zh) 2019-09-03 2019-09-03 一种不可复制文字网页内文字的提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910826556.9A CN110737855A (zh) 2019-09-03 2019-09-03 一种不可复制文字网页内文字的提取方法

Publications (1)

Publication Number Publication Date
CN110737855A true CN110737855A (zh) 2020-01-31

Family

ID=69267384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910826556.9A Pending CN110737855A (zh) 2019-09-03 2019-09-03 一种不可复制文字网页内文字的提取方法

Country Status (1)

Country Link
CN (1) CN110737855A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382742A (zh) * 2020-03-15 2020-07-07 策拉人工智能科技(云南)有限公司 一种云财务平台集成ocr识别软件的方法
CN112036123A (zh) * 2020-08-31 2020-12-04 北京奇虎鸿腾科技有限公司 基于网页页面的pdf生成方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382742A (zh) * 2020-03-15 2020-07-07 策拉人工智能科技(云南)有限公司 一种云财务平台集成ocr识别软件的方法
CN112036123A (zh) * 2020-08-31 2020-12-04 北京奇虎鸿腾科技有限公司 基于网页页面的pdf生成方法、装置、设备及存储介质
CN112036123B (zh) * 2020-08-31 2024-05-10 三六零数字安全科技集团有限公司 基于网页页面的pdf生成方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US7783472B2 (en) Document translation method and document translation device
CN111797630B (zh) 一种面向pdf格式论文的生物医学实体识别方法
US20130036113A1 (en) System and Method for Automatically Providing a Graphical Layout Based on an Example Graphic Layout
US20140289238A1 (en) Document creation support apparatus, method and program
US9779091B2 (en) Restoration of modified document to original state
CN110737855A (zh) 一种不可复制文字网页内文字的提取方法
CN112395851A (zh) 一种文本比对方法、装置、计算机设备及可读存储介质
JP2011141749A (ja) 文書画像生成装置、文書画像生成方法及びコンピュータプログラム
CN110738050A (zh) 基于分词和命名实体识别的文本重组方法及装置、介质
CN112906359A (zh) 基于人机交互的叠加信息处理方法及相关装置
JP2004178010A (ja) 文書処理装置並びにその方法及びプログラム
JP6988101B2 (ja) 情報処理装置、プログラム及び情報処理方法
CN112364632B (zh) 图书校对方法和装置
Weverka Office 2016 All-in-one for Dummies
JP2007011683A (ja) 文書管理支援装置
Cakir Usability and accessibility of portable document format
CN113343652A (zh) 文本处理方法、装置、设备及介质
US20110016380A1 (en) Form editing apparatus, form editing method, and storage medium
JP5604276B2 (ja) 文書画像生成装置および文書画像生成方法
US20150095314A1 (en) Document search apparatus and method
JP3958722B2 (ja) イメージデータ文書検索システム
CN117391045B (zh) 可复制蒙文的可携带文件格式文件输出方法
CN111831460B (zh) 一种文本复制粘贴方法、系统及可读存储介质
Marmel Teach Yourself Visually Word 2016
Gribomont OCR with Google Vision API and Tesseract

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200131

WD01 Invention patent application deemed withdrawn after publication