CN106708963B - 一种人工智能模式下的网站编辑器文章录入方法及系统 - Google Patents

一种人工智能模式下的网站编辑器文章录入方法及系统 Download PDF

Info

Publication number
CN106708963B
CN106708963B CN201611089102.0A CN201611089102A CN106708963B CN 106708963 B CN106708963 B CN 106708963B CN 201611089102 A CN201611089102 A CN 201611089102A CN 106708963 B CN106708963 B CN 106708963B
Authority
CN
China
Prior art keywords
pictures
website editor
website
editor
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611089102.0A
Other languages
English (en)
Other versions
CN106708963A (zh
Inventor
彭永光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Great Idea Touchplus Information Corp
Original Assignee
Wuhan Great Idea Touchplus Information Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Great Idea Touchplus Information Corp filed Critical Wuhan Great Idea Touchplus Information Corp
Priority to CN201611089102.0A priority Critical patent/CN106708963B/zh
Publication of CN106708963A publication Critical patent/CN106708963A/zh
Application granted granted Critical
Publication of CN106708963B publication Critical patent/CN106708963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种人工智能模式下的网站编辑器文章录入方法及系统,包括:使用摄像头对纸质文稿进行扫描,生成纸质文稿的扫描文件;对扫描文件进行OCR文字图片识别后将获取的文字和图片录入网站编辑器;当网站编辑器录入文字后,利用自动分词技术计算出文字主题;自动在网络图片库中搜索符合主题的图片,利用爬虫技术采集搜索到的图片,选择采集的部分图片,录入到网站编辑器。有益效果:通过摄像头扫描纸质文稿,然后进行OCR文字图片识别,将识别后获取的文字和图片录入网站编辑器,实现纸质文稿快速录入;计算录入的文字的主题,自动在网上搜索主题有关的图片,并采用爬虫技术采集搜索到的图片,再从采集到的图片中挑选部分图片录入网站编辑器,实现图片快速录入。

Description

一种人工智能模式下的网站编辑器文章录入方法及系统
技术领域
本发明涉及网站编辑器技术领域,尤其是涉及一种人工智能模式下的网站编辑器文章录入方法及系统。
背景技术
如今,通过互联网获取信息已经成为人们获取信息的重要方式,很多企业、单位、个人都拥有自己的网站,各种类别、用途的网站多种多样,在网站维护人员维护、更新网站的时候,往往需要用到网站编辑器,用以编辑发布到网站上的文章。
使用网站编辑器编辑内容时,往往需要输入文字和插入图片,形成图文并茂的文章发布到网站上,当需要把纸质文稿的内容发布到网站上时,一般采取手动打字录入文字到网站编辑器里,然后在网上人工查找符合主题的图片插入文字中,但是,手动打字输入文字和网上人工查找符合主题的图片都比较耗时耗力、速度较慢,这样一来,网站维护人员的工作量往往比较大。
发明内容
本发明的目的在于克服上述技术不足,提出一种人工智能模式下的网站编辑器文章录入方法及系统,解决现有技术中录入纸质文稿的内容和录入配图耗时耗力、速度较慢的技术问题。
一种人工智能模式下的网站编辑器文章录入方法,其中,包括:
S1、使用摄像头对纸质文稿进行扫描,生成所述纸质文稿的扫描文件;
S2、对所述扫描文件进行OCR文字图片识别,获取与所述扫描文件内容对应的文字和图片;
S3、将获取的文字和图片录入网站编辑器;
S4、当所述网站编辑器录入文字后,录入的文字形成文档,利用自动分词技术计算出所述文档的主题;
S5、以所述文档的主题为关键词,在网络图片库中进行关键词搜索,得到符合搜索条件的限缩的网络图片库,利用爬虫技术采集所述限缩的网络图片库中的图片;
S6、根据需要,选择采集的部分图片,录入到所述网站编辑器。
一种人工智能模式下的网站编辑器文章录入系统,其中,包括:
扫描模块:用于使用摄像头对纸质文稿进行扫描,生成所述纸质文稿的扫描文件;
OCR识别模块:用于对所述扫描文件进行OCR文字图片识别,获取与所述扫描文件内容对应的文字和图片;
第一录入模块:用于将获取的文字和图片录入网站编辑器;
主题计算模块:用于当所述网站编辑器录入文字后,录入的文字形成文档,然后利用自动分词技术计算出所述文档的主题;
采集图片模块:用于以所述文档的主题为关键词,在网络图片库中进行关键词搜索,得到符合搜索条件的限缩的网络图片库,利用爬虫技术采集所述限缩的网络图片库中的图片;
第二录入模块:用于根据需要,选择采集的部分图片,录入到所述网站编辑器。
与现有技术相比,本发明的有益效果包括:通过摄像头扫描纸质文稿,形成扫描文件,然后对扫描文件进行OCR文字图片识别,识别后获取的文字和图片录入网站编辑器,与手动打字输入文字相比,实现了纸质文稿的快速录入;计算录入的文字内容的主题,自动在网上搜索主题有关的图片,并采用爬虫技术采集搜索到的图片,再从采集到的图片中挑选部分图片录入网站编辑器,与人工搜索符合主题的图片相比,实现了配图的快速录入。
附图说明
图1是本发明提供的一种人工智能模式下的网站编辑器文章录入方法流程图;
图2是本发明提供的一种人工智能模式下的网站编辑器文章录入系统结构框图。
附图中:1、人工智能模式下的网站编辑器文章录入系统,11、扫描模块,12、OCR识别模块,13、第一录入模块,14、主题计算模块,15、采集图片模块,16、第二录入模块
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1,一种人工智能模式下的网站编辑器文章录入方法,其中,包括:
S1、使用摄像头对纸质文稿进行扫描,生成纸质文稿的扫描文件;
S2、对扫描文件进行OCR文字图片识别,获取与扫描文件内容对应的文字和图片;
S3、将获取的文字和图片录入网站编辑器;
S4、当网站编辑器录入文字后,录入的文字形成文档,利用自动分词技术计算出文档的主题;
S5、以文档的主题为关键词,在网络图片库中进行关键词搜索,得到符合搜索条件的限缩的网络图片库,利用爬虫技术采集限缩的网络图片库中的图片;
S6、根据需要,选择采集的部分图片,录入到网站编辑器。
本发明所述的人工智能模式下的网站编辑器文章录入方法中,步骤S1包括:
网站编辑器调用PC端或移动端的摄像头对纸质文稿进行扫描,摄像头与网站编辑器进行数据传输;
网站编辑器安装于PC端,可以调用PC端的摄像头,移动端通过扫描网站编辑器提供的二维码与PC端的网站编辑器连接,网站编辑器此时也可以调用移动端摄像头。
本发明所述的人工智能模式下的网站编辑器文章录入方法中,步骤S4包括:
文档的主题为一个或多个。
本发明所述的人工智能模式下的网站编辑器文章录入方法中,步骤S5包括:
爬虫程序首先获取经搜索操作后的网络页面的源代码,然后过滤出源代码中的图片地址,根据过滤出来的图片地址下载符合主题的网络图片库中的图片。
本发明所述的人工智能模式下的网站编辑器文章录入方法中,步骤S6包括:
S5中采集到的都是符合主题的图片,在S5采集到的图片中人工选择最为合适的图片,点击选择的图片,图片就被录入到网站编辑器中。
如图2,一种人工智能模式下的网站编辑器文章录入系统1,其中,包括:
扫描模块11:用于使用摄像头对纸质文稿进行扫描,生成纸质文稿的扫描文件;
OCR识别模块12:用于对扫描文件进行OCR文字图片识别,获取与扫描文件内容对应的文字和图片;
第一录入模块13:用于将获取的文字和图片录入网站编辑器;
主题计算模块14:用于当网站编辑器录入文字后,录入的文字形成文档,然后利用自动分词技术计算出文档的主题;
采集图片模块15:用于以文档的主题为关键词,在网络图片库中进行关键词搜索,得到符合搜索条件的限缩的网络图片库,利用爬虫技术采集限缩的网络图片库中的图片;
第二录入模块16:用于根据需要,选择采集的部分图片,录入到网站编辑器。
本发明所述的人工智能模式下的网站编辑器文章录入系统1中,扫描模块11:
网站编辑器调用PC端或移动端的摄像头对纸质文稿进行扫描,摄像头与网站编辑器进行数据传输。
本发明所述的人工智能模式下的网站编辑器文章录入系统1中,主题计算模块14:
文档的主题为一个或多个。
本发明所述的人工智能模式下的网站编辑器文章录入系统1中,采集图片模块15:
爬虫程序首先获取目标网页的源代码,过滤出源代码中的图片地址,根据过滤出来的图片地址下载限缩的网络图片库中的图片。
本发明所述的人工智能模式下的网站编辑器文章录入方法及系统在使用时,利用摄像头对纸质文稿进行扫描,生成纸质文稿的扫描文件;对扫描文件进行OCR文字图片识别,获取与扫描文件内容对应的文字和图片;将获取的文字和图片录入网站编辑器;当网站编辑器录入文字后,录入的文字形成文档,利用自动分词技术计算出文档的主题;以文档的主题为关键词,在网络图片库中进行关键词搜索,得到符合搜索条件的限缩的网络图片库,利用爬虫技术采集限缩的网络图片库中的图片;根据需要,选择采集的部分图片,录入到网站编辑器,由此,纸质文稿内容和符合主题的图片快速录入到网站编辑器里。
与现有技术相比,本发明的有益效果包括:通过摄像头扫描纸质文稿,形成扫描文件,然后对扫描文件进行OCR文字图片识别,识别后获取的文字和图片录入网站编辑器,与手动打字输入文字相比,实现了纸质文稿的快速录入;计算录入的文字内容的主题,自动在网上搜索主题有关的图片,并采用爬虫技术采集搜索到的图片,再从采集到的图片中挑选部分图片录入网站编辑器,与人工搜索符合主题的图片相比,实现了配图的快速录入。
以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。

Claims (8)

1.一种人工智能模式下的网站编辑器文章录入方法,其特征在于,包括:
S1、使用摄像头对纸质文稿进行扫描,生成所述纸质文稿的扫描文件;
S2、对所述扫描文件进行OCR文字图片识别,获取与所述扫描文件内容对应的文字和图片;
S3、将获取的文字和图片录入网站编辑器;
S4、当所述网站编辑器录入文字后,录入的文字形成文档,利用自动分词技术计算出所述文档的主题;
S5、以所述文档的主题为关键词,在网络图片库中进行关键词搜索,得到符合搜索条件的限缩的网络图片库,利用爬虫技术采集所述限缩的网络图片库中的图片;
S6、根据需要,选择采集的部分图片,录入到所述网站编辑器。
2.如权利要求1所述的人工智能模式下的网站编辑器文章录入方法,其特征在于,步骤S1包括:
网站编辑器调用PC端或移动端的摄像头对纸质文稿进行扫描,所述摄像头与网站编辑器进行数据传输。
3.如权利要求1所述的人工智能模式下的网站编辑器文章录入方法,其特征在于,步骤S4包括:
所述文档的主题为一个或多个。
4.如权利要求1所述的人工智能模式下的网站编辑器文章录入方法,其特征在于,步骤S5包括:
爬虫程序首先获取目标网页的源代码,过滤出源代码中的图片地址,根据过滤出来的图片地址下载所述限缩的网络图片库中的图片。
5.一种人工智能模式下的网站编辑器文章录入系统,其特征在于,包括:
扫描模块:用于使用摄像头对纸质文稿进行扫描,生成所述纸质文稿的扫描文件;
OCR识别模块:用于对所述扫描文件进行OCR文字图片识别,获取与所述扫描文件内容对应的文字和图片;
第一录入模块:用于将获取的文字和图片录入网站编辑器;
主题计算模块:用于当所述网站编辑器录入文字后,录入的文字形成文档,然后利用自动分词技术计算出所述文档的主题;
采集图片模块:用于以所述文档的主题为关键词,在网络图片库中进行关键词搜索,得到符合搜索条件的限缩的网络图片库,利用爬虫技术采集所述限缩的网络图片库中的图片;
第二录入模块:用于根据需要,选择采集的部分图片,录入到所述网站编辑器。
6.如权利要求5所述的人工智能模式下的网站编辑器文章录入系统,其特征在于,扫描模块:
网站编辑器调用PC端或移动端的摄像头对纸质文稿进行扫描,所述摄像头与网站编辑器进行数据传输。
7.如权利要求5所述的人工智能模式下的网站编辑器文章录入系统,其特征在于,主题计算模块:
所述文档的主题为一个或多个。
8.如权利要求5所述的人工智能模式下的网站编辑器文章录入系统,其特征在于,采集图片模块:
爬虫程序首先获取目标网页的源代码,过滤出源代码中的图片地址,根据过滤出来的图片地址下载所述限缩的网络图片库中的图片。
CN201611089102.0A 2016-12-01 2016-12-01 一种人工智能模式下的网站编辑器文章录入方法及系统 Active CN106708963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611089102.0A CN106708963B (zh) 2016-12-01 2016-12-01 一种人工智能模式下的网站编辑器文章录入方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611089102.0A CN106708963B (zh) 2016-12-01 2016-12-01 一种人工智能模式下的网站编辑器文章录入方法及系统

Publications (2)

Publication Number Publication Date
CN106708963A CN106708963A (zh) 2017-05-24
CN106708963B true CN106708963B (zh) 2020-02-18

Family

ID=58934419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611089102.0A Active CN106708963B (zh) 2016-12-01 2016-12-01 一种人工智能模式下的网站编辑器文章录入方法及系统

Country Status (1)

Country Link
CN (1) CN106708963B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101971A (zh) * 2017-10-23 2018-12-28 新乡市海胜网络技术有限公司 拍立转文字识别及语言翻译方法
CN108171110A (zh) * 2017-11-28 2018-06-15 苏州市东皓计算机系统工程有限公司 一种计算机的图书录入系统
CN110765332A (zh) * 2018-07-09 2020-02-07 江苏融成爱伊文化传播有限公司 一种网络内容检索系统
CN111241383B (zh) * 2018-11-28 2023-08-04 上海与你信息科技有限公司 一种智能处理图文方法以及处理图文系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464903A (zh) * 2009-01-09 2009-06-24 江阴明伦科技有限公司 一种利用web方式进行OCR图文识别检索方法和系统
CN104283921A (zh) * 2013-07-08 2015-01-14 腾讯科技(深圳)有限公司 一种微博发布方法及装置
CN105069293A (zh) * 2015-08-07 2015-11-18 宋声台 一种信息录入终端的方法和智能笔记本

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464903A (zh) * 2009-01-09 2009-06-24 江阴明伦科技有限公司 一种利用web方式进行OCR图文识别检索方法和系统
CN104283921A (zh) * 2013-07-08 2015-01-14 腾讯科技(深圳)有限公司 一种微博发布方法及装置
CN105069293A (zh) * 2015-08-07 2015-11-18 宋声台 一种信息录入终端的方法和智能笔记本

Also Published As

Publication number Publication date
CN106708963A (zh) 2017-05-24

Similar Documents

Publication Publication Date Title
CN106708963B (zh) 一种人工智能模式下的网站编辑器文章录入方法及系统
US8244037B2 (en) Image-based data management method and system
CN109977337B (zh) 一种网页设计对比方法、装置、设备及可读存储介质
CN103678637A (zh) 一种获取试题信息的方法及装置
US20130159275A1 (en) Information searching system and method
JP6396897B2 (ja) 出席者によるイベントの検索
TW201539210A (zh) 個人資訊管理服務系統
AU2019200458B2 (en) Method and system for acquiring data files of blocks of land and of building plans and for automatic making of matches thereof
US20050193018A1 (en) Utilizing a scannable URL (Universal Resource Locator)
CN104462590A (zh) 信息搜索方法及装置
CN104142955A (zh) 一种推荐学习课程的方法和终端
CN102982326B (zh) 文字处理方法、装置和电子翻译笔
CN113850060A (zh) 民航文档数据识别录入方法及系统
US9665574B1 (en) Automatically scraping and adding contact information
US20220253503A1 (en) Generating interactive screenshot based on a static screenshot
CN104252475A (zh) 定位图片中文本信息的方法及装置
CN108268488B (zh) 网页主图识别方法和装置
CN113076961A (zh) 一种图像特征库更新方法、图像检测方法和装置
CN112464907A (zh) 一种文档处理系统及方法
CN106897291B (zh) 基于截屏操作的搜索方法及装置
CN107766237A (zh) 网络爬虫的测试方法、装置、服务器和存储介质
KR20220005243A (ko) 수기로 작성된 스캔본 전자파일의 인식과 공유 방법 및 그 장치
CN113536032A (zh) 一种视频序列信息挖掘系统、方法及其应用
KR20180021152A (ko) 정보 푸시 방법 및 장치
CN116521729A (zh) 一种基于Elasticsearch的信息分类搜索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant