CN111241383A - 一种智能处理图文方法以及处理图文系统 - Google Patents
一种智能处理图文方法以及处理图文系统 Download PDFInfo
- Publication number
- CN111241383A CN111241383A CN201811436923.6A CN201811436923A CN111241383A CN 111241383 A CN111241383 A CN 111241383A CN 201811436923 A CN201811436923 A CN 201811436923A CN 111241383 A CN111241383 A CN 111241383A
- Authority
- CN
- China
- Prior art keywords
- image
- module
- text
- processing
- articles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Editing Of Facsimile Originals (AREA)
- Image Processing (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种智能处理图文方法,包括以下步骤:步骤一:通过创建爬虫框架爬取各大开源媒体网站的最新图文数据;步骤二:处理该图文数据将重复内容删除并提取关键词,计算该图文数据中各文章的相似度并对相似度高的文章进行标记;步骤三:提取该图文数据中文章的语义进行频道的分配;步骤四:对分配好的文章进行过滤;步骤五:依据文章中的图片进行打分并选取分数前三的图片,当图片少于三张时选择分数最高的一张图片,对该图片进行图像处理生成高质量的封面;步骤六:对文章中的图片增加水印,将文章、图片、封片、关键词整合形成图文处理数据;步骤七:对该图文处理数据进行审核与分类;步骤八:依据分类后的图文数据推荐至相应的用户端。
Description
技术领域
本发明涉及媒体领域,具体涉及一种智能处理图文方法以及处理图文系统。
背景技术
如何将媒体领域涉及到图文的自动处理过程组合成一套自动化的装置一直是比较欠缺的,现有的同类产品往往只能实现某一个特定功能,效率比较低,且个别步骤需人力协助完成,造成不必要的资金浪费,同时,由于人工存在一定的误差及错误率,致使处理后的内容在精确度及错误率上,误差较大。
发明内容
本发明要解决的技术问题是提供一种智能处理图文方法,能够将人工智能技术应用到媒体图文内容处理领域,极大地提升了处理的效率,同时节约了大量的人力资源,极大地提升了图文内容的质量,用以解决现有技术导致的缺陷。
本发明还提供一种智能处理图文系统。
为解决上述技术问题本发明提供以下的技术方案:一种智能处理图文方法,其中,包括以下步骤:
步骤一:通过创建爬虫框架爬取各大开源媒体网站的最新图文数据;
步骤二:处理该图文数据将重复内容删除并提取关键词,计算该图文数据中各文章的相似度并对相似度高的文章进行标记;
步骤三:提取该图文数据中文章的语义进行频道的分配;
步骤四:对分配好的文章进行过滤;
步骤五:依据文章中的图片进行打分并选取分数前三的图片,当图片少于三张时选择分数最高的一张图片,对该图片进行图像处理生成高质量的封面;
步骤六:对文章中的图片增加水印,将文章、图片、封片、关键词整合形成图文处理数据;
步骤七:对该图文处理数据进行审核与分类;
步骤八:依据分类后的图文数据推荐至相应的用户端。
一种智能处理图文系统,其中,包括爬虫模块、存储模块、处理模块、审核模块;
所述爬虫模块用于爬取各大开源媒体网站的最新图文内容并整理成图文数据,所述图文数据所为原始数据传输至所述存储模块;
所述存储模块用于接收、存储所述图文数据并将所述图文数据传输至所述处理模块;
所述处理模块用于接收、处理所述图文数据并生成分别传输至所述审核模块、所述存储模块的图文处理数据;
所述审核模块用于接收、审核所述图文处理数据,并上线传输至用户端。
上述的一种智能处理图文系统,其中,所述处理模块包括依次连接的去重模块、关键词提取模块、相似度标记模块、分配模块、过滤模块、封面选取模块、加水印模块、整合模块;
所述去重模块用于删除所述图文数据中重复的文章;
所述关键词提取模块用于提取所述文章中的关键词;
所述相似度标记模块用于标记每篇所述文章之间的相似度值;
所述分配模块用于依据所述文章中的语义进行分配:
所述过滤模块用于对所述文章进行过滤;
所述封面选取模块用于选取文章中分数较高的前三张图片或分数最高的一张图片作为封面;
所述加水印模块用于对所述文章中的图片进行加水印;
所述整合模块用于将所述关键词、所述文章、所述封面、所述图片整合形成图文处理数据。
依据上述本发明一种智能处理图文方法以及处理图文系统提供的技术方案效果是:将人工智能技术应用到媒体图文内容处理领域,极大地提升了处理的效率,同时节约了大量的人力资源,极大地提升了图文内容的质量。
附图说明
图1为本发明一种智能处理图文方法的流程图;
图2为本发明一种智能处理图文系统结构示意图。
其中,附图标记如下:爬虫模块101、存储模块102、处理模块103、审核模块104。
具体实施方式
为了使发明实现的技术手段、创造特征、达成目的和功效易于明白了解,下结合具体图示,进一步阐述本发明。
本发明的一较佳实施例是提供一种智能处理图文方法以及处理图文系统,目的是将人工智能技术应用到媒体图文内容处理领域,极大地提升了处理的效率,同时节约了大量的人力资源,极大地提升了图文内容的质量。
如图1所示,一种智能处理图文方法,其中,包括以下步骤:
步骤一:通过创建爬虫框架爬取各大开源媒体网站的最新图文数据;
步骤二:处理该图文数据将重复内容删除并提取关键词,计算该图文数据中各文章的相似度并对相似度高的文章进行标记;
步骤三:提取该图文数据中文章的语义进行频道的分配;
步骤四:对分配好的文章进行过滤;
步骤五:依据文章中的图片进行打分并选取分数前三的图片,当图片少于三张时选择分数最高的一张图片,对该图片进行图像处理生成高质量的封面;
步骤六:对文章中的图片增加水印,将文章、图片、封片、关键词整合形成图文处理数据;
步骤七:对该图文处理数据进行审核与分类;
步骤八:依据分类后的图文数据推荐至相应的用户端。
如图2所示,一种智能处理图文系统,包括爬虫模块101、存储模块102、处理模块103、审核模块104,其中处理模块103为人工智能处理模块103;
爬虫模块101用于爬取各大开源媒体网站的最新图文内容并整理成图文数据,图文数据所为原始数据传输至存储模块102;
存储模块102用于接收、存储图文数据并将图文数据传输至处理模块103;
处理模块103用于接收、处理图文数据并生成分别传输至审核模块104、存储模块102的图文处理数据;
审核模块104用于接收、审核图文处理数据,并上线传输至用户端。
本实施例提供的一种智能处理图文系统,采用的处理模块103包括依次连接的去重模块、关键词提取模块、相似度标记模块、分配模块、过滤模块、封面选取模块、加水印模块、整合模块;
去重模块用于删除图文数据中重复的文章;
关键词提取模块用于提取文章中的关键词;
相似度标记模块用于标记每篇文章之间的相似度值;
分配模块用于依据文章中的语义进行分配:
过滤模块用于对文章进行过滤;
封面选取模块用于选取文章中分数较高的前三张图片或分数最高的一张图片作为封面;
加水印模块用于对文章中的图片进行加水印;
整合模块用于将关键词、文章、封面、图片整合形成图文处理数据。
综上,本发明的一种智能处理图文方法以及处理图文系统,能够将人工智能技术应用到媒体图文内容处理领域,极大地提升了处理的效率,同时节约了大量的人力资源,极大地提升了图文内容的质量。
以上对发明的具体实施例进行了描述。需要理解的是,发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;本领域技术人员可以在权利要求的范围内做出各种变形或修改做出若干简单推演、变形或替换,这并不影响发明的实质内容。
Claims (3)
1.一种智能处理图文方法,其特征在于,包括以下步骤:
步骤一:通过创建爬虫框架爬取各大开源媒体网站的最新图文数据;
步骤二:处理该图文数据将重复内容删除并提取关键词,计算该图文数据中各文章的相似度并对相似度高的文章进行标记;
步骤三:提取该图文数据中文章的语义进行频道的分配;
步骤四:对分配好的文章进行过滤;
步骤五:依据文章中的图片进行打分并选取分数前三的图片,当图片少于三张时选择分数最高的一张图片,对该图片进行图像处理生成高质量的封面;
步骤六:对文章中的图片增加水印,将文章、图片、封片、关键词整合形成图文处理数据;
步骤七:对该图文处理数据进行审核与分类;
步骤八:依据分类后的图文数据推荐至相应的用户端。
2.一种智能处理图文系统,其特征在于,包括爬虫模块、存储模块、处理模块、审核模块;
所述爬虫模块用于爬取各大开源媒体网站的最新图文内容并整理成图文数据,所述图文数据所为原始数据传输至所述存储模块;
所述存储模块用于接收、存储所述图文数据并将所述图文数据传输至所述处理模块;
所述处理模块用于接收、处理所述图文数据并生成分别传输至所述审核模块、所述存储模块的图文处理数据;
所述审核模块用于接收、审核所述图文处理数据,并上线传输至用户端。
3.如权利要求2所述的一种智能处理图文系统,其特征在于,所述处理模块包括依次连接的去重模块、关键词提取模块、相似度标记模块、分配模块、过滤模块、封面选取模块、加水印模块、整合模块;
所述去重模块用于删除所述图文数据中重复的文章;
所述关键词提取模块用于提取所述文章中的关键词;
所述相似度标记模块用于标记每篇所述文章之间的相似度值;
所述分配模块用于依据所述文章中的语义进行分配:
所述过滤模块用于对所述文章进行过滤;
所述封面选取模块用于选取文章中分数较高的前三张图片或分数最高的一张图片作为封面;
所述加水印模块用于对所述文章中的图片进行加水印;
所述整合模块用于将所述关键词、所述文章、所述封面、所述图片整合形成图文处理数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811436923.6A CN111241383B (zh) | 2018-11-28 | 2018-11-28 | 一种智能处理图文方法以及处理图文系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811436923.6A CN111241383B (zh) | 2018-11-28 | 2018-11-28 | 一种智能处理图文方法以及处理图文系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241383A true CN111241383A (zh) | 2020-06-05 |
CN111241383B CN111241383B (zh) | 2023-08-04 |
Family
ID=70873990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811436923.6A Active CN111241383B (zh) | 2018-11-28 | 2018-11-28 | 一种智能处理图文方法以及处理图文系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241383B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010120101A2 (ko) * | 2009-04-13 | 2010-10-21 | (주)미디어레 | 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치 |
CN105049320A (zh) * | 2015-05-22 | 2015-11-11 | 广西天海信息科技有限公司 | 一种同时管理多个微信公众账号的系统及方法 |
CN106708963A (zh) * | 2016-12-01 | 2017-05-24 | 武汉大思想信息股份有限公司 | 一种人工智能模式下的网站编辑器文章录入方法及系统 |
CN108509584A (zh) * | 2018-03-29 | 2018-09-07 | 北京百度网讯科技有限公司 | 封面图的选择方法、装置和计算机设备 |
-
2018
- 2018-11-28 CN CN201811436923.6A patent/CN111241383B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010120101A2 (ko) * | 2009-04-13 | 2010-10-21 | (주)미디어레 | 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치 |
CN105049320A (zh) * | 2015-05-22 | 2015-11-11 | 广西天海信息科技有限公司 | 一种同时管理多个微信公众账号的系统及方法 |
CN106708963A (zh) * | 2016-12-01 | 2017-05-24 | 武汉大思想信息股份有限公司 | 一种人工智能模式下的网站编辑器文章录入方法及系统 |
CN108509584A (zh) * | 2018-03-29 | 2018-09-07 | 北京百度网讯科技有限公司 | 封面图的选择方法、装置和计算机设备 |
Non-Patent Citations (1)
Title |
---|
寿思聪;姚从磊;李晓明;: "发现维基百科文章相关图片" * |
Also Published As
Publication number | Publication date |
---|---|
CN111241383B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489395A (zh) | 自动获取多源异构数据知识的方法 | |
CN103473263B (zh) | 一种面向新闻事件演变过程的可视化展现方法 | |
WO2007038612A3 (en) | Apparatus and method for processing user-specified search image points | |
CN104504150A (zh) | 新闻舆情监测系统 | |
CN103559193B (zh) | 一种基于选择单元的主题建模方法 | |
EP3822842A3 (en) | Method and apparatus for generating semantic representation model, electronic device, and storage medium | |
CN108829810A (zh) | 面向健康舆情的文本分类方法 | |
CN111460162B (zh) | 一种文本分类方法、装置、终端设备及计算机可读存储介质 | |
CN109033433A (zh) | 一种基于卷积神经网络的评论数据情感分类方法及系统 | |
CN112529615A (zh) | 自动生成广告的方法、装置、设备和计算机可读存储介质 | |
CN103632387A (zh) | 毛笔字帖的生成方法和系统 | |
CN103942274B (zh) | 一种基于lda的生物医疗图像的标注系统及方法 | |
CN109359308A (zh) | 机器翻译方法、装置及可读存储介质 | |
EP1622040A3 (en) | Apparatus and method for processing text data | |
CN106599305B (zh) | 一种基于众包的异构媒体语义融合方法 | |
CN111241383A (zh) | 一种智能处理图文方法以及处理图文系统 | |
CN107657060B (zh) | 一种基于半结构化文本分类的特征优化方法 | |
CN118536073B (zh) | 加速器、数据处理方法、设备、介质、程序产品及系统 | |
CN109783616A (zh) | 一种文本主题提取方法、系统和存储介质 | |
CN110727794A (zh) | 一种网络语义收集分析及内容概括分析系统及方法 | |
CN116611417B (zh) | 一种文章自动生成方法、系统、计算机设备和存储介质 | |
CN110619070B (zh) | 文章生成方法和装置 | |
CN107544951A (zh) | 一种基于数据案例库管理模块的多媒体课件生成方法 | |
CN111611457B (zh) | 一种页面分类方法、装置、设备及存储介质 | |
CN110020296A (zh) | 一种提取新闻网页正文的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230626 Address after: 201411 building 4, No. 686, Nanfeng Road, Fengcheng Town, Fengxian District, Shanghai Applicant after: Shanghai Heyou Information Technology Co.,Ltd. Address before: 201799 Room 285, Area I, Floor 2, Building 29, Lot 67, No. 5, Lane 3841, Huqingping Road, Qingpu District, Shanghai Applicant before: SHANGHAI HUASHI ELECTRONIC COMMERCE CO.,LTD. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |