CN109522562B - 一种基于文本图像融合识别的网页知识抽取方法 - Google Patents

一种基于文本图像融合识别的网页知识抽取方法 Download PDF

Info

Publication number
CN109522562B
CN109522562B CN201811449829.4A CN201811449829A CN109522562B CN 109522562 B CN109522562 B CN 109522562B CN 201811449829 A CN201811449829 A CN 201811449829A CN 109522562 B CN109522562 B CN 109522562B
Authority
CN
China
Prior art keywords
webpage
data
service
knowledge
cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811449829.4A
Other languages
English (en)
Other versions
CN109522562A (zh
Inventor
孙善宝
谭强
于治楼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Scientific Research Institute Co Ltd
Original Assignee
Shandong Inspur Scientific Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Scientific Research Institute Co Ltd filed Critical Shandong Inspur Scientific Research Institute Co Ltd
Priority to CN201811449829.4A priority Critical patent/CN109522562B/zh
Publication of CN109522562A publication Critical patent/CN109522562A/zh
Application granted granted Critical
Publication of CN109522562B publication Critical patent/CN109522562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于文本图像融合识别的网页知识抽取方法,涉及知识抽取、图像识别、文本分析和深度学习技术领域,将网络爬虫在互联网上爬取网页的网站进行分类评估并设定信任度,利用文本分析方法基于语料库实现语义结构化,提取海量网页的价值数据关键字,同时将爬取网页转换成图片,提取结构化业务知识数据,对比分析两种方法提取的知识,不断学习训练出自动抽取模型,同时将确定的业务知识生成该网页的价值数据指纹,并加入到业务知识基础语料库中,持续更新自动抽取模型和基础语料库。保证了爬取数据准确性,提升爬取数据效率。

Description

一种基于文本图像融合识别的网页知识抽取方法
技术领域
本发明涉及知识抽取、图像识别、文本分析和深度学习技术,尤其涉及一种基于文本图像融合识别的网页知识抽取方法。
背景技术
近年来,人工智能技术发展迅速,其商业化速度超出预期,人工智能将会给整个社会带来颠覆性的变化,已经成为未来各国重要的发展战略。以深度学习为核心的算法演进,其超强的进化能力,在大数据的支持下,通过训练构建得到类似人脑结构的大规模卷积神经网络,已经可以解决各类问题。而云计算和大数据的发展,特别是海量数据的出现,从大数据中进行深度学习,打破传统方式,对各个领域产生颠覆性的变革。
随着互联网的迅速发展,网络上聚集了海量信息,这些信息涉及各个领域,里面也隐藏着无数商机。例如政府公告的招投标信息,特别是企业涉足领域的信息,对企业而言有巨大的价值。如何在互联网中搜集到海量数据,并在海量数据中找到对于企业有价值的信息成为大家关注的焦点。
网络爬虫作为万维网的数据采集手段已经被广泛的使用,通过网络爬虫可以在短时间内,按照一定的规则,在互联网上自动地抓取大量用户关注的网页。然而现实中通过网络爬虫抓取的网页是纯HTML代码,其内容格式不固定,并且有些是以非结构化图像方式展示,涉及到的领域会也有专用的术语,并且其分散在不同的网站,而各个网站的可信度也不同。例如在招投标领域,网站公布的招投标信息会以不同的形式公告出来,并且网站的展示格式也不同,而真正对企业客户有价值的是其中的知识点。在这种情况下,如何有效利用深度学习技术,结合文本分析和图像分析,综合考虑各类因素,针对海量领域网页抽取知识成为亟须解决的问题。
发明内容
为了解决以上技术问题,本发明提出了一种基于文本图像融合识别的网页知识抽取方法,保证了爬取数据准确性,提升爬取数据效率。
本发明的技术方案是:
一种基于文本图像融合识别的网页知识抽取方法,将网络爬虫在互联网上爬取网页的网站进行分类评估并设定信任度,利用文本分析方法基于语料库实现语义结构化,提取海量网页的价值数据关键字,同时将爬取网页转换成图片,提取结构化业务知识数据,对比分析两种方法提取的知识,不断学习训练出自动抽取模型,同时将确定的业务知识生成该网页的价值数据指纹,并加入到业务知识基础语料库中,持续更新自动抽取模型和基础语料库。
云端聚集大量计算、网络、存储资源,对外提供网页知识抽取相关的云服务,利用云端的网站信用评估服务对爬取网站进行分类评估,优先选取信用值高的网站执行网络爬虫程序爬取感兴趣的网页,存储到云端;将存储的网页利用云端的文本分析服务,基于语料库进行文本分析,提取网页中感兴趣的价值数据,利用云端图像转换服务将网页转换成图片,再利用云端图像识别服务,抽取网页图片的结构化业务知识数据;通过数据结构化存储服务将网页中提取得到的价值数据,保存到云端存储中,并为其生成价值数据指纹;利用云端价值数据匹配服务基于大数据仓库进行数据匹配,结合知识抽取服务对比同一价值数据指纹的文本分析和图像分析得到的知识,训练自动抽取模型,并将抽取的知识加入到基础语料库。其中,
所述的云端中心提供云基础设施,同时提供网页知识抽取相关的云服务,包括网络爬虫、知识抽取、文本分析、图像转换、图像识别、网站评价、语料库、数据结构化存储、价值数据匹配等服务;
所述的网站信用评估服务对爬取网页的网站进行综合评估,充分考虑网站信用、数据准确性、数据时效性等多种因素,得到目标爬取网站的信用值,为网络爬虫提供更好的服务;
所述的网络爬虫服务包含对网页爬取任务的生成、执行、管理等,根据网站评价值采用分布式任务分解方式抓取感兴趣的网页;
所述的文本分析服务将存储的网页基于语料库进行文本分析,提取网页中感兴趣的价值数据文本分析,获取业务知识数据;
所述的图像转换服务通过模拟浏览器展示,将网页转换成图像;所述的图像识别服务识别网页图片的内容,提取其中的结构化业务知识数据;
所述的数据结构化存储服务将网页抽取数据存储到所述的大数据仓库中,同时生成价值数据指纹作为其标识;
所述的数据匹配服务计算网页价值数据指纹,基于大数据仓库进行匹配,确定网页本体;
所述的大数据仓库是根据业务领域分类的行业大数据,提供数据仓库的基本服务;所述的知识抽取服务利用大量的网页数据进行训练学习,同时对比结合同一价值数据指纹的文本分析和图像分析得到的知识,形成自动抽取模型,并将抽取的知识加入到基础语料库;所述的语料库是针对行业的,用于语义分析。
本发明具体操作步骤为:
步骤101、通过所述的云端网页爬虫服务提交网页爬取任务请求,设置爬取任务所属领域及规则;
步骤102、根据所述的网站信用评估服务提供的网页信任度数据,生成网页爬取任务;
步骤103、所述的云端中心将网页爬取任务进行分解,利用云端计算、网络、存储资源爬取目标网站;
步骤104、所述的云端网页爬虫服务将任务目标网站的网页爬取下来,存放在云端;
步骤105、通过所述的文本分析服务将存储的网页进行预处理,将网页数据结构化,基于语料库进行文本分析,提取网页中感兴趣的价值数据;
步骤106、使用所述的图像转换服务通过模拟浏览器展示,将网页转换成图像,并通过图像识别服务识别网页图片的内容,提取其中的结构化业务知识数据;
步骤107、使用所述的数据匹配服务计算网页价值数据指纹,基于大数据仓库进行匹配,确定网页内在价值数据标识;
步骤108、通过所述的知识抽取服务的自动抽取模型对网页价值数据进行提取,对比结合同一价值数据指纹的文本分析和图像分析得到知识,精炼价值数据;
步骤109、将知识数据和价值数据通过所述的结构化存储服务,保存到所述的大数据仓库中,同时生成价值数据指纹作为其标识;
步骤110、所述的知识抽取服务采用LSTM等深度学习算法,根据持续收集的海量知识数据确定深度学习网络模型结构,并进行模型训练和学习,得到自动抽取模型;
步骤111、所述的知识抽取服务将得到的知识加入到所述的语料库中;
步骤112、重复执行步骤101至步骤111,持续更新知识抽取网络模型和语料库,提升价值数据和知识抽取质量;
步骤113、结合所述的语料库和所述的大数据仓库收集的数据,可以进行更深层次的语义理解和领域价值洞察分析。
本发明的有益效果是:
本发明将网络爬虫在互联网上爬取网页的网站进行分类评估并设定信任度,优先选取信用值高的网站执行网络爬虫程序爬取感兴趣的网页,这保证了爬取数据准确性,提升爬取数据效率;综合文本分析及图像分析,基于现有基于语料库实现语义结构化,提高了语义结构化的准确性;通过将网页文本转换成图片的方式,消除了HTML内容展示标签格式的影响,实现了非结构化数据的知识抽取,提高了网页内容识别准确率,而通过图像文本两种抽取方式分析对比,使得抽取的价值数据更加准确;另外,采用深度学习算法持续不断的训练自动抽取模型,提升了抽取模型的时效性,对比传统的人工方式,极大的提升了效率,并且抽取得到的知识将不断丰富语料库,未来可以实现更深程度的语义理解,带来更大的商业价值。
附图说明
图1是网页知识抽取功能组成示意图;
图2是网页知识抽取流程图。
具体实施方式
下面结合附图对本发明的内容进行更加详细的阐述:
如图1所示,云端聚集大量计算、网络、存储资源,对外提供网页知识抽取相关的云服务,利用云端的网站信用评估服务对爬取网站进行分类评估,优先选取信用值高的网站执行网络爬虫程序爬取感兴趣的网页,存储到云端;将存储的网页利用云端的文本分析服务,基于语料库进行文本分析,提取网页中感兴趣的价值数据,利用云端图像转换服务将网页转换成图片,再利用云端图像识别服务,抽取网页图片的结构化业务知识数据;通过数据结构化存储服务将网页中提取得到的价值数据,保存到云端存储中,并为其生成价值数据指纹;利用云端价值数据匹配服务基于大数据仓库进行数据匹配,结合知识抽取服务对比同一价值数据指纹的文本分析和图像分析得到的知识,训练自动抽取模型,并将抽取的知识加入到基础语料库。其中,
所述的云端中心提供云基础设施,同时提供网页知识抽取相关的云服务,包括网络爬虫、知识抽取、文本分析、图像转换、图像识别、网站评价、语料库、数据结构化存储、价值数据匹配等服务;所述的网站信用评估服务对爬取网页的网站进行综合评估,充分考虑网站信用、数据准确性、数据时效性等多种因素,得到目标爬取网站的信用值,为网络爬虫提供更好的服务;所述的网络爬虫服务包含对网页爬取任务的生成、执行、管理等,根据网站评价值采用分布式任务分解方式抓取感兴趣的网页;所述的文本分析服务将存储的网页基于语料库进行文本分析,提取网页中感兴趣的价值数据文本分析,获取业务知识数据;所述的图像转换服务通过模拟浏览器展示,将网页转换成图像;所述的图像识别服务识别网页图片的内容,提取其中的结构化业务知识数据;所述的数据结构化存储服务将网页抽取数据存储到所述的大数据仓库中,同时生成价值数据指纹作为其标识;所述的数据匹配服务计算网页价值数据指纹,基于大数据仓库进行匹配,确定网页本体;所述的大数据仓库是根据业务领域分类的行业大数据,提供数据仓库的基本服务;所述的知识抽取服务利用大量的网页数据进行训练学习,同时对比结合同一价值数据指纹的文本分析和图像分析得到的知识,形成自动抽取模型,并将抽取的知识加入到基础语料库;所述的语料库是针对行业的,用于语义分析。
为了描述清楚,以下选择招投标领域,招标信息将在网站中进行公告,其中招标信息包括了招标企业、招标产品、招标方式、招标类型、招标名称、联系电话、截止时间、企业要求、中标结果、采购数量等要素点;这些信息会以结构化或者非结构化的方式呈现出来,以下案例将使用网络爬虫爬取这些信息所在的网页。以下实例中的图像识别算法采用R-CNN,文本分析主要是基于LSTM长短期记忆网络来实现。本领域技术人员将理解的是,除了使用以上算法和领域之外,根据本发明的实施方式的构造也能够应用于其他算法和领域之上。
如图2所示,网页的知识抽取包括以下步骤:
步骤101、通过所述的云端网页爬虫服务提交网页爬取任务请求,设置爬取任务所属领域及规则;
步骤102、根据所述的网站信用评估服务提供的网页信任度数据,生成网页爬取任务;
步骤103、所述的云端中心将网页爬取任务进行分解,利用云端计算、网络、存储资源爬取目标网站;
步骤104、所述的云端网页爬虫服务将任务目标网站的网页爬取下来,存放在云端;
步骤105、通过所述的文本分析服务将存储的网页进行预处理,将网页数据结构化,基于语料库进行文本分析,提取网页中感兴趣的价值数据;
步骤106、使用所述的图像转换服务通过模拟浏览器展示,将网页转换成图像,并通过图像识别服务识别网页图片的内容,提取其中的结构化业务知识数据;
步骤107、使用所述的数据匹配服务计算网页价值数据指纹,基于大数据仓库进行匹配,确定网页内在价值数据标识;
步骤108、通过所述的知识抽取服务的自动抽取模型对网页价值数据进行提取,对比结合同一价值数据指纹的文本分析和图像分析得到知识,精炼价值数据;
步骤109、将知识数据和价值数据通过所述的结构化存储服务,保存到所述的大数据仓库中,同时生成价值数据指纹作为其标识;
步骤110、所述的知识抽取服务采用LSTM等深度学习算法,根据持续收集的海量知识数据确定深度学习网络模型结构,并进行模型训练和学习,得到自动抽取模型;
步骤111、所述的知识抽取服务将得到的知识加入到所述的语料库中;
步骤112、重复执行步骤101至步骤111,持续更新知识抽取网络模型和语料库,提升价值数据和知识抽取质量;
步骤113、结合所述的语料库和所述的大数据仓库收集的数据,可以进行更深层次的语义理解和领域价值洞察分析。
以上所述的实施例,只是本发明具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (9)

1.一种基于文本图像融合识别的网页知识抽取方法,其特征在于,
将网络爬虫在互联网上爬取网页的网站进行分类评估并设定信任度,利用文本分析方法基于语料库实现语义结构化,提取海量网页的价值数据关键字,同时将爬取网页转换成图片,提取结构化业务知识数据,对比分析两种方法提取的知识,不断学习训练出自动抽取模型,同时将确定的业务知识生成该网页的价值数据指纹,并加入到业务知识基础语料库中,持续更新自动抽取模型和基础语料库;
具体操作步骤为:
步骤101、通过所述的云端网页爬虫服务提交网页爬取任务请求,设置爬取任务所属领域及规则;
步骤102、根据所述的网站信用评估服务提供的网页信任度数据,生成网页爬取任务;
步骤103、所述的云端中心将网页爬取任务进行分解,利用云端计算、网络、存储资源爬取目标网站;
步骤104、所述的云端网页爬虫服务将任务目标网站的网页爬取下来,存放在云端;
步骤105、通过所述的文本分析服务将存储的网页进行预处理,将网页数据结构化,基于语料库进行文本分析,提取网页中感兴趣的价值数据;
步骤106、使用所述的图像转换服务通过模拟浏览器展示,将网页转换成图像,并通过图像识别服务识别网页图片的内容,提取其中的结构化业务知识数据;
步骤107、使用所述的数据匹配服务计算网页价值数据指纹,基于大数据仓库进行匹配,确定网页内在价值数据标识;
步骤108、通过所述的知识抽取服务的自动抽取模型对网页价值数据进行提取,对比结合同一价值数据指纹的文本分析和图像分析得到知识,精炼价值数据;
步骤109、将知识数据和价值数据通过所述的结构化存储服务,保存到所述的大数据仓库中,同时生成价值数据指纹作为其标识;
步骤110、所述的知识抽取服务采用LSTM深度学习算法,根据持续收集的海量知识数据确定深度学习网络模型结构,并进行模型训练和学习,得到自动抽取模型;
步骤111、所述的知识抽取服务将得到的知识加入到所述的语料库中;
步骤112、重复执行步骤101至步骤111,持续更新知识抽取网络模型和语料库,提升价值数据和知识抽取质量;
步骤113、结合所述的语料库和所述的大数据仓库收集的数据,可以进行更深层次的语义理解和领域价值洞察分析。
2.根据权利要求1所述的方法,其特征在于,
云端聚集计算、网络、存储资源,对外提供网页知识抽取相关的云服务,利用云端的网站信用评估服务对爬取网站进行分类评估,优先选取信用值高的网站执行网络爬虫程序爬取感兴趣的网页,存储到云端;
将存储的网页利用云端的文本分析服务,基于语料库进行文本分析,提取网页中感兴趣的价值数据,利用云端图像转换服务将网页转换成图片,再利用云端图像识别服务,抽取网页图片的结构化业务知识数据;
通过数据结构化存储服务将网页中提取得到的价值数据,保存到云端存储中,并为其生成价值数据指纹;
利用云端价值数据匹配服务基于大数据仓库进行数据匹配,结合知识抽取服务对比同一价值数据指纹的文本分析和图像分析得到的知识,训练自动抽取模型,并将抽取的知识加入到基础语料库。
3.根据权利要求2所述的方法,其特征在于,
所述的云端中心提供云基础设施,同时提供网页知识抽取相关的云服务,包括网络爬虫、知识抽取、文本分析、图像转换、图像识别、网站评价、语料库、数据结构化存储、价值数据匹配服务。
4.根据权利要求3所述的方法,其特征在于,
所述的网站信用评估服务对爬取网页的网站进行综合评估,充分考虑网站信用、数据准确性、数据时效性因素,得到目标爬取网站的信用值,为网络爬虫提供更好的服务;
所述的网络爬虫服务包含对网页爬取任务的生成、执行、管理,根据网站评价值采用分布式任务分解方式抓取感兴趣的网页。
5.根据权利要求4所述的方法,其特征在于,
所述的文本分析服务将存储的网页基于语料库进行文本分析,提取网页中感兴趣的价值数据文本分析,获取业务知识数据。
6.根据权利要求5所述的方法,其特征在于,
所述的图像转换服务通过模拟浏览器展示,将网页转换成图像;
所述的图像识别服务识别网页图片的内容,提取其中的结构化业务知识数据。
7.根据权利要求6所述的方法,其特征在于,
所述的数据结构化存储服务将网页抽取数据存储到所述的大数据仓库中,同时生成价值数据指纹作为其标识;
所述的数据匹配服务计算网页价值数据指纹,基于大数据仓库进行匹配,确定网页本体。
8.根据权利要求7所述的方法,其特征在于,
所述的大数据仓库是根据业务领域分类的行业大数据,提供数据仓库的基本服务。
9.根据权利要求8所述的方法,其特征在于,
所述的知识抽取服务利用大量的网页数据进行训练学习,同时对比结合同一价值数据指纹的文本分析和图像分析得到的知识,形成自动抽取模型,并将抽取的知识加入到基础语料库;所述的语料库是针对行业的,用于语义分析。
CN201811449829.4A 2018-11-30 2018-11-30 一种基于文本图像融合识别的网页知识抽取方法 Active CN109522562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811449829.4A CN109522562B (zh) 2018-11-30 2018-11-30 一种基于文本图像融合识别的网页知识抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811449829.4A CN109522562B (zh) 2018-11-30 2018-11-30 一种基于文本图像融合识别的网页知识抽取方法

Publications (2)

Publication Number Publication Date
CN109522562A CN109522562A (zh) 2019-03-26
CN109522562B true CN109522562B (zh) 2023-04-18

Family

ID=65793706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811449829.4A Active CN109522562B (zh) 2018-11-30 2018-11-30 一种基于文本图像融合识别的网页知识抽取方法

Country Status (1)

Country Link
CN (1) CN109522562B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135414B (zh) * 2019-05-16 2021-07-09 京北方信息技术股份有限公司 语料库更新方法、装置、存储介质及终端
CN110909531B (zh) * 2019-10-18 2024-03-22 平安科技(深圳)有限公司 信息安全的甄别方法、装置、设备及存储介质
CN111858963B (zh) * 2020-07-28 2024-02-23 中国银行股份有限公司 网页客服知识抽取方法及装置
CN112131506B (zh) * 2020-09-24 2022-04-29 厦门市美亚柏科信息股份有限公司 一种网页分类方法、终端设备及存储介质
CN112328858A (zh) * 2020-11-04 2021-02-05 中国海洋大学 一种基于深度学习的海洋船舶数据采集管理系统及方法
CN112765340A (zh) * 2021-01-26 2021-05-07 中国电子信息产业集团有限公司第六研究所 一种确定云服务资源的方法、装置、电子设备及存储介质
CN116049597B (zh) * 2023-01-10 2024-04-19 北京百度网讯科技有限公司 网页的多任务模型的预训练方法、装置及电子设备
CN117521602B (zh) * 2024-01-04 2024-03-22 深圳大数信科技术有限公司 基于rpa+nlp的多模态文字转换方法、系统及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009061399A1 (en) * 2007-11-05 2009-05-14 Nagaraju Bandaru Method for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
CN105045838A (zh) * 2015-07-01 2015-11-11 华东师范大学 基于分布式存储系统的网络爬虫系统

Also Published As

Publication number Publication date
CN109522562A (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN109522562B (zh) 一种基于文本图像融合识别的网页知识抽取方法
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
Tang et al. Big data in forecasting research: a literature review
Kathuria et al. Classifying the user intent of web queries using k‐means clustering
CN103870973B (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
US11550856B2 (en) Artificial intelligence for product data extraction
TWI695277B (zh) 自動化網站資料蒐集方法
CN105512687A (zh) 训练情感分类模型和文本情感极性分析的方法及系统
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN103914478A (zh) 网页训练方法及系统、网页预测方法及系统
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN111192176B (zh) 一种支持教育信息化评估的在线数据采集方法及装置
Patnaik et al. Intelligent and adaptive web data extraction system using convolutional and long short-term memory deep learning networks
CN103309862A (zh) 一种网页类型识别方法和系统
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN113918794B (zh) 企业网络舆情效益分析方法、系统、电子设备及存储介质
Assi et al. FeatCompare: Feature comparison for competing mobile apps leveraging user reviews
US20170235835A1 (en) Information identification and extraction
CN107330705A (zh) 一种根据多数据源防欺诈的方法和系统
Baranowski et al. Social welfare in the light of topic modelling
Bu et al. An FAR-SW based approach for webpage information extraction
US20130332440A1 (en) Refinements in Document Analysis
US10990881B1 (en) Predictive analytics using sentence data model
CN117033654A (zh) 一种面向科技迷雾识别的科技事件图谱构建方法
CN114238735B (zh) 一种互联网数据智能采集方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230317

Address after: 250000 building S02, No. 1036, Langchao Road, high tech Zone, Jinan City, Shandong Province

Applicant after: Shandong Inspur Scientific Research Institute Co.,Ltd.

Address before: 250100 First Floor of R&D Building 2877 Kehang Road, Sun Village Town, Jinan High-tech Zone, Shandong Province

Applicant before: JINAN INSPUR HIGH-TECH TECHNOLOGY DEVELOPMENT Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190326

Assignee: Shandong Inspur Digital Business Technology Co.,Ltd.

Assignor: Shandong Inspur Scientific Research Institute Co.,Ltd.

Contract record no.: X2023980053547

Denomination of invention: A web knowledge extraction method based on text image fusion recognition

Granted publication date: 20230418

License type: Exclusive License

Record date: 20231226