CN111475701A - 一种基于大数据的行业对标分析方法 - Google Patents
一种基于大数据的行业对标分析方法 Download PDFInfo
- Publication number
- CN111475701A CN111475701A CN202010189437.XA CN202010189437A CN111475701A CN 111475701 A CN111475701 A CN 111475701A CN 202010189437 A CN202010189437 A CN 202010189437A CN 111475701 A CN111475701 A CN 111475701A
- Authority
- CN
- China
- Prior art keywords
- queue
- keywords
- searching
- big data
- industry benchmarking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/54—Indexing scheme relating to G06F9/54
- G06F2209/548—Queue
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据处理技术领域,具体涉及一种基于大数据的行业对标分析方法,包括制定关键词,将关键词存储在云端;检索和查询上述储存在云端中的关键词,并将检索和查询的结果放入队列中;对上述队列中的检索和查询的结果进行进一步检索,将其中与行业对标主题最近的队列调整至队列前端;将上述进一步检索后的队列打包成数据包,并建立数据包的索引主题;上述数据包储存至云端中,并对数据包进行释放,释放后的数据形成可视化图表。本发明的有益效果:通过对关键词的检索和查询,得到初步的检索\查询结果,再对得到的初步结果进行进一步检索,从而提炼出与自身最为符合的检索结果,简化了大数据处理流程,效率较高。
Description
技术领域
本发明涉及大数据处理技术领域,具体涉及一种基于大数据的行业对标分析方法。
背景技术
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,大数据时代,数据挖掘是主要关键工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式。
所谓“行业对标”就是对比本行业中的标杆企业,从标杆企业的大数据运营信息中,提取对自己有用的信息,同时通过对比,来寻找自身不足。
目前在进行行业对标时,由于对标体系缺乏针对性、大数据处理能力差等都影响了企业对“行业对标”的处理能力。
发明内容
本发明的目的在于克服现有技术中存在的问题,提供一种基于大数据的行业对标分析方法,它可以实现至少一定程度上解决现有技术的问题。
为实现上述技术目的,达到上述技术效果,本发明是通过以下技术方案实现的:
一种基于大数据的行业对标分析方法,包括如下步骤:
1)制定关键词,将关键词存储在云端;
2)检索和查询上述储存在云端中的关键词,并将检索和查询的结果放入队列中;
3)对上述队列中的检索和查询的结果进行进一步检索,将其中与行业对标主题最近的队列调整至队列前端;
4)将上述进一步检索后的队列打包成数据包,并建立数据包的索引主题;
5)上述数据包储存至云端中,并对数据包进行释放,释放后的数据形成可视化图表。
作为如上所述技术方案的进一步优化,所述步骤1)中将关键词按与行业对标主题相近度进行排列,所述步骤2)在检索和查询时,按与行业对标主题相近度最近的关键词进行检索和查询。
作为如上所述技术方案的进一步优化,所述步骤1)中,储存在所述云端上的关键词由指定权限的管理人员进行修改。
作为如上所述技术方案的进一步优化,所述步骤2)中,通过爬虫技术,将互联网中与关键词相关的链接URL进行抓取,并将抓取的URL放入队列中。
作为如上所述技术方案的进一步优化,所述步骤2)中,依据与关键词相近度来对检索和查询的结果进行排列并放入队列中。
作为如上所述技术方案的进一步优化,所述步骤5)中,释放后的数据形成word、Excell、PPT形式的图表。
本发明的有益效果:制定关键词,通过对关键词的检索和查询,得到初步的检索\查询结果,再对得到的初步结果进行进一步检索,从而提炼出与自身最为符合的检索结果,这样有利于较为直接地进行行业对标,同时简化了大数据处理流程,效率较高,另外通过关键词的形式,使得对标体系具有针对性,检索和查询时,通过按与行业对标主题相近度进行查询、检索,这样进一步地优化了大数据处理的流程,提高工作效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,图1示出了一种基于大数据的行业对标分析方法,包括如下步骤:
1)制定关键词,将关键词存储在云端;
2)检索和查询上述储存在云端中的关键词,并将检索和查询的结果放入队列中;
3)对上述队列中的检索和查询的结果进行进一步检索,将其中与行业对标主题最近的队列调整至队列前端;
4)将上述进一步检索后的队列打包成数据包,并建立数据包的索引主题;
5)上述数据包储存至云端中,并对数据包进行释放,释放后的数据形成可视化图表。
所述步骤1)中将关键词按与行业对标主题相近度进行排列,所述步骤2)在检索和查询时,按与行业对标主题相近度最近的关键词进行检索和查询,这样简化了检索和查询的时间,提高检索\查询的效率。
所述步骤1)中,储存在所述云端上的关键词由指定权限的管理人员进行修改,通过制定权限的管理人员进行修改关键词,一方面使得企业能够与时俱进,另一方面避免了非权限人员对关键词的修改,造成大数据处理出现偏差。
所述步骤2)中,通过爬虫技术,将互联网中与关键词相关的链接URL进行抓取,并将抓取的URL放入队列中,由于目前互联网的信息较冗杂,通常相关的关键词会存在不同的解释,因此只有将相关链接的URL进行抓取,然后在对抓取后的URL进行分析,来剔除与本行业无关或者关联度较低的URL,保留关联度较高的URL,以供后续分析。
所述步骤2)中,依据与关键词相近度来对检索和查询的结果进行排列并放入队列中,这样在步骤3)的检索时,对检索流程进行了优化,提升效率。
所述步骤5)中,释放后的数据形成word、Excell、PPT形式的图表,这些形式的图表是目前企业常用的,因此具有普及性。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (6)
1.一种基于大数据的行业对标分析方法,其特征在于,包括如下步骤:
1)制定关键词,将关键词存储在云端;
2)检索和查询上述储存在云端中的关键词,并将检索和查询的结果放入队列中;
3)对上述队列中的检索和查询的结果进行进一步检索,将其中与行业对标主题最近的队列调整至队列前端;
4)将上述进一步检索后的队列打包成数据包,并建立数据包的索引主题;
5)上述数据包储存至云端中,并对数据包进行释放,释放后的数据形成可视化图表。
2.根据权利要求1所述的一种基于大数据的行业对标分析方法,其特征在于,所述步骤1)中将关键词按与行业对标主题相近度进行排列,所述步骤2)在检索和查询时,按与行业对标主题相近度最近的关键词进行检索和查询。
3.根据权利要求1所述的一种基于大数据的行业对标分析方法,其特征在于,所述步骤1)中,储存在所述云端上的关键词由指定权限的管理人员进行修改。
4.根据权利要求1所述的一种基于大数据的行业对标分析方法,其特征在于,所述步骤2)中,通过爬虫技术,将互联网中与关键词相关的链接URL进行抓取,并将抓取的URL放入队列中。
5.根据权利要求1所述的一种基于大数据的行业对标分析方法,其特征在于,所述步骤2)中,依据与关键词相近度来对检索和查询的结果进行排列并放入队列中。
6.根据权利要求1所述的一种基于大数据的行业对标分析方法,其特征在于,所述步骤5)中,释放后的数据形成word、Excell、PPT形式的图表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010189437.XA CN111475701A (zh) | 2020-03-18 | 2020-03-18 | 一种基于大数据的行业对标分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010189437.XA CN111475701A (zh) | 2020-03-18 | 2020-03-18 | 一种基于大数据的行业对标分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111475701A true CN111475701A (zh) | 2020-07-31 |
Family
ID=71748219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010189437.XA Withdrawn CN111475701A (zh) | 2020-03-18 | 2020-03-18 | 一种基于大数据的行业对标分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111475701A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114238665A (zh) * | 2021-11-22 | 2022-03-25 | 中冶赛迪重庆信息技术有限公司 | 一种多主题对标分析方法及系统 |
-
2020
- 2020-03-18 CN CN202010189437.XA patent/CN111475701A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114238665A (zh) * | 2021-11-22 | 2022-03-25 | 中冶赛迪重庆信息技术有限公司 | 一种多主题对标分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | A framework of feature selection methods for text categorization | |
Delen et al. | A holistic framework for knowledge discovery and management | |
US20040249808A1 (en) | Query expansion using query logs | |
US20070022109A1 (en) | Systems and methods for answering user questions | |
CN105335402B (zh) | 基于静态Cache的搜索方法、索引数据生成方法以及装置 | |
CN110737821B (zh) | 相似事件查询的方法、装置、存储介质和终端设备 | |
CN112732995A (zh) | 一种畜牧业新闻资讯推荐系统 | |
He et al. | Predicting bugs in software code changes using isolation forest | |
Anand et al. | Discovering case knowledge using data mining | |
CN111475701A (zh) | 一种基于大数据的行业对标分析方法 | |
Shen et al. | Combined association rules for dealing with missing values | |
CN116049243A (zh) | 企业知识产权大数据情报分析系统、方法及存储介质 | |
Zhou et al. | Application of computer data mining technology in E-business | |
Montoya et al. | Information retrieval on documents methodology based on entropy filtering methodologies | |
CN113420622A (zh) | 基于机器深度学习的智能扫描识别归档系统 | |
Gacitua et al. | Ensemble methods for ontology learning-an empirical experiment to evaluate combinations of concept acquisition techniques | |
Changsheng et al. | An improved algorithm for apriori | |
KR100426995B1 (ko) | 문서 색인 시스템 및 그 방법 | |
Wang et al. | Research on key technologies of knowledge graph construction based on natural language processing | |
CN111259145A (zh) | 基于情报数据的文本检索分类方法、系统及存储介质 | |
Roche et al. | Text and web mining approaches in order to build specialized ontologies | |
Kalayanasaravan et al. | Document retrieval system using genetic algorithm | |
Sathya et al. | Review on applicability of genetic algorithm to web search | |
Li et al. | An Improved Apriori Algorithm Applied to Mining Ancient Chinese Poems | |
Martín-Bautista et al. | A genetic fuzzy classifier to adaptive user interest profiles with feature selection. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200731 |
|
WW01 | Invention patent application withdrawn after publication |