CN107203618A - 适用于研发企业的数据归类方法 - Google Patents
适用于研发企业的数据归类方法 Download PDFInfo
- Publication number
- CN107203618A CN107203618A CN201710375533.1A CN201710375533A CN107203618A CN 107203618 A CN107203618 A CN 107203618A CN 201710375533 A CN201710375533 A CN 201710375533A CN 107203618 A CN107203618 A CN 107203618A
- Authority
- CN
- China
- Prior art keywords
- data
- layer
- analysis
- enterprises
- classifying method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种适用于研发企业的数据归类方法,包括有相互通讯的数据采集层、存储层、分析层、展示层构成,其数据构建流程如下,首先,通过数据采集层从研发数据源中进行数据采集。之后,采集完成后的数据,存储在存储层中,并根据不同的存储格式进行归类存储。接着,通过分析层进行数据分析。最终,展示层对分析层分析后的分析结果进行展示。由此,能面对全网、各个公开的数据库,实现无人值守的数据抓取。设有独立的分析层,对各类数据进行分析比较,实现汇总。抓取的信息可得到存储层的妥善保存,便于分析处理。设有较佳的展示方式,可结合常见的智能设备进行数据展示,便于研发人员处理。
Description
技术领域
本发明涉及一种数据归类方法,尤其涉及一种适用于研发企业的数据归类方法。
背景技术
就现有的企业研发数据收集来看,往往是采用人工方式,通过关键词以及逻辑公式进行不同数据库的检索,以获得相关的资源信息。但是,这种搜集方式费时费力,搜集完毕后还需要通过人工进行二次比对,才能过滤出可用的参考信息。对于研发需求量大的部门或是企业,人力成本投入较大,且因为人员差异化会导致搜集差异。
有鉴于上述的缺陷,本设计人,积极加以研究创新,以期创设一种适用于研发企业的数据归类方法,使其更具有产业上的利用价值。
发明内容
为解决上述技术问题,本发明的目的是提供一种适用于研发企业的数据归类方法。
本发明的适用于研发企业的数据归类方法,其中:包括有相互通讯的数据采集层、存储层、分析层、展示层构成,其数据构建流程如下,
步骤一,通过数据采集层从研发数据源中进行数据采集。
步骤二,采集完成后的数据,存储在存储层中,并根据不同的存储格式进行归类存储。
步骤三,通过分析层进行数据分析。
步骤四,展示层对分析层分析后的分析结果进行展示。
进一步地,上述的适用于研发企业的数据归类方法,其中,所述步骤一中,数据采集层通过网络爬虫进行数据采集。
更进一步地,上述的适用于研发企业的数据归类方法,其中,所述步骤一中,网络爬虫通过设定关键词,对符合关键词且拥有较高词频的数据进行采集;或是,网络爬虫通过图片虚拟配对,对图片中像素点阵匹配度较高的图片进行提取。
更进一步地,上述的适用于研发企业的数据归类方法,其中,所述步骤一中,通过定时采集方式进行数据采集,所述定时周期为每周,或是为每个工作日;或是,通过实时采集方式进行数据采集。
更进一步地,上述的适用于研发企业的数据归类方法,其中,所述步骤一中,研发数据源包括国内专利公布数据库、国外专利公布数据库、国内论文期刊数据库、国外论文期刊数据库。
更进一步地,上述的适用于研发企业的数据归类方法,其中,所述步骤二中,存储格式包括文本格式、表格格式、html文档格式中的一种或是多种结合。
更进一步地,上述的适用于研发企业的数据归类方法,其中,所述步骤三中,数据分析包括研发数据挖掘、研发类别对比、差异化对比、近似排查。
更进一步地,上述的适用于研发企业的数据归类方法,其中,所述步骤三中,若近似排查存在数量大于5件,向展示层发出告警。
更进一步地,上述的适用于研发企业的数据归类方法,其中,所述步骤四中,分析结果以文字,和/或是数字,和/或是图表,和/或是缩略图进行展示。
再进一步地,上述的适用于研发企业的数据归类方法,其中,所述步骤四中,分析结果传输到PC端,和/或是智能设备,所述智能设备包括智能手机、平板电脑。
借由上述方案,本发明至少具有以下优点:
1、面对全网、各个公开的数据库,实现无人值守的数据抓取。
2、设有独立的分析层,对各类数据进行分析比较,实现汇总。
3、抓取的信息可得到存储层的妥善保存,便于分析处理。
4、设有较佳的展示方式,可结合常见的智能设备进行数据展示,便于研发人员处理。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例详细说明如后。
具体实施方式
下面结合实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
适用于研发企业的数据归类方法,其与众不同之处在于,包括有相互通讯的数据采集层、存储层、分析层、展示层构成,在实施期间,采用的数据构建流程如下,
步骤一,通过数据采集层从研发数据源中进行数据采集。具体来说,为了便于实现全网段的数据抓取,便于后续研发人员进行较佳的数据对比,为研发规划提供有效参考,数据采集层通过网络爬虫进行数据采集。同时,依托于网络爬虫的采用,可实现24小时不间断的免人工收集。
在实际实施时,网络爬虫通过设定关键词,对符合关键词且拥有较高词频的数据进行采集。当然,亦可以是网络爬虫通过图片虚拟配对,对图片中像素点阵匹配度较高的图片进行提取。由此,满足图、文多方位的检索查询。
同时,可通过定时采集方式进行数据采集。具体来说,本发明采用的定时周期为每周,或是为每个工作日。当然,考虑到某些长期实时数据监控、检索的需要,亦可以通过实时采集方式进行数据采集。
并且,考虑到研发数据源的扩充,便于研发人员进行数据汇总、参考,提升研发数据处理效率,本发明采用的研发数据源包括国内专利公布数据库、国外专利公布数据库、国内论文期刊数据库、国外论文期刊数据库。
步骤二,采集完成后的数据,存储在存储层中,并根据不同的存储格式进行归类存储。考虑到后续分析便利,且满足高速有效的数据互通,存储格式包括文本格式、表格格式、html文档格式中的一种或是多种结合。
步骤三,通过分析层进行数据分析。考虑到研发需求的前瞻性,为了有效避免后续的重复投入,规避掉近似路线的二次研发。采用的数据分析包括研发数据挖掘、研发类别对比、差异化对比、近似排查。同时,为了在后台自动化搜索过程中及时进行近似异常告警,便于研发人员第一时间知晓,若近似排查存在数量大于5件,向展示层发出告警。
步骤四,展示层对分析层分析后的分析结果进行展示。为了实现直观的展示,给研发人员研发启示与数据对比,分析结果以文字和/或是数字来展示。当然,从信息获取的直观性与归类性出发,亦可以采用和/或是缩略图进行展示。并且,考虑到展示的便利,分析结果传输到PC端,和/或是智能设备。结合现有的常见设备来看,本发明实施期间采用的智能设备包括智能手机、平板电脑。
通过上述的文字表述可以看出,采用本发明后,拥有如下优点:
1、面对全网、各个公开的数据库,实现无人值守的数据抓取。
2、设有独立的分析层,对各类数据进行分析比较,实现汇总。
3、抓取的信息可得到存储层的妥善保存,便于分析处理。
4、设有较佳的展示方式,可结合常见的智能设备进行数据展示,便于研发人员处理。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (10)
1.适用于研发企业的数据归类方法,其特征在于:包括有相互通讯的数据采集层、存储层、分析层、展示层构成,
其数据构建流程如下,
步骤一,通过数据采集层从研发数据源中进行数据采集;
步骤二,采集完成后的数据,存储在存储层中,并根据不同的存储格式进行归类存储;
步骤三,通过分析层进行数据分析;
步骤四,展示层对分析层分析后的分析结果进行展示。
2.根据权利要求1所述的适用于研发企业的数据归类方法,其特征在于:所述步骤一中,数据采集层通过网络爬虫进行数据采集。
3.根据权利要求2所述的适用于研发企业的数据归类方法,其特征在于:所述步骤一中,网络爬虫通过设定关键词,对符合关键词且拥有较高词频的数据进行采集;或是,网络爬虫通过图片虚拟配对,对图片中像素点阵匹配度较高的图片进行提取。
4.根据权利要求1所述的适用于研发企业的数据归类方法,其特征在于:所述步骤一中,通过定时采集方式进行数据采集,所述定时周期为每周,或是为每个工作日;或是,通过实时采集方式进行数据采集。
5.根据权利要求1所述的适用于研发企业的数据归类方法,其特征在于:所述步骤一中,研发数据源包括国内专利公布数据库、国外专利公布数据库、国内论文期刊数据库、国外论文期刊数据库。
6.根据权利要求1所述的适用于研发企业的数据归类方法,其特征在于:所述步骤二中,存储格式包括文本格式、表格格式、html文档格式中的一种或是多种结合。
7.根据权利要求1所述的适用于研发企业的数据归类方法,其特征在于:所述步骤三中,数据分析包括研发数据挖掘、研发类别对比、差异化对比、近似排查。
8.根据权利要求7所述的适用于研发企业的数据归类方法,其特征在于:所述步骤三中,若近似排查存在数量大于5件,向展示层发出告警。
9.根据权利要求1所述的适用于研发企业的数据归类方法,其特征在于:所述步骤四中,分析结果以文字,和/或是数字,和/或是图表,和/或是缩略图进行展示。
10.根据权利要求1所述的适用于研发企业的数据归类方法,其特征在于:所述步骤四中,分析结果传输到PC端,和/或是智能设备,所述智能设备包括智能手机、平板电脑。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710375533.1A CN107203618A (zh) | 2017-05-24 | 2017-05-24 | 适用于研发企业的数据归类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710375533.1A CN107203618A (zh) | 2017-05-24 | 2017-05-24 | 适用于研发企业的数据归类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107203618A true CN107203618A (zh) | 2017-09-26 |
Family
ID=59905872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710375533.1A Pending CN107203618A (zh) | 2017-05-24 | 2017-05-24 | 适用于研发企业的数据归类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107203618A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110196937A (zh) * | 2019-04-21 | 2019-09-03 | 合肥廷创致嘉科技服务有限公司 | 一种项目信息实时抓取和分析系统 |
CN111489198A (zh) * | 2020-04-09 | 2020-08-04 | 南京中爱人工智能与生命科学研究院有限公司 | 一种基于药物研发数据的商务应用推广方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012046904A1 (ko) * | 2010-10-07 | 2012-04-12 | 한국과학기술정보연구원 | 다중 자원 기반 검색정보 제공 장치 및 방법 |
CN105405071A (zh) * | 2015-12-04 | 2016-03-16 | 国网浙江省电力公司 | 一种企业统一数据模型构建方法 |
CN105740335A (zh) * | 2016-01-22 | 2016-07-06 | 山东合天智汇信息技术有限公司 | 一种基于titan的企业信息分析平台及其构建方法 |
-
2017
- 2017-05-24 CN CN201710375533.1A patent/CN107203618A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012046904A1 (ko) * | 2010-10-07 | 2012-04-12 | 한국과학기술정보연구원 | 다중 자원 기반 검색정보 제공 장치 및 방법 |
CN105405071A (zh) * | 2015-12-04 | 2016-03-16 | 国网浙江省电力公司 | 一种企业统一数据模型构建方法 |
CN105740335A (zh) * | 2016-01-22 | 2016-07-06 | 山东合天智汇信息技术有限公司 | 一种基于titan的企业信息分析平台及其构建方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110196937A (zh) * | 2019-04-21 | 2019-09-03 | 合肥廷创致嘉科技服务有限公司 | 一种项目信息实时抓取和分析系统 |
CN111489198A (zh) * | 2020-04-09 | 2020-08-04 | 南京中爱人工智能与生命科学研究院有限公司 | 一种基于药物研发数据的商务应用推广方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chao et al. | Research on tobacco foreign body detection device based on machine vision | |
CN105095320B (zh) | 基于关系叠加组合的文档的标识、关联、搜索及展现的系统 | |
CN106327722B (zh) | 一种档案管理系统 | |
CN106779581A (zh) | 一种人力资源管理系统 | |
CN110489653A (zh) | 舆情信息查询方法和装置、系统、电子设备、存储介质 | |
CN107203618A (zh) | 适用于研发企业的数据归类方法 | |
CN102314916A (zh) | 一种视频处理方法和系统 | |
Trivedi et al. | Handbook of research on advanced data mining techniques and applications for business intelligence | |
CN106844588A (zh) | 一种基于网络爬虫的用户行为数据的分析方法及系统 | |
US20130091145A1 (en) | Method and apparatus for analyzing web trends based on issue template extraction | |
CN110033191B (zh) | 一种商业人工智能的分析方法及系统 | |
CN112053511A (zh) | 一种工器具的管控装置及其管控方法 | |
CN107145600A (zh) | 适用于同类别企业公开信息归类方法 | |
Gunawan et al. | Knowledge management study in data warehouse | |
KR101040734B1 (ko) | 지적재산 가이던스 시스템 및 방법 | |
CN104415976A (zh) | 冷轧生产线跨机组产品质量关联分析方法 | |
CN209803861U (zh) | 一种涉密案卷档案管理系统 | |
Luo et al. | Eventriver: An event-based visual analytics approach to exploring large text collections with a temporal focus | |
CN107705185A (zh) | 一种商品推荐方法及装置 | |
Hakkak et al. | The role of organizational toxic climate on organizational inertia with regard to the mediator role of the organizational silence | |
Rahadian | The management of Citizen Relation Management (CRM) Jakarta Smart City | |
Subramanian et al. | Measurement process and multi-dimensional metric model for evaluating KM systems | |
CN215954412U (zh) | 基于人脸识别智慧社区取物系统 | |
Alonso et al. | Scalable Knowledge Graph Construction from Twitter | |
AHMADI et al. | The Impact of Organizational Social Capital on Knowledge Sharing in Media Organizations: Case study in Center of New Media in Islamic Republic of Iran Broadcasting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |