CN107203618A - 适用于研发企业的数据归类方法 - Google Patents

适用于研发企业的数据归类方法 Download PDF

Info

Publication number
CN107203618A
CN107203618A CN201710375533.1A CN201710375533A CN107203618A CN 107203618 A CN107203618 A CN 107203618A CN 201710375533 A CN201710375533 A CN 201710375533A CN 107203618 A CN107203618 A CN 107203618A
Authority
CN
China
Prior art keywords
data
layer
analysis
enterprises
classifying method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710375533.1A
Other languages
English (en)
Inventor
丁涛
罗亚利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Asia Only Information Polytron Technologies Inc
Original Assignee
Suzhou Asia Only Information Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Asia Only Information Polytron Technologies Inc filed Critical Suzhou Asia Only Information Polytron Technologies Inc
Priority to CN201710375533.1A priority Critical patent/CN107203618A/zh
Publication of CN107203618A publication Critical patent/CN107203618A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种适用于研发企业的数据归类方法,包括有相互通讯的数据采集层、存储层、分析层、展示层构成,其数据构建流程如下,首先,通过数据采集层从研发数据源中进行数据采集。之后,采集完成后的数据,存储在存储层中,并根据不同的存储格式进行归类存储。接着,通过分析层进行数据分析。最终,展示层对分析层分析后的分析结果进行展示。由此,能面对全网、各个公开的数据库,实现无人值守的数据抓取。设有独立的分析层,对各类数据进行分析比较,实现汇总。抓取的信息可得到存储层的妥善保存,便于分析处理。设有较佳的展示方式,可结合常见的智能设备进行数据展示,便于研发人员处理。

Description

适用于研发企业的数据归类方法
技术领域
本发明涉及一种数据归类方法,尤其涉及一种适用于研发企业的数据归类方法。
背景技术
就现有的企业研发数据收集来看,往往是采用人工方式,通过关键词以及逻辑公式进行不同数据库的检索,以获得相关的资源信息。但是,这种搜集方式费时费力,搜集完毕后还需要通过人工进行二次比对,才能过滤出可用的参考信息。对于研发需求量大的部门或是企业,人力成本投入较大,且因为人员差异化会导致搜集差异。
有鉴于上述的缺陷,本设计人,积极加以研究创新,以期创设一种适用于研发企业的数据归类方法,使其更具有产业上的利用价值。
发明内容
为解决上述技术问题,本发明的目的是提供一种适用于研发企业的数据归类方法。
本发明的适用于研发企业的数据归类方法,其中:包括有相互通讯的数据采集层、存储层、分析层、展示层构成,其数据构建流程如下,
步骤一,通过数据采集层从研发数据源中进行数据采集。
步骤二,采集完成后的数据,存储在存储层中,并根据不同的存储格式进行归类存储。
步骤三,通过分析层进行数据分析。
步骤四,展示层对分析层分析后的分析结果进行展示。
进一步地,上述的适用于研发企业的数据归类方法,其中,所述步骤一中,数据采集层通过网络爬虫进行数据采集。
更进一步地,上述的适用于研发企业的数据归类方法,其中,所述步骤一中,网络爬虫通过设定关键词,对符合关键词且拥有较高词频的数据进行采集;或是,网络爬虫通过图片虚拟配对,对图片中像素点阵匹配度较高的图片进行提取。
更进一步地,上述的适用于研发企业的数据归类方法,其中,所述步骤一中,通过定时采集方式进行数据采集,所述定时周期为每周,或是为每个工作日;或是,通过实时采集方式进行数据采集。
更进一步地,上述的适用于研发企业的数据归类方法,其中,所述步骤一中,研发数据源包括国内专利公布数据库、国外专利公布数据库、国内论文期刊数据库、国外论文期刊数据库。
更进一步地,上述的适用于研发企业的数据归类方法,其中,所述步骤二中,存储格式包括文本格式、表格格式、html文档格式中的一种或是多种结合。
更进一步地,上述的适用于研发企业的数据归类方法,其中,所述步骤三中,数据分析包括研发数据挖掘、研发类别对比、差异化对比、近似排查。
更进一步地,上述的适用于研发企业的数据归类方法,其中,所述步骤三中,若近似排查存在数量大于5件,向展示层发出告警。
更进一步地,上述的适用于研发企业的数据归类方法,其中,所述步骤四中,分析结果以文字,和/或是数字,和/或是图表,和/或是缩略图进行展示。
再进一步地,上述的适用于研发企业的数据归类方法,其中,所述步骤四中,分析结果传输到PC端,和/或是智能设备,所述智能设备包括智能手机、平板电脑。
借由上述方案,本发明至少具有以下优点:
1、面对全网、各个公开的数据库,实现无人值守的数据抓取。
2、设有独立的分析层,对各类数据进行分析比较,实现汇总。
3、抓取的信息可得到存储层的妥善保存,便于分析处理。
4、设有较佳的展示方式,可结合常见的智能设备进行数据展示,便于研发人员处理。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例详细说明如后。
具体实施方式
下面结合实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
适用于研发企业的数据归类方法,其与众不同之处在于,包括有相互通讯的数据采集层、存储层、分析层、展示层构成,在实施期间,采用的数据构建流程如下,
步骤一,通过数据采集层从研发数据源中进行数据采集。具体来说,为了便于实现全网段的数据抓取,便于后续研发人员进行较佳的数据对比,为研发规划提供有效参考,数据采集层通过网络爬虫进行数据采集。同时,依托于网络爬虫的采用,可实现24小时不间断的免人工收集。
在实际实施时,网络爬虫通过设定关键词,对符合关键词且拥有较高词频的数据进行采集。当然,亦可以是网络爬虫通过图片虚拟配对,对图片中像素点阵匹配度较高的图片进行提取。由此,满足图、文多方位的检索查询。
同时,可通过定时采集方式进行数据采集。具体来说,本发明采用的定时周期为每周,或是为每个工作日。当然,考虑到某些长期实时数据监控、检索的需要,亦可以通过实时采集方式进行数据采集。
并且,考虑到研发数据源的扩充,便于研发人员进行数据汇总、参考,提升研发数据处理效率,本发明采用的研发数据源包括国内专利公布数据库、国外专利公布数据库、国内论文期刊数据库、国外论文期刊数据库。
步骤二,采集完成后的数据,存储在存储层中,并根据不同的存储格式进行归类存储。考虑到后续分析便利,且满足高速有效的数据互通,存储格式包括文本格式、表格格式、html文档格式中的一种或是多种结合。
步骤三,通过分析层进行数据分析。考虑到研发需求的前瞻性,为了有效避免后续的重复投入,规避掉近似路线的二次研发。采用的数据分析包括研发数据挖掘、研发类别对比、差异化对比、近似排查。同时,为了在后台自动化搜索过程中及时进行近似异常告警,便于研发人员第一时间知晓,若近似排查存在数量大于5件,向展示层发出告警。
步骤四,展示层对分析层分析后的分析结果进行展示。为了实现直观的展示,给研发人员研发启示与数据对比,分析结果以文字和/或是数字来展示。当然,从信息获取的直观性与归类性出发,亦可以采用和/或是缩略图进行展示。并且,考虑到展示的便利,分析结果传输到PC端,和/或是智能设备。结合现有的常见设备来看,本发明实施期间采用的智能设备包括智能手机、平板电脑。
通过上述的文字表述可以看出,采用本发明后,拥有如下优点:
1、面对全网、各个公开的数据库,实现无人值守的数据抓取。
2、设有独立的分析层,对各类数据进行分析比较,实现汇总。
3、抓取的信息可得到存储层的妥善保存,便于分析处理。
4、设有较佳的展示方式,可结合常见的智能设备进行数据展示,便于研发人员处理。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (10)

1.适用于研发企业的数据归类方法,其特征在于:包括有相互通讯的数据采集层、存储层、分析层、展示层构成,
其数据构建流程如下,
步骤一,通过数据采集层从研发数据源中进行数据采集;
步骤二,采集完成后的数据,存储在存储层中,并根据不同的存储格式进行归类存储;
步骤三,通过分析层进行数据分析;
步骤四,展示层对分析层分析后的分析结果进行展示。
2.根据权利要求1所述的适用于研发企业的数据归类方法,其特征在于:所述步骤一中,数据采集层通过网络爬虫进行数据采集。
3.根据权利要求2所述的适用于研发企业的数据归类方法,其特征在于:所述步骤一中,网络爬虫通过设定关键词,对符合关键词且拥有较高词频的数据进行采集;或是,网络爬虫通过图片虚拟配对,对图片中像素点阵匹配度较高的图片进行提取。
4.根据权利要求1所述的适用于研发企业的数据归类方法,其特征在于:所述步骤一中,通过定时采集方式进行数据采集,所述定时周期为每周,或是为每个工作日;或是,通过实时采集方式进行数据采集。
5.根据权利要求1所述的适用于研发企业的数据归类方法,其特征在于:所述步骤一中,研发数据源包括国内专利公布数据库、国外专利公布数据库、国内论文期刊数据库、国外论文期刊数据库。
6.根据权利要求1所述的适用于研发企业的数据归类方法,其特征在于:所述步骤二中,存储格式包括文本格式、表格格式、html文档格式中的一种或是多种结合。
7.根据权利要求1所述的适用于研发企业的数据归类方法,其特征在于:所述步骤三中,数据分析包括研发数据挖掘、研发类别对比、差异化对比、近似排查。
8.根据权利要求7所述的适用于研发企业的数据归类方法,其特征在于:所述步骤三中,若近似排查存在数量大于5件,向展示层发出告警。
9.根据权利要求1所述的适用于研发企业的数据归类方法,其特征在于:所述步骤四中,分析结果以文字,和/或是数字,和/或是图表,和/或是缩略图进行展示。
10.根据权利要求1所述的适用于研发企业的数据归类方法,其特征在于:所述步骤四中,分析结果传输到PC端,和/或是智能设备,所述智能设备包括智能手机、平板电脑。
CN201710375533.1A 2017-05-24 2017-05-24 适用于研发企业的数据归类方法 Pending CN107203618A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710375533.1A CN107203618A (zh) 2017-05-24 2017-05-24 适用于研发企业的数据归类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710375533.1A CN107203618A (zh) 2017-05-24 2017-05-24 适用于研发企业的数据归类方法

Publications (1)

Publication Number Publication Date
CN107203618A true CN107203618A (zh) 2017-09-26

Family

ID=59905872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710375533.1A Pending CN107203618A (zh) 2017-05-24 2017-05-24 适用于研发企业的数据归类方法

Country Status (1)

Country Link
CN (1) CN107203618A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110196937A (zh) * 2019-04-21 2019-09-03 合肥廷创致嘉科技服务有限公司 一种项目信息实时抓取和分析系统
CN111489198A (zh) * 2020-04-09 2020-08-04 南京中爱人工智能与生命科学研究院有限公司 一种基于药物研发数据的商务应用推广方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012046904A1 (ko) * 2010-10-07 2012-04-12 한국과학기술정보연구원 다중 자원 기반 검색정보 제공 장치 및 방법
CN105405071A (zh) * 2015-12-04 2016-03-16 国网浙江省电力公司 一种企业统一数据模型构建方法
CN105740335A (zh) * 2016-01-22 2016-07-06 山东合天智汇信息技术有限公司 一种基于titan的企业信息分析平台及其构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012046904A1 (ko) * 2010-10-07 2012-04-12 한국과학기술정보연구원 다중 자원 기반 검색정보 제공 장치 및 방법
CN105405071A (zh) * 2015-12-04 2016-03-16 国网浙江省电力公司 一种企业统一数据模型构建方法
CN105740335A (zh) * 2016-01-22 2016-07-06 山东合天智汇信息技术有限公司 一种基于titan的企业信息分析平台及其构建方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110196937A (zh) * 2019-04-21 2019-09-03 合肥廷创致嘉科技服务有限公司 一种项目信息实时抓取和分析系统
CN111489198A (zh) * 2020-04-09 2020-08-04 南京中爱人工智能与生命科学研究院有限公司 一种基于药物研发数据的商务应用推广方法

Similar Documents

Publication Publication Date Title
Chao et al. Research on tobacco foreign body detection device based on machine vision
CN105095320B (zh) 基于关系叠加组合的文档的标识、关联、搜索及展现的系统
CN106327722B (zh) 一种档案管理系统
CN106779581A (zh) 一种人力资源管理系统
CN110489653A (zh) 舆情信息查询方法和装置、系统、电子设备、存储介质
CN107203618A (zh) 适用于研发企业的数据归类方法
CN102314916A (zh) 一种视频处理方法和系统
Trivedi et al. Handbook of research on advanced data mining techniques and applications for business intelligence
CN106844588A (zh) 一种基于网络爬虫的用户行为数据的分析方法及系统
US20130091145A1 (en) Method and apparatus for analyzing web trends based on issue template extraction
CN110033191B (zh) 一种商业人工智能的分析方法及系统
CN112053511A (zh) 一种工器具的管控装置及其管控方法
CN107145600A (zh) 适用于同类别企业公开信息归类方法
Gunawan et al. Knowledge management study in data warehouse
KR101040734B1 (ko) 지적재산 가이던스 시스템 및 방법
CN104415976A (zh) 冷轧生产线跨机组产品质量关联分析方法
CN209803861U (zh) 一种涉密案卷档案管理系统
Luo et al. Eventriver: An event-based visual analytics approach to exploring large text collections with a temporal focus
CN107705185A (zh) 一种商品推荐方法及装置
Hakkak et al. The role of organizational toxic climate on organizational inertia with regard to the mediator role of the organizational silence
Rahadian The management of Citizen Relation Management (CRM) Jakarta Smart City
Subramanian et al. Measurement process and multi-dimensional metric model for evaluating KM systems
CN215954412U (zh) 基于人脸识别智慧社区取物系统
Alonso et al. Scalable Knowledge Graph Construction from Twitter
AHMADI et al. The Impact of Organizational Social Capital on Knowledge Sharing in Media Organizations: Case study in Center of New Media in Islamic Republic of Iran Broadcasting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination