CN107273481A - 适用于企业用户研发数据库的维护方法 - Google Patents
适用于企业用户研发数据库的维护方法 Download PDFInfo
- Publication number
- CN107273481A CN107273481A CN201710437604.6A CN201710437604A CN107273481A CN 107273481 A CN107273481 A CN 107273481A CN 201710437604 A CN201710437604 A CN 201710437604A CN 107273481 A CN107273481 A CN 107273481A
- Authority
- CN
- China
- Prior art keywords
- database
- data
- server
- checking label
- storage region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000001914 filtration Methods 0.000 claims abstract description 4
- 230000003252 repetitive effect Effects 0.000 claims description 3
- 238000010079 rubber tapping Methods 0.000 claims 1
- 238000011160 research Methods 0.000 abstract description 4
- 238000012827 research and development Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2272—Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
- G06F16/2443—Stored procedures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种适用于企业用户研发数据库的维护方法,存储服务器划分有独立的存储区域,将存储服务器内的原始数据上传至云端服务器进行备份,对原始数据进行关键词、词频的采集,生成检索标签,将原始数据依据检索标签的不同,存入对应的存储区域内,通过检索标签,从对外接口进行定时数据抓取,抓取的数据通过解析服务器解析过滤后,重新存入存储服务器内与检索标签相匹配的存储区域中的,采用去重模块,对存储区域中的内容进行去重操作。设有独立的存储区域,满足分配存储,为后续检索提供快速引导。设有检索标签,可让用户通过标签点选来快速获取研发数据。能够周期性免人工补充数据库内容,保证数据库的自主抓取与更新。
Description
技术领域
本发明涉及一种数据库维护方法,尤其涉及一种适用于企业用户研发数据库的维护方法。
背景技术
就现有的企业研发数据收集来看,往往是采用人工方式,通过关键词以及逻辑公式进行不同数据库的检索,以获得相关的资源信息。但是,这种搜集方式费时费力,搜集完毕后还需要通过人工进行二次比对,才能过滤出可用的参考信息。对于研发需求量大的部门或是企业,人力成本投入较大,且因为人员差异化会导致搜集差异。
同时,数据库建立后,往往得不到维护,在初期还不会出现数据重复与乱码。但是,长时间使用后就会出现数据陈旧与重复。
有鉴于上述的缺陷,本设计人,积极加以研究创新,以期创设一种适用于企业用户研发数据库的维护方法,使其更具有产业上的利用价值。
发明内容
为解决上述技术问题,本发明的目的是提供一种适用于企业用户研发数据库的维护方法。
本发明的适用于企业用户研发数据库的维护方法,其中:存储服务器划分有独立的存储区域,将存储服务器内的原始数据上传至云端服务器进行备份,对原始数据进行关键词、词频的采集,生成检索标签,将原始数据依据检索标签的不同,存入对应的存储区域内,通过检索标签,从对外接口进行定时数据抓取,抓取的数据通过解析服务器解析过滤后,重新存入存储服务器内与检索标签相匹配的存储区域中的,采用去重模块,对存储区域中的内容进行去重操作。
进一步地,上述的适用于企业用户研发数据库的维护方法,其中,所述存储服务器按照设定周期,将原始数据上传至云端服务器,所述的设定周期为间隔四天。
更进一步地,上述的适用于企业用户研发数据库的维护方法,其中,所述关键词、词频的采集为依据中文语序,进行断句、断词划分,获取词组,将重复率较高的词组进行词频标注,最终生成独立的检索标签,每个独立的检索标签,均对应相关的数据内容。
更进一步地,上述的适用于企业用户研发数据库的维护方法,其中,所述对外接口为服务器所处的内网接口与外网接口,所述内网接口与外网接口上均设置有放侵入模块。
更进一步地,上述的适用于企业用户研发数据库的维护方法,其中,所述解析过滤为,将外来抓取到的数据,根据检索协议,进行关键词匹配,将存有关键词的词句进行保留,匹配检索标签。
再进一步地,上述的适用于企业用户研发数据库的维护方法,其中,所述去重操作为,排查存储区域存在的非正确叠词、错别字、乱码。
借由上述方案,本发明至少具有以下优点:
1、设有独立的存储区域,满足分配存储,为后续检索提供快速引导。
2、设有检索标签,可让用户通过标签点选来快速获取研发数据。
3、能够周期性免人工补充数据库内容,保证数据库的自主抓取与更新。
4、可实现去重,提升检索便利。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例详细说明如后。
具体实施方式
下面结合实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
适用于企业用户研发数据库的维护方法,其与众不同之处在于:为了针对不同的数据进行独立存储,实现快速引导、检索与快速数据提取,采用的存储服务器划分有独立的存储区域。同时,将存储服务器内的原始数据上传至云端服务器进行备份。这样,保证底层数据的存储安全。为了便于用户实现便捷化的标签检索,无需重复录入关键词来找寻研发数据内容,实现研发类数据的快速比对,对原始数据进行关键词、词频的采集。之后,生成检索标签,将原始数据依据检索标签的不同,存入对应的存储区域内。为了对实现外部数据的及时补充,有效更新、扩充数据库,可通过检索标签,从对外接口进行定时数据抓取。并且,抓取的数据通过解析服务器解析过滤后,重新存入存储服务器内与检索标签相匹配的存储区域中的。再者,为了对数据进行有效整合,防止出现数据的重复录入或是乱码,本发明还采用去重模块,对存储区域中的内容进行去重操作。
结合本发明一较佳的实施方式来看,存储服务器按照设定周期,将原始数据上传至云端服务器,设定周期为间隔四天。这样,满足常见的服务器更新频率,不造成服务器运行负担。
进一步来看,为了适应中文的语序,实现免人工的预处理,为企业用户直接点选检索标签来获取信息提供便利,采用的关键词、词频的采集为依据中文语序,进行断句、断词划分,获取词组。同时,将重复率较高的词组进行词频标注,最终生成独立的检索标签,每个独立的检索标签,均对应相关的数据内容。
结合实际的实施来看,本发明采用的对外接口为服务器所处的内网接口与外网接口,内网接口与外网接口上均设置有放侵入模块。这样,可以有效防止外部恶意数据的清楚,保证使用安全,不出现数据丢失或是意外变更。同时,本发明采用的解析过滤为,将外来抓取到的数据,根据检索协议,进行关键词匹配,将存有关键词的词句进行保留,匹配检索标签。
再进一步来看,为了有效减少检索的出错率,满足标签检索的快速匹配,去重操作为,排查存储区域存在的非正确叠词、错别字、乱码。
通过上述的文字表述可以看出,采用本发明后,拥有如下优点:
1、设有独立的存储区域,满足分配存储,为后续检索提供快速引导。
2、设有检索标签,可让用户通过标签点选来快速获取研发数据。
3、能够周期性免人工补充数据库内容,保证数据库的自主抓取与更新。
4、可实现去重,提升检索便利。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (6)
1.适用于企业用户研发数据库的维护方法,其特征在于:存储服务器划分有独立的存储区域,将存储服务器内的原始数据上传至云端服务器进行备份,对原始数据进行关键词、词频的采集,生成检索标签,将原始数据依据检索标签的不同,存入对应的存储区域内,通过检索标签,从对外接口进行定时数据抓取,抓取的数据通过解析服务器解析过滤后,重新存入存储服务器内与检索标签相匹配的存储区域中的,采用去重模块,对存储区域中的内容进行去重操作。
2.根据权利要求1所述的适用于企业用户研发数据库的维护方法,其特征在于:所述存储服务器按照设定周期,将原始数据上传至云端服务器,所述的设定周期为间隔四天。
3.根据权利要求1所述的适用于企业用户研发数据库的维护方法,其特征在于:所述关键词、词频的采集为依据中文语序,进行断句、断词划分,获取词组,将重复率较高的词组进行词频标注,最终生成独立的检索标签,每个独立的检索标签,均对应相关的数据内容。
4.根据权利要求1所述的适用于企业用户研发数据库的维护方法,其特征在于:所述对外接口为服务器所处的内网接口与外网接口,所述内网接口与外网接口上均设置有放侵入模块。
5.根据权利要求1所述的适用于企业用户研发数据库的维护方法,其特征在于:所述解析过滤为,将外来抓取到的数据,根据检索协议,进行关键词匹配,将存有关键词的词句进行保留,匹配检索标签。
6.根据权利要求1所述的适用于企业用户研发数据库的维护方法,其特征在于:所述去重操作为,排查存储区域存在的非正确叠词、错别字、乱码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710437604.6A CN107273481A (zh) | 2017-06-10 | 2017-06-10 | 适用于企业用户研发数据库的维护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710437604.6A CN107273481A (zh) | 2017-06-10 | 2017-06-10 | 适用于企业用户研发数据库的维护方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107273481A true CN107273481A (zh) | 2017-10-20 |
Family
ID=60067098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710437604.6A Pending CN107273481A (zh) | 2017-06-10 | 2017-06-10 | 适用于企业用户研发数据库的维护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107273481A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110515915A (zh) * | 2018-05-04 | 2019-11-29 | 拉萨经济技术开发区凯航科技开发有限公司 | 一种简档确定方法 |
CN116862440A (zh) * | 2023-07-18 | 2023-10-10 | 中咨高技术咨询中心有限公司 | 一种科研项目管理方法及系统 |
CN117076474A (zh) * | 2023-10-16 | 2023-11-17 | 之江实验室 | 离线多模态文献数据的更新方法、装置、设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140351273A1 (en) * | 2013-05-24 | 2014-11-27 | Samsung Sds Co., Ltd. | System and method for searching information |
CN104376406A (zh) * | 2014-11-05 | 2015-02-25 | 上海计算机软件技术开发中心 | 一种基于大数据的企业创新资源管理与分析系统和方法 |
CN105045838A (zh) * | 2015-07-01 | 2015-11-11 | 华东师范大学 | 基于分布式存储系统的网络爬虫系统 |
CN106407362A (zh) * | 2016-09-08 | 2017-02-15 | 福建中金在线信息科技有限公司 | 一种关键词信息检索的方法及装置 |
-
2017
- 2017-06-10 CN CN201710437604.6A patent/CN107273481A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140351273A1 (en) * | 2013-05-24 | 2014-11-27 | Samsung Sds Co., Ltd. | System and method for searching information |
CN104376406A (zh) * | 2014-11-05 | 2015-02-25 | 上海计算机软件技术开发中心 | 一种基于大数据的企业创新资源管理与分析系统和方法 |
CN105045838A (zh) * | 2015-07-01 | 2015-11-11 | 华东师范大学 | 基于分布式存储系统的网络爬虫系统 |
CN106407362A (zh) * | 2016-09-08 | 2017-02-15 | 福建中金在线信息科技有限公司 | 一种关键词信息检索的方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110515915A (zh) * | 2018-05-04 | 2019-11-29 | 拉萨经济技术开发区凯航科技开发有限公司 | 一种简档确定方法 |
CN116862440A (zh) * | 2023-07-18 | 2023-10-10 | 中咨高技术咨询中心有限公司 | 一种科研项目管理方法及系统 |
CN116862440B (zh) * | 2023-07-18 | 2024-02-13 | 中咨高技术咨询中心有限公司 | 一种科研项目管理方法及系统 |
CN117076474A (zh) * | 2023-10-16 | 2023-11-17 | 之江实验室 | 离线多模态文献数据的更新方法、装置、设备和介质 |
CN117076474B (zh) * | 2023-10-16 | 2024-03-12 | 之江实验室 | 离线多模态文献数据的更新方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105830064B (zh) | 情态生成装置以及计算机可读取记录介质 | |
CN110334212A (zh) | 一种基于机器学习的领域性审计知识图谱构建方法 | |
CN104298662B (zh) | 一种基于有机物命名实体的机器翻译方法及翻译系统 | |
KR102009649B1 (ko) | 건축규정 분류체계별 건축규정 법령정보 검색 시스템 및 그 방법 | |
CN107992633A (zh) | 基于关键词特征的电子文档自动分类方法及系统 | |
CN104778201B (zh) | 一种基于多查询结果合并的在先技术检索方法 | |
CN107273481A (zh) | 适用于企业用户研发数据库的维护方法 | |
CN101950309A (zh) | 一种面向学科领域的新专业词汇识别方法 | |
CN102314519A (zh) | 一种基于公安领域知识本体模型的信息搜索方法 | |
CN105045847B (zh) | 一种从文本信息中提取中文机构单位名称的方法 | |
CN105049247A (zh) | 一种网络安全日志模板抽取方法及装置 | |
CN104636424A (zh) | 一种基于图谱分析构建文献综述框架的方法 | |
CN107194617A (zh) | 一种app软件工程师软技能分类系统及方法 | |
CN109376202A (zh) | 一种基于nlp的企业供应关系自动抽取分析方法 | |
CN117633179B (zh) | 一种铁路行业智能问答助手系统 | |
CN113157860B (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
CN110046225B (zh) | 一种科技项目材料完整性评估决策模型训练方法 | |
CN105930509A (zh) | 基于统计与模板匹配的领域概念自动抽取精化方法及系统 | |
CN108647199A (zh) | 一种地名新词的发现方法 | |
CN106503256B (zh) | 一种基于社交网络文档的热点信息挖掘方法 | |
CN103246655A (zh) | 一种文本分类方法、装置及系统 | |
CN109446299A (zh) | 基于事件识别的搜索电子邮件内容的方法及系统 | |
Hathout | Morphonette: a paradigm-based morphological network | |
CN107256268A (zh) | 适用于企业数据库的语音检索方法 | |
CN105488062A (zh) | 一种精准信息系统数据搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171020 |