CN108304416A - 一种基于语义分析的多属性自动映射系统 - Google Patents
一种基于语义分析的多属性自动映射系统 Download PDFInfo
- Publication number
- CN108304416A CN108304416A CN201710026455.4A CN201710026455A CN108304416A CN 108304416 A CN108304416 A CN 108304416A CN 201710026455 A CN201710026455 A CN 201710026455A CN 108304416 A CN108304416 A CN 108304416A
- Authority
- CN
- China
- Prior art keywords
- module
- url
- api
- attribute
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 36
- 230000000694 effects Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明公开了一种基于语义分析的多属性自动映射系统,包括数据中心模块、种子URL模块、收集模块、处理模块、映射模块、检索模块,所述种子URL模块连接收集模块,所述收集模块连接处理模块,所述处理模块连接映射模块,所述映射模块连接数据中心模块,所述映射模块连接检索模块;本发明可自动将不同API平台的描述属性进行映射,对全平台API供应商的自定义属性进行规范化;并且提供全平台的API数据统一检索服务,使用户不需要一家一家平台的去寻找,避免了用户极大的时间和精力成本。
Description
技术领域
本发明涉及映射系统,具体是一种基于语义分析的多属性自动映射系统。
背景技术
目前市面上的广大API服务平台(如juhe.cn,jisuapi.com)提供的检索服务都只局限于自身平台的内容(包括自身的API服务或者第三方入驻的API服务),并不能够提供统一的接口用于检索全网所有API平台的服务,开发者想要检索某个API服务时,不得不一家平台一家平台的去查看去检索,消耗了用户极大的时间和精力成本。此外,各家API平台对描述API的属性都是自己定义的,给各个平台的API属性的统一工作造就了困难。
发明内容
本发明的目的在于提供一种基于语义分析的多属性自动映射系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于语义分析的多属性自动映射系统,包括数据中心模块、种子URL模块、收集模块、处理模块、映射模块、检索模块,所述种子URL模块连接收集模块,种子URL模块通过互联网获取一些种子URL,所述收集模块通过爬虫技术收集市面上现存的所有API服务平台上的API数据,所述收集模块连接处理模块,通过处理模块提取各个平台的API服务描述信息并且进行处理,所述处理模块连接映射模块,将各个平台上的API属性映射到统一的属性,所述映射模块连接数据中心模块,通过映射模块的作用将统一后的API数据整理入库,所述映射模块连接检索模块,通过检索模块的作用待于用户检索。
作为本发明进一步的方案:所述处理模块包括抓取模块、分析模块、存储模块。
作为本发明再进一步的方案:抓取模块将种子URL放入待抓取URL队列中。
作为本发明再进一步的方案:分析模块从待抓取URL队列中取出待抓取URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进存储模块中。
作为本发明再进一步的方案:抓取模块将URL放进已抓取URL队列的分析模块。
作为本发明再进一步的方案:分析模块分析已抓取URL队列中的URL。
作为本发明再进一步的方案:分析模块分析其中的其他URL,并且将URL放入待抓取URL队列,从而进行下一个循环。
与现有技术相比,本发明的有益效果是:本发明可自动将不同API平台的描述属性进行映射,对全平台API供应商的自定义属性进行规范化;并且提供全平台的API数据统一检索服务,使用户不需要一家一家平台的去寻找,避免了用户极大的时间和精力成本。
附图说明
图1为基于语义分析的多属性自动映射系统的结构框图。
图2为基于语义分析的多属性自动映射系统中网络爬虫的结构框图。
图中:1-数据中心模块、2-第三方种子URL模块、3-收集模块、4-处理模块、5-映射模块、6-检索模块、7-抓取模块、8-分析模块、9-存储模块。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
请参阅图1-2,一种基于语义分析的多属性自动映射系统,包括数据中心模块1、种子URL模块2、收集模块3、处理模块4、映射模块5、检索模块6,所述种子URL模块2连接收集模块3,种子URL模块2通过互联网获取一些种子URL,所述收集模块3通过爬虫技术收集市面上现存的所有API服务平台上的API数据,所述收集模块3连接处理模块4,通过处理模块4提取各个平台的API服务描述信息并且进行处理,所述处理模块4包括抓取模块7、分析模块8、存储模块9,通过抓取模块7的作用将种子URL放入待抓取URL队列中,从待抓取URL队列中取出待抓取URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进存储模块9中,此外将这些URL放进已抓取URL队列的分析模块8,分析已抓取URL队列的分析模块8中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进行下一个循环;所述处理模块4连接映射模块5,将各个平台上的API属性映射到统一的属性,所述映射模块5连接数据中心模块1,通过映射模块5的作用将统一后的API数据整理入库,所述映射模块5连接检索模块6,通过检索模块6的作用待于用户检索。
本发明的工作原理:首先利用爬虫技术收集市面上现存的所有API服务平台上的API数据,提取各个平台的API服务描述信息;因为各个平台上的API服务描述信息都是以描述属性的方式给出,为了检索时的统一,需要将各个平台自定义的描述属性映射为统一的属性;如在聚合数据(juhe.cn)平台上,API使用数用“连接应用数”这个属性描述,而在极速API(jisuapi.com)平台上,则用“使用数”这个属性描述,这部分工作就是将这两个属性映射成一个属性;该部分可用语义分析中的近义词或者本体识别进行;将各个平台上的API属性映射到统一的属性集后,将各平台所有的API数据整理入库,有待于用户检索;当用户检索时,返回入库后的所有平台上的API检索结果。
上面对本专利的较佳实施方式作了详细说明,但是本专利并不限于上述实施方式,在本领域的普通技术人员所具备的知识范围内,还可以在不脱离本专利宗旨的前提下做出各种变化。
Claims (7)
1.一种基于语义分析的多属性自动映射系统,包括数据中心模块、种子URL模块、收集模块、处理模块、映射模块、检索模块,其特征在于,所述种子URL模块连接收集模块,种子URL模块通过互联网获取一些种子URL,所述收集模块通过爬虫技术收集市面上现存的所有API服务平台上的API数据,所述收集模块连接处理模块,通过处理模块提取各个平台的API服务描述信息并且进行处理,所述处理模块连接映射模块,各个平台上的API属性映射到统一的属性,所述映射模块连接数据中心模块,通过映射模块的作用将统一后的API数据整理入库,所述映射模块连接检索模块。
2.根据权利要求1所述的基于语义分析的多属性自动映射系统,其特征在于,所述处理模块包括抓取模块、分析模块、存储模块。
3.根据权利要求2所述的基于语义分析的多属性自动映射系统,其特征在于,抓取模块将种子URL放入待抓取URL队列中。
4.根据权利要求2所述的基于语义分析的多属性自动映射系统,其特征在于,分析模块从待抓取URL队列中取出待抓取URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进存储模块中。
5.根据权利要求2所述的基于语义分析的多属性自动映射系统,其特征在于,抓取模块将URL放进已抓取URL队列的分析模块。
6.根据权利要求2所述的基于语义分析的多属性自动映射系统,其特征在于,分析模块分析已抓取URL队列中的URL。
7.根据权利要求2所述的基于语义分析的多属性自动映射系统,其特征在于,分析模块分析其中的其他URL,并且将URL放入待抓取URL队列,从而进行下一个循环。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710026455.4A CN108304416A (zh) | 2017-01-13 | 2017-01-13 | 一种基于语义分析的多属性自动映射系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710026455.4A CN108304416A (zh) | 2017-01-13 | 2017-01-13 | 一种基于语义分析的多属性自动映射系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108304416A true CN108304416A (zh) | 2018-07-20 |
Family
ID=62872485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710026455.4A Pending CN108304416A (zh) | 2017-01-13 | 2017-01-13 | 一种基于语义分析的多属性自动映射系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304416A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1828588A (zh) * | 2005-02-28 | 2006-09-06 | 微软公司 | 可组成查询构建api和查询语言 |
CN102567016A (zh) * | 2011-12-07 | 2012-07-11 | 北京北大软件工程发展有限公司 | 应用程序编程接口使用示例提取方法及装置 |
CN103838785A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种专利领域的垂直搜索引擎 |
US20160267153A1 (en) * | 2013-10-30 | 2016-09-15 | Hewlett Packard Enterprise Development Lp | Application programmable interface (api) discovery |
CN106250391A (zh) * | 2016-07-15 | 2016-12-21 | 浙江大学 | 一种基于服务聚合与功能信息的api推荐方法 |
-
2017
- 2017-01-13 CN CN201710026455.4A patent/CN108304416A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1828588A (zh) * | 2005-02-28 | 2006-09-06 | 微软公司 | 可组成查询构建api和查询语言 |
CN102567016A (zh) * | 2011-12-07 | 2012-07-11 | 北京北大软件工程发展有限公司 | 应用程序编程接口使用示例提取方法及装置 |
CN103838785A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种专利领域的垂直搜索引擎 |
US20160267153A1 (en) * | 2013-10-30 | 2016-09-15 | Hewlett Packard Enterprise Development Lp | Application programmable interface (api) discovery |
CN106250391A (zh) * | 2016-07-15 | 2016-12-21 | 浙江大学 | 一种基于服务聚合与功能信息的api推荐方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lin et al. | Cross-project transfer representation learning for vulnerable function discovery | |
CN109479061A (zh) | 遵从性违反检测 | |
CN105095223B (zh) | 文本分类方法及服务器 | |
CN103902535B (zh) | 获取联想词的方法、装置及系统 | |
CN110287247B (zh) | 基于银联系统的数据存储方法、装置、设备及存储介质 | |
CN103235820B (zh) | 一种集群系统中数据存储方法与装置 | |
CN104462547B (zh) | 一种可配置的网页数据采集的方法及系统 | |
CN110069610A (zh) | 基于Solr的检索方法、装置、设备和存储介质 | |
CN110795697B (zh) | 逻辑表达式的获取方法、装置、存储介质以及电子装置 | |
CN107818120A (zh) | 基于大数据的数据处理方法和装置 | |
CN103248677B (zh) | 互联网行为分析系统及其工作方法 | |
CN103246963B (zh) | 基于物联网的员工培训系统 | |
CN108170578A (zh) | 日志收集方法及装置 | |
CN105893484A (zh) | 一种基于文本特征和行为特征的微博Spammer识别方法 | |
CN107070897B (zh) | 入侵检测系统中基于多属性哈希去重的网络日志存储方法 | |
CN103886020A (zh) | 一种房地产信息快速搜索方法 | |
CN108074033A (zh) | 指标数据的处理方法、系统、电子设备和存储介质 | |
CN104021124B (zh) | 用于处理网页数据的方法、装置和系统 | |
KR20190011353A (ko) | 빅데이터로서 사용을 위해 데이터를 수집, 처리, 변환 및 저장하는 시스템 | |
CN103955461A (zh) | 一种基于本体集合概念相似度的语义匹配方法 | |
CN105975599A (zh) | 一种监测网站的页面埋点的方法和装置 | |
CN106533728A (zh) | 服务器信息收集方法和装置 | |
CN106209936B (zh) | 第三方系统数据获取方法和装置 | |
CN103942249A (zh) | 一种基于本体集合语义匹配的信息服务调度系统 | |
CN108304416A (zh) | 一种基于语义分析的多属性自动映射系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180720 |
|
WD01 | Invention patent application deemed withdrawn after publication |