CN108345596A - 楼宇信息融合服务平台 - Google Patents
楼宇信息融合服务平台 Download PDFInfo
- Publication number
- CN108345596A CN108345596A CN201710047733.4A CN201710047733A CN108345596A CN 108345596 A CN108345596 A CN 108345596A CN 201710047733 A CN201710047733 A CN 201710047733A CN 108345596 A CN108345596 A CN 108345596A
- Authority
- CN
- China
- Prior art keywords
- data
- building
- entity
- information
- address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0261—Targeted advertisements based on user location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种楼宇信息融合服务平台,包括:数据预处理模块、知识图谱模块和应用接口模块;所述数据预处理模块,适于对从一个以上数据源获取的数据进行预处理,以填充到所述知识图谱模块包含的知识图谱数据库中;所述获取的数据包括项目数据、楼宇数据、企业数据、企业行业数据和地址数据;所述知识图谱模块,适于为所述应用接口模块提供基础数据支持;所述应用接口模块包括一个以上应用数据接口,所述应用数据接口包括与获取的各类数据相对应的数据导入接口以及适于企业ERP系统对所述知识图谱数据库进行操作的数据服务接口。本发明技术方案使知识图谱数据库中的楼宇信息及其相关信息更为完整与准确,从而能更准确地进行广告投放。
Description
技术领域
本发明涉及计算机信息技术领域,特别涉及一种楼宇信息融合服务平台。
背景技术
互联网的发展经历了web1.0和web2.0两个阶段,正朝着web3.0方向发展。web1.0是以编辑为特征,用户阅读网站提供的内容,代表站点为新浪、搜狐和网易三大门户。web2.0更注重用户的交互作用,用户既是网站内容的消费者(浏览者),也是网站内容的制造者(微博、天涯社区、自媒体)。
在这两代互联网中,用户点击访问的(或互联的)最小单位是文档,文档与文档之间的连接是通过超链接实现的;由于HTML语言缺乏语义,因此这两代互联网中的内容主要是面向人类的,难以被计算机自动理解。而web3.0即Web of Data(语义网)是数据的网络,在其上发布和互联的将是一个个实体数据(即things,实体是语义网数据的构成单元),它实现了实体级别(entity-level)的数据互联和互操作。
在Web of Data中,所有的实体都使用一个全局唯一确定的ID来进行标识,这个ID即对应目标的标识符(identifier),这种做法与一个网页有一个对应的URL、数据库中的一条记录有一个特定的主键相似;对象之间的链接代表对象之间的关联,大量实体以及它们之间的关系形成了一张巨大的图。使用共享的数据词典,即本体(本体是指一种形式化的,对于共享概念体系的明确而又详细的说明)描述对象和链接,可以实现分布式数据集的链接。在此架构下,数据共享、管理、交换更加容易。它是一种松耦合的(此处“松耦合”即指数据模式去中心化,非自顶向下推行事先约定数据模式,而是由各数据源自底向上自发构建数据模式,并进行数据的关联与管理)、去中心化的互联网。在Web of Data技术框架中,数据是以本体的形式存在的,使用资源描述框架(RDF,Resource Description Framework)、网络本体语言(OWL,Ontology Web Language)等本体描述语言进行数据表示,并使用本体查询语言SPARQL进行数据查询。
知识图谱是基于web of data技术框架的应用与实现。知识图谱实现对客观世界从字符串描述到结构化语义描述,是对客观世界的知识映射(mapping world knowledge),本体可以作为知识图谱表示的概念模型和逻辑基础。知识图谱可以描述不同层次和粒度的概念抽象。知识图谱可以体现为一张巨大的图,图中的节点表示数据源,而图中的边代表不同数据源中相同实体链接。知识图谱可以显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体。可以用于挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。它将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法加以有效利用可视化地、形象地展示信息。
随着新媒体、新技术的发展,广告所涉及的媒体几乎无所不包,只要是能传递信息的介质,就可以成为广告的载体。广告业竞争日益激烈,对广告受众的精准定位要求越来越高。仅仅凭广告销售人员经验确定楼宇的广告投放已经不能满足要求,需要根据与楼宇相关基本信息(如地段、租金等)、受众基本信息(如楼宇入住公司等)等数据精准确定楼宇的广告投放价值,使广告发布方能快速地决策广告的投放,以便获得最大收益。
上述的楼宇相关信息一般可以通过建立楼宇数据库实现,然而,现有技术中构建的楼宇数据库一般采用的是关系数据库。本领域技术人员知晓,在关系数据库中,数据定义描述仅局限于数据库中,其数据字典与数据注册主要是提供给人的,而非直接用于机器,其关系存储在文件、SQL代码和集体记忆(collective memories)中,不能直接提供给应用程序。相比于关系数据库,RDF图数据中的关系是一种传递性质,是明确的模型,可直接提供给应用程序。且语义网中的数据模型具有自然的可扩充能力,而关系数据库中的数据表的合并或字段增加的代价很高。因此较之传统关系数据库,语义网的图数据更利于数据维护与数据融合,且其中的数据更能有效用于应用程序,利用统一的推理引擎更可以有效的进行数据推理。
一个比较突出的问题是,现有技术的楼宇数据库中的楼宇数据大多需要人为采集并录入,且存在某些数据不全或不够准确的问题,尤其是现有楼宇数据中无法准确体现出楼宇与楼宇内的受众人群之间的匹配,从而难以更准确地进行广告投放。
发明内容
本发明要解决的问题是现有技术中的楼宇数据库不利于数据维护与数据融合,楼宇信息及其相关信息不够完整与准确,使广告发布方难以准确地进行广告投放。
为解决上述问题,本发明技术方案提供一种楼宇信息融合服务平台,包括:数据预处理模块、知识图谱模块和应用接口模块;所述数据预处理模块,适于对从一个以上数据源获取的数据进行预处理,以填充到所述知识图谱模块包含的知识图谱数据库中;所述获取的数据包括项目数据、楼宇数据、企业数据、企业行业数据和地址数据,所述项目数据为广告发布企业针对至少一个楼宇提供的产品或服务的相关信息,所述企业数据为楼宇内企业的相关信息,所述企业行业数据为所述楼宇内企业所属行业的相关信息,所述地址数据为与所述楼宇数据和企业数据相关联的地址信息;所述知识图谱模块,适于为所述应用接口模块提供基础数据支持;所述应用接口模块包括一个以上应用数据接口,所述应用数据接口包括与获取的各类数据相对应的数据导入接口以及适于广告发布企业的企业资源计划(ERP,Enterprise Resource Planning)系统对所述知识图谱数据库进行操作的数据服务接口。
可选的,所述知识图谱数据库中知识图谱的实体包括:项目实体、楼宇实体、企业实体、企业行业实体、产品实体和地址实体;所述项目实体与所述楼宇实体通过楼宇相关信息建立关联,所述楼宇实体与企业实体通过所述地址实体所包含的属性建立关联,所述企业实体分别与所述企业行业实体、产品实体相关联。
可选的,所述与获取的各类数据相对应的数据导入接口包括:地图数据库应用程序编程接口(API,Application Programming Interface)数据导入接口,适于调用地图数据库的API,导入经纬度数据;企业爬取数据导入接口,适于导入爬取补充的企业数据;楼宇爬取数据导入接口,适于导入爬取补充的楼宇数据;ERP数据导入接口,适于导入广告发布企业ERP系统中的数据。
可选的,所述数据预处理模块包括:地址数据标准化子模块,适于对所述企业爬取数据导入接口、楼宇爬取数据导入接口、ERP数据导入接口所导入的地址数据进行标准化处理;经纬度数据处理子模块,适于调用所述地图数据库API数据导入接口,对标准化处理后的企业或楼宇的地址数据进行经纬度标注;行业标注子模块,适于所述ERP数据导入接口的企业数据进行行业信息标注并与企业信息关联;产品标注子模块,适于对所述企业爬取数据导入接口的企业数据进行产品信息标注并与企业信息关联。
可选的,所述地图数据库为高德地图或百度地图基于位置的服务开放平台。
可选的,所述地址数据标准化子模块进行的标准化处理包括:建立地名词库,所述地名词库中的词汇包括地名词和后缀词;基于所述地名词库,对有待标准化处理的地址数据所包含的字串进行正向切词;对经过所述正向切词后形成的地址数据中的地名词和后缀词进行标注;按照预先创建的地址规则存储经过标注的地址数据。
可选的,所述正向切词采用正向最大匹配算法进行。
可选的,对于存储的每条经过标注的地址数据,标识其是否规范完整。
可选的,所述标准化处理还包括:补全所述楼宇数据中缺省的企业地址。
可选的,所述知识图谱模块还包括:实体填充子模块,适于将所述项目数据、楼宇数据、企业数据、企业行业数据和地址数据导入到所述知识图谱数据库中;企业实体合并子模块,适于根据企业名称简称与企业地址进行实体合并;地址实体合并子模块,适于根据楼宇地址中预定的地址级别的信息,对相同或类似地址信息进行合并。
可选的,根据企业名称简称进行实体合并包括:通过截取预定长度以上的企业名称生成企业名称简称,再与所述知识图谱数据库中的企业实体进行实体链接;根据企业地址进行实体合并包括:根据企业地址中预定地址级别的信息,对地址相同者进行合并。
可选的,所述通过截取预定长度以上的企业名称生成企业名称简称包括:通过收集地名、修饰词和后缀词的常用词集合,作为切词使用的词典;采用双向最大匹配的方法对企业名称进行切词;在直接匹配的基础上,对企业名称进行标注;在标注的结果上,建立规则来生成可能的企业名称简称。
可选的,与所述知识图谱数据库中的企业实体进行实体链接包括:通过关键词从文档的语料中找到指称项,所述关键词包括地名词、修饰词、后缀次和核心词;对每一个指称项,从知识图谱数据库中找到可能与其链接的实体,加入到实体候选集;对于每一个指称项,确定它应当与对应的实体候选集中的哪一个进行链接。
可选的,所述数据服务接口提供的所述广告发布企业ERP系统对所述知识图谱数据库进行操作包括:对所述知识图谱数据库中的数据进行添加操作;查询所述知识图谱数据库中的数据;修改所述地址数据中的各个字段;通过查询的记录id删除对应记录。
与现有技术相比,本发明的技术方案至少具有以下优点:
通过从多个数据源获取楼宇数据及其相关数据(项目数据、企业数据、企业行业数据和地址数据),以此填充到相应的知识图谱数据库中,有效地实现了楼宇信息的融合,使所述知识图谱数据库中的楼宇信息及其相关信息更为完整与准确,从而能更准确地进行广告投放。
附图说明
图1是本发明技术方案提供的楼宇信息融合服务平台的结构示意图;
图2和图3是地址数据中的地址一般规律示意图;
图4是本发明实施例中对地址数据进行标准化处理的流程示意图;
图5是正向最大匹配算法的流程示意图;
图6是本发明实施例中经纬度数据处理的流程示意图;
图7是本发明实施例中的知识图谱的示意图;
图8是本发明实施例中知识图谱的实体填充的示意图;
图9是本发明实施例中生成企业名称简称的流程示意图;
图10是本发明实施例中企业实体链接的流程示意图;
图11是楼宇知识图谱数据库的构建过程示意图;
图12是楼宇知识图谱的局部实例示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例作详细的说明。
现有技术的楼宇数据库中的楼宇数据大多需要人为采集并录入,难以融合楼宇信息及其相关信息,难免存在某些数据不全或不够准确的问题,从而使广告发布方难以更准确地进行广告投放。为此,本发明实施例提供一种楼宇信息融合服务平台。
在构建所述楼宇信息融合服务平台,先简单对该楼宇信息融合服务平台的功能需求进行分析。
首先是对广告发布方ERP系统与爬取数据进行基础分析,主要是要明确数据各字段的含义,之后建立的分析系统的不同接口要用到哪些字段。
其次是数据预处理主要是实现对地址数据、行业字段数据、经纬度数据的解析,标准化地址数据与行业数据,通过地图API接口来获得地址经纬度数据。
然后是知识图谱的构建,用于对广告发布方ERP系统与已爬取数据的融合(多数据源数据融合)
最后是提供Restful数据服务接口,可以适当考虑添加补充一些用于展示的界面。
具体参见表1:
表1:功能需求分析
在上述功能需求分析的基础上,本发明实施例提供的楼宇信息融合服务平台架构图参见图1。该楼宇信息融合服务平台主要包括三大基本模块:数据预处理模块、知识图谱模块和应用接口模块;
所述数据预处理模块,适于对从一个以上数据源获取的数据进行预处理,以填充到所述知识图谱模块包含的知识图谱数据库中;所述获取的数据包括项目数据、楼宇数据、企业数据、企业行业数据和地址数据,所述项目数据为广告发布企业针对至少一个楼宇提供的产品或服务的相关信息,所述企业数据为楼宇内企业的相关信息,所述企业行业数据为所述楼宇内企业所属行业的相关信息,所述地址数据为与所述楼宇数据和企业数据相关联的地址信息;所述知识图谱模块,适于为所述应用接口模块提供基础数据支持;所述应用接口模块包括一个以上应用数据接口,所述应用数据接口包括与获取的各类数据相对应的数据导入接口以及适于广告发布企业ERP系统对所述知识图谱数据库进行操作的数据服务接口。
本实施例中,所述与获取的各类数据相对应的数据导入接口包括:地图数据库API数据导入接口,适于调用地图数据库的API,导入经纬度数据;企业爬取数据导入接口,适于导入爬取补充的企业数据;楼宇爬取数据导入接口,适于导入爬取补充的楼宇数据;ERP数据导入接口,适于导入广告发布企业ERP系统中的数据。因此,所述数据源都是通过上述数据导入接口进行数据导入的。
下面介绍所述数据源。
本实施例中,所述数据源主要包括广告发布企业ERP系统中的客户数据和楼宇数据、爬取补充数据以及开放的地图数据库(例如高德地图或百度地图基于位置的服务开放平台)。
广告发布企业ERP数据与爬取补充数据的数据字典参见表2.1~表2.4的举例说明:
表2.1:ERP客户数据
表2.1:ERP楼宇数据
字段名 | 数据类型 | 解释 |
_id | String(32) | 存储主键 |
installname | String(255) | 安装名 |
buildingname | String(255) | 楼宇名称 |
cityname | String(50) | 楼宇所在城市 |
address_1 | String(255) | 楼宇地址 |
districtname | String(50) | 所在区县 |
buildingid | int(7) | 项目ID |
installaddress | String(255) | 安装地址 |
表2.3:爬取数据--楼宇数据(building)
表2.4:爬取数据--企业数据(company)
下面介绍地址数据中的地址的一般规律:
地址自动机参见图2和图3。楼宇的地址可以明确到“市”,“区、县”,“路、道、街、村”,“号”,“弄”,“支弄”(图2和图3中实线部分表示“必然下级地址关系”,即实线末端的地址级别必定是实线始端地址级别的下级地址;虚线表示“可能下级地址关系”);企业的地址除了上述图2中地址级别外,可以明确到图3中地址级别。
下面举例介绍数据存在问题与解决方法,见下表。
表2.5:数据存在问题与解决方法
下面介绍数据预处理。
在本实施例中,所述数据预处理模块包括:地址数据标准化子模块,适于对所述企业爬取数据导入接口、楼宇爬取数据导入接口、ERP数据导入接口所导入的地址数据进行标准化处理;经纬度数据处理子模块,适于调用所述地图数据库API数据导入接口(高德地图和/或百度地图API数据导入接口),对标准化处理后的企业或楼宇的地址数据进行经纬度标注;行业标注子模块,适于所述ERP数据导入接口的企业数据进行行业信息标注并与企业信息关联(ERP数据本身较为规范,一般可直接导入到知识图谱中);产品标注子模块,适于对所述企业爬取数据导入接口的企业数据进行产品信息标注并与企业信息关联。
所述数据预处理模块与应用接口模块、知识图谱模块间的数据关系参见图1。在预处理完成后,利用知识图谱模块的实体填充子模块,可将“项目数据、楼宇数据、企业数据、企业行业数据、地址数据”导入到知识图谱中。
下面介绍地址数据的标准化处理:
所述地址数据标准化子模块进行的标准化处理包括:建立地名词库,所述地名词库中的词汇包括地名词和后缀词;基于所述地名词库,对有待标准化处理的地址数据所包含的字串进行正向切词;对经过所述正向切词后形成的地址数据中的地名词和后缀词进行标注;按照预先创建的地址规则存储经过标注的地址数据。
实际实施时,所述正向切词可以采用正向最大匹配算法进行。
所述地址数据的标准化处理的基本流程还可以参见图4。其中:
1)建立地名词库。又包括:
地名词。(a)中国的省、城市、区、县;(b)中国主要城市的镇、乡村、道路名。这些词典已基本覆盖了道路(村)级及以上的地名词汇。
后缀词。后缀词一般是汉语中的常用词,因而目前已有的自然语言处理工具对它们切词效果是比较令人满意的。如“市”、“区”、“县”等。
实际实施时,由于搜狗输入法的细胞词库(http://pinyin.sogou.com/dict/)提供了充足地名词典,因此可以从中下载并使用三个词典:(a)世界的国家和地区(将来备用);(b)中国的省、城市、区、县;(c)中国主要城市的镇、乡村、道路名。这些词典已基本覆盖了中文企业名中出现的地名词汇。后缀词典,通过人工分析数据加入。
2)正向切词。即采用正向最大匹配算法,实现切词。正向最大匹配的算法流程是,记词典中最长词语长度为MaxLen,在待切词的字串中,自左向右取长度为MaxLen的字串,与词典进行匹配,若词典中包含该词,则将其分出来,向后再取MaxLen长度的字串,否则,将取出的字串最后一个字去掉,再次与词典匹配,以此方式重复,直至将原字串处理完。正向最大匹配算法流程图参阅图5。
3)标注。即在切词后对地址数据中涉及地址的地名、后缀进行标注。
4)创建地址规则,即分析分众提供的数据与我方爬取数据,建立地址规则。应是一套完整的逻辑规则,且随着日后该“地址标准化引擎”的迭代开发,可不断增加新的规则(采用Drools实现该地址解析规则引擎)。在实际实施时,可以下载Drools工具,二次开发地址规则设定模块。
5)按规则写入数据库。即利用已有的地址规则将标注后的企业地址(楼宇地址)写入数据库。本实施例中,对于存储的每条经过标注的地址数据,标识其是否规范完整,即每条数据应标识明其地址是否规范完整。在实际实施时,可以构建标准化地址存储数据库结构,开发地址数据导入(基于地址规则)模块。
6)缺省地址补全。即采用多地图API查询投票的方法,补全企业(楼宇)缺省的地址。由于从多个数据源获取的楼宇数据中的企业地址信息可能存在缺失的情况,因此本实施例中的标准化处理还包括补全所述楼宇数据中缺省的企业地址。在实际实施时,可以开发缺省地址补全模块(基于多地图API查询投票方法)。
下面介绍经纬度数据处理。
经纬度数据需要通过地图API以标准化后的地址作为输入来获得,可采用的地图接口包括高德地图API与百度地图API接口。经纬度处理流程参见图6。
具体地,可采用的地图接口包括:
高德地图地理编码与逆地理编码API接口;
高德地图搜索API接口;
百度地图Place API接口,其使用场景包括区域检索POI服务与POI详情服务。区域检索POI服务又提供三种区域检索方法:城市内检索(对应JavaScriptAPI的Search方法)、矩形检索(对应JavaScript API的SearchInBound方法)圆形区域检索(对应JavaScript的SearchNearBy方法);
百度地图Geocoding API接口,包括地址解析和逆地址解析功能。
下面简单介绍行业标注与产品标注。
行业和产品数据分别来自ERP客户数据(Trade字段)和爬虫数据(product字段),可直接对该字段的数据进行标注(应首先对行业与产品类别进行查询去重),其本身与企业信息的关联性也很明确。
下面介绍知识图谱模块的设计。
就知识图谱而言,其主要设计包括三个部分:本体设计,实体填充,实体合并。
本体设计是知识图谱的基础,其包括以下5点基本知识:项目知识,对应广告发布方ERP系统中的项目数据信息;楼宇知识,对应广告发布方提供数据中的楼宇数据信息;企业知识,对应广告发布方提供数据中的企业数据信息;行业知识,对应广告发布方提供数据中企业所属行业概念;产品知识,对应广告发布方提供数据中企业主要产品类型概念;
因此,知识图谱的本体详细设计参见表3与表4。这里要说明的是,知识图谱本质上是模型层(特征层)上的数据融合,采用知识图谱技术具有非常良好的扩展性,可以根据应用需求分期不断扩展,表3与表4中仅为当前所需构建的基础知识,且也可采用关联规则与标签等其他技术来辅助构建知识图谱。
参见表3与表4,楼宇知识图谱包括四个基本概念:项目(对应项目知识)、楼宇(对应楼宇知识)、企业(对应企业知识)、企业行业(对应行业知识)。其中楼宇又包括卖场、商务楼两个子概念。
本实施例中,所述知识图谱数据库中知识图谱的实体包括:项目实体、楼宇实体、企业实体、企业行业实体、产品实体和地址实体;所述项目实体与所述楼宇实体通过楼宇相关信息建立关联,所述楼宇实体与企业实体通过所述地址实体所包含的属性建立关联,所述企业实体分别与所述企业行业实体、产品实体相关联。本实施例中的知识图谱参见图7,图7中粗线圆框节点为概念,细线椭圆框节点为属性(子属性)。
表3:知识图谱本体(概念——子概念)
表4:知识图谱本体(概念——属性)
下面介绍知识图谱模块的实体填充与实体合并。
本实施例中,所述知识图谱模块还包括:实体填充子模块,适于将所述项目数据、楼宇数据、企业数据、企业行业数据和地址数据导入到所述知识图谱数据库中;企业实体合并子模块,适于根据企业名称简称与企业地址进行实体合并;地址实体合并子模块,适于根据楼宇地址中预定的地址级别的信息,对相同或类似地址信息进行合并。
实体填充子模块旨在实现以项目数据、楼宇数据、企业数据、企业行业数据、地址数据对知识图谱的填充。实体填充参见图8。实际实施时,可采用Jena工具来实现知识图谱的实体填充(其它图谱操作也可采用Jena),采用图数据库实现知识图谱数据(可选用AllegroGraph或Neo4j)的存储。
实体合并包括“楼宇实体合并”与“企业实体合并”两个部分。具体实施时,根据企业名称简称进行实体合并包括:通过截取预定长度以上的企业名称生成企业名称简称,再与所述知识图谱数据库中的企业实体进行实体链接;根据企业地址进行实体合并包括:根据企业地址中预定地址级别的信息,对地址相同者进行合并。
“楼宇实体合并”主要利用楼宇地址中直到“号”这一地址级别的信息,对相同(或类似)地址进行合并。由于地址已经进行了标准化解析。其实现相对较易。
“企业实体合并”主要利用“简称”与企业地址进行实体合并,其中利用“简称”,即取一定长度以上的企业名称直接生成简称,再与全部进行实体链接(匹配);利用企业地址,即利用地址中直到“层”这一地址级别的信息,对地址相同者进行合并。
本实施例中,所述通过截取预定长度以上的企业名称生成企业名称简称包括:通过收集地名、修饰词和后缀词的常用词集合,作为切词使用的词典;采用双向最大匹配的方法对企业名称进行切词;在直接匹配的基础上,对企业名称进行标注;在标注的结果上,建立规则来生成可能的企业名称简称。
企业名称简称的生成,即对企业名列表进行扩充,对全称生成所有可能的简称。主要步骤参见图9,分别如下:
针对中文名称,由于其特殊性,可设计针对企业名称的切词方法,在这当中,通过百科的Infobox等多种途径收集地名、修饰词和后缀词的常用词集合,作为切词使用的词典,采用双向最大匹配的方法来进行切词;标注,在此过程中,在直接匹配的基础上,设计了更为细致的规则来解决歧义的问题;最后,在标注的结果上,建立规则来生成可能的简称。
本实施例中,与所述知识图谱数据库中的企业实体进行实体链接包括:通过关键词从文档的语料中找到指称项(mentions),所述关键词包括地名词、修饰词、后缀次和核心词;对每一个指称项,从知识图谱数据库中找到可能与其链接的实体,加入到实体候选集;对于每一个指称项,确定它应当与对应的实体候选集中的哪一个进行链接(最终有可能不与任何一个实体进行链接)。
企业实体链接的流程图见图10,共3个步骤。这一过程的最终目的是将文档中的指称项与知识库中的企业实体进行链接,最终得到指称项–实体对。
关于所述应用数据接口包括与获取的各类数据相对应的数据导入接口此前已作描述,下面简单介绍适于广告发布企业ERP系统对所述知识图谱数据库进行操作的数据服务接口。
本实施例中,所述数据服务接口提供的所述广告发布企业ERP系统对所述知识图谱数据库进行操作包括:对所述知识图谱数据库中的数据进行添加操作;查询所述知识图谱数据库中的数据;修改所述地址数据中的各个字段;通过查询的记录id删除对应记录。
实际实施时,所述数据服务接口可以是Restful数据服务接口,其能够实现广告发布企业ERP系统对知识图谱数据的操作,包括四类,分别如下:
(1)添加,即对图谱中的数据进行添加操作。
(2)查询(查询结果中的地址均包含经纬度),包括:
a)通过项目id(buildingid)查询所在楼栋的所有企业;
b)通过城市或区域,查询该城市或区域内所有楼宇,采用分众项目id(buildingid)和项目名(buildingname)与楼宇进行关联,楼宇查询结果标记相应的分众项目。
c)按区域查询公司,其中的区域以图谱中现有的标准行政区划为区域类型,类似“浦东新区内所有公司”,“东方路上所有公司”等。
d)按行业和产品查询公司,可简单模糊查询,后期考虑是否和国家统计局数据进行融合。
(3)修改,可修改地址的各个字段(如市区,区,街道,门牌号等)。
(4)删除,通过查询的记录id删除对应记录。
本实施例中的知识图谱数据库实际上是在楼宇知识图谱数据库的基础上扩充而来,下面再介绍一下所述楼宇知识图谱数据库的构建过程。
所述楼宇知识图谱数据库的构建过程包括:从一个以上数据源获取楼宇数据,并对获取到的楼宇数据进行集成;所述楼宇数据包含用于楼宇分类的类别信息、楼宇地理信息、楼宇基础信息、楼宇所属与使用者信息和人群搜索与标签分类信息;所述人群搜索与标签分类信息为针对楼宇内人群的主要搜索内容进行标签分类统计与指数计算后得到的信息;基于集成后的楼宇数据构建楼宇知识图谱数据库;所述集成后的楼宇数据经过层级分类以及结构化处理;所述楼宇知识图谱中的实体包含楼宇实体、单位实体、搜索标签实体、搜索点位实体以及单位行业实体;所述楼宇实体的属性包含楼宇地理信息属性、楼宇基础信息属性、楼宇所属与使用者信息属性和人群搜索与标签分类信息属性,所述人群搜索与标签分类信息属性与所述搜索标签实体、搜索点位实体所包含属性下的信息相关联,所述楼宇所属与使用者信息属性与所述单位实体所包含属性下的信息相关联;所述单位实体的属性包含单位基本信息属性、单位行业信息属性和单位经营信息属性,所述单位行业信息属性与所述单位行业实体所包含属性下的信息相关联。
首先进行楼宇数据的采集。楼宇数据采集主要是针对多个数据源进行数据获取,如图11所示的数据源1、数据源2、……数据源n。
本实施例中,众多的数据源可以归纳为包含三类,分别称为第一数据源、第二数据源和第三数据源,其中:所述第一数据源为已存储有部分楼宇数据的关系数据库(即已有数据库);所述第二数据源为由专业数据提供方所提供的数据,所述人群搜索与标签分类信息以及与所述楼宇所属与使用者信息相关联的单位行业信息获取于所述第二数据源;所述第三数据源为互联网数据,所述互联网数据可以包含与楼宇相关的门户网站的数据、在线百科的数据以及搜索引擎结果。
具体实施时,楼宇数据的采集可以由信息采集模块负责从互联网中收集原始数据,为后期的数据分析和挖掘提供数据基础。信息采集模块可以采用网络爬虫与适配器技术进行数据获取,其覆盖了门户网站、百科、搜索引擎结果和关系数据库等多种数据源。为实现用户数据源自选,还可以提供定制的数据源入口,并内置网站格式自动探测算法和网页内容自动过滤算法,因此,用户仅需要设置网站的基本入口即可,而不需要经过大量的配置工作。为实现对数据源权威度与数据质量的评估,采用不同的概率投票方法,将数据源的可信性和数据值的准确性之间的关系运用在投票的思想中,同时考虑不同数据值之间的影响。如NEWACCU算法,主要是采用的数据源的准权威度与数据值的投票率的均值作为数据源的可信度参与计算,并对数据值的不同表现形式进行了处理。
采集的楼宇数据包含用于楼宇分类的类别信息、楼宇地理信息、楼宇基础信息、楼宇所属与使用者信息和人群搜索与标签分类信息;所述人群搜索与标签分类信息为针对楼宇内人群的主要搜索内容进行标签分类统计与指数计算后得到的信息,其中主要涉及的标签分类包括汽车、母婴亲子、教育培训、医疗健康、软件应用、阅读、星座运势等,通过在采集的楼宇数据中引入所述人群搜索与标签分类信息,能够使楼宇与楼宇内的受众人群之间实现准确的匹配,后续据此构建而成的楼宇知识图谱数据库,便能更准确地进行广告投放;所述楼宇地理信息包括楼宇的地理位置描述或经纬度坐标;所述楼宇基础信息是楼宇自身的一些基本信息,其下信息可以包括楼宇名称、建筑面积、层数、电梯个数、租金(房价)、是否为标志性建筑、房龄(包括新建房)、开放使用时间段与人流数量等;楼宇所属与使用者信息包括楼宇的使用者与所有者的相关信息,而其又分为企事业单位与一般人群两大类;所述用于楼宇分类的类别信息,例如租房短租房、二手房、新房、写字商务楼、商铺等。
在楼宇数据采集完成后,在进行数据建模(楼宇知识图谱构建)之前,还应将上述三类数据源在存储层面进行集成。数据集成就是将若干个分散的数据源中的数据,逻辑地或物理地集成到一个统一的数据集合中。数据集成的核心任务是要将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。在数据集成过程中,一方面需要保证数据的高效集成与可靠性,同时也需要提供PB级别海量数据的秒级分析和访问速度。
完成信息采集之后,获得的数据信息最主要是非结构化的文本数据,必须对之进行通用文本处理,使之结构化,为进一步的信息抽取与数据建模打下基础。
因此,在本实施例中,所述对获取到的楼宇数据进行集成包括对获取到的楼宇数据进行预处理,所述预处理包括:进行格式清洗,去除噪声信息;进行自动重排和自动分类,并把楼宇数据转换成预定格式;进行通用文本处理,所述通用文本处理包括分词、词性标注、句法分析、命名实体识别、聚类和分类。
具体地,首先进行格式清洗,去除网页中包含的噪声信息(如广告);然后进行自动重排和自动分类,并把数据转换成平台内部自定义的格式;接下来,对这些信息进行通用的文本处理,包括分词、词性标注、句法分析、命名实体识别、聚类和分类等,为后续的深度数据分析和数据挖掘提供基础。
由于获取的楼宇地理信息、楼宇基础信息、所属与使用者信息、楼宇类别信息等,很多都是由文本表示的,因此需要使用文本深度挖掘的相关技术进行处理。一般可以采用文本信息抽取的相关技术和方法,抽取前述的几类楼宇数据以构建楼宇知识图谱。文本信息抽取即针对现有应用需求,对人群搜索与标签分类信息、楼宇地理信息、楼宇基础信息、所有与使用者信息,以及用于楼宇分类的类别信息进行抽取,这一处理是基于应用需求的,核心是构建楼宇知识图谱。
因此,在本实施例中,所述基于集成后的楼宇数据构建楼宇知识图谱数据库包括:采用文本信息抽取方法,抽取集成后的楼宇数据所包含的各类信息以构建楼宇知识图谱数据库;所述文本信息抽取方法包括基于人工构建规则的方法、基于规则学习的方法、基于机器学习的方法中的一种或一种以上组合。
另外,还可以提供在通用文本处理的基础上进行深层次的数据分析和挖掘的算法,包括楼宇中企业信息挖掘、楼宇企业的行业分析和楼宇住户的消费能力分析等。在进行数据挖掘时,大部分算法基于行业知识图谱(楼宇知识图谱)构建,提高了算法分析的准确度。
本实施例中,从所述第二数据源和第三数据源获取的数据主要分为两类,一类可以集成存储集成于已有的关系数据库中,另一类则需另建数据库以存储之。在数据集成上,需要重点说明的包括如下:
应对来源于所述第二数据源的所述人群搜索与标签分类信息以及与所述楼宇所属与使用者信息相关联的单位行业信息,建立相对独立且完整的资源描述框架(RDF,Resource Description Framework)图数据库,此二类信息是现有关系数据库中所缺乏的,而其对建立楼宇知识图谱而言是不可或缺的;
应进一步优化所述用于楼宇分类的类别信息的数据结构及其存储方式,使之可以方便的进行扩展与分级细化,此外还需对之进一步补充结合与所述用于楼宇分类的类别信息相关的楼宇地理信息与楼宇基础信息,以进一步支持楼宇知识图谱的构建。
本实施例中,所述人群搜索与标签分类信息以及与所述楼宇所属与使用者信息相关联的单位行业信息集成于相应建立的RDF图数据库,获取于所述第三数据源的数据一部分集成于所述关系数据库,另一部分集成于所述RDF图数据库;所述基于集成后的楼宇数据构建楼宇知识图谱数据库包括:将所述关系数据库中的数据转化为RDF图数据,并与所述RDF图数据库中的数据融合于所述楼宇知识图谱数据库。
在实现楼宇数据的采集与集成之后,还需要其中的地址信息进行标准化处理,所述标准化处理此前已详细描述,此处不再赘述。
在完成楼宇数据的集成之后,便可以基于集成后的楼宇数据构建楼宇知识图谱数据库。
就不同类型的广告而言,其投向的受众人群是不同的,构建楼宇知识图谱模型是为实现“楼宇←→受众人群”(即楼宇与受众人群匹配)这一目标。其核心是构建楼宇及其相关信息的知识体系。从情报学“时间、空间、组织、人、事件”这五个维度来考虑这一模型的构建基础,则楼宇知识图谱应包括以下4点基本知识:
地理知识,即楼宇的地理位置描述或经纬度坐标;
时间知识,即楼宇的开放使用时间段;
组织与人群知识,即楼宇的使用者与所有者的相关信息,而其又分为企事业单位与一般人群两大类;由于一般人群中的个人具有不确定性与流动性,对一般人群所需获取的最主要知识应是经济实力(由与楼宇相关的价格信息所决定)、数量信息(由楼宇的人流数量所决定)与人群搜索信息;企事业单位的最主要知识是其行业、主营业务以及其他相关信息;
事件知识,楼宇中发生的事件最主要由楼宇的功能所决定,而楼宇的功能又主要由楼宇的类别信息(楼宇最初建立的自然功能)与楼宇中组织的行业与主营业务信息(楼宇建立后的人为导致的实际功能)所决定。
因此,楼宇知识图谱的本体框架如表5所示。需要说明的是,采用知识图谱技术具有非常良好的扩展性,可以根据应用需求分期不断扩展,表5中仅为当前所需构建的基础知识,且在具体应用时也可不局限于本体形式(比如可采用关联规则与标签等其他技术来辅助构建知识图谱)。
表5:楼宇知识图谱本体框架(模型)
(1)实体分类层次
(2)实体的属性
楼宇知识图谱包括五个基本实体(概念):
●楼宇实体,目前以获取的楼宇类别信息,可以将楼宇实体分为24个子实体,但可以进一步添加分类并分级细化。(子实体划分可以参考获取的数据做进一步划分与分级,而具体的楼宇类别信息除从已有数据库获取外,还需要从相关门户网站中进行爬取,同时通过搜索引擎结果做进一步补充。)
●单位实体,包括企业单位与事业单位两个子实体。
●搜索标签实体。
●搜索点位实体,没有子实体。
●单位行业实体,单位行业知识图谱,可以向第三方购买或定制,该类模型与技术已较为成熟。
本实施例中,为明确实体的同一性,可以采用隔离的方式确保对所述楼宇知识图谱中的实体每次出现都指派一个唯一标识符,以及采用调和的方式确认相同实体并将其合并。
楼宇知识图谱中实体的属性说明参见如下所述。
本实施例中,楼宇实体主要包含地理信息、基础信息、所属与使用者信息、人群搜索信息四个基本属性。
●地理信息属性,其下包含信息主要是指楼宇的地理位置信息,即楼宇的详细地址信息(包括地址分类、地址文本描述与坐标三种),为后续构建楼宇信息地图提供基础。其中地址分类包括“未安装”(表示未安装任何广告播放设备的楼宇)、“框架”、“楼宇”三种,这一分类方式可将已设置广告投放点与未设置广告投放点的楼宇一并归入楼宇知识图谱中。通常,地理位置信息在已有数据库、专业数据提供方提供的数据、楼宇入住企业的官方网站、入住企业的百科信息等均有包含;或包含在有关门户网站的楼宇信息中。
●基础信息属性,其下信息包括楼宇名称、建筑面积、层数、电梯个数、租金(房价)、是否为标志性建筑、房龄(包括新建房)、开放使用时间段与人流数量等。其中的建筑面积、层数、电梯个数、租金(房价)、房龄(包括新建房)、人流数量这些信息可以直接从已有数据库数据中抽取,也可从已获取的相关门户网站的楼宇数据中抽取。从搜索引擎结果中抽取的信息亦可以作为补充。
●所有与使用者信息属性被分为所属单位(即业主)与使用单位两个子属性。这两个子属性下的信息为相关联的“单位”实体下的楼宇内的企事业单位相关信息。
●人群搜索信息属性,包括搜索标签(其下信息为相关联的“搜索标签”实体下信息)、点位(其下信息为相关联的“搜索点位”实体下信息)、屏幕类型、安装位置与套餐子属性。
搜索标签实体主要包含年月,标签类名,标签指数三个基本属性。其标签类名下的标签分类信息包括汽车、母婴亲子、教育培训、医疗健康、软件应用、阅读、星座运势等。年月、标签类名、标签指数三个属性下的信息抽取于第二数据源提供的数据,相应数据已有很好的层级分类与(半)结构化处理,可以较容易融合入构建的知识图谱中。
搜索点位实体主要包含楼层与数量两个基本属性。与搜索标签实体所包含的属性相同,楼层与数量属性下的信息抽取于所述第二数据源提供的数据,相应数据亦被层级分类与(半)结构化处理,可方便的扩展融入到知识图谱中。
单位实体主要包含基本信息、行业信息、经营信息三个基本属性。
●基本信息属性,包括单位名称,成立时间,注册资本,登记机关四个子属性。四个子属性所包含的信息主要来自有关门户网站,为了准确,建议最主要从企业信用查询网、(上海)企业注册登记信息公开网、全国企业信息用公示系统、上海诚信网等官方网站获得(必要时,可向工商部门购买)。
●行业信息属性,该属性下的信息为相关联的“单位行业”实体下的单位行业分类信息(由第三方购买或定制的单位行业知识图谱所决定)。
●经营信息属性,包括主要业务与主要产品两个子属性。两个字属性所包含的信息主要抽取自有关门户网站。
楼宇知识图谱(局部)示例见图12。其中圆形表示概念或实体,方形为原子类型(对应字符串或数字,不再发散)。实线箭头(用“包含”描述的)表示父子概念,实线箭头(用其他关系描述)表示属性。虚线箭头表示概念或实体间的所属关系。图12的上半部分为概念层,下半部分为实例层。
本领域技术人员可以理解,实现上述实施例中的楼宇信息融合服务平台的全部或部分是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质可以是ROM、RAM、磁碟、光盘等。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。
Claims (10)
1.一种楼宇信息融合服务平台,其特征在于,包括:数据预处理模块、知识图谱模块和应用接口模块;
所述数据预处理模块,适于对从一个以上数据源获取的数据进行预处理,以填充到所述知识图谱模块包含的知识图谱数据库中;所述获取的数据包括项目数据、楼宇数据、企业数据、企业行业数据和地址数据,所述项目数据为广告发布企业针对至少一个楼宇提供的产品或服务的相关信息,所述企业数据为楼宇内企业的相关信息,所述企业行业数据为所述楼宇内企业所属行业的相关信息,所述地址数据为与所述楼宇数据和企业数据相关联的地址信息;
所述知识图谱模块,适于为所述应用接口模块提供基础数据支持;
所述应用接口模块包括一个以上应用数据接口,所述应用数据接口包括与获取的各类数据相对应的数据导入接口以及适于广告发布企业ERP系统对所述知识图谱数据库进行操作的数据服务接口。
2.根据权利要求1所述的楼宇信息融合服务平台,其特征在于,所述知识图谱数据库中知识图谱的实体包括:项目实体、楼宇实体、企业实体、企业行业实体、产品实体和地址实体;所述项目实体与所述楼宇实体通过楼宇相关信息建立关联,所述楼宇实体与企业实体通过所述地址实体所包含的属性建立关联,所述企业实体分别与所述企业行业实体、产品实体相关联。
3.根据权利要求1所述的楼宇信息融合服务平台,其特征在于,所述与获取的各类数据相对应的数据导入接口包括:
地图数据库API数据导入接口,适于调用地图数据库的API,导入经纬度数据;
企业爬取数据导入接口,适于导入爬取补充的企业数据;
楼宇爬取数据导入接口,适于导入爬取补充的楼宇数据;
ERP数据导入接口,适于导入广告发布企业ERP系统中的数据。
4.根据权利要求3所述的楼宇信息融合服务平台,其特征在于,所述数据预处理模块包括:
地址数据标准化子模块,适于对所述企业爬取数据导入接口、楼宇爬取数据导入接口、ERP数据导入接口所导入的地址数据进行标准化处理;
经纬度数据处理子模块,适于调用所述地图数据库API数据导入接口,对标准化处理后的企业或楼宇的地址数据进行经纬度标注;
行业标注子模块,适于所述ERP数据导入接口的企业数据进行行业信息标注并与企业信息关联;
产品标注子模块,适于对所述企业爬取数据导入接口的企业数据进行产品信息标注并与企业信息关联。
5.根据权利要求4所述的楼宇信息融合服务平台,其特征在于,所述地址数据标准化子模块进行的标准化处理包括:
建立地名词库,所述地名词库中的词汇包括地名词和后缀词;
基于所述地名词库,对有待标准化处理的地址数据所包含的字串进行正向切词;
对经过所述正向切词后形成的地址数据中的地名词和后缀词进行标注;
按照预先创建的地址规则存储经过标注的地址数据。
6.根据权利要求1所述的楼宇信息融合服务平台,其特征在于,所述知识图谱模块还包括:
实体填充子模块,适于将所述项目数据、楼宇数据、企业数据、企业行业数据和地址数据导入到所述知识图谱数据库中;
企业实体合并子模块,适于根据企业名称简称与企业地址进行实体合并;
地址实体合并子模块,适于根据楼宇地址中预定的地址级别的信息,对相同或类似地址信息进行合并。
7.根据权利要求6所述的楼宇信息融合服务平台,其特征在于,根据企业名称简称进行实体合并包括:通过截取预定长度以上的企业名称生成企业名称简称,再与所述知识图谱数据库中的企业实体进行实体链接;根据企业地址进行实体合并包括:根据企业地址中预定地址级别的信息,对地址相同者进行合并。
8.根据权利要求7所述的楼宇信息融合服务平台,其特征在于,所述通过截取预定长度以上的企业名称生成企业名称简称包括:
通过收集地名、修饰词和后缀词的常用词集合,作为切词使用的词典;
采用双向最大匹配的方法对企业名称进行切词;
在直接匹配的基础上,对企业名称进行标注;
在标注的结果上,建立规则来生成可能的企业名称简称。
9.根据权利要求7所述的楼宇信息融合服务平台,其特征在于,与所述知识图谱数据库中的企业实体进行实体链接包括:
通过关键词从文档的语料中找到指称项,所述关键词包括地名词、修饰词、后缀次和核心词;
对每一个指称项,从知识图谱数据库中找到可能与其链接的实体,加入到实体候选集;
对于每一个指称项,确定它应当与对应的实体候选集中的哪一个进行链接。
10.根据权利要求1所述的楼宇信息融合服务平台,其特征在于,所述数据服务接口提供的所述广告发布企业ERP系统对所述知识图谱数据库进行操作包括:对所述知识图谱数据库中的数据进行添加操作;查询所述知识图谱数据库中的数据;修改所述地址数据中的各个字段;通过查询的记录id删除对应记录。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710047733.4A CN108345596A (zh) | 2017-01-22 | 2017-01-22 | 楼宇信息融合服务平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710047733.4A CN108345596A (zh) | 2017-01-22 | 2017-01-22 | 楼宇信息融合服务平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108345596A true CN108345596A (zh) | 2018-07-31 |
Family
ID=62974500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710047733.4A Pending CN108345596A (zh) | 2017-01-22 | 2017-01-22 | 楼宇信息融合服务平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108345596A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492103A (zh) * | 2018-11-09 | 2019-03-19 | 北京三快在线科技有限公司 | 标签信息获取方法、装置、电子设备及计算机可读介质 |
CN110473008A (zh) * | 2019-07-31 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN110580291A (zh) * | 2019-07-29 | 2019-12-17 | 用友网络科技股份有限公司 | 基于erp客户服务知识图谱的智能搜索方法及计算机设备 |
CN110619087A (zh) * | 2019-05-23 | 2019-12-27 | 北京无限光场科技有限公司 | 用于处理信息的方法和装置 |
CN110619088A (zh) * | 2019-05-23 | 2019-12-27 | 北京无限光场科技有限公司 | 用于处理信息的方法和装置 |
CN110619086A (zh) * | 2019-05-23 | 2019-12-27 | 北京无限光场科技有限公司 | 用于处理信息的方法和装置 |
CN110831015A (zh) * | 2018-08-14 | 2020-02-21 | 中国移动通信集团设计院有限公司 | 室分弱覆盖识别方法及装置 |
CN110825889A (zh) * | 2020-01-09 | 2020-02-21 | 广东博智林机器人有限公司 | 一种宣传信息交互方法、装置、电子设备及存储介质 |
CN111177399A (zh) * | 2019-12-04 | 2020-05-19 | 华瑞新智科技(北京)有限公司 | 一种知识图谱构建方法和装置 |
CN111198955A (zh) * | 2020-01-09 | 2020-05-26 | 广东博智林机器人有限公司 | 文案搜索和知识图谱构建的方法、装置、设备及存储介质 |
CN112015908A (zh) * | 2020-08-19 | 2020-12-01 | 新华智云科技有限公司 | 知识图谱的构建方法及系统、查询方法及系统 |
CN112487122A (zh) * | 2020-12-02 | 2021-03-12 | 电信科学技术第十研究所有限公司 | 地址归一化处理方法及装置 |
CN112950746A (zh) * | 2021-03-08 | 2021-06-11 | 同方知网数字出版技术股份有限公司 | 一种基于企业注册地址经纬度坐标的产业地图绘制方法 |
CN113132499A (zh) * | 2019-12-30 | 2021-07-16 | 中国移动通信集团山西有限公司 | Ip地址信息管理方法、装置、设备及计算机存储介质 |
CN113127650A (zh) * | 2021-05-17 | 2021-07-16 | 国网上海市电力公司 | 一种基于图数据库的技术图谱构建方法和系统 |
CN113297395A (zh) * | 2021-07-08 | 2021-08-24 | 中国人民解放军国防科技大学 | 时空多模态混合数据处理方法、关联方法与索引方法 |
CN114722824A (zh) * | 2022-03-31 | 2022-07-08 | 北京金堤科技有限公司 | 地址处理方法、装置、存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1755563A (zh) * | 2004-09-30 | 2006-04-05 | 洛克威尔自动控制技术股份有限公司 | 在分布式数据驱动的架构环境内的目录结构 |
CN101388023A (zh) * | 2008-09-12 | 2009-03-18 | 北京搜狗科技发展有限公司 | 电子地图兴趣点数据冗余检测方法和系统 |
CN102324074A (zh) * | 2011-10-28 | 2012-01-18 | 山东城通科技有限公司 | 中小企业信息化应用集群平台 |
CN105183869A (zh) * | 2015-09-16 | 2015-12-23 | 分众(中国)信息技术有限公司 | 楼宇知识图谱数据库及其构建方法 |
CN105786913A (zh) * | 2014-12-25 | 2016-07-20 | 北京仿真中心 | 一种面向云制造平台的erp集成数据库服务接口封装系统及方法 |
-
2017
- 2017-01-22 CN CN201710047733.4A patent/CN108345596A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1755563A (zh) * | 2004-09-30 | 2006-04-05 | 洛克威尔自动控制技术股份有限公司 | 在分布式数据驱动的架构环境内的目录结构 |
CN101388023A (zh) * | 2008-09-12 | 2009-03-18 | 北京搜狗科技发展有限公司 | 电子地图兴趣点数据冗余检测方法和系统 |
CN102324074A (zh) * | 2011-10-28 | 2012-01-18 | 山东城通科技有限公司 | 中小企业信息化应用集群平台 |
CN105786913A (zh) * | 2014-12-25 | 2016-07-20 | 北京仿真中心 | 一种面向云制造平台的erp集成数据库服务接口封装系统及方法 |
CN105183869A (zh) * | 2015-09-16 | 2015-12-23 | 分众(中国)信息技术有限公司 | 楼宇知识图谱数据库及其构建方法 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110831015A (zh) * | 2018-08-14 | 2020-02-21 | 中国移动通信集团设计院有限公司 | 室分弱覆盖识别方法及装置 |
CN109492103A (zh) * | 2018-11-09 | 2019-03-19 | 北京三快在线科技有限公司 | 标签信息获取方法、装置、电子设备及计算机可读介质 |
CN109492103B (zh) * | 2018-11-09 | 2019-12-17 | 北京三快在线科技有限公司 | 标签信息获取方法、装置、电子设备及计算机可读介质 |
CN110619086A (zh) * | 2019-05-23 | 2019-12-27 | 北京无限光场科技有限公司 | 用于处理信息的方法和装置 |
CN110619087A (zh) * | 2019-05-23 | 2019-12-27 | 北京无限光场科技有限公司 | 用于处理信息的方法和装置 |
CN110619088A (zh) * | 2019-05-23 | 2019-12-27 | 北京无限光场科技有限公司 | 用于处理信息的方法和装置 |
CN110580291A (zh) * | 2019-07-29 | 2019-12-17 | 用友网络科技股份有限公司 | 基于erp客户服务知识图谱的智能搜索方法及计算机设备 |
CN110473008B (zh) * | 2019-07-31 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN110473008A (zh) * | 2019-07-31 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN111177399A (zh) * | 2019-12-04 | 2020-05-19 | 华瑞新智科技(北京)有限公司 | 一种知识图谱构建方法和装置 |
CN111177399B (zh) * | 2019-12-04 | 2023-06-16 | 华瑞新智科技(北京)有限公司 | 一种知识图谱构建方法和装置 |
CN113132499A (zh) * | 2019-12-30 | 2021-07-16 | 中国移动通信集团山西有限公司 | Ip地址信息管理方法、装置、设备及计算机存储介质 |
CN113132499B (zh) * | 2019-12-30 | 2022-10-18 | 中国移动通信集团山西有限公司 | Ip地址信息管理方法、装置、设备及计算机存储介质 |
CN111198955A (zh) * | 2020-01-09 | 2020-05-26 | 广东博智林机器人有限公司 | 文案搜索和知识图谱构建的方法、装置、设备及存储介质 |
CN110825889A (zh) * | 2020-01-09 | 2020-02-21 | 广东博智林机器人有限公司 | 一种宣传信息交互方法、装置、电子设备及存储介质 |
CN112015908A (zh) * | 2020-08-19 | 2020-12-01 | 新华智云科技有限公司 | 知识图谱的构建方法及系统、查询方法及系统 |
CN112487122A (zh) * | 2020-12-02 | 2021-03-12 | 电信科学技术第十研究所有限公司 | 地址归一化处理方法及装置 |
CN112487122B (zh) * | 2020-12-02 | 2024-05-17 | 电信科学技术第十研究所有限公司 | 地址归一化处理方法及装置 |
CN112950746A (zh) * | 2021-03-08 | 2021-06-11 | 同方知网数字出版技术股份有限公司 | 一种基于企业注册地址经纬度坐标的产业地图绘制方法 |
CN113127650A (zh) * | 2021-05-17 | 2021-07-16 | 国网上海市电力公司 | 一种基于图数据库的技术图谱构建方法和系统 |
CN113297395A (zh) * | 2021-07-08 | 2021-08-24 | 中国人民解放军国防科技大学 | 时空多模态混合数据处理方法、关联方法与索引方法 |
CN114722824A (zh) * | 2022-03-31 | 2022-07-08 | 北京金堤科技有限公司 | 地址处理方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105183869B (zh) | 楼宇知识图谱数据库及其构建方法 | |
CN108345596A (zh) | 楼宇信息融合服务平台 | |
Wan et al. | Aminer: Search and mining of academic social networks | |
Marine-Roig et al. | Tourism analytics with massive user-generated content: A case study of Barcelona | |
Sugumaran et al. | Ontologies for conceptual modeling: their creation, use, and management | |
CN107944898A (zh) | 广告投放楼宇信息的自动发现与排序方法 | |
CN107943810A (zh) | 楼宇信息地图的构建方法 | |
Gaio et al. | A global process to access documents’ contents from a geographical point of view | |
Ricca et al. | A logic-based system for e-tourism | |
Clayton et al. | Distributed knowledge, distributed processing, distributed users: integrating case-based reasoning and GIS for multicriteria decision making | |
Hyvönen et al. | Lettersampo–historical letters on the semantic web: A framework and its application to publishing and using epistolary data | |
Dong et al. | Semantic enhanced WebGIS approach to visualize Chinese historical natural hazards | |
Vysotska et al. | Set-theoretic models and unified methods of information resources processing in e-business systems | |
Kulkarni et al. | Semantics-Aware Document Retrieval for Government Administrative Data. | |
Lee et al. | Visual query processing for GIS with Web Contents | |
Paramartha et al. | Integration of Region-based Open Data Using Semantic Web | |
Xia et al. | Dynamic digital humanities projects from Shanghai Library in China | |
Zhong et al. | Research on the knowledge organization and visualization of ethnic minority cultural information resources | |
Burrows et al. | Mapping Manuscript Migrations: Digging into Data for Researching the History and Provenance of Medieval and Renaissance Manuscripts: White Paper | |
Goldberg et al. | Address standardization | |
El Mhouti et al. | A Web Scraping Framework for Descriptive Analysis of Meteorological Big Data for Decision-Making Purposes | |
Falquet et al. | Ontologies in the Geographic Information sector | |
Falquet et al. | Ontologies for interoperability | |
Rahman et al. | Semantic information integration of health care network for physical-cyber-social computing approach | |
Ambite et al. | A portal for access to complex distributed information about energy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180731 |