CN105183869B - 楼宇知识图谱数据库及其构建方法 - Google Patents
楼宇知识图谱数据库及其构建方法 Download PDFInfo
- Publication number
- CN105183869B CN105183869B CN201510590844.0A CN201510590844A CN105183869B CN 105183869 B CN105183869 B CN 105183869B CN 201510590844 A CN201510590844 A CN 201510590844A CN 105183869 B CN105183869 B CN 105183869B
- Authority
- CN
- China
- Prior art keywords
- building
- information
- data
- entity
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9562—Bookmark management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种楼宇知识图谱数据库及其构建方法,所述构建方法包括:从一个以上数据源获取楼宇数据,并对楼宇数据进行集成;楼宇数据包含用于楼宇分类的类别信息、楼宇地理信息、楼宇基础信息、楼宇所属与使用者信息和人群搜索与标签分类信息;人群搜索与标签分类信息为针对楼宇内人群的主要搜索内容进行标签分类统计与指数计算后得到的信息;基于集成后的楼宇数据构建楼宇知识图谱数据库;集成后的楼宇数据经过层级分类以及结构化处理;楼宇知识图谱中的实体包含楼宇实体、单位实体、搜索标签实体、搜索点位实体以及单位行业实体。本发明能更利于楼宇数据维护与融合、有效用于应用程序及进行数据推理,且使楼宇数据体现楼宇与楼宇内的受众人群的匹配。
Description
技术领域
本发明涉及计算机数据库技术领域,特别涉及一种楼宇知识图谱数据库及其构建方法。
背景技术
互联网的发展经历了web1.0和web2.0两个阶段,正朝着web3.0方向发展。web1.0是以编辑为特征,用户阅读网站提供的内容,代表站点为新浪、搜狐和网易三大门户。web2.0更注重用户的交互作用,用户既是网站内容的消费者(浏览者),也是网站内容的制造者(微博、天涯社区、自媒体)。
在这两代互联网中,用户点击访问的(或互联的)最小单位是文档,文档与文档之间的连接是通过超链接实现的;由于HTML语言缺乏语义,因此这两代互联网中的内容主要是面向人类的,难以被计算机自动理解。而web3.0即Web of Data(语义网)是数据的网络,在其上发布和互联的将是一个个实体数据(即things,实体是语义网数据的构成单元),它实现了实体级别(entity-level)的数据互联和互操作。
在Web of Data中,所有的实体都使用一个全局唯一确定的ID来进行标识,这个ID即对应目标的标识符(identifier),这种做法与一个网页有一个对应的URL、数据库中的一条记录有一个特定的主键相似;对象之间的链接代表对象之间的关联,大量实体以及它们之间的关系形成了一张巨大的图。使用共享的数据词典,即本体(本体是指一种形式化的,对于共享概念体系的明确而又详细的说明)描述对象和链接,可以实现分布式数据集的链接。在此架构下,数据共享、管理、交换更加容易。它是一种松耦合的(此处“松耦合”即指数据模式去中心化,非自顶向下推行事先约定数据模式,而是由各数据源自底向上自发构建数据模式,并进行数据的关联与管理)、去中心化的互联网。在Web of Data技术框架中,数据是以本体的形式存在的,使用资源描述框架(RDF,Resource Description Framework)、网络本体语言(OWL,Ontology Web Language)等本体描述语言进行数据表示,并使用本体查询语言SPARQL进行数据查询。
知识图谱是基于web of data技术框架的应用与实现。知识图谱实现对客观世界从字符串描述到结构化语义描述,是对客观世界的知识映射(mapping world knowledge),本体可以作为知识图谱表示的概念模型和逻辑基础。知识图谱可以描述不同层次和粒度的概念抽象。知识图谱可以体现为一张巨大的图,图中的节点表示数据源,而图中的边代表不同数据源中相同实体链接。知识图谱可以显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体。可以用于挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。它将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法加以有效利用可视化地、形象地展示信息。
随着新媒体、新技术的发展,广告所涉及的媒体几乎无所不包,只要是能传递信息的介质,就可以成为广告的载体。广告业竞争日益激烈,对广告受众的精准定位要求越来越高。仅仅凭广告销售人员经验确定楼宇的广告投放已经不能满足要求,需要根据与楼宇相关基本信息(如地段、租金等)、受众基本信息(如楼宇入住公司等)等数据精准确定楼宇的广告投放价值,使广告发布方能快速地决策广告的投放,以便获得最大收益。
上述的楼宇相关信息一般可以通过建立楼宇数据库实现,然而,现有技术中构建的楼宇数据库一般采用的是关系数据库。本领域技术人员知晓,在关系数据库中,数据定义描述仅局限于数据库中,其数据字典与数据注册主要是提供给人的,而非直接用于机器,其关系存储在文件、SQL代码和集体记忆(collective memories)中,不能直接提供给应用程序。相比于关系数据库,RDF图数据中的关系是一种传递性质,是明确的模型,可直接提供给应用程序。且语义网中的数据模型具有自然的可扩充能力,而关系数据库中的数据表的合并或字段增加的代价很高。因此较之传统关系数据库,语义网的图数据更利于数据维护与数据融合,且其中的数据更能有效用于应用程序,利用统一的推理引擎更可以有效的进行数据推理。
此外,现有技术的楼宇数据库中的楼宇数据大多需要人为采集并录入,且存在某些数据不全或不够准确的问题,尤其是现有楼宇数据中无法准确体现出楼宇与楼宇内的受众人群之间的匹配,从而难以更准确地进行广告投放。
发明内容
本发明要解决的问题是现有技术中的楼宇数据库不利于数据维护与数据融合、难以有效用于应用程序以及有效地进行数据推理,且楼宇数据中无法准确体现楼宇与楼宇内的受众人群的匹配。
为解决上述问题,本发明技术方案提供一种楼宇知识图谱数据库的构建方法,包括:
从一个以上数据源获取楼宇数据,并对获取到的楼宇数据进行集成;所述楼宇数据包含用于楼宇分类的类别信息、楼宇地理信息、楼宇基础信息、楼宇所属与使用者信息和人群搜索与标签分类信息;所述人群搜索与标签分类信息为针对楼宇内人群的主要搜索内容进行标签分类统计与指数计算后得到的信息;
基于集成后的楼宇数据构建楼宇知识图谱数据库;所述集成后的楼宇数据经过层级分类以及结构化处理;所述楼宇知识图谱中的实体包含楼宇实体、单位实体、搜索标签实体、搜索点位实体以及单位行业实体;所述楼宇实体的属性包含楼宇地理信息属性、楼宇基础信息属性、楼宇所属与使用者信息属性和人群搜索与标签分类信息属性,所述人群搜索与标签分类信息属性与所述搜索标签实体、搜索点位实体所包含属性下的信息相关联,所述楼宇所属与使用者信息属性与所述单位实体所包含属性下的信息相关联;所述单位实体的属性包含单位基本信息属性、单位行业信息属性和单位经营信息属性,所述单位行业信息属性与所述单位行业实体所包含属性下的信息相关联。
可选的,所述对获取的楼宇数据进行集成包括:优化所述用于楼宇分类的类别信息的数据结构及其存储方式,以便进行扩展与分级细化;补充与所述用于楼宇分类的类别信息相关的楼宇地理信息与楼宇基础信息;针对所述人群搜索与标签分类信息以及与所述楼宇所属与使用者信息相关联的单位行业信息建立相对独立且完整的RDF图数据库。
可选的,所述对获取到的楼宇数据进行集成包括对获取到的楼宇数据进行预处理,所述预处理包括:进行格式清洗,去除噪声信息;进行自动重排和自动分类,并把楼宇数据转换成预定格式;进行通用文本处理,所述通用文本处理包括分词、词性标注、句法分析、命名实体识别、聚类和分类。
可选的,所述基于集成后的楼宇数据构建楼宇知识图谱数据库包括:采用文本信息抽取方法,抽取集成后的楼宇数据所包含的各类信息以构建楼宇知识图谱数据库;所述文本信息抽取方法包括基于人工构建规则的方法、基于规则学习的方法、基于机器学习的方法中的一种或一种以上组合。
可选的,采用隔离的方式确保对所述楼宇知识图谱中的实体指派唯一标识符,以及采用调和的方式确认相同实体并将其合并。
可选的,所述数据源包括第一数据源、第二数据源和第三数据源;所述第一数据源为已存储有部分楼宇数据的关系数据库,所述人群搜索与标签分类信息以及与所述楼宇所属与使用者信息相关联的单位行业信息获取于所述第二数据源,所述第三数据源为互联网数据;所述人群搜索与标签分类信息以及与所述楼宇所属与使用者信息相关联的单位行业信息集成于相应建立的RDF图数据库,获取于所述第三数据源的数据一部分集成于所述关系数据库,另一部分集成于所述RDF图数据库;所述基于集成后的楼宇数据构建楼宇知识图谱数据库包括:将所述关系数据库中的数据转化为RDF图数据,并与所述RDF图数据库中的数据融合于所述楼宇知识图谱数据库。
可选的,所述互联网数据包含与楼宇相关的门户网站的数据、在线百科的数据以及搜索引擎结果。
为解决上述问题,本发明技术方案还提供一种以上述构建方法构建而成的楼宇知识图谱数据库,所述楼宇知识图谱中的实体包含楼宇实体、单位实体、搜索标签实体、搜索点位实体以及单位行业实体;所述楼宇实体的属性包含楼宇地理信息属性、楼宇基础信息属性、楼宇所属与使用者信息属性和人群搜索与标签分类信息属性,所述人群搜索与标签分类信息属性与所述搜索标签实体、搜索点位实体所包含属性下的信息相关联,所述楼宇所属与使用者信息属性与所述单位实体所包含属性下的信息相关联;所述单位实体的属性包含单位基本信息属性、单位行业信息属性和单位经营信息属性,所述单位行业信息属性与所述单位行业实体所包含属性下的信息相关联。
与现有技术相比,本发明的技术方案至少具有以下优点:
通过从多个数据源获取楼宇数据,且使所述楼宇数据包含用于楼宇分类的类别信息、楼宇地理信息、楼宇基础信息、楼宇所属与使用者信息和人群搜索与标签分类信息,并对获取到的楼宇数据进行集成,基于集成后的楼宇数据构建楼宇知识图谱数据库,楼宇知识图谱采用语义网的图数据,能更利于数据维护与数据融合,且其中的数据更能有效用于应用程序,利用统一的推理引擎更可以有效地进行数据推理,如此能构建出实现楼宇与楼宇内受众人群之间更为匹配的楼宇知识图谱模型,由此能更准确地进行广告投放。
附图说明
图1是本发明实施例的楼宇知识图谱数据库的构建方法的示意图;
图2是本发明实施例的楼宇知识图谱的局部实例示意图。
具体实施方式
现有技术中,为了实现广告能够准确地投放于各个楼宇而建立的楼宇数据库,一般采用的是关系数据库,而关系数据库存在其固有的缺陷:不利于数据维护与数据融合、难以有效用于应用程序以及有效地进行数据推理。另一方面,楼宇数据库中的楼宇数据大多需人工采集与录入,且仍存在某些数据不全或不够准确的问题,尤其是现有楼宇数据中无法准确体现出楼宇与楼宇内的受众人群之间的匹配,从而不能更准确地据此进行广告投放。
为解决上述问题,本发明技术方案提供一种楼宇知识图谱数据库的构建方法,包括:从一个以上数据源获取楼宇数据,并对获取到的楼宇数据进行集成;所述楼宇数据包含用于楼宇分类的类别信息、楼宇地理信息、楼宇基础信息、楼宇所属与使用者信息和人群搜索与标签分类信息;所述人群搜索与标签分类信息为针对楼宇内人群的主要搜索内容进行标签分类统计与指数计算后得到的信息;基于集成后的楼宇数据构建楼宇知识图谱数据库;所述集成后的楼宇数据经过层级分类以及结构化处理;所述楼宇知识图谱中的实体包含楼宇实体、单位实体、搜索标签实体、搜索点位实体以及单位行业实体;所述楼宇实体的属性包含楼宇地理信息属性、楼宇基础信息属性、楼宇所属与使用者信息属性和人群搜索与标签分类信息属性,所述人群搜索与标签分类信息属性与所述搜索标签实体、搜索点位实体所包含属性下的信息相关联,所述楼宇所属与使用者信息属性与所述单位实体所包含属性下的信息相关联;所述单位实体的属性包含单位基本信息属性、单位行业信息属性和单位经营信息属性,所述单位行业信息属性与所述单位行业实体所包含属性下的信息相关联。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例作详细的说明。
本发明实施例的楼宇知识图谱数据库的构建方法可以参考图1。
首先进行楼宇数据的采集。楼宇数据采集主要是针对多个数据源进行数据获取,如图1所示的数据源1、数据源2、……数据源n。
本实施例中,众多的数据源可以归纳为包含三类,分别称为第一数据源、第二数据源和第三数据源,其中:所述第一数据源为已存储有部分楼宇数据的关系数据库(即已有数据库);所述第二数据源为由专业数据提供方所提供的数据,所述人群搜索与标签分类信息以及与所述楼宇所属与使用者信息相关联的单位行业信息获取于所述第二数据源;所述第三数据源为互联网数据,所述互联网数据可以包含与楼宇相关的门户网站的数据、在线百科的数据以及搜索引擎结果。
具体实施时,楼宇数据的采集可以由信息采集模块负责从互联网中收集原始数据,为后期的数据分析和挖掘提供数据基础。信息采集模块可以采用网络爬虫与适配器技术进行数据获取,其覆盖了门户网站、百科、搜索引擎结果和关系数据库等多种数据源。为实现用户数据源自选,还可以提供定制的数据源入口,并内置网站格式自动探测算法和网页内容自动过滤算法,因此,用户仅需要设置网站的基本入口即可,而不需要经过大量的配置工作。为实现对数据源权威度与数据质量的评估,采用不同的概率投票方法,将数据源的可信性和数据值的准确性之间的关系运用在投票的思想中,同时考虑不同数据值之间的影响。如NEWACCU算法,主要是采用的数据源的准权威度与数据值的投票率的均值作为数据源的可信度参与计算,并对数据值的不同表现形式进行了处理。
采集的楼宇数据包含用于楼宇分类的类别信息、楼宇地理信息、楼宇基础信息、楼宇所属与使用者信息和人群搜索与标签分类信息;所述人群搜索与标签分类信息为针对楼宇内人群的主要搜索内容进行标签分类统计与指数计算后得到的信息,其中主要涉及的标签分类包括汽车、母婴亲子、教育培训、医疗健康、软件应用、阅读、星座运势等,通过在采集的楼宇数据中引入所述人群搜索与标签分类信息,能够使楼宇与楼宇内的受众人群之间实现准确的匹配,后续据此构建而成的楼宇知识图谱数据库,便能更准确地进行广告投放;所述楼宇地理信息包括楼宇的地理位置描述或经纬度坐标;所述楼宇基础信息是楼宇自身的一些基本信息,其下信息可以包括楼宇名称、建筑面积、层数、电梯个数、租金(房价)、是否为标志性建筑、房龄(包括新建房)、开放使用时间段与人流数量等;楼宇所属与使用者信息包括楼宇的使用者与所有者的相关信息,而其又分为企事业单位与一般人群两大类;所述用于楼宇分类的类别信息,例如租房短租房、二手房、新房、写字商务楼、商铺等。
在楼宇数据采集完成后,在进行数据建模(楼宇知识图谱构建)之前,应将上述三类数据源在存储层面进行集成。数据集成就是将若干个分散的数据源中的数据,逻辑地或物理地集成到一个统一的数据集合中。数据集成的核心任务是要将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。在数据集成过程中,一方面需要保证数据的高效集成与可靠性,同时也需要提供PB级别海量数据的秒级分析和访问速度。
完成信息采集之后,获得的数据信息最主要是非结构化的文本数据,必须对之进行通用文本处理,使之结构化,为进一步的信息抽取与数据建模打下基础。
因此,在本实施例中,所述对获取到的楼宇数据进行集成包括对获取到的楼宇数据进行预处理,所述预处理包括:进行格式清洗,去除噪声信息;进行自动重排和自动分类,并把楼宇数据转换成预定格式;进行通用文本处理,所述通用文本处理包括分词、词性标注、句法分析、命名实体识别、聚类和分类。
具体地,首先进行格式清洗,去除网页中包含的噪声信息(如广告);然后进行自动重排和自动分类,并把数据转换成平台内部自定义的格式;接下来,对这些信息进行通用的文本处理,包括分词、词性标注、句法分析、命名实体识别、聚类和分类等,为后续的深度数据分析和数据挖掘提供基础。
由于获取的楼宇地理信息、楼宇基础信息、所属与使用者信息、楼宇类别信息等,很多都是由文本表示的,因此需要使用文本深度挖掘的相关技术进行处理。一般可以采用文本信息抽取的相关技术和方法,抽取前述的几类楼宇数据以构建楼宇知识图谱。文本信息抽取即针对现有应用需求,对人群搜索与标签分类信息、楼宇地理信息、楼宇基础信息、所有与使用者信息,以及用于楼宇分类的类别信息进行抽取,这一处理是基于应用需求的,核心是构建楼宇知识图谱。
因此,在本实施例中,所述基于集成后的楼宇数据构建楼宇知识图谱数据库包括:采用文本信息抽取方法,抽取集成后的楼宇数据所包含的各类信息以构建楼宇知识图谱数据库;所述文本信息抽取方法包括基于人工构建规则的方法、基于规则学习的方法、基于机器学习的方法中的一种或一种以上组合。
另外,还可以提供在通用文本处理的基础上进行深层次的数据分析和挖掘的算法,包括楼宇中企业信息挖掘、楼宇企业的行业分析和楼宇住户的消费能力分析等。在进行数据挖掘时,大部分算法基于行业知识图谱(楼宇知识图谱)构建,提高了算法分析的准确度。
本实施例中,从所述第二数据源和第三数据源获取的数据主要分为两类,一类可以集成存储集成于已有的关系数据库中,另一类则需另建数据库以存储之。在数据集成上,需要重点说明的包括如下:
应对来源于所述第二数据源的所述人群搜索与标签分类信息以及与所述楼宇所属与使用者信息相关联的单位行业信息,建立相对独立且完整的RDF图数据库,此二类信息是现有关系数据库中所缺乏的,而其对建立楼宇知识图谱而言是不可或缺的;
应进一步优化所述用于楼宇分类的类别信息的数据结构及其存储方式,使之可以方便的进行扩展与分级细化,此外还需对之进一步补充结合与所述用于楼宇分类的类别信息相关的楼宇地理信息与楼宇基础信息,以进一步支持楼宇知识图谱的构建。
本实施例中,所述人群搜索与标签分类信息以及与所述楼宇所属与使用者信息相关联的单位行业信息集成于相应建立的RDF图数据库,获取于所述第三数据源的数据一部分集成于所述关系数据库,另一部分集成于所述RDF图数据库;所述基于集成后的楼宇数据构建楼宇知识图谱数据库包括:将所述关系数据库中的数据转化为RDF图数据,并与所述RDF图数据库中的数据融合于所述楼宇知识图谱数据库。
在完成楼宇数据的集成之后,便可以基于集成后的楼宇数据构建楼宇知识图谱数据库。
就不同类型的广告而言,其投向的受众人群是不同的,构建楼宇知识图谱模型是为实现“楼宇←→受众人群”(即楼宇与受众人群匹配)这一目标。其核心是构建楼宇及其相关信息的知识体系。从情报学“时间、空间、组织、人、事件”这五个维度来考虑这一模型的构建基础,则楼宇知识图谱应包括以下4点基本知识:
地理知识,即楼宇的地理位置描述或经纬度坐标;
时间知识,即楼宇的开放使用时间段;
组织与人群知识,即楼宇的使用者与所有者的相关信息,而其又分为企事业单位与一般人群两大类;由于一般人群中的个人具有不确定性与流动性,对一般人群所需获取的最主要知识应是经济实力(由与楼宇相关的价格信息所决定)、数量信息(由楼宇的人流数量所决定)与人群搜索信息;企事业单位的最主要知识是其行业、主营业务以及其他相关信息;
事件知识,楼宇中发生的事件最主要由楼宇的功能所决定,而楼宇的功能又主要由楼宇的类别信息(楼宇最初建立的自然功能)与楼宇中组织的行业与主营业务信息(楼宇建立后的人为导致的实际功能)所决定。
因此,楼宇知识图谱的本体框架如表1所示。需要说明的是,采用知识图谱技术具有非常良好的扩展性,可以根据应用需求分期不断扩展,表1中仅为当前所需构建的基础知识,且在具体应用时也可不局限于本体形式(比如可采用关联规则与标签等其他技术来辅助构建知识图谱)。
表1:楼宇知识图谱本体框架(模型)
(1)实体分类层次
(2)实体的属性
楼宇知识图谱包括五个基本实体(概念):
●楼宇实体,目前以获取的楼宇类别信息,可以将楼宇实体分为24个子实体,但可以进一步添加分类并分级细化。(子实体划分可以参考获取的数据做进一步划分与分级,而具体的楼宇类别信息除从已有数据库获取外,还需要从相关门户网站中进行爬取,同时通过搜索引擎结果做进一步补充。)
●单位实体,包括企业单位与事业单位两个子实体。
●搜索标签实体。
●搜索点位实体,没有子实体。
●单位行业实体,单位行业知识图谱,可以向第三方购买或定制,该类模型与技术已较为成熟。
本实施例中,为明确实体的同一性,可以采用隔离的方式确保对所述楼宇知识图谱中的实体每次出现都指派一个唯一标识符,以及采用调和的方式确认相同实体并将其合并。
楼宇知识图谱中实体的属性说明参见如下所述。
本实施例中,楼宇实体主要包含地理信息、基础信息、所属与使用者信息、人群搜索信息四个基本属性。
●地理信息属性,其下包含信息主要是指楼宇的地理位置信息,即楼宇的详细地址信息(包括地址分类、地址文本描述与坐标三种),为后续构建楼宇信息地图提供基础。其中地址分类包括“未安装”(表示未安装任何广告播放设备的楼宇)、“框架”、“楼宇”三种,这一分类方式可将已设置广告投放点与未设置广告投放点的楼宇一并归入楼宇知识图谱中。通常,地理位置信息在已有数据库、专业数据提供方提供的数据、楼宇入住企业的官方网站、入住企业的百科信息等均有包含;或包含在有关门户网站的楼宇信息中。
●基础信息属性,其下信息包括楼宇名称、建筑面积、层数、电梯个数、租金(房价)、是否为标志性建筑、房龄(包括新建房)、开放使用时间段与人流数量等。其中的建筑面积、层数、电梯个数、租金(房价)、房龄(包括新建房)、人流数量这些信息可以直接从已有数据库数据中抽取,也可从已获取的相关门户网站的楼宇数据中抽取。从搜索引擎结果中抽取的信息亦可以作为补充。
●所有与使用者信息属性被分为所属单位(即业主)与使用单位两个子属性。这两个子属性下的信息为相关联的“单位”实体下的楼宇内的企事业单位相关信息。
●人群搜索信息属性,包括搜索标签(其下信息为相关联的“搜索标签”实体下信息)、点位(其下信息为相关联的“搜索点位”实体下信息)、屏幕类型、安装位置与套餐子属性。
搜索标签实体主要包含年月,标签类名,标签指数三个基本属性。其标签类名下的标签分类信息包括汽车、母婴亲子、教育培训、医疗健康、软件应用、阅读、星座运势等。年月、标签类名、标签指数三个属性下的信息抽取于第二数据源提供的数据,相应数据已有很好的层级分类与(半)结构化处理,可以较容易融合入构建的知识图谱中。
搜索点位实体主要包含楼层与数量两个基本属性。与搜索标签实体所包含的属性相同,楼层与数量属性下的信息抽取于所述第二数据源提供的数据,相应数据亦被层级分类与(半)结构化处理,可方便的扩展融入到知识图谱中。
单位实体主要包含基本信息、行业信息、经营信息三个基本属性。
●基本信息属性,包括单位名称,成立时间,注册资本,登记机关四个子属性。四个子属性所包含的信息主要来自有关门户网站,为了准确,建议最主要从企业信用查询网、(上海)企业注册登记信息公开网、全国企业信息用公示系统、上海诚信网等官方网站获得(必要时,可向工商部门购买)。
●行业信息属性,该属性下的信息为相关联的“单位行业”实体下的单位行业分类信息(由第三方购买或定制的单位行业知识图谱所决定)。
●经营信息属性,包括主要业务与主要产品两个子属性。两个字属性所包含的信息主要抽取自有关门户网站。
楼宇知识图谱(局部)示例见图2。其中圆形表示概念或实体,方形为原子类型(对应字符串或数字,不再发散)。实线箭头(用“包含”描述的)表示父子概念,实线箭头(用其他关系描述)表示属性。虚线箭头表示概念或实体间的所属关系。图2的上半部分为概念层,下半部分为实例层。
基于上述楼宇知识图谱数据库的构建方法,本发明实施例还提供一种以上述构建方法构建而成的楼宇知识图谱数据库,所述楼宇知识图谱中的实体包含楼宇实体、单位实体、搜索标签实体、搜索点位实体以及单位行业实体;所述楼宇实体的属性包含楼宇地理信息属性、楼宇基础信息属性、楼宇所属与使用者信息属性和人群搜索与标签分类信息属性,所述人群搜索与标签分类信息属性与所述搜索标签实体、搜索点位实体所包含属性下的信息相关联,所述楼宇所属与使用者信息属性与所述单位实体所包含属性下的信息相关联;所述单位实体的属性包含单位基本信息属性、单位行业信息属性和单位经营信息属性,所述单位行业信息属性与所述单位行业实体所包含属性下的信息相关联。
所述楼宇知识图谱数据库的具体实施可以参考上述楼宇知识图谱数据库的构建方法的实施,此处不再赘述。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。
Claims (8)
1.一种用于准确投放广告的楼宇知识图谱数据库的构建方法,其特征在于,包括:
从一个以上数据源获取楼宇数据,并对获取到的楼宇数据进行集成;所述楼宇数据包含用于楼宇分类的类别信息、楼宇地理信息、楼宇基础信息、楼宇所属与使用者信息和人群搜索与标签分类信息;所述人群搜索与标签分类信息为针对楼宇内人群的主要搜索内容进行标签分类统计与指数计算后得到的信息;
基于集成后的楼宇数据构建楼宇知识图谱数据库;所述集成后的楼宇数据经过层级分类以及结构化处理;所述楼宇知识图谱中的实体包含楼宇实体、单位实体、搜索标签实体、搜索点位实体以及单位行业实体;所述楼宇实体的属性包含楼宇地理信息属性、楼宇基础信息属性、楼宇所属与使用者信息属性和人群搜索与标签分类信息属性,所述人群搜索与标签分类信息属性与所述搜索标签实体、搜索点位实体所包含属性下的信息相关联,所述楼宇所属与使用者信息属性与所述单位实体所包含属性下的信息相关联;所述单位实体的属性包含单位基本信息属性、单位行业信息属性和单位经营信息属性,所述单位行业信息属性与所述单位行业实体所包含属性下的信息相关联。
2.根据权利要求1所述的用于准确投放广告的楼宇知识图谱数据库的构建方法,其特征在于,所述对获取的楼宇数据进行集成包括:
优化所述用于楼宇分类的类别信息的数据结构及其存储方式,以便进行扩展与分级细化;
补充与所述用于楼宇分类的类别信息相关的楼宇地理信息与楼宇基础信息;
针对所述人群搜索与标签分类信息以及与所述楼宇所属与使用者信息相关联的单位行业信息建立相对独立且完整的RDF图数据库。
3.根据权利要求1所述的用于准确投放广告的楼宇知识图谱数据库的构建方法,其特征在于,所述对获取到的楼宇数据进行集成包括对获取到的楼宇数据进行预处理,所述预处理包括:进行格式清洗,去除噪声信息;进行自动重排和自动分类,并把楼宇数据转换成预定格式;进行通用文本处理,所述通用文本处理包括分词、词性标注、句法分析、命名实体识别、聚类和分类。
4.根据权利要求1所述的用于准确投放广告的楼宇知识图谱数据库的构建方法,其特征在于,所述基于集成后的楼宇数据构建楼宇知识图谱数据库包括:采用文本信息抽取方法,抽取集成后的楼宇数据所包含的各类信息以构建楼宇知识图谱数据库;所述文本信息抽取方法包括基于人工构建规则的方法、基于规则学习的方法、基于机器学习的方法中的一种或一种以上组合。
5.根据权利要求1所述的用于准确投放广告的楼宇知识图谱数据库的构建方法,其特征在于,采用隔离的方式确保对所述楼宇知识图谱中的实体指派唯一标识符,以及采用调和的方式确认相同实体并将其合并。
6.根据权利要求1所述的用于准确投放广告的楼宇知识图谱数据库的构建方法,其特征在于,所述数据源包括第一数据源、第二数据源和第三数据源;所述第一数据源为已存储有部分楼宇数据的关系数据库,所述人群搜索与标签分类信息以及与所述楼宇所属与使用者信息相关联的单位行业信息获取于所述第二数据源,所述第三数据源为互联网数据;所述人群搜索与标签分类信息以及与所述楼宇所属与使用者信息相关联的单位行业信息集成于相应建立的RDF图数据库,获取于所述第三数据源的数据一部分集成于所述关系数据库,另一部分集成于所述RDF图数据库;所述基于集成后的楼宇数据构建楼宇知识图谱数据库包括:将所述关系数据库中的数据转化为RDF图数据,并与所述RDF图数据库中的数据融合于所述楼宇知识图谱数据库。
7.根据权利要求6所述的用于准确投放广告的楼宇知识图谱数据库的构建方法,其特征在于,所述互联网数据包含与楼宇相关的门户网站的数据、在线百科的数据以及搜索引擎结果。
8.一种用于准确投放广告的楼宇知识图谱数据库,其特征在于,所述楼宇知识图谱数据库以权利要求1至7任一项所述的构建方法构建而成;所述楼宇知识图谱中的实体包含楼宇实体、单位实体、搜索标签实体、搜索点位实体以及单位行业实体;所述楼宇实体的属性包含楼宇地理信息属性、楼宇基础信息属性、楼宇所属与使用者信息属性和人群搜索与标签分类信息属性,所述人群搜索与标签分类信息属性与所述搜索标签实体、搜索点位实体所包含属性下的信息相关联,所述楼宇所属与使用者信息属性与所述单位实体所包含属性下的信息相关联;所述单位实体的属性包含单位基本信息属性、单位行业信息属性和单位经营信息属性,所述单位行业信息属性与所述单位行业实体所包含属性下的信息相关联。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510590844.0A CN105183869B (zh) | 2015-09-16 | 2015-09-16 | 楼宇知识图谱数据库及其构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510590844.0A CN105183869B (zh) | 2015-09-16 | 2015-09-16 | 楼宇知识图谱数据库及其构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105183869A CN105183869A (zh) | 2015-12-23 |
CN105183869B true CN105183869B (zh) | 2018-11-02 |
Family
ID=54905950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510590844.0A Active CN105183869B (zh) | 2015-09-16 | 2015-09-16 | 楼宇知识图谱数据库及其构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105183869B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189947A (zh) * | 2018-11-07 | 2019-01-11 | 曲阜师范大学 | 一种基于关系数据库的移动数据知识图谱自动构建方法 |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893551B (zh) * | 2016-03-31 | 2019-03-05 | 上海智臻智能网络科技股份有限公司 | 数据的处理方法及装置、知识图谱 |
CN105956052A (zh) * | 2016-04-27 | 2016-09-21 | 青岛海尔软件有限公司 | 一种基于垂直领域的知识图谱的构建方法 |
CN107783973B (zh) * | 2016-08-24 | 2022-02-25 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 |
CN106447346A (zh) * | 2016-08-29 | 2017-02-22 | 北京中电普华信息技术有限公司 | 一种智能电力客服系统的构建方法及系统 |
CN107894884A (zh) * | 2016-09-30 | 2018-04-10 | 中国电子科技集团公司信息科学研究院 | 物体描述装置及其描述方法 |
CN107944898A (zh) * | 2016-10-13 | 2018-04-20 | 驰众信息技术(上海)有限公司 | 广告投放楼宇信息的自动发现与排序方法 |
CN107943810A (zh) * | 2016-10-13 | 2018-04-20 | 分众(中国)信息技术有限公司 | 楼宇信息地图的构建方法 |
CN107967267A (zh) * | 2016-10-18 | 2018-04-27 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
WO2018098151A1 (en) * | 2016-11-23 | 2018-05-31 | Carrier Corporation | Building management system having semantics-enabled building system data access |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN106777331A (zh) * | 2017-01-11 | 2017-05-31 | 北京航空航天大学 | 知识图谱生成方法及装置 |
CN108345596A (zh) * | 2017-01-22 | 2018-07-31 | 分众(中国)信息技术有限公司 | 楼宇信息融合服务平台 |
CN108733683A (zh) * | 2017-04-17 | 2018-11-02 | 中兴通讯股份有限公司 | 一种基于数据摸排探索事件线索的方法及装置 |
CN107038257A (zh) * | 2017-05-10 | 2017-08-11 | 浙江大学 | 一种基于知识图谱的城市物联网数据分析框架 |
CN108874819B (zh) * | 2017-05-11 | 2021-09-03 | 上海醇聚信息科技有限公司 | 一种数据库的数据挖掘方法 |
CN107301235A (zh) * | 2017-06-27 | 2017-10-27 | 山东浪潮商用系统有限公司 | 一种通信知识图谱展示系统 |
CN107480828B (zh) * | 2017-08-24 | 2020-07-31 | 湖南图龙信息技术有限公司 | 以建筑图纸优化数据库为基础进行流程引导的方法及系统 |
JP6821528B2 (ja) | 2017-09-05 | 2021-01-27 | 本田技研工業株式会社 | 評価装置、評価方法、ノイズ除去装置、およびプログラム |
CN107704634A (zh) * | 2017-11-04 | 2018-02-16 | 辽宁工程技术大学 | 一种形成知识和构建知识链的方法 |
CN108595449A (zh) * | 2017-11-23 | 2018-09-28 | 北京科东电力控制系统有限责任公司 | 调度自动化系统知识图谱的构建与应用方法 |
CN107862075A (zh) * | 2017-11-29 | 2018-03-30 | 浪潮软件股份有限公司 | 一种基于医疗卫生大数据的知识图谱构建方法及装置 |
CN109002470A (zh) * | 2018-06-12 | 2018-12-14 | 东方银谷(北京)投资管理有限公司 | 知识图谱构建方法及装置、客户端 |
CN109145003B (zh) * | 2018-08-24 | 2022-05-27 | 联动数科(北京)科技有限公司 | 一种构建知识图谱的方法及装置 |
CN110970112B (zh) * | 2018-09-29 | 2024-03-12 | 九阳股份有限公司 | 一种面向营养健康的知识图谱构建方法和系统 |
CN110019842A (zh) * | 2018-09-30 | 2019-07-16 | 北京国双科技有限公司 | 一种建立知识图谱的方法及装置 |
CN109165337B (zh) * | 2018-10-17 | 2021-10-15 | 珠海市智图数研信息技术有限公司 | 一种基于知识图谱构建招投标领域关联分析的方法及系统 |
CN109471947A (zh) * | 2018-11-06 | 2019-03-15 | 北京锐安科技有限公司 | 一种数据的知识谱图构建方法、装置、设备及存储介质 |
CN109582803A (zh) * | 2018-11-30 | 2019-04-05 | 广东电网有限责任公司 | 竞争情报数据库的构建方法和系统 |
CN109840284B (zh) * | 2018-12-21 | 2020-11-13 | 中科曙光南京研究院有限公司 | 家族亲缘关系知识图谱构建方法与系统 |
CN109783653B (zh) * | 2019-02-16 | 2020-07-24 | 南京樯图数据科技有限公司 | 一种基于区块链技术的知识图谱的管理和追溯的查询系统 |
CN110472066B (zh) * | 2019-08-07 | 2022-03-25 | 北京大学 | 一种城市地理语义知识图谱的构建方法 |
CN110717049B (zh) * | 2019-08-29 | 2020-12-04 | 四川大学 | 一种面向文本数据的威胁情报知识图谱构建方法 |
CN110781213B (zh) * | 2019-09-25 | 2022-04-22 | 中国电子进出口有限公司 | 一种以人员为中心的多源海量数据关联搜索方法和系统 |
CN111198955A (zh) * | 2020-01-09 | 2020-05-26 | 广东博智林机器人有限公司 | 文案搜索和知识图谱构建的方法、装置、设备及存储介质 |
CN112115271B (zh) * | 2020-06-01 | 2024-05-03 | 泰康保险集团股份有限公司 | 知识图谱构建方法及装置 |
CN111813874B (zh) * | 2020-09-03 | 2023-09-15 | 中国传媒大学 | 太赫兹知识图谱构建方法及系统 |
CN112883201B (zh) * | 2021-03-23 | 2023-11-21 | 西安电子科技大学昆山创新研究院 | 一种基于智慧社区大数据的知识图谱构建方法 |
CN113704519B (zh) * | 2021-08-26 | 2024-04-12 | 北京市商汤科技开发有限公司 | 一种数据集的确定方法、装置、计算机设备以及存储介质 |
CN114153928A (zh) * | 2021-12-03 | 2022-03-08 | 中国电信股份有限公司 | 城市地理语义知识网络的构建方法、系统、设备及介质 |
CN116483940A (zh) * | 2023-04-26 | 2023-07-25 | 深圳市国房云数据技术服务有限公司 | 拆迁全流程制式文档数据提取与结构化方法 |
CN116737988B (zh) * | 2023-05-29 | 2024-03-08 | 四川云控交通科技有限责任公司 | 一种智能楼宇数据管理方法、管理系统 |
-
2015
- 2015-09-16 CN CN201510590844.0A patent/CN105183869B/zh active Active
Non-Patent Citations (3)
Title |
---|
"基于文献计量的科学知识图谱发展研究";任红娟 等;《情报杂志》;20091218;第28卷(第12期);第86-90页 * |
"知识图谱工具比较研究";肖明 等;《图书馆杂志》;20130315;第61-69页 * |
张倩."基于信息融合的科研数据分析系统的研究与实现".《中国优秀硕士学位论文全文数据库•信息科技辑》.2015,第3-4页、第10页第3段-第19页最后1段、第31页第1段-第47页最后1段. * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189947A (zh) * | 2018-11-07 | 2019-01-11 | 曲阜师范大学 | 一种基于关系数据库的移动数据知识图谱自动构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105183869A (zh) | 2015-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105183869B (zh) | 楼宇知识图谱数据库及其构建方法 | |
CN108345596A (zh) | 楼宇信息融合服务平台 | |
Xu et al. | Characterizing destination networks through mobility traces of international tourists—A case study using a nationwide mobile positioning dataset | |
CN107944898A (zh) | 广告投放楼宇信息的自动发现与排序方法 | |
Peris et al. | The evolution of the systems of cities literature since 1995: Schools of thought and their interaction | |
CN109189942A (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN109684440A (zh) | 基于层级标注的地址相似度度量方法 | |
CN110990590A (zh) | 一种基于强化学习和迁移学习的动态金融知识图谱构建方法 | |
Kokla et al. | A review of geospatial semantic information modeling and elicitation approaches | |
CN107943810A (zh) | 楼宇信息地图的构建方法 | |
CN110807091A (zh) | 一种酒店智能问答推荐与决策支持分析方法及系统 | |
Alomari et al. | Sentiment analysis of Arabic tweets for road traffic congestion and event detection | |
Nesi et al. | Geographical localization of web domains and organization addresses recognition by employing natural language processing, Pattern Matching and clustering | |
Huang et al. | A natural-language-based visual query approach of uncertain human trajectories | |
Hertling et al. | Dbkwik: extracting and integrating knowledge from thousands of wikis | |
Tulić Ceballos | The impact of Web 3.0 technologies on tourism information systems | |
CN115640406A (zh) | 一种基于多源异构大数据分析处理与知识图谱构建方法 | |
Lemaire et al. | Analyzing BIM topics and clusters through ten years of scientific publications | |
Ardissono et al. | Exploration of cultural heritage information via textual search queries | |
Cruz et al. | Semantic extraction of geographic data from web tables for big data integration | |
Kayed et al. | Postal address extraction from the web: A comprehensive survey | |
Hayashi et al. | VARIABLE QUEST: network visualization of variable labels unifying co-occurrence graphs | |
Chen et al. | Modeling tourism using spatial analysis based on social media big data: A review | |
Vysotska et al. | Set-theoretic models and unified methods of information resources processing in e-business systems | |
Tikhonova et al. | Detecting a citizens' activity profile of an urban territory through natural language processing of social media data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: Room 425, Building 2, No. 351 Guo Shoujing Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, 200120 Patentee after: Shanghai Fenzhong Information Technology Co.,Ltd. Address before: Room 305-306, 3rd Floor, Building 10, No. 91 Zhangjiang Road, Zhangjiang High tech Park, Pudong New Area, Shanghai, March 2012 Patentee before: FENZHONG (CHINA) INFORMATION TECHNOLOGY Co.,Ltd. |